[00:38:58] <jinxer-wm>	 FIRING: [5x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[00:39:36] <jinxer-wm>	 FIRING: [2x] ConfdResourceFailed: confd resource _srv_config-master_pybal_eqiad_druid-public-coordinator.toml has errors - https://wikitech.wikimedia.org/wiki/Confd#Monitoring - https://grafana.wikimedia.org/d/OUJF1VI4k/confd - https://alerts.wikimedia.org/?q=alertname%3DConfdResourceFailed
[00:39:55] <wikibugs>	 (03PS1) 10TrainBranchBot: Branch commit for wmf/branch_cut_pretest [core] (wmf/branch_cut_pretest) - 10https://gerrit.wikimedia.org/r/1209431
[00:39:55] <wikibugs>	 (03CR) 10TrainBranchBot: [C:03+2] Branch commit for wmf/branch_cut_pretest [core] (wmf/branch_cut_pretest) - 10https://gerrit.wikimedia.org/r/1209431 (owner: 10TrainBranchBot)
[00:48:58] <jinxer-wm>	 FIRING: [5x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[00:53:23] <wikibugs>	 (03Merged) 10jenkins-bot: Branch commit for wmf/branch_cut_pretest [core] (wmf/branch_cut_pretest) - 10https://gerrit.wikimedia.org/r/1209431 (owner: 10TrainBranchBot)
[00:57:01] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db1200 (T410589)', diff saved to https://phabricator.wikimedia.org/P85464 and previous config saved to /var/cache/conftool/dbconfig/20251123-005700-ladsgroup.json
[00:57:06] <stashbot>	 T410589: Optimize all core tables, late 2025 - https://phabricator.wikimedia.org/T410589
[01:00:45] <logmsgbot>	 !log mwpresync@deploy2002 Started scap build-images: Publishing wmf/next image
[01:08:58] <jinxer-wm>	 FIRING: [5x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[01:09:36] <jinxer-wm>	 FIRING: [2x] PuppetCertificateAboutToExpire: Puppet CA certificate default-staging-certificate.wmnet is about to expire - https://wikitech.wikimedia.org/wiki/Puppet#Renew_agent_certificate - TODO - https://alerts.wikimedia.org/?q=alertname%3DPuppetCertificateAboutToExpire
[01:10:16] <wikibugs>	 (03PS1) 10TrainBranchBot: Branch commit for wmf/next [core] (wmf/next) - 10https://gerrit.wikimedia.org/r/1209445
[01:10:16] <wikibugs>	 (03CR) 10TrainBranchBot: [C:03+2] Branch commit for wmf/next [core] (wmf/next) - 10https://gerrit.wikimedia.org/r/1209445 (owner: 10TrainBranchBot)
[01:12:09] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db1200', diff saved to https://phabricator.wikimedia.org/P85465 and previous config saved to /var/cache/conftool/dbconfig/20251123-011208-ladsgroup.json
[01:18:58] <jinxer-wm>	 FIRING: [5x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[01:27:16] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db1200', diff saved to https://phabricator.wikimedia.org/P85466 and previous config saved to /var/cache/conftool/dbconfig/20251123-012716-ladsgroup.json
[01:33:58] <jinxer-wm>	 FIRING: [5x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[01:35:02] <wikibugs>	 (03Merged) 10jenkins-bot: Branch commit for wmf/next [core] (wmf/next) - 10https://gerrit.wikimedia.org/r/1209445 (owner: 10TrainBranchBot)
[01:38:58] <jinxer-wm>	 FIRING: [5x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[01:42:24] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db1200 (T410589)', diff saved to https://phabricator.wikimedia.org/P85467 and previous config saved to /var/cache/conftool/dbconfig/20251123-014223-ladsgroup.json
[01:42:28] <stashbot>	 T410589: Optimize all core tables, late 2025 - https://phabricator.wikimedia.org/T410589
[01:42:40] <logmsgbot>	 !log ladsgroup@cumin1003 DONE (PASS) - Cookbook sre.hosts.downtime (exit_code=0) for 3 days, 0:00:00 on db1207.eqiad.wmnet with reason: Maintenance
[01:42:47] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Depooling db1207 (T410589)', diff saved to https://phabricator.wikimedia.org/P85468 and previous config saved to /var/cache/conftool/dbconfig/20251123-014247-ladsgroup.json
[02:13:58] <jinxer-wm>	 FIRING: [5x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[02:18:58] <jinxer-wm>	 FIRING: [5x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[02:36:54] <icinga-wm>	 PROBLEM - Host cloudidp2001-dev is DOWN: PING CRITICAL - Packet loss = 100%
[02:54:36] <jinxer-wm>	 FIRING: CertAlmostExpired: Certificate for service data-gateway-staging:30443 is about to expire - https://wikitech.wikimedia.org/wiki/TLS/Runbook#data-gateway-staging:30443 - TODO - https://alerts.wikimedia.org/?q=alertname%3DCertAlmostExpired
[02:55:22] <icinga-wm>	 RECOVERY - Host cloudidp2001-dev is UP: PING OK - Packet loss = 0%, RTA = 30.39 ms
[03:18:10] <jinxer-wm>	 FIRING: SystemdUnitFailed: docker-reporter-kubernetes-dse_eqiad-images.service on build2002:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[04:06:54] <icinga-wm>	 PROBLEM - Host cloudidp2001-dev is DOWN: PING CRITICAL - Packet loss = 100%
[04:15:24] <icinga-wm>	 RECOVERY - Host cloudidp2001-dev is UP: PING OK - Packet loss = 0%, RTA = 30.51 ms
[04:26:55] <icinga-wm>	 PROBLEM - Host cloudidp2001-dev is DOWN: PING CRITICAL - Packet loss = 100%
[04:28:16] <jinxer-wm>	 FIRING: ErrorBudgetBurn: xlab-standalone-event-system-success-rate-v1 <no value> - https://slo.wikimedia.org/?search=xlab-standalone-event-system-success-rate-v1   - https://alerts.wikimedia.org/?q=alertname%3DErrorBudgetBurn
[04:28:58] <jinxer-wm>	 FIRING: [5x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[04:38:58] <jinxer-wm>	 FIRING: [5x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[04:39:36] <jinxer-wm>	 FIRING: [2x] ConfdResourceFailed: confd resource _srv_config-master_pybal_eqiad_druid-public-coordinator.toml has errors - https://wikitech.wikimedia.org/wiki/Confd#Monitoring - https://grafana.wikimedia.org/d/OUJF1VI4k/confd - https://alerts.wikimedia.org/?q=alertname%3DConfdResourceFailed
[04:43:58] <jinxer-wm>	 FIRING: [5x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[04:45:25] <jinxer-wm>	 FIRING: SystemdUnitFailed: update-ubuntu-mirror.service on mirror1001:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[04:48:58] <jinxer-wm>	 FIRING: [4x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[04:53:58] <jinxer-wm>	 FIRING: [5x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[05:03:16] <jinxer-wm>	 RESOLVED: ErrorBudgetBurn: xlab-standalone-event-system-success-rate-v1 <no value> - https://slo.wikimedia.org/?search=xlab-standalone-event-system-success-rate-v1   - https://alerts.wikimedia.org/?q=alertname%3DErrorBudgetBurn
[05:08:58] <jinxer-wm>	 FIRING: [2x] JobUnavailable: Reduced availability for job sidekiq in ops@codfw - https://wikitech.wikimedia.org/wiki/Prometheus#Prometheus_job_unavailable - https://grafana.wikimedia.org/d/NEJu05xZz/prometheus-targets - https://alerts.wikimedia.org/?q=alertname%3DJobUnavailable
[05:09:36] <jinxer-wm>	 FIRING: [2x] PuppetCertificateAboutToExpire: Puppet CA certificate default-staging-certificate.wmnet is about to expire - https://wikitech.wikimedia.org/wiki/Puppet#Renew_agent_certificate - TODO - https://alerts.wikimedia.org/?q=alertname%3DPuppetCertificateAboutToExpire
[05:25:32] <icinga-wm>	 RECOVERY - Host cloudidp2001-dev is UP: PING OK - Packet loss = 0%, RTA = 30.56 ms
[05:33:58] <jinxer-wm>	 RESOLVED: [2x] JobUnavailable: Reduced availability for job sidekiq in ops@codfw - https://wikitech.wikimedia.org/wiki/Prometheus#Prometheus_job_unavailable - https://grafana.wikimedia.org/d/NEJu05xZz/prometheus-targets - https://alerts.wikimedia.org/?q=alertname%3DJobUnavailable
[06:54:36] <jinxer-wm>	 FIRING: CertAlmostExpired: Certificate for service data-gateway-staging:30443 is about to expire - https://wikitech.wikimedia.org/wiki/TLS/Runbook#data-gateway-staging:30443 - TODO - https://alerts.wikimedia.org/?q=alertname%3DCertAlmostExpired
[06:57:02] <icinga-wm>	 PROBLEM - Host cloudidp2001-dev is DOWN: PING CRITICAL - Packet loss = 100%
[07:08:03] <jinxer-wm>	 FIRING: MediaWikiEditFailures: Elevated MediaWiki edit failures (session_loss) for cluster  - https://wikitech.wikimedia.org/wiki/Application_servers/Runbook - https://grafana.wikimedia.org/d/000000208/edit-count?orgId=1&viewPanel=13 - https://alerts.wikimedia.org/?q=alertname%3DMediaWikiEditFailures
[07:18:10] <jinxer-wm>	 FIRING: SystemdUnitFailed: docker-reporter-kubernetes-dse_eqiad-images.service on build2002:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[07:24:35] <icinga-wm>	 RECOVERY - Host cloudidp2001-dev is UP: PING OK - Packet loss = 0%, RTA = 30.46 ms
[07:43:03] <jinxer-wm>	 RESOLVED: MediaWikiEditFailures: Elevated MediaWiki edit failures (session_loss) for cluster  - https://wikitech.wikimedia.org/wiki/Application_servers/Runbook - https://grafana.wikimedia.org/d/000000208/edit-count?orgId=1&viewPanel=13 - https://alerts.wikimedia.org/?q=alertname%3DMediaWikiEditFailures
[07:45:03] <jinxer-wm>	 FIRING: MediaWikiEditFailures: Elevated MediaWiki edit failures (session_loss) for cluster  - https://wikitech.wikimedia.org/wiki/Application_servers/Runbook - https://grafana.wikimedia.org/d/000000208/edit-count?orgId=1&viewPanel=13 - https://alerts.wikimedia.org/?q=alertname%3DMediaWikiEditFailures
[07:48:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[07:53:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[08:00:05] <jouncebot>	 Deploy window No deploys all day! See Deployments/Emergencies if things are broken. (https://wikitech.wikimedia.org/wiki/Deployments#deploycal-item-20251123T0800)
[08:21:48] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db1207 (T410589)', diff saved to https://phabricator.wikimedia.org/P85469 and previous config saved to /var/cache/conftool/dbconfig/20251123-082147-ladsgroup.json
[08:21:53] <stashbot>	 T410589: Optimize all core tables, late 2025 - https://phabricator.wikimedia.org/T410589
[08:36:56] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db1207', diff saved to https://phabricator.wikimedia.org/P85470 and previous config saved to /var/cache/conftool/dbconfig/20251123-083655-ladsgroup.json
[08:36:57] <icinga-wm>	 PROBLEM - Check unit status of httpbb_kubernetes_mw-api-int_hourly on cumin2002 is CRITICAL: CRITICAL: Status of the systemd unit httpbb_kubernetes_mw-api-int_hourly https://wikitech.wikimedia.org/wiki/Monitoring/systemd_unit_state
[08:39:36] <jinxer-wm>	 FIRING: [2x] ConfdResourceFailed: confd resource _srv_config-master_pybal_eqiad_druid-public-coordinator.toml has errors - https://wikitech.wikimedia.org/wiki/Confd#Monitoring - https://grafana.wikimedia.org/d/OUJF1VI4k/confd - https://alerts.wikimedia.org/?q=alertname%3DConfdResourceFailed
[08:42:55] <jinxer-wm>	 FIRING: [2x] SystemdUnitFailed: docker-reporter-kubernetes-dse_eqiad-images.service on build2002:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[08:45:03] <jinxer-wm>	 RESOLVED: MediaWikiEditFailures: Elevated MediaWiki edit failures (session_loss) for cluster  - https://wikitech.wikimedia.org/wiki/Application_servers/Runbook - https://grafana.wikimedia.org/d/000000208/edit-count?orgId=1&viewPanel=13 - https://alerts.wikimedia.org/?q=alertname%3DMediaWikiEditFailures
[08:45:40] <jinxer-wm>	 FIRING: SystemdUnitFailed: update-ubuntu-mirror.service on mirror1001:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[08:52:03] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db1207', diff saved to https://phabricator.wikimedia.org/P85471 and previous config saved to /var/cache/conftool/dbconfig/20251123-085202-ladsgroup.json
[09:07:11] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db1207 (T410589)', diff saved to https://phabricator.wikimedia.org/P85472 and previous config saved to /var/cache/conftool/dbconfig/20251123-090710-ladsgroup.json
[09:07:16] <stashbot>	 T410589: Optimize all core tables, late 2025 - https://phabricator.wikimedia.org/T410589
[09:07:27] <logmsgbot>	 !log ladsgroup@cumin1003 DONE (PASS) - Cookbook sre.hosts.downtime (exit_code=0) for 3 days, 0:00:00 on db1216.eqiad.wmnet with reason: Maintenance
[09:09:36] <jinxer-wm>	 FIRING: [2x] PuppetCertificateAboutToExpire: Puppet CA certificate default-staging-certificate.wmnet is about to expire - https://wikitech.wikimedia.org/wiki/Puppet#Renew_agent_certificate - TODO - https://alerts.wikimedia.org/?q=alertname%3DPuppetCertificateAboutToExpire
[09:36:57] <icinga-wm>	 RECOVERY - Check unit status of httpbb_kubernetes_mw-api-int_hourly on cumin2002 is OK: OK: Status of the systemd unit httpbb_kubernetes_mw-api-int_hourly https://wikitech.wikimedia.org/wiki/Monitoring/systemd_unit_state
[09:37:55] <jinxer-wm>	 FIRING: [2x] SystemdUnitFailed: docker-reporter-kubernetes-dse_eqiad-images.service on build2002:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[09:54:46] <wikibugs>	 (03CR) 10A smart kitten: Set up tokwiki namespaces (031 comment) [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1205956 (https://phabricator.wikimedia.org/T404457) (owner: 10Majavah)
[10:25:37] <icinga-wm>	 PROBLEM - Host cloudidp2001-dev is DOWN: PING CRITICAL - Packet loss = 100%
[10:38:01] <wikibugs>	 (03PS1) 10Hubaishan: arwiktionary: make Cite button in main VE bar [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1209791 (https://phabricator.wikimedia.org/T410840)
[10:45:25] <jinxer-wm>	 RESOLVED: SystemdUnitFailed: update-ubuntu-mirror.service on mirror1001:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[10:54:36] <jinxer-wm>	 FIRING: CertAlmostExpired: Certificate for service data-gateway-staging:30443 is about to expire - https://wikitech.wikimedia.org/wiki/TLS/Runbook#data-gateway-staging:30443 - TODO - https://alerts.wikimedia.org/?q=alertname%3DCertAlmostExpired
[10:54:38] <icinga-wm>	 RECOVERY - Host cloudidp2001-dev is UP: PING OK - Packet loss = 0%, RTA = 31.79 ms
[11:33:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[11:38:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[12:13:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[12:28:36] <icinga-wm>	 PROBLEM - Host cloudidp2001-dev is DOWN: PING CRITICAL - Packet loss = 100%
[12:39:36] <jinxer-wm>	 FIRING: [2x] ConfdResourceFailed: confd resource _srv_config-master_pybal_eqiad_druid-public-coordinator.toml has errors - https://wikitech.wikimedia.org/wiki/Confd#Monitoring - https://grafana.wikimedia.org/d/OUJF1VI4k/confd - https://alerts.wikimedia.org/?q=alertname%3DConfdResourceFailed
[12:46:42] <wikibugs>	 (03PS2) 10Dragoniez: rowiki: Redefine AbuseFilter permission model [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1208329 (https://phabricator.wikimedia.org/T407978)
[12:47:07] <wikibugs>	 (03CR) 10Dragoniez: "Done" [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1208329 (https://phabricator.wikimedia.org/T407978) (owner: 10Dragoniez)
[12:48:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[12:54:36] <icinga-wm>	 RECOVERY - Host cloudidp2001-dev is UP: PING OK - Packet loss = 0%, RTA = 30.64 ms
[13:04:54] <wikibugs>	 (03CR) 10ScheduleDeploymentBot: "Scheduled for deployment in the [Monday, November 24 UTC afternoon backport window](https://wikitech.wikimedia.org/wiki/Deployments#deploy" [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1208329 (https://phabricator.wikimedia.org/T407978) (owner: 10Dragoniez)
[13:09:36] <jinxer-wm>	 FIRING: [2x] PuppetCertificateAboutToExpire: Puppet CA certificate default-staging-certificate.wmnet is about to expire - https://wikitech.wikimedia.org/wiki/Puppet#Renew_agent_certificate - TODO - https://alerts.wikimedia.org/?q=alertname%3DPuppetCertificateAboutToExpire
[13:38:10] <jinxer-wm>	 FIRING: SystemdUnitFailed: docker-reporter-kubernetes-dse_eqiad-images.service on build2002:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[13:47:00] <wikibugs>	 (03CR) 10ScheduleDeploymentBot: "Scheduled for deployment in the [Monday, November 24 UTC morning backport window](https://wikitech.wikimedia.org/wiki/Deployments#deployca" [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1209791 (https://phabricator.wikimedia.org/T410840) (owner: 10Hubaishan)
[13:56:11] <icinga-wm>	 PROBLEM - Host cloudidp2001-dev is DOWN: PING CRITICAL - Packet loss = 100%
[14:21:39] <wikibugs>	 06SRE, 10SRE-swift-storage, 10Infrastructure Security, 06Data-Platform-SRE (2025.11.07 - 2025.11.28), and 3 others: October 2025 Bullseye reboots: Search Platform-owned hosts - https://phabricator.wikimedia.org/T410573#11398916 (10A_smart_kitten)
[14:25:39] <icinga-wm>	 RECOVERY - Host cloudidp2001-dev is UP: PING OK - Packet loss = 0%, RTA = 30.64 ms
[14:37:13] <icinga-wm>	 PROBLEM - Check unit status of httpbb_kubernetes_mw-web_hourly on cumin2002 is CRITICAL: CRITICAL: Status of the systemd unit httpbb_kubernetes_mw-web_hourly https://wikitech.wikimedia.org/wiki/Monitoring/systemd_unit_state
[14:42:55] <jinxer-wm>	 FIRING: [2x] SystemdUnitFailed: docker-reporter-kubernetes-dse_eqiad-images.service on build2002:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[14:43:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[14:48:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[14:54:36] <jinxer-wm>	 FIRING: CertAlmostExpired: Certificate for service data-gateway-staging:30443 is about to expire - https://wikitech.wikimedia.org/wiki/TLS/Runbook#data-gateway-staging:30443 - TODO - https://alerts.wikimedia.org/?q=alertname%3DCertAlmostExpired
[15:08:58] <jinxer-wm>	 FIRING: [2x] JobUnavailable: Reduced availability for job sidekiq in ops@codfw - https://wikitech.wikimedia.org/wiki/Prometheus#Prometheus_job_unavailable - https://grafana.wikimedia.org/d/NEJu05xZz/prometheus-targets - https://alerts.wikimedia.org/?q=alertname%3DJobUnavailable
[15:18:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[15:33:58] <jinxer-wm>	 RESOLVED: [2x] JobUnavailable: Reduced availability for job sidekiq in ops@codfw - https://wikitech.wikimedia.org/wiki/Prometheus#Prometheus_job_unavailable - https://grafana.wikimedia.org/d/NEJu05xZz/prometheus-targets - https://alerts.wikimedia.org/?q=alertname%3DJobUnavailable
[15:33:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[15:37:13] <icinga-wm>	 RECOVERY - Check unit status of httpbb_kubernetes_mw-web_hourly on cumin2002 is OK: OK: Status of the systemd unit httpbb_kubernetes_mw-web_hourly https://wikitech.wikimedia.org/wiki/Monitoring/systemd_unit_state
[15:37:55] <jinxer-wm>	 FIRING: [2x] SystemdUnitFailed: docker-reporter-kubernetes-dse_eqiad-images.service on build2002:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[15:57:11] <icinga-wm>	 PROBLEM - Host cloudidp2001-dev is DOWN: PING CRITICAL - Packet loss = 100%
[16:24:59] <wikibugs>	 (03CR) 10LD: "Why adding ipblock-exempt to admin?" [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1208334 (https://phabricator.wikimedia.org/T409687) (owner: 10Dragoniez)
[16:36:13] <wikibugs>	 (03CR) 10Dragoniez: "Hm? Since it’s one of the default groups sysops can add users to. Anything in `default` that wasn’t in `+jawiki` needs to be defined in th" [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1208334 (https://phabricator.wikimedia.org/T409687) (owner: 10Dragoniez)
[16:36:51] <logmsgbot>	 !log ladsgroup@cumin1003 DONE (PASS) - Cookbook sre.hosts.downtime (exit_code=0) for 3 days, 0:00:00 on db1230.eqiad.wmnet with reason: Maintenance
[16:36:59] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Depooling db1230 (T410589)', diff saved to https://phabricator.wikimedia.org/P85473 and previous config saved to /var/cache/conftool/dbconfig/20251123-163658-ladsgroup.json
[16:37:04] <stashbot>	 T410589: Optimize all core tables, late 2025 - https://phabricator.wikimedia.org/T410589
[16:38:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[16:39:36] <jinxer-wm>	 FIRING: [2x] ConfdResourceFailed: confd resource _srv_config-master_pybal_eqiad_druid-public-coordinator.toml has errors - https://wikitech.wikimedia.org/wiki/Confd#Monitoring - https://grafana.wikimedia.org/d/OUJF1VI4k/confd - https://alerts.wikimedia.org/?q=alertname%3DConfdResourceFailed
[16:54:28] <icinga-wm>	 RECOVERY - Host cloudidp2001-dev is UP: PING OK - Packet loss = 0%, RTA = 30.58 ms
[16:58:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[17:09:36] <jinxer-wm>	 FIRING: [2x] PuppetCertificateAboutToExpire: Puppet CA certificate default-staging-certificate.wmnet is about to expire - https://wikitech.wikimedia.org/wiki/Puppet#Renew_agent_certificate - TODO - https://alerts.wikimedia.org/?q=alertname%3DPuppetCertificateAboutToExpire
[17:13:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[17:28:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[17:38:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[17:53:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[17:57:10] <icinga-wm>	 PROBLEM - Host cloudidp2001-dev is DOWN: PING CRITICAL - Packet loss = 100%
[18:25:40] <icinga-wm>	 RECOVERY - Host cloudidp2001-dev is UP: PING OK - Packet loss = 0%, RTA = 30.84 ms
[18:28:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[18:33:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[18:54:36] <jinxer-wm>	 FIRING: CertAlmostExpired: Certificate for service data-gateway-staging:30443 is about to expire - https://wikitech.wikimedia.org/wiki/TLS/Runbook#data-gateway-staging:30443 - TODO - https://alerts.wikimedia.org/?q=alertname%3DCertAlmostExpired
[19:16:04] <logmsgbot>	 !log andrew@cumin2002 START - Cookbook sre.hardware.upgrade-firmware upgrade firmware for hosts ['cloudcephosd2004-dev']
[19:23:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[19:24:35] <logmsgbot>	 !log andrew@cumin2002 END (PASS) - Cookbook sre.hardware.upgrade-firmware (exit_code=0) upgrade firmware for hosts ['cloudcephosd2004-dev']
[19:29:02] <logmsgbot>	 !log andrew@cumin2002 START - Cookbook sre.hardware.upgrade-firmware upgrade firmware for hosts ['cloudcephosd1035']
[19:38:10] <jinxer-wm>	 FIRING: SystemdUnitFailed: docker-reporter-kubernetes-dse_eqiad-images.service on build2002:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[19:39:38] <logmsgbot>	 !log andrew@cumin2002 END (PASS) - Cookbook sre.hardware.upgrade-firmware (exit_code=0) upgrade firmware for hosts ['cloudcephosd1035']
[19:45:52] <logmsgbot>	 !log andrew@cumin2002 START - Cookbook sre.hardware.upgrade-firmware upgrade firmware for hosts ['cloudcephosd1036']
[19:56:14] <icinga-wm>	 PROBLEM - Host cloudidp2001-dev is DOWN: PING CRITICAL - Packet loss = 100%
[19:57:03] <logmsgbot>	 !log andrew@cumin2002 END (PASS) - Cookbook sre.hardware.upgrade-firmware (exit_code=0) upgrade firmware for hosts ['cloudcephosd1036']
[19:59:59] <logmsgbot>	 !log andrew@cumin2002 START - Cookbook sre.hardware.upgrade-firmware upgrade firmware for hosts ['cloudcephosd1037']
[20:08:42] <logmsgbot>	 !log andrew@cumin2002 END (PASS) - Cookbook sre.hardware.upgrade-firmware (exit_code=0) upgrade firmware for hosts ['cloudcephosd1037']
[20:12:41] <logmsgbot>	 !log andrew@cumin2002 START - Cookbook sre.hardware.upgrade-firmware upgrade firmware for hosts ['cloudcephosd1038']
[20:24:06] <logmsgbot>	 !log andrew@cumin2002 END (PASS) - Cookbook sre.hardware.upgrade-firmware (exit_code=0) upgrade firmware for hosts ['cloudcephosd1038']
[20:25:35] <logmsgbot>	 !log andrew@cumin2002 START - Cookbook sre.hardware.upgrade-firmware upgrade firmware for hosts ['cloudcephosd1038']
[20:25:39] <logmsgbot>	 !log andrew@cumin2002 END (ERROR) - Cookbook sre.hardware.upgrade-firmware (exit_code=97) upgrade firmware for hosts ['cloudcephosd1038']
[20:25:43] <icinga-wm>	 RECOVERY - Host cloudidp2001-dev is UP: PING OK - Packet loss = 0%, RTA = 30.64 ms
[20:27:10] <logmsgbot>	 !log andrew@cumin2002 START - Cookbook sre.hardware.upgrade-firmware upgrade firmware for hosts ['cloudcephosd1039']
[20:36:24] <logmsgbot>	 !log andrew@cumin2002 END (PASS) - Cookbook sre.hardware.upgrade-firmware (exit_code=0) upgrade firmware for hosts ['cloudcephosd1039']
[20:39:36] <jinxer-wm>	 FIRING: [2x] ConfdResourceFailed: confd resource _srv_config-master_pybal_eqiad_druid-public-coordinator.toml has errors - https://wikitech.wikimedia.org/wiki/Confd#Monitoring - https://grafana.wikimedia.org/d/OUJF1VI4k/confd - https://alerts.wikimedia.org/?q=alertname%3DConfdResourceFailed
[20:39:37] <logmsgbot>	 !log andrew@cumin2002 START - Cookbook sre.hardware.upgrade-firmware upgrade firmware for hosts ['cloudcephosd1040']
[20:48:26] <logmsgbot>	 !log andrew@cumin2002 END (PASS) - Cookbook sre.hardware.upgrade-firmware (exit_code=0) upgrade firmware for hosts ['cloudcephosd1040']
[20:51:23] <logmsgbot>	 !log andrew@cumin2002 START - Cookbook sre.hardware.upgrade-firmware upgrade firmware for hosts ['cloudcephosd1041']
[20:56:16] <icinga-wm>	 PROBLEM - Host cloudidp2001-dev is DOWN: PING CRITICAL - Packet loss = 100%
[20:58:14] <icinga-wm>	 RECOVERY - snapshot of s6 in eqiad on backupmon1001 is OK: Last snapshot for s6 at eqiad (db1225) taken on 2025-11-23 20:36:56 (373 GiB, +1.7 %) https://wikitech.wikimedia.org/wiki/MariaDB/Backups%23Rerun_a_failed_backup
[21:00:08] <logmsgbot>	 !log andrew@cumin2002 END (PASS) - Cookbook sre.hardware.upgrade-firmware (exit_code=0) upgrade firmware for hosts ['cloudcephosd1041']
[21:08:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[21:09:20] <wikibugs>	 (03CR) 10LD: [C:03+1] "indeed, LGTM" [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1208334 (https://phabricator.wikimedia.org/T409687) (owner: 10Dragoniez)
[21:09:36] <jinxer-wm>	 FIRING: [2x] PuppetCertificateAboutToExpire: Puppet CA certificate default-staging-certificate.wmnet is about to expire - https://wikitech.wikimedia.org/wiki/Puppet#Renew_agent_certificate - TODO - https://alerts.wikimedia.org/?q=alertname%3DPuppetCertificateAboutToExpire
[21:14:20] <icinga-wm>	 PROBLEM - snapshot of s5 in eqiad on backupmon1001 is CRITICAL: Last snapshot for s5 at eqiad (db1216) taken on 2025-11-23 20:35:02 is 395 GiB, but the previous one was 517 GiB, a change of -23.7 % https://wikitech.wikimedia.org/wiki/MariaDB/Backups%23Rerun_a_failed_backup
[21:23:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[21:24:49] <icinga-wm>	 RECOVERY - Host cloudidp2001-dev is UP: PING OK - Packet loss = 0%, RTA = 30.54 ms
[21:28:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[21:43:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[22:08:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[22:23:58] <jinxer-wm>	 FIRING: [6x] CalicoHighMemoryUsage: Calico container calico-node-2rrk2:calico-node is consistently using three times its memory request - https://wikitech.wikimedia.org/wiki/Calico#Resource_Usage  - https://alerts.wikimedia.org/?q=alertname%3DCalicoHighMemoryUsage
[22:54:36] <jinxer-wm>	 FIRING: CertAlmostExpired: Certificate for service data-gateway-staging:30443 is about to expire - https://wikitech.wikimedia.org/wiki/TLS/Runbook#data-gateway-staging:30443 - TODO - https://alerts.wikimedia.org/?q=alertname%3DCertAlmostExpired
[22:57:18] <icinga-wm>	 PROBLEM - Host cloudidp2001-dev is DOWN: PING CRITICAL - Packet loss = 100%
[23:16:22] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db1230 (T410589)', diff saved to https://phabricator.wikimedia.org/P85474 and previous config saved to /var/cache/conftool/dbconfig/20251123-231621-ladsgroup.json
[23:16:26] <stashbot>	 T410589: Optimize all core tables, late 2025 - https://phabricator.wikimedia.org/T410589
[23:31:29] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db1230', diff saved to https://phabricator.wikimedia.org/P85475 and previous config saved to /var/cache/conftool/dbconfig/20251123-233128-ladsgroup.json
[23:38:10] <jinxer-wm>	 FIRING: SystemdUnitFailed: docker-reporter-kubernetes-dse_eqiad-images.service on build2002:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[23:46:37] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db1230', diff saved to https://phabricator.wikimedia.org/P85476 and previous config saved to /var/cache/conftool/dbconfig/20251123-234636-ladsgroup.json
[23:54:49] <icinga-wm>	 RECOVERY - Host cloudidp2001-dev is UP: PING OK - Packet loss = 0%, RTA = 30.73 ms