[00:00:06] <wikibugs>	 (03PS2) 10Ryan Kemper: opensearch-semantic-search: provision namespace [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230512 (https://phabricator.wikimedia.org/T414702)
[00:01:00] <logmsgbot>	 !log sukhe@cumin1003 START - Cookbook sre.swift.roll-restart-reboot-swift-ms-proxies rolling restart_daemons on P{ms-fe2009*} and (A:swift-fe or A:swift-fe-canary or A:swift-fe-codfw or A:swift-fe-eqiad)
[00:01:09] <wikibugs>	 (03PS2) 10Jasmine: sophroid: remove readiness probe [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230510
[00:01:29] <logmsgbot>	 !log sukhe@cumin1003 END (PASS) - Cookbook sre.swift.roll-restart-reboot-swift-ms-proxies (exit_code=0) rolling restart_daemons on P{ms-fe2009*} and (A:swift-fe or A:swift-fe-canary or A:swift-fe-codfw or A:swift-fe-eqiad)
[00:02:18] <wikibugs>	 (03CR) 10Scott French: [C:03+1] sophroid: remove readiness probe [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230510 (owner: 10Jasmine)
[00:03:32] <wikibugs>	 (03CR) 10RLazarus: [C:03+1] sophroid: remove readiness probe [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230510 (owner: 10Jasmine)
[00:03:36] <wikibugs>	 (03CR) 10Jasmine: [C:03+2] sophroid: remove readiness probe [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230510 (owner: 10Jasmine)
[00:05:34] <wikibugs>	 (03Merged) 10jenkins-bot: sophroid: remove readiness probe [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230510 (owner: 10Jasmine)
[00:06:07] <wikibugs>	 (03PS3) 10Ryan Kemper: opensearch-semantic-search: provision namespace [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230512 (https://phabricator.wikimedia.org/T414702)
[00:08:10] <cjming>	 sorry - i need to follow up with a few more backports 😬
[00:12:51] <jinxer-wm>	 RESOLVED: ATSBackendErrorsHigh: ATS: elevated 5xx errors from swift.discovery.wmnet in codfw #page - https://wikitech.wikimedia.org/wiki/Apache_Traffic_Server#Debugging - https://grafana.wikimedia.org/d/1T_4O08Wk/ats-backends-origin-servers-overview?orgId=1&viewPanel=12&var-site=codfw&var-cluster=upload&var-origin=swift.discovery.wmnet - https://alerts.wikimedia.org/?q=alertname%3DATSBackendErrorsHigh
[00:13:33] <logmsgbot>	 !log jasmine@deploy2002 helmfile [aux-k8s-codfw] START helmfile.d/aux-k8s-services/sophroid: apply
[00:14:23] <logmsgbot>	 !log jasmine@deploy2002 helmfile [aux-k8s-codfw] DONE helmfile.d/aux-k8s-services/sophroid: apply
[00:19:49] <logmsgbot>	 !log jasmine@deploy2002 helmfile [aux-k8s-eqiad] START helmfile.d/aux-k8s-services/sophroid: apply
[00:20:17] <logmsgbot>	 !log jasmine@deploy2002 helmfile [aux-k8s-eqiad] DONE helmfile.d/aux-k8s-services/sophroid: apply
[00:20:33] <wikibugs>	 (03PS1) 10Zabe: Start reading from il_target_id from s5 and s8 wikis [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1230533 (https://phabricator.wikimedia.org/T413669)
[00:20:35] <cjming>	 i missed a few more messages that are spamming the console - it should be quick
[00:29:40] <jinxer-wm>	 FIRING: [7x] SystemdUnitFailed: dump_cloud_ip_ranges.service on puppetserver2004:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[00:31:09] <wikibugs>	 (03PS1) 10Clare Ming: Remove problematic logging for now [extensions/TestKitchen] (wmf/1.46.0-wmf.12) - 10https://gerrit.wikimedia.org/r/1230537 (https://phabricator.wikimedia.org/T415309)
[00:38:42] <wikibugs>	 (03CR) 10TrainBranchBot: [C:03+2] "Approved by cjming@deploy2002 using scap backport" [extensions/TestKitchen] (wmf/1.46.0-wmf.12) - 10https://gerrit.wikimedia.org/r/1230537 (https://phabricator.wikimedia.org/T415309) (owner: 10Clare Ming)
[00:39:54] <wikibugs>	 (03Merged) 10jenkins-bot: Remove problematic logging for now [extensions/TestKitchen] (wmf/1.46.0-wmf.12) - 10https://gerrit.wikimedia.org/r/1230537 (https://phabricator.wikimedia.org/T415309) (owner: 10Clare Ming)
[00:40:13] <logmsgbot>	 !log cjming@deploy2002 Started scap sync-world: Backport for [[gerrit:1230537|Remove problematic logging for now (T415309)]]
[00:40:18] <stashbot>	 T415309: Test kitchen producing errors in javascript console on every Wikipedia page - https://phabricator.wikimedia.org/T415309
[00:40:38] <wikibugs>	 (03PS1) 10TrainBranchBot: Branch commit for wmf/branch_cut_pretest [core] (wmf/branch_cut_pretest) - 10https://gerrit.wikimedia.org/r/1230538
[00:40:38] <wikibugs>	 (03CR) 10TrainBranchBot: [C:03+2] Branch commit for wmf/branch_cut_pretest [core] (wmf/branch_cut_pretest) - 10https://gerrit.wikimedia.org/r/1230538 (owner: 10TrainBranchBot)
[00:41:59] <wikibugs>	 (03PS1) 10Clare Ming: Remove problematic logging for now [extensions/MetricsPlatform] (wmf/1.46.0-wmf.12) - 10https://gerrit.wikimedia.org/r/1230539 (https://phabricator.wikimedia.org/T415309)
[00:42:18] <logmsgbot>	 !log cjming@deploy2002 cjming: Backport for [[gerrit:1230537|Remove problematic logging for now (T415309)]] synced to the testservers (see https://wikitech.wikimedia.org/wiki/Mwdebug). Changes can now be verified there.
[00:43:12] <logmsgbot>	 !log cjming@deploy2002 cjming: Continuing with sync
[00:47:25] <logmsgbot>	 !log cjming@deploy2002 Finished scap sync-world: Backport for [[gerrit:1230537|Remove problematic logging for now (T415309)]] (duration: 07m 12s)
[00:47:31] <stashbot>	 T415309: Test kitchen producing errors in javascript console on every Wikipedia page - https://phabricator.wikimedia.org/T415309
[00:48:54] <wikibugs>	 (03CR) 10TrainBranchBot: [C:03+2] "Approved by cjming@deploy2002 using scap backport" [extensions/MetricsPlatform] (wmf/1.46.0-wmf.12) - 10https://gerrit.wikimedia.org/r/1230539 (https://phabricator.wikimedia.org/T415309) (owner: 10Clare Ming)
[00:53:51] <wikibugs>	 (03Merged) 10jenkins-bot: Branch commit for wmf/branch_cut_pretest [core] (wmf/branch_cut_pretest) - 10https://gerrit.wikimedia.org/r/1230538 (owner: 10TrainBranchBot)
[00:53:52] <wikibugs>	 (03Merged) 10jenkins-bot: Remove problematic logging for now [extensions/MetricsPlatform] (wmf/1.46.0-wmf.12) - 10https://gerrit.wikimedia.org/r/1230539 (https://phabricator.wikimedia.org/T415309) (owner: 10Clare Ming)
[00:54:32] <logmsgbot>	 !log cjming@deploy2002 Started scap sync-world: Backport for [[gerrit:1230539|Remove problematic logging for now (T415309)]]
[00:54:37] <stashbot>	 T415309: Test kitchen producing errors in javascript console on every Wikipedia page - https://phabricator.wikimedia.org/T415309
[00:56:29] <logmsgbot>	 !log cjming@deploy2002 cjming: Backport for [[gerrit:1230539|Remove problematic logging for now (T415309)]] synced to the testservers (see https://wikitech.wikimedia.org/wiki/Mwdebug). Changes can now be verified there.
[00:56:46] <wikibugs>	 (03PS1) 10RLazarus: sophroid: Re-insert readiness probe, as a gRPC probe [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230544
[00:56:55] <logmsgbot>	 !log cjming@deploy2002 cjming: Continuing with sync
[01:00:59] <logmsgbot>	 !log cjming@deploy2002 Finished scap sync-world: Backport for [[gerrit:1230539|Remove problematic logging for now (T415309)]] (duration: 06m 27s)
[01:01:04] <stashbot>	 T415309: Test kitchen producing errors in javascript console on every Wikipedia page - https://phabricator.wikimedia.org/T415309
[01:01:34] <cjming>	 ok done
[01:10:33] <wikibugs>	 (03PS1) 10TrainBranchBot: Branch commit for wmf/next [core] (wmf/next) - 10https://gerrit.wikimedia.org/r/1230545
[01:10:33] <wikibugs>	 (03CR) 10TrainBranchBot: [C:03+2] Branch commit for wmf/next [core] (wmf/next) - 10https://gerrit.wikimedia.org/r/1230545 (owner: 10TrainBranchBot)
[01:24:18] <zabe>	 jouncebot: nowandnext
[01:24:18] <jouncebot>	 No deployments scheduled for the next 5 hour(s) and 35 minute(s)
[01:24:18] <jouncebot>	 In 5 hour(s) and 35 minute(s): MediaWiki infrastructure (UTC early) (https://wikitech.wikimedia.org/wiki/Deployments#deploycal-item-20260123T0700)
[01:24:25] <wikibugs>	 (03CR) 10Zabe: [C:03+2] Start reading from il_target_id from s5 and s8 wikis [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1230533 (https://phabricator.wikimedia.org/T413669) (owner: 10Zabe)
[01:25:13] <wikibugs>	 (03Merged) 10jenkins-bot: Start reading from il_target_id from s5 and s8 wikis [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1230533 (https://phabricator.wikimedia.org/T413669) (owner: 10Zabe)
[01:25:35] <logmsgbot>	 !log zabe@deploy2002 Started scap sync-world: Backport for [[gerrit:1230533|Start reading from il_target_id from s5 and s8 wikis (T413669)]]
[01:27:48] <logmsgbot>	 !log zabe@deploy2002 zabe: Backport for [[gerrit:1230533|Start reading from il_target_id from s5 and s8 wikis (T413669)]] synced to the testservers (see https://wikitech.wikimedia.org/wiki/Mwdebug). Changes can now be verified there.
[01:27:54] <stashbot>	 T413669: Set imagelinks migration to read new - https://phabricator.wikimedia.org/T413669
[01:28:11] <jinxer-wm>	 FIRING: ProbeDown: Service phab1004:443 has failed probes (http_phabricator_wikimedia_org_collab_ip4) - https://wikitech.wikimedia.org/wiki/Runbook#phab1004:443 - https://grafana.wikimedia.org/d/O0nHhdhnz/network-probes-overview?var-job=probes/custom&var-module=All - https://alerts.wikimedia.org/?q=alertname%3DProbeDown
[01:28:47] <logmsgbot>	 !log zabe@deploy2002 zabe: Continuing with sync
[01:30:42] <wikibugs>	 (03PS1) 10Ladsgroup: kerberos: Add a space after period in MOTD [puppet] - 10https://gerrit.wikimedia.org/r/1230547
[01:32:51] <logmsgbot>	 !log zabe@deploy2002 Finished scap sync-world: Backport for [[gerrit:1230533|Start reading from il_target_id from s5 and s8 wikis (T413669)]] (duration: 07m 16s)
[01:32:56] <stashbot>	 T413669: Set imagelinks migration to read new - https://phabricator.wikimedia.org/T413669
[01:33:11] <jinxer-wm>	 RESOLVED: ProbeDown: Service phab1004:443 has failed probes (http_phabricator_wikimedia_org_collab_ip4) - https://wikitech.wikimedia.org/wiki/Runbook#phab1004:443 - https://grafana.wikimedia.org/d/O0nHhdhnz/network-probes-overview?var-job=probes/custom&var-module=All - https://alerts.wikimedia.org/?q=alertname%3DProbeDown
[01:33:44] <wikibugs>	 (03Merged) 10jenkins-bot: Branch commit for wmf/next [core] (wmf/next) - 10https://gerrit.wikimedia.org/r/1230545 (owner: 10TrainBranchBot)
[01:34:03] <logmsgbot>	 !log marostegui@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db2163 (T411163 T411164)', diff saved to https://phabricator.wikimedia.org/P87869 and previous config saved to /var/cache/conftool/dbconfig/20260123-013402-marostegui.json
[01:34:10] <stashbot>	 T411163: Drop ar_sha1 from archive table in wmf production - https://phabricator.wikimedia.org/T411163
[01:34:11] <stashbot>	 T411164: Drop rev_sha1 from revision table in wmf production - https://phabricator.wikimedia.org/T411164
[01:34:13] <jinxer-wm>	 FIRING: JobUnavailable: Reduced availability for job thanos-compact in ops@codfw - https://wikitech.wikimedia.org/wiki/Prometheus#Prometheus_job_unavailable - https://grafana.wikimedia.org/d/NEJu05xZz/prometheus-targets - https://alerts.wikimedia.org/?q=alertname%3DJobUnavailable
[01:34:15] <jinxer-wm>	 FIRING: PHPFPMTooBusy: Not enough idle PHP-FPM workers for Mediawiki mw-web releases routed via main at codfw: 21.9% idle - https://bit.ly/wmf-fpmsat - https://grafana.wikimedia.org/d/U7JT--knk/mw-on-k8s?orgId=1&viewPanel=84&var-dc=codfw%20prometheus/k8s&var-service=mediawiki&var-namespace=mw-web&var-container_name=All&var-release=main - https://alerts.wikimedia.org/?q=alertname%3DPHPFPMTooBusy
[01:39:15] <jinxer-wm>	 RESOLVED: PHPFPMTooBusy: Not enough idle PHP-FPM workers for Mediawiki mw-web releases routed via main at codfw: 21.9% idle - https://bit.ly/wmf-fpmsat - https://grafana.wikimedia.org/d/U7JT--knk/mw-on-k8s?orgId=1&viewPanel=84&var-dc=codfw%20prometheus/k8s&var-service=mediawiki&var-namespace=mw-web&var-container_name=All&var-release=main - https://alerts.wikimedia.org/?q=alertname%3DPHPFPMTooBusy
[01:44:11] <logmsgbot>	 !log marostegui@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db2163', diff saved to https://phabricator.wikimedia.org/P87870 and previous config saved to /var/cache/conftool/dbconfig/20260123-014411-marostegui.json
[01:54:20] <logmsgbot>	 !log marostegui@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db2163', diff saved to https://phabricator.wikimedia.org/P87871 and previous config saved to /var/cache/conftool/dbconfig/20260123-015419-marostegui.json
[02:04:28] <logmsgbot>	 !log marostegui@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db2163 (T411163 T411164)', diff saved to https://phabricator.wikimedia.org/P87872 and previous config saved to /var/cache/conftool/dbconfig/20260123-020427-marostegui.json
[02:04:35] <stashbot>	 T411163: Drop ar_sha1 from archive table in wmf production - https://phabricator.wikimedia.org/T411163
[02:04:36] <stashbot>	 T411164: Drop rev_sha1 from revision table in wmf production - https://phabricator.wikimedia.org/T411164
[02:04:45] <logmsgbot>	 !log marostegui@cumin1003 DONE (PASS) - Cookbook sre.hosts.downtime (exit_code=0) for 3 days, 0:00:00 on db2164.codfw.wmnet with reason: Maintenance
[02:04:53] <logmsgbot>	 !log marostegui@cumin1003 dbctl commit (dc=all): 'Depooling db2164 (T411163 T411164)', diff saved to https://phabricator.wikimedia.org/P87873 and previous config saved to /var/cache/conftool/dbconfig/20260123-020453-marostegui.json
[02:19:41] <logmsgbot>	 !log marostegui@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db1172 (T411163 T411164)', diff saved to https://phabricator.wikimedia.org/P87874 and previous config saved to /var/cache/conftool/dbconfig/20260123-021940-marostegui.json
[02:19:47] <stashbot>	 T411163: Drop ar_sha1 from archive table in wmf production - https://phabricator.wikimedia.org/T411163
[02:19:48] <stashbot>	 T411164: Drop rev_sha1 from revision table in wmf production - https://phabricator.wikimedia.org/T411164
[02:29:49] <logmsgbot>	 !log marostegui@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db1172', diff saved to https://phabricator.wikimedia.org/P87875 and previous config saved to /var/cache/conftool/dbconfig/20260123-022948-marostegui.json
[02:39:57] <logmsgbot>	 !log marostegui@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db1172', diff saved to https://phabricator.wikimedia.org/P87876 and previous config saved to /var/cache/conftool/dbconfig/20260123-023957-marostegui.json
[02:42:51] <jinxer-wm>	 FIRING: ATSBackendErrorsHigh: ATS: elevated 5xx errors from swift.discovery.wmnet in codfw #page - https://wikitech.wikimedia.org/wiki/Apache_Traffic_Server#Debugging - https://grafana.wikimedia.org/d/1T_4O08Wk/ats-backends-origin-servers-overview?orgId=1&viewPanel=12&var-site=codfw&var-cluster=upload&var-origin=swift.discovery.wmnet - https://alerts.wikimedia.org/?q=alertname%3DATSBackendErrorsHigh
[02:43:11] <sukhe>	 sigh
[02:43:12] <sukhe>	 !ack
[02:43:13] <sirenbot>	 7363 (ACKED)  ATSBackendErrorsHigh cache_upload sre (swift.discovery.wmnet codfw)
[02:46:45] <wikibugs>	 (03CR) 10Scott French: [C:03+1] "Thanks, Reuven! This looks right in terms of implementing the k8s side of things." [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230544 (owner: 10RLazarus)
[02:47:51] <jinxer-wm>	 FIRING: [2x] ATSBackendErrorsHigh: ATS: elevated 5xx errors from swift.discovery.wmnet in codfw #page - https://wikitech.wikimedia.org/wiki/Apache_Traffic_Server#Debugging  - https://alerts.wikimedia.org/?q=alertname%3DATSBackendErrorsHigh
[02:47:56] <wikibugs>	 (03CR) 10ScheduleDeploymentBot: "Scheduled for deployment in the [Monday, January 26 UTC morning backport window](https://wikitech.wikimedia.org/wiki/Deployments#deploycal" [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1229946 (https://phabricator.wikimedia.org/T413967) (owner: 10Samwilson)
[02:48:02] <sukhe>	 !ack
[02:48:03] <sirenbot>	 no value provided for parameter incident and no default available
[02:48:03] <sirenbot>	 All incidents are already acked.
[02:50:06] <logmsgbot>	 !log marostegui@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db1172 (T411163 T411164)', diff saved to https://phabricator.wikimedia.org/P87877 and previous config saved to /var/cache/conftool/dbconfig/20260123-025005-marostegui.json
[02:50:10] <logmsgbot>	 !log marostegui@cumin1003 DONE (PASS) - Cookbook sre.hosts.downtime (exit_code=0) for 3 days, 0:00:00 on db1177.eqiad.wmnet with reason: Maintenance
[02:50:15] <stashbot>	 T411163: Drop ar_sha1 from archive table in wmf production - https://phabricator.wikimedia.org/T411163
[02:50:16] <stashbot>	 T411164: Drop rev_sha1 from revision table in wmf production - https://phabricator.wikimedia.org/T411164
[02:50:19] <logmsgbot>	 !log marostegui@cumin1003 dbctl commit (dc=all): 'Depooling db1177 (T411163 T411164)', diff saved to https://phabricator.wikimedia.org/P87878 and previous config saved to /var/cache/conftool/dbconfig/20260123-025018-marostegui.json
[02:57:51] <jinxer-wm>	 FIRING: [2x] ATSBackendErrorsHigh: ATS: elevated 5xx errors from swift.discovery.wmnet in codfw #page - https://wikitech.wikimedia.org/wiki/Apache_Traffic_Server#Debugging  - https://alerts.wikimedia.org/?q=alertname%3DATSBackendErrorsHigh
[02:57:54] <sukhe>	 !ack
[02:57:54] <sirenbot>	 no value provided for parameter incident and no default available
[02:57:54] <sirenbot>	 All incidents are already acked.
[02:58:32] <sukhe>	 !incidents
[02:58:32] <sirenbot>	 7363 (ACKED)  ATSBackendErrorsHigh cache_upload sre (swift.discovery.wmnet codfw)
[02:58:33] <sirenbot>	 7362 (RESOLVED)  ATSBackendErrorsHigh cache_upload sre (swift.discovery.wmnet codfw)
[02:58:33] <sirenbot>	 7361 (RESOLVED)  ATSBackendErrorsHigh cache_upload sre (swift.discovery.wmnet codfw)
[02:58:33] <sirenbot>	 7360 (RESOLVED)  ATSBackendErrorsHigh cache_upload sre (swift.discovery.wmnet codfw)
[02:58:33] <sirenbot>	 7358 (RESOLVED)  NELHigh sre (thanos-rule@main tcp.timed_out)
[03:19:13] <jinxer-wm>	 FIRING: [2x] PuppetCertificateAboutToExpire: Puppet CA certificate eventstreams-internal.discovery.wmnet is about to expire - https://wikitech.wikimedia.org/wiki/Puppet#Renew_agent_certificate - TODO - https://alerts.wikimedia.org/?q=alertname%3DPuppetCertificateAboutToExpire
[03:32:51] <jinxer-wm>	 RESOLVED: ATSBackendErrorsHigh: ATS: elevated 5xx errors from swift.discovery.wmnet in codfw #page - https://wikitech.wikimedia.org/wiki/Apache_Traffic_Server#Debugging - https://grafana.wikimedia.org/d/1T_4O08Wk/ats-backends-origin-servers-overview?orgId=1&viewPanel=12&var-site=codfw&var-cluster=upload&var-origin=swift.discovery.wmnet - https://alerts.wikimedia.org/?q=alertname%3DATSBackendErrorsHigh
[03:59:13] <jinxer-wm>	 FIRING: KubernetesCalicoDown: ml-serve2004.codfw.wmnet is not running calico-node Pod - https://wikitech.wikimedia.org/wiki/Calico#Operations - https://grafana.wikimedia.org/d/G8zPL7-Wz/?var-dc=codfw%20prometheus%2Fk8s-mlserve&var-instance=ml-serve2004.codfw.wmnet - https://alerts.wikimedia.org/?q=alertname%3DKubernetesCalicoDown
[04:29:40] <jinxer-wm>	 FIRING: [7x] SystemdUnitFailed: dump_cloud_ip_ranges.service on puppetserver2004:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[05:10:03] <wikibugs>	 10SRE-SLO, 10observability, 06Data-Platform-SRE (2026.01.05 - 2026.01.23), 07Essential-Work: Update WDQS SLOs to reflect graph split changes - https://phabricator.wikimedia.org/T393966#11547679 (10RKemper) Merged patch for the new SLO (and corresponding recording rules; I realized pyrra wants stuff in term...
[05:18:01] <wikibugs>	 (03PS1) 10Ryan Kemper: WDQS: separate avail SLOs per service [puppet] - 10https://gerrit.wikimedia.org/r/1230672 (https://phabricator.wikimedia.org/T393966)
[05:34:13] <jinxer-wm>	 FIRING: JobUnavailable: Reduced availability for job thanos-compact in ops@codfw - https://wikitech.wikimedia.org/wiki/Prometheus#Prometheus_job_unavailable - https://grafana.wikimedia.org/d/NEJu05xZz/prometheus-targets - https://alerts.wikimedia.org/?q=alertname%3DJobUnavailable
[05:41:23] <wikibugs>	 (03PS1) 10Marostegui: dbproxy2008: Migration to Debian Trixie [puppet] - 10https://gerrit.wikimedia.org/r/1230688 (https://phabricator.wikimedia.org/T414656)
[05:42:00] <wikibugs>	 (03CR) 10Marostegui: [C:03+2] dbproxy2008: Migration to Debian Trixie [puppet] - 10https://gerrit.wikimedia.org/r/1230688 (https://phabricator.wikimedia.org/T414656) (owner: 10Marostegui)
[05:42:36] <logmsgbot>	 !log marostegui@cumin1003 START - Cookbook sre.hosts.reimage for host dbproxy2008.codfw.wmnet with OS trixie
[05:57:03] <logmsgbot>	 !log marostegui@cumin1003 DONE (PASS) - Cookbook sre.hosts.downtime (exit_code=0) for 3 days, 0:00:00 on dbstore1009.eqiad.wmnet with reason: long schema change
[05:57:59] <logmsgbot>	 !log marostegui@cumin1003 START - Cookbook sre.hosts.downtime for 2:00:00 on dbproxy2008.codfw.wmnet with reason: host reimage
[05:59:00] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db2226 (T410589)', diff saved to https://phabricator.wikimedia.org/P87879 and previous config saved to /var/cache/conftool/dbconfig/20260123-055859-ladsgroup.json
[05:59:06] <stashbot>	 T410589: Optimize all core tables, late 2025 - https://phabricator.wikimedia.org/T410589
[06:03:29] <logmsgbot>	 !log marostegui@cumin1003 END (PASS) - Cookbook sre.hosts.downtime (exit_code=0) for 2:00:00 on dbproxy2008.codfw.wmnet with reason: host reimage
[06:09:08] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db2226', diff saved to https://phabricator.wikimedia.org/P87880 and previous config saved to /var/cache/conftool/dbconfig/20260123-060908-ladsgroup.json
[06:17:58] <wikibugs>	 (03PS1) 10Stang: zhwiki: Remove extra autoconfirmed limit for Tor user [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1230708 (https://phabricator.wikimedia.org/T415335)
[06:18:45] <wikibugs>	 (03CR) 10CI reject: [V:04-1] zhwiki: Remove extra autoconfirmed limit for Tor user [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1230708 (https://phabricator.wikimedia.org/T415335) (owner: 10Stang)
[06:19:16] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db2226', diff saved to https://phabricator.wikimedia.org/P87881 and previous config saved to /var/cache/conftool/dbconfig/20260123-061915-ladsgroup.json
[06:20:03] <wikibugs>	 (03PS2) 10Stang: zhwiki: Remove extra autoconfirmed limit for Tor user [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1230708 (https://phabricator.wikimedia.org/T415335)
[06:20:49] <wikibugs>	 (03CR) 10CI reject: [V:04-1] zhwiki: Remove extra autoconfirmed limit for Tor user [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1230708 (https://phabricator.wikimedia.org/T415335) (owner: 10Stang)
[06:21:44] <wikibugs>	 (03PS3) 10Stang: zhwiki: Remove extra autoconfirmed limit for Tor user [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1230708 (https://phabricator.wikimedia.org/T415335)
[06:26:14] <logmsgbot>	 !log marostegui@cumin1003 END (PASS) - Cookbook sre.hosts.reimage (exit_code=0) for host dbproxy2008.codfw.wmnet with OS trixie
[06:29:25] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db2226 (T410589)', diff saved to https://phabricator.wikimedia.org/P87882 and previous config saved to /var/cache/conftool/dbconfig/20260123-062924-ladsgroup.json
[06:29:30] <stashbot>	 T410589: Optimize all core tables, late 2025 - https://phabricator.wikimedia.org/T410589
[06:29:40] <logmsgbot>	 !log ladsgroup@cumin1003 DONE (PASS) - Cookbook sre.hosts.downtime (exit_code=0) for 3 days, 0:00:00 on db2238.codfw.wmnet with reason: Maintenance
[06:29:49] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Depooling db2238 (T410589)', diff saved to https://phabricator.wikimedia.org/P87883 and previous config saved to /var/cache/conftool/dbconfig/20260123-062948-ladsgroup.json
[07:00:05] <jouncebot>	 Deploy window MediaWiki infrastructure (UTC early) (https://wikitech.wikimedia.org/wiki/Deployments#deploycal-item-20260123T0700)
[07:19:13] <jinxer-wm>	 FIRING: [2x] PuppetCertificateAboutToExpire: Puppet CA certificate eventstreams-internal.discovery.wmnet is about to expire - https://wikitech.wikimedia.org/wiki/Puppet#Renew_agent_certificate - TODO - https://alerts.wikimedia.org/?q=alertname%3DPuppetCertificateAboutToExpire
[07:42:16] <logmsgbot>	 !log marostegui@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db1251 (T411163 T411164)', diff saved to https://phabricator.wikimedia.org/P87884 and previous config saved to /var/cache/conftool/dbconfig/20260123-074215-marostegui.json
[07:42:23] <stashbot>	 T411163: Drop ar_sha1 from archive table in wmf production - https://phabricator.wikimedia.org/T411163
[07:42:24] <stashbot>	 T411164: Drop rev_sha1 from revision table in wmf production - https://phabricator.wikimedia.org/T411164
[07:46:14] <wikibugs>	 (03PS1) 10Muehlenhoff: Record LDAP access for jerrywang [puppet] - 10https://gerrit.wikimedia.org/r/1230763
[07:50:03] <wikibugs>	 (03CR) 10Muehlenhoff: [C:03+2] Record LDAP access for jerrywang [puppet] - 10https://gerrit.wikimedia.org/r/1230763 (owner: 10Muehlenhoff)
[07:52:24] <logmsgbot>	 !log marostegui@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db1251', diff saved to https://phabricator.wikimedia.org/P87885 and previous config saved to /var/cache/conftool/dbconfig/20260123-075223-marostegui.json
[07:59:13] <jinxer-wm>	 FIRING: KubernetesCalicoDown: ml-serve2004.codfw.wmnet is not running calico-node Pod - https://wikitech.wikimedia.org/wiki/Calico#Operations - https://grafana.wikimedia.org/d/G8zPL7-Wz/?var-dc=codfw%20prometheus%2Fk8s-mlserve&var-instance=ml-serve2004.codfw.wmnet - https://alerts.wikimedia.org/?q=alertname%3DKubernetesCalicoDown
[08:00:05] <jouncebot>	 Deploy window No deploys all day! See Deployments/Emergencies if things are broken. (https://wikitech.wikimedia.org/wiki/Deployments#deploycal-item-20260123T0800)
[08:02:32] <logmsgbot>	 !log marostegui@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db1251', diff saved to https://phabricator.wikimedia.org/P87886 and previous config saved to /var/cache/conftool/dbconfig/20260123-080232-marostegui.json
[08:12:41] <logmsgbot>	 !log marostegui@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db1251 (T411163 T411164)', diff saved to https://phabricator.wikimedia.org/P87887 and previous config saved to /var/cache/conftool/dbconfig/20260123-081240-marostegui.json
[08:12:47] <logmsgbot>	 !log marostegui@cumin1003 DONE (PASS) - Cookbook sre.hosts.downtime (exit_code=0) for 3 days, 0:00:00 on dbstore1008.eqiad.wmnet with reason: Maintenance
[08:12:47] <stashbot>	 T411163: Drop ar_sha1 from archive table in wmf production - https://phabricator.wikimedia.org/T411163
[08:12:48] <stashbot>	 T411164: Drop rev_sha1 from revision table in wmf production - https://phabricator.wikimedia.org/T411164
[08:29:40] <jinxer-wm>	 FIRING: [7x] SystemdUnitFailed: dump_cloud_ip_ranges.service on puppetserver2004:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[08:32:49] <wikibugs>	 10ops-codfw, 06SRE, 06DC-Ops, 06ServiceOps new, and 2 others: Q2:rack/setup/install wikikube-worker2332-56 - https://phabricator.wikimedia.org/T408757#11547878 (10Clement_Goubert) >>! In T408757#11546627, @Jhancock.wm wrote: > @Clement_Goubert all of the servers except wikikube-worker2346 are installed and...
[08:32:51] <jinxer-wm>	 FIRING: ATSBackendErrorsHigh: ATS: elevated 5xx errors from swift.discovery.wmnet in codfw #page - https://wikitech.wikimedia.org/wiki/Apache_Traffic_Server#Debugging - https://grafana.wikimedia.org/d/1T_4O08Wk/ats-backends-origin-servers-overview?orgId=1&viewPanel=12&var-site=codfw&var-cluster=upload&var-origin=swift.discovery.wmnet - https://alerts.wikimedia.org/?q=alertname%3DATSBackendErrorsHigh
[08:33:06] <wikibugs>	 10ops-codfw, 06SRE, 06DC-Ops, 06ServiceOps new: wikikube-worker2346 DOA - https://phabricator.wikimedia.org/T414708#11547880 (10Clement_Goubert)
[08:33:24] <marostegui>	 Woot
[08:34:09] <marostegui>	 !incidents
[08:34:09] <sirenbot>	 7364 (UNACKED)  ATSBackendErrorsHigh cache_upload sre (swift.discovery.wmnet codfw)
[08:34:09] <sirenbot>	 7363 (RESOLVED)  ATSBackendErrorsHigh cache_upload sre (swift.discovery.wmnet codfw)
[08:34:10] <sirenbot>	 7362 (RESOLVED)  ATSBackendErrorsHigh cache_upload sre (swift.discovery.wmnet codfw)
[08:34:10] <sirenbot>	 7361 (RESOLVED)  ATSBackendErrorsHigh cache_upload sre (swift.discovery.wmnet codfw)
[08:34:10] <sirenbot>	 7360 (RESOLVED)  ATSBackendErrorsHigh cache_upload sre (swift.discovery.wmnet codfw)
[08:34:10] <sirenbot>	 7358 (RESOLVED)  NELHigh sre (thanos-rule@main tcp.timed_out)
[08:34:14] <marostegui>	 !ack 7364
[08:34:14] <sirenbot>	 7364 (ACKED)  ATSBackendErrorsHigh cache_upload sre (swift.discovery.wmnet codfw)
[08:34:27] <claime>	 marostegui: you can !ack without argument and it will ack the last one
[08:34:38] <marostegui>	 claime: Ah thanks :)
[08:35:51] <godog>	 checking too
[08:37:51] <jinxer-wm>	 RESOLVED: ATSBackendErrorsHigh: ATS: elevated 5xx errors from swift.discovery.wmnet in codfw #page - https://wikitech.wikimedia.org/wiki/Apache_Traffic_Server#Debugging - https://grafana.wikimedia.org/d/1T_4O08Wk/ats-backends-origin-servers-overview?orgId=1&viewPanel=12&var-site=codfw&var-cluster=upload&var-origin=swift.discovery.wmnet - https://alerts.wikimedia.org/?q=alertname%3DATSBackendErrorsHigh
[08:58:15] <wikibugs>	 (03CR) 10Elukey: "Hi folks! I appreciate a lot the follow up for the wdqs configs, but please reach out to somebody from the SLO working group before mergin" [puppet] - 10https://gerrit.wikimedia.org/r/1230399 (https://phabricator.wikimedia.org/T393966) (owner: 10Ryan Kemper)
[09:01:01] <wikibugs>	 (03CR) 10Elukey: "Moreover:" [puppet] - 10https://gerrit.wikimedia.org/r/1230399 (https://phabricator.wikimedia.org/T393966) (owner: 10Ryan Kemper)
[09:07:16] <moritzm>	 !log installing Linux 6.1.159 on Bookworm hosts
[09:07:21] <stashbot>	 Logged the message at https://wikitech.wikimedia.org/wiki/Server_Admin_Log
[09:08:06] <wikibugs>	 06SRE, 10SRE-Access-Requests, 06Data-Platform-SRE (2026.01.05 - 2026.01.23), 07Essential-Work: Requesting `analytics-admins` access for AKhatun - https://phabricator.wikimedia.org/T414846#11547917 (10Gehel)
[09:08:08] <wikibugs>	 06SRE, 10SRE-Access-Requests, 06Data-Engineering, 06Data-Platform-SRE (2026.01.05 - 2026.01.23), 07Essential-Work: Grant Access to analytics-privatedata-users for hmonroy - https://phabricator.wikimedia.org/T414375#11547916 (10Gehel)
[09:08:10] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops, 06Data-Platform-SRE (2026.01.05 - 2026.01.23), 07Essential-Work: Network is hard down on an-worker1160.eqiad.wmnet - https://phabricator.wikimedia.org/T414942#11547918 (10Gehel)
[09:20:09] <jinxer-wm>	 RESOLVED: KubernetesCalicoDown: ml-serve2004.codfw.wmnet is not running calico-node Pod - https://wikitech.wikimedia.org/wiki/Calico#Operations - https://grafana.wikimedia.org/d/G8zPL7-Wz/?var-dc=codfw%20prometheus%2Fk8s-mlserve&var-instance=ml-serve2004.codfw.wmnet - https://alerts.wikimedia.org/?q=alertname%3DKubernetesCalicoDown
[09:34:13] <jinxer-wm>	 FIRING: JobUnavailable: Reduced availability for job thanos-compact in ops@codfw - https://wikitech.wikimedia.org/wiki/Prometheus#Prometheus_job_unavailable - https://grafana.wikimedia.org/d/NEJu05xZz/prometheus-targets - https://alerts.wikimedia.org/?q=alertname%3DJobUnavailable
[09:36:50] <wikibugs>	 06SRE, 10MW-on-K8s, 06serviceops: Migrate MW appservers' base images to bullseye - https://phabricator.wikimedia.org/T356293#11547964 (10MoritzMuehlenhoff) 05Stalled→03Resolved a:03MoritzMuehlenhoff This is long done
[09:40:56] <wikibugs>	 (03CR) 10Elukey: [C:03+2] docker_registry: simplify and improve the /v2/ comment [puppet] - 10https://gerrit.wikimedia.org/r/1229143 (owner: 10Elukey)
[09:41:53] <wikibugs>	 (03PS2) 10Elukey: DNM: docker_registry: move /v2/restricted to the s3 restricted backend [puppet] - 10https://gerrit.wikimedia.org/r/1229145 (https://phabricator.wikimedia.org/T412951)
[09:44:30] <wikibugs>	 (03PS3) 10Elukey: docker_registry: move /v2/restricted to the s3 restricted backend [puppet] - 10https://gerrit.wikimedia.org/r/1229145 (https://phabricator.wikimedia.org/T412951)
[09:44:59] <wikibugs>	 (03CR) 10Elukey: "To be merged after the SRE Summit." [puppet] - 10https://gerrit.wikimedia.org/r/1229145 (https://phabricator.wikimedia.org/T412951) (owner: 10Elukey)
[09:46:48] <logmsgbot>	 !log jmm@cumin2002 START - Cookbook sre.hosts.reboot-single for host ganeti-test2001.codfw.wmnet
[09:48:36] <wikibugs>	 (03CR) 10Elukey: ml-builder-docker: add group (031 comment) [puppet] - 10https://gerrit.wikimedia.org/r/1230280 (owner: 10Dpogorzelski)
[09:50:53] <wikibugs>	 (03CR) 10Clément Goubert: [C:03+1] failoid-ng: start breaking it [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230471 (owner: 10Kamila Součková)
[09:52:31] <logmsgbot>	 !log jmm@cumin2002 END (PASS) - Cookbook sre.hosts.reboot-single (exit_code=0) for host ganeti-test2001.codfw.wmnet
[09:56:59] <logmsgbot>	 !log jmm@cumin2002 START - Cookbook sre.hosts.reboot-single for host ganeti-test2003.codfw.wmnet
[09:57:58] <wikibugs>	 (03PS1) 10Jgiannelos: mobileapps: Define max-semi-space-size for node [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230877 (https://phabricator.wikimedia.org/T410296)
[09:59:01] <wikibugs>	 (03CR) 10Clément Goubert: [C:03+1] mobileapps: Define max-semi-space-size for node [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230877 (https://phabricator.wikimedia.org/T410296) (owner: 10Jgiannelos)
[10:01:18] <wikibugs>	 (03CR) 10Jgiannelos: [C:03+2] mobileapps: Define max-semi-space-size for node [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230877 (https://phabricator.wikimedia.org/T410296) (owner: 10Jgiannelos)
[10:02:54] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops, 06Data-Platform-SRE (2026.01.23 - 2026.02.13): Degraded RAID on an-worker1204 - https://phabricator.wikimedia.org/T414861#11548001 (10Gehel)
[10:02:59] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops, 06Data-Platform-SRE (2026.01.23 - 2026.02.13), 07Essential-Work: Q2:rack/setup/install wdqs1033-1035 - https://phabricator.wikimedia.org/T411731#11548005 (10Gehel)
[10:03:05] <wikibugs>	 (03Merged) 10jenkins-bot: mobileapps: Define max-semi-space-size for node [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230877 (https://phabricator.wikimedia.org/T410296) (owner: 10Jgiannelos)
[10:03:09] <logmsgbot>	 !log jmm@cumin2002 END (PASS) - Cookbook sre.hosts.reboot-single (exit_code=0) for host ganeti-test2003.codfw.wmnet
[10:03:59] <wikibugs>	 10SRE-SLO, 10observability, 06Data-Platform-SRE (2026.01.23 - 2026.02.13), 07Essential-Work, 13Patch-For-Review: Update WDQS SLOs to reflect graph split changes - https://phabricator.wikimedia.org/T393966#11548029 (10Gehel)
[10:04:11] <wikibugs>	 06SRE, 10SRE-swift-storage, 10Infrastructure Security, 06Data-Platform-SRE (2026.01.23 - 2026.02.13), and 3 others: October 2025 Bullseye reboots: Search Platform-owned hosts - https://phabricator.wikimedia.org/T410573#11548040 (10Gehel)
[10:04:21] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops, 06Data-Platform-SRE (2026.01.23 - 2026.02.13): Degraded RAID on an-worker1187 - https://phabricator.wikimedia.org/T415002#11548042 (10Gehel)
[10:04:31] <wikibugs>	 06SRE, 06Infrastructure-Foundations, 10netops, 06Data-Platform-SRE (2026.01.23 - 2026.02.13), 07Essential-Work: Socket leaking on some dse-k8s row C & D hosts - https://phabricator.wikimedia.org/T414460#11548046 (10Gehel)
[10:04:53] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops, 06Data-Platform-SRE (2026.01.23 - 2026.02.13), 07Essential-Work: Degraded RAID on an-worker1200 - https://phabricator.wikimedia.org/T413360#11548048 (10Gehel)
[10:05:37] <logmsgbot>	 !log jgiannelos@deploy2002 helmfile [staging] START helmfile.d/services/mobileapps: apply
[10:05:38] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops, 06Data-Platform-SRE (2026.01.23 - 2026.02.13): Q3:rack/setup/install dse-k8s-worker10[20-22] - https://phabricator.wikimedia.org/T414216#11548076 (10Gehel)
[10:05:50] <logmsgbot>	 !log jgiannelos@deploy2002 helmfile [staging] DONE helmfile.d/services/mobileapps: apply
[10:06:03] <logmsgbot>	 !log jgiannelos@deploy2002 helmfile [eqiad] START helmfile.d/services/mobileapps: apply
[10:06:10] <wikibugs>	 07sre-alert-triage, 06Data-Platform-SRE (2026.01.23 - 2026.02.13): Alert in need of triage: KubernetesAPIErrorRate - https://phabricator.wikimedia.org/T414970#11548100 (10Gehel)
[10:06:16] <wikibugs>	 07sre-alert-triage, 06Data-Platform-SRE (2026.01.23 - 2026.02.13): Alert in need of triage: KubernetesAPIErrorRate - https://phabricator.wikimedia.org/T414413#11548098 (10Gehel)
[10:06:47] <logmsgbot>	 !log jgiannelos@deploy2002 helmfile [eqiad] DONE helmfile.d/services/mobileapps: apply
[10:07:06] <logmsgbot>	 !log jgiannelos@deploy2002 helmfile [codfw] START helmfile.d/services/mobileapps: apply
[10:07:49] <logmsgbot>	 !log jgiannelos@deploy2002 helmfile [codfw] DONE helmfile.d/services/mobileapps: apply
[10:12:27] <wikibugs>	 06SRE, 06Data-Platform-SRE (2026.01.23 - 2026.02.13), 13Patch-For-Review: October 2025 Bullseye reboots: Data Platform Engineering-owned hosts - https://phabricator.wikimedia.org/T411568#11548233 (10Gehel)
[10:20:45] <wikibugs>	 10SRE-SLO, 10observability, 10Wikidata-Query-Service, 06Data-Platform-SRE (2026.01.23 - 2026.02.13), and 2 others: Update WDQS SLOs to reflect graph split changes - https://phabricator.wikimedia.org/T393966#11548287 (10gmodena)
[10:27:57] <icinga-wm>	 PROBLEM - Check unit status of httpbb_kubernetes_mw-web-next_hourly on cumin2002 is CRITICAL: CRITICAL: Status of the systemd unit httpbb_kubernetes_mw-web-next_hourly https://wikitech.wikimedia.org/wiki/Monitoring/systemd_unit_state
[10:28:29] <wikibugs>	 06SRE, 06Infrastructure-Foundations: Build OpenGear serial port config from Netbox - https://phabricator.wikimedia.org/T415345 (10cmooney) 03NEW p:05Triage→03Low
[10:45:28] <wikibugs>	 06SRE, 06Infrastructure-Foundations: Migrate diffscan VM to Trixie - https://phabricator.wikimedia.org/T415347 (10MoritzMuehlenhoff) 03NEW
[10:48:20] <wikibugs>	 (03PS3) 10Slyngshede: Docker build [software/cas-overlay-template] - 10https://gerrit.wikimedia.org/r/1229106 (https://phabricator.wikimedia.org/T412826)
[10:59:22] <wikibugs>	 (03CR) 10Elukey: Docker build (034 comments) [software/cas-overlay-template] - 10https://gerrit.wikimedia.org/r/1229106 (https://phabricator.wikimedia.org/T412826) (owner: 10Slyngshede)
[11:06:03] <icinga-wm>	 PROBLEM - Host titan1002 is DOWN: PING CRITICAL - Packet loss = 100%
[11:07:27] <logmsgbot>	 !log aokoth@cumin1003 START - Cookbook sre.gitlab.upgrade on GitLab host gitlab1004.wikimedia.org with reason: Security Update
[11:09:13] <jinxer-wm>	 FIRING: [2x] ProbeDown: Service titan1002:443 has failed probes (http_thanos_wikimedia_org_ip4) - https://wikitech.wikimedia.org/wiki/Runbook#titan1002:443 - https://grafana.wikimedia.org/d/O0nHhdhnz/network-probes-overview?var-job=probes/custom&var-module=All - https://alerts.wikimedia.org/?q=alertname%3DProbeDown
[11:09:31] <icinga-wm>	 RECOVERY - Host titan1002 is UP: PING OK - Packet loss = 0%, RTA = 0.28 ms
[11:14:13] <jinxer-wm>	 RESOLVED: [2x] ProbeDown: Service titan1002:443 has failed probes (http_thanos_wikimedia_org_ip4) - https://wikitech.wikimedia.org/wiki/Runbook#titan1002:443 - https://grafana.wikimedia.org/d/O0nHhdhnz/network-probes-overview?var-job=probes/custom&var-module=All - https://alerts.wikimedia.org/?q=alertname%3DProbeDown
[11:17:57] <icinga-wm>	 RECOVERY - Check unit status of httpbb_kubernetes_mw-web-next_hourly on cumin2002 is OK: OK: Status of the systemd unit httpbb_kubernetes_mw-web-next_hourly https://wikitech.wikimedia.org/wiki/Monitoring/systemd_unit_state
[11:18:06] <wikibugs>	 (03CR) 10Clément Goubert: [C:03+2] failoid-ng: start breaking it [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230471 (owner: 10Kamila Součková)
[11:18:10] <jinxer-wm>	 FIRING: BFDdown: BFD session down between cr1-eqiad and fe80::a6e1:1a00:106f:d3a3 - https://wikitech.wikimedia.org/wiki/Network_monitoring#BFD_status - https://grafana.wikimedia.org/d/fb403d62-5f03-434a-9dff-bd02b9fff504/network-device-overview?var-instance=cr1-eqiad:9804 - https://alerts.wikimedia.org/?q=alertname%3DBFDdown
[11:19:05] <wikibugs>	 06SRE, 10SRE-Access-Requests: Requesting access to analytics-privatedata-users for ggalofre - https://phabricator.wikimedia.org/T415172#11548425 (10Arnoldokoth) 05Open→03In progress a:03Arnoldokoth
[11:19:13] <jinxer-wm>	 FIRING: [2x] PuppetCertificateAboutToExpire: Puppet CA certificate eventstreams-internal.discovery.wmnet is about to expire - https://wikitech.wikimedia.org/wiki/Puppet#Renew_agent_certificate - TODO - https://alerts.wikimedia.org/?q=alertname%3DPuppetCertificateAboutToExpire
[11:20:13] <wikibugs>	 06SRE, 10SRE-Access-Requests: Requesting access to analytics-privatedata-users for ggalofre - https://phabricator.wikimedia.org/T415172#11548431 (10Arnoldokoth)
[11:21:14] <wikibugs>	 06SRE, 10SRE-Access-Requests: Requesting access to analytics-privatedata-users for ggalofre - https://phabricator.wikimedia.org/T415172#11548435 (10Arnoldokoth) @Ottomata Kindly approve.
[11:23:10] <jinxer-wm>	 RESOLVED: BFDdown: BFD session down between cr1-eqiad and fe80::a6e1:1a00:106f:d3a3 - https://wikitech.wikimedia.org/wiki/Network_monitoring#BFD_status - https://grafana.wikimedia.org/d/fb403d62-5f03-434a-9dff-bd02b9fff504/network-device-overview?var-instance=cr1-eqiad:9804 - https://alerts.wikimedia.org/?q=alertname%3DBFDdown
[11:24:14] <wikibugs>	 06SRE, 06Infrastructure-Foundations: Build OpenGear serial port config from Netbox - https://phabricator.wikimedia.org/T415345#11548437 (10cmooney) Despite the fact I should be spending time on other things I had a bash at this:  https://github.com/topranks/openconfigports
[11:24:25] <jinxer-wm>	 FIRING: [9x] SystemdUnitFailed: dump_cloud_ip_ranges.service on puppetserver2004:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[11:26:37] <wikibugs>	 (03Merged) 10jenkins-bot: failoid-ng: start breaking it [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230471 (owner: 10Kamila Součková)
[11:43:58] <wikibugs>	 (03CR) 10Silvan Heintze: [C:03+1] "Yes, sounds reasonable. Thanks." [dumps] - 10https://gerrit.wikimedia.org/r/1229127 (https://phabricator.wikimedia.org/T408423) (owner: 10Jakob)
[12:00:04] <jouncebot>	 Deploy window No deploys all day! See Deployments/Emergencies if things are broken. (https://wikitech.wikimedia.org/wiki/Deployments#deploycal-item-20260123T0800)
[12:00:04] <jouncebot>	 jelto, arnoldokoth, mutante, and arnaudb: Time to snap out of that daydream and deploy GitLab version upgrades. (https://wikitech.wikimedia.org/wiki/Deployments#deploycal-item-20260123T1200).
[12:04:02] <wikibugs>	 (03CR) 10Elukey: Docker build (031 comment) [software/cas-overlay-template] - 10https://gerrit.wikimedia.org/r/1229106 (https://phabricator.wikimedia.org/T412826) (owner: 10Slyngshede)
[12:04:54] <logmsgbot>	 aokoth@cumin1003 aokoth: The backup on gitlab1004 is complete, ready to proceed with upgrade.
[12:05:46] <wikibugs>	 (03PS1) 10Muehlenhoff: Stop running the IP reputation dump on the Puppet 5 servers [puppet] - 10https://gerrit.wikimedia.org/r/1230912 (https://phabricator.wikimedia.org/T365798)
[12:05:48] <wikibugs>	 (03PS1) 10Muehlenhoff: Remove ip_reputation_vendors from Puppet 5 servers [puppet] - 10https://gerrit.wikimedia.org/r/1230913 (https://phabricator.wikimedia.org/T365798)
[12:06:16] <wikibugs>	 (03CR) 10CI reject: [V:04-1] Stop running the IP reputation dump on the Puppet 5 servers [puppet] - 10https://gerrit.wikimedia.org/r/1230912 (https://phabricator.wikimedia.org/T365798) (owner: 10Muehlenhoff)
[12:07:54] <logmsgbot>	 aokoth@cumin1003 upgrade (PID 3249333) is awaiting input
[12:10:32] <wikibugs>	 (03PS2) 10Muehlenhoff: Stop running the IP reputation dump on the Puppet 5 servers [puppet] - 10https://gerrit.wikimedia.org/r/1230912 (https://phabricator.wikimedia.org/T365798)
[12:14:43] <icinga-wm>	 PROBLEM - Gitlab HTTPS healthcheck on gitlab.wikimedia.org is CRITICAL: HTTP CRITICAL: HTTP/1.1 502 Bad Gateway - 2353 bytes in 0.011 second response time https://wikitech.wikimedia.org/wiki/GitLab%23Monitoring
[12:15:06] <wikibugs>	 (03CR) 10Muehlenhoff: "check experimental" [puppet] - 10https://gerrit.wikimedia.org/r/1230912 (https://phabricator.wikimedia.org/T365798) (owner: 10Muehlenhoff)
[12:15:43] <icinga-wm>	 RECOVERY - Gitlab HTTPS healthcheck on gitlab.wikimedia.org is OK: HTTP OK: HTTP/1.1 200 OK - 117333 bytes in 0.513 second response time https://wikitech.wikimedia.org/wiki/GitLab%23Monitoring
[12:18:00] <logmsgbot>	 !log aokoth@cumin1003 END (PASS) - Cookbook sre.gitlab.upgrade (exit_code=0) on GitLab host gitlab1004.wikimedia.org with reason: Security Update
[12:18:48] <wikibugs>	 (03PS1) 10Muehlenhoff: Remove ip_reputation_vendors from puppetmasters [puppet] - 10https://gerrit.wikimedia.org/r/1230914 (https://phabricator.wikimedia.org/T365798)
[12:19:25] <jinxer-wm>	 FIRING: [10x] SystemdUnitFailed: gitlab-package-puller.service on apt-staging2001:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[12:19:57] <wikibugs>	 (03Abandoned) 10Muehlenhoff: Remove ip_reputation_vendors from Puppet 5 servers [puppet] - 10https://gerrit.wikimedia.org/r/1230913 (https://phabricator.wikimedia.org/T365798) (owner: 10Muehlenhoff)
[12:24:11] <wikibugs>	 (03CR) 10Pmiazga: [C:03+1] rest-gateway: add support for sessionJwt cookies [deployment-charts] - 10https://gerrit.wikimedia.org/r/1224173 (owner: 10Daniel Kinzler)
[12:24:25] <jinxer-wm>	 FIRING: [10x] SystemdUnitFailed: gitlab-package-puller.service on apt-staging2001:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[12:30:10] <wikibugs>	 06SRE, 06Infrastructure-Foundations, 10netops, 06Data-Platform-SRE (2026.01.23 - 2026.02.13), 07Essential-Work: Socket leaking on some dse-k8s row C & D hosts - https://phabricator.wikimedia.org/T414460#11548597 (10cmooney) So looking at dse-k8s-worker1013 it has now been up for 1 day 18 hours, yet we st...
[12:32:44] <moritzm>	 !log uploaded dnsmasq 2.92-1~wmf12u to bookworm-wikimedia/main T396864
[12:32:48] <stashbot>	 Logged the message at https://wikitech.wikimedia.org/wiki/Server_Admin_Log
[12:32:50] <stashbot>	 T396864: Routed Ganeti: same node DHCP limitation - https://phabricator.wikimedia.org/T396864
[12:34:29] <wikibugs>	 (03PS4) 10Slyngshede: Docker build [software/cas-overlay-template] - 10https://gerrit.wikimedia.org/r/1229106 (https://phabricator.wikimedia.org/T412826)
[12:35:37] <wikibugs>	 (03CR) 10Slyngshede: Docker build (035 comments) [software/cas-overlay-template] - 10https://gerrit.wikimedia.org/r/1229106 (https://phabricator.wikimedia.org/T412826) (owner: 10Slyngshede)
[12:48:43] <wikibugs>	 (03CR) 10Slyngshede: [C:03+1] "LGTM" [puppet] - 10https://gerrit.wikimedia.org/r/1230912 (https://phabricator.wikimedia.org/T365798) (owner: 10Muehlenhoff)
[12:53:59] <logmsgbot>	 !log cgoubert@deploy2002 helmfile [staging-eqiad] START helmfile.d/admin 'apply'.
[12:55:02] <wikibugs>	 (03PS1) 10Jgiannelos: mobileapps: Revert to last known working state (node18) [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230917 (https://phabricator.wikimedia.org/T410296)
[12:55:43] <logmsgbot>	 !log cgoubert@deploy2002 helmfile [staging-eqiad] DONE helmfile.d/admin 'apply'.
[13:09:09] <wikibugs>	 (03CR) 10Elukey: [C:03+1] "LTGM!" [software/cas-overlay-template] - 10https://gerrit.wikimedia.org/r/1229106 (https://phabricator.wikimedia.org/T412826) (owner: 10Slyngshede)
[13:20:28] <wikibugs>	 06SRE, 06Infrastructure-Foundations, 10netops, 06Data-Platform-SRE (2026.01.23 - 2026.02.13), 07Essential-Work: Socket leaking on some dse-k8s row C & D hosts - https://phabricator.wikimedia.org/T414460#11548743 (10JAllemandou) It seems that the `dse-k8s-worker1019` still has the problem: {F71597128}
[13:24:25] <jinxer-wm>	 FIRING: [10x] SystemdUnitFailed: check_netbox_uncommitted_dns_changes.service on netbox1003:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[13:26:00] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.dns.netbox
[13:29:25] <jinxer-wm>	 FIRING: [10x] SystemdUnitFailed: check_netbox_uncommitted_dns_changes.service on netbox1003:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[13:29:40] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.puppet.sync-netbox-hiera generate netbox hiera data: "Triggered by cookbooks.sre.dns.netbox: added network and mgmt tools-k8  - jclark@cumin1003"
[13:29:45] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.puppet.sync-netbox-hiera (exit_code=0) generate netbox hiera data: "Triggered by cookbooks.sre.dns.netbox: added network and mgmt tools-k8  - jclark@cumin1003"
[13:29:45] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.dns.netbox (exit_code=0)
[13:32:38] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.provision for host tools-k8s-ctrl1001.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[13:32:53] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.provision for host tools-k8s-ctrl1002.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[13:33:04] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.provision for host tools-k8s-worker1002.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[13:33:16] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.provision for host tools-k8s-worker1001.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[13:33:41] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.provision for host tools-k8s-worker1003.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[13:34:13] <jinxer-wm>	 FIRING: JobUnavailable: Reduced availability for job thanos-compact in ops@codfw - https://wikitech.wikimedia.org/wiki/Prometheus#Prometheus_job_unavailable - https://grafana.wikimedia.org/d/NEJu05xZz/prometheus-targets - https://alerts.wikimedia.org/?q=alertname%3DJobUnavailable
[13:34:29] <icinga-wm>	 RECOVERY - Host asw2-c-eqiad is UP: PING OK - Packet loss = 0%, RTA = 0.56 ms
[13:34:39] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.provision for host tools-k8s-worker1004.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[13:35:17] <icinga-wm>	 RECOVERY - Host asw2-d-eqiad is UP: PING OK - Packet loss = 0%, RTA = 0.63 ms
[13:36:15] <icinga-wm>	 PROBLEM - Juniper alarms on asw2-d-eqiad is CRITICAL: JNX_ALARMS CRITICAL - No response from remote host 10.65.0.27 https://wikitech.wikimedia.org/wiki/Network_monitoring%23Juniper_alarm
[13:39:18] <logmsgbot>	 jclark@cumin1003 provision (PID 3266978) is awaiting input
[13:40:10] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.provision (exit_code=0) for host tools-k8s-ctrl1001.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[13:40:41] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.provision (exit_code=0) for host tools-k8s-ctrl1002.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[13:40:51] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.provision (exit_code=0) for host tools-k8s-worker1002.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[13:41:19] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.provision (exit_code=0) for host tools-k8s-worker1001.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[13:42:03] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.provision (exit_code=0) for host tools-k8s-worker1004.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[13:42:12] <wikibugs>	 06SRE, 06Data-Engineering, 06Data-Platform-SRE, 10ServiceOps-Datastores, 10Event-Platform: DRY kafka broker declaration in helmfiles - https://phabricator.wikimedia.org/T253058#11548824 (10MLechvien-WMF) Removing our tag, please add it back if anything is needed from our end
[13:44:05] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.network.configure-switch-interfaces for host tools-k8s-worker1003
[13:44:10] <logmsgbot>	 !log jclark@cumin1003 END (FAIL) - Cookbook sre.hosts.provision (exit_code=99) for host tools-k8s-worker1003.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[13:44:18] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.network.configure-switch-interfaces (exit_code=0) for host tools-k8s-worker1003
[13:44:45] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.provision for host tools-k8s-worker1003.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[13:48:35] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.reimage for host tools-k8s-worker1001.eqiad.wmnet with OS trixie
[13:48:42] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.reimage for host tools-k8s-ctrl1001.eqiad.wmnet with OS trixie
[13:48:44] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops: Q2:rack/setup/install Toolforge - https://phabricator.wikimedia.org/T410403#11548843 (10ops-monitoring-bot) Cookbook cookbooks.sre.hosts.reimage was started by jclark@cumin1003 for host tools-k8s-worker1001.eqiad.wmnet with OS trixie
[13:48:46] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.reimage for host tools-k8s-worker1004.eqiad.wmnet with OS trixie
[13:48:48] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops: Q2:rack/setup/install Toolforge - https://phabricator.wikimedia.org/T410403#11548844 (10ops-monitoring-bot) Cookbook cookbooks.sre.hosts.reimage was started by jclark@cumin1003 for host tools-k8s-ctrl1001.eqiad.wmnet with OS trixie
[13:48:53] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops: Q2:rack/setup/install Toolforge - https://phabricator.wikimedia.org/T410403#11548845 (10ops-monitoring-bot) Cookbook cookbooks.sre.hosts.reimage was started by jclark@cumin1003 for host tools-k8s-worker1004.eqiad.wmnet with OS trixie
[13:48:57] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.reimage for host tools-k8s-ctrl1002.eqiad.wmnet with OS trixie
[13:49:12] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops: Q2:rack/setup/install Toolforge - https://phabricator.wikimedia.org/T410403#11548854 (10ops-monitoring-bot) Cookbook cookbooks.sre.hosts.reimage was started by jclark@cumin1003 for host tools-k8s-ctrl1002.eqiad.wmnet with OS trixie
[13:49:29] <logmsgbot>	 !log jclark@cumin1003 END (FAIL) - Cookbook sre.hosts.provision (exit_code=99) for host tools-k8s-worker1003.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[13:51:25] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.reimage for host tools-k8s-worker1002.eqiad.wmnet with OS trixie
[13:51:40] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops: Q2:rack/setup/install Toolforge - https://phabricator.wikimedia.org/T410403#11548860 (10ops-monitoring-bot) Cookbook cookbooks.sre.hosts.reimage was started by jclark@cumin1003 for host tools-k8s-worker1002.eqiad.wmnet with OS trixie
[13:55:13] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.provision for host tools-k8s-worker1003.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[13:58:01] <logmsgbot>	 jclark@cumin1003 reimage (PID 3270130) is awaiting input
[13:59:47] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.downtime for 2:00:00 on tools-k8s-worker1004.eqiad.wmnet with reason: host reimage
[13:59:59] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.downtime for 2:00:00 on tools-k8s-worker1001.eqiad.wmnet with reason: host reimage
[14:00:05] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.downtime for 2:00:00 on tools-k8s-ctrl1001.eqiad.wmnet with reason: host reimage
[14:00:11] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.downtime for 2:00:00 on tools-k8s-ctrl1002.eqiad.wmnet with reason: host reimage
[14:02:43] <logmsgbot>	 jclark@cumin1003 provision (PID 3270481) is awaiting input
[14:04:43] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.downtime (exit_code=0) for 2:00:00 on tools-k8s-worker1004.eqiad.wmnet with reason: host reimage
[14:07:37] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.downtime (exit_code=0) for 2:00:00 on tools-k8s-worker1001.eqiad.wmnet with reason: host reimage
[14:07:54] <logmsgbot>	 !log jclark@cumin1003 END (FAIL) - Cookbook sre.hosts.provision (exit_code=99) for host tools-k8s-worker1003.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[14:08:02] <logmsgbot>	 !log jclark@cumin1003 END (FAIL) - Cookbook sre.hosts.reimage (exit_code=99) for host tools-k8s-worker1002.eqiad.wmnet with OS trixie
[14:08:10] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops: Q2:rack/setup/install Toolforge - https://phabricator.wikimedia.org/T410403#11548998 (10ops-monitoring-bot) Cookbook cookbooks.sre.hosts.reimage started by jclark@cumin1003 for host tools-k8s-worker1002.eqiad.wmnet with OS trixie executed with errors: - tools-k8s-worker1002 (**F...
[14:09:50] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.provision for host tools-k8s-worker1002.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[14:10:20] <logmsgbot>	 !log jclark@cumin1003 END (FAIL) - Cookbook sre.hosts.provision (exit_code=99) for host tools-k8s-worker1002.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[14:10:37] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.provision for host tools-k8s-worker1003.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[14:10:47] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.provision for host tools-k8s-worker1002.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[14:11:14] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.provision (exit_code=0) for host tools-k8s-worker1002.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[14:11:35] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.downtime (exit_code=0) for 2:00:00 on tools-k8s-ctrl1001.eqiad.wmnet with reason: host reimage
[14:16:25] <logmsgbot>	 jclark@cumin1003 provision (PID 3271305) is awaiting input
[14:19:12] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.downtime (exit_code=0) for 2:00:00 on tools-k8s-ctrl1002.eqiad.wmnet with reason: host reimage
[14:19:27] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.provision for host tools-k8s-worker1002.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[14:19:50] <logmsgbot>	 !log jclark@cumin1003 END (FAIL) - Cookbook sre.hosts.provision (exit_code=99) for host tools-k8s-worker1003.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[14:20:02] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.provision for host tools-k8s-worker1003.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[14:20:52] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.puppet.sync-netbox-hiera generate netbox hiera data: "Triggered by cookbooks.sre.hosts.reimage: Host reimage - jclark@cumin1003"
[14:21:34] <logmsgbot>	 !log jclark@cumin1003 END (FAIL) - Cookbook sre.hosts.provision (exit_code=99) for host tools-k8s-worker1003.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[14:22:56] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.puppet.sync-netbox-hiera (exit_code=0) generate netbox hiera data: "Triggered by cookbooks.sre.hosts.reimage: Host reimage - jclark@cumin1003"
[14:22:58] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.reimage (exit_code=0) for host tools-k8s-worker1004.eqiad.wmnet with OS trixie
[14:23:06] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops: Q2:rack/setup/install Toolforge - https://phabricator.wikimedia.org/T410403#11549045 (10ops-monitoring-bot) Cookbook cookbooks.sre.hosts.reimage started by jclark@cumin1003 for host tools-k8s-worker1004.eqiad.wmnet with OS trixie completed: - tools-k8s-worker1004 (**PASS**)   -...
[14:23:54] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.puppet.sync-netbox-hiera generate netbox hiera data: "Triggered by cookbooks.sre.hosts.reimage: Host reimage - jclark@cumin1003"
[14:24:55] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.dns.netbox
[14:26:28] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.puppet.sync-netbox-hiera (exit_code=0) generate netbox hiera data: "Triggered by cookbooks.sre.hosts.reimage: Host reimage - jclark@cumin1003"
[14:26:29] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.reimage (exit_code=0) for host tools-k8s-worker1001.eqiad.wmnet with OS trixie
[14:26:37] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops: Q2:rack/setup/install Toolforge - https://phabricator.wikimedia.org/T410403#11549054 (10ops-monitoring-bot) Cookbook cookbooks.sre.hosts.reimage started by jclark@cumin1003 for host tools-k8s-worker1001.eqiad.wmnet with OS trixie completed: - tools-k8s-worker1001 (**PASS**)   -...
[14:27:41] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.dns.netbox (exit_code=0)
[14:27:42] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.puppet.sync-netbox-hiera generate netbox hiera data: "Triggered by cookbooks.sre.hosts.reimage: Host reimage - jclark@cumin1003"
[14:28:18] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.puppet.sync-netbox-hiera (exit_code=0) generate netbox hiera data: "Triggered by cookbooks.sre.hosts.reimage: Host reimage - jclark@cumin1003"
[14:28:19] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.reimage (exit_code=0) for host tools-k8s-ctrl1001.eqiad.wmnet with OS trixie
[14:28:34] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops: Q2:rack/setup/install Toolforge - https://phabricator.wikimedia.org/T410403#11549057 (10ops-monitoring-bot) Cookbook cookbooks.sre.hosts.reimage started by jclark@cumin1003 for host tools-k8s-ctrl1001.eqiad.wmnet with OS trixie completed: - tools-k8s-ctrl1001 (**PASS**)   - Remo...
[14:35:41] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.puppet.sync-netbox-hiera generate netbox hiera data: "Triggered by cookbooks.sre.hosts.reimage: Host reimage - jclark@cumin1003"
[14:37:50] <wikibugs>	 10ops-drmrs: Alert for device asw1-b12-drmrs.mgmt.drmrs.wmnet - Port with no description on access switch - https://phabricator.wikimedia.org/T413005#11549076 (10phaultfinder)
[14:38:45] <logmsgbot>	 jclark@cumin1003 reimage (PID 3267808) is awaiting input
[14:42:56] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.puppet.sync-netbox-hiera (exit_code=0) generate netbox hiera data: "Triggered by cookbooks.sre.hosts.reimage: Host reimage - jclark@cumin1003"
[14:42:57] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.reimage (exit_code=0) for host tools-k8s-ctrl1002.eqiad.wmnet with OS trixie
[14:43:05] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops: Q2:rack/setup/install Toolforge - https://phabricator.wikimedia.org/T410403#11549093 (10ops-monitoring-bot) Cookbook cookbooks.sre.hosts.reimage started by jclark@cumin1003 for host tools-k8s-ctrl1002.eqiad.wmnet with OS trixie completed: - tools-k8s-ctrl1002 (**PASS**)   - Remo...
[14:52:47] <wikibugs>	 (03CR) 10Clément Goubert: [C:03+1] mobileapps: Revert to last known working state (node18) [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230917 (https://phabricator.wikimedia.org/T410296) (owner: 10Jgiannelos)
[15:04:07] <wikibugs>	 06SRE, 06Infrastructure-Foundations: Integrate Bookworm 12.13 point update - https://phabricator.wikimedia.org/T414205#11549154 (10MoritzMuehlenhoff)
[15:05:24] <wikibugs>	 (03PS1) 10Jdrewniak: WP25EasterEggs added to extension-list, config var, enabled on beta cluster. [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1230931 (https://phabricator.wikimedia.org/T415372)
[15:16:43] <wikibugs>	 (03CR) 10Jgiannelos: [C:03+2] mobileapps: Revert to last known working state (node18) [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230917 (https://phabricator.wikimedia.org/T410296) (owner: 10Jgiannelos)
[15:18:42] <wikibugs>	 (03Merged) 10jenkins-bot: mobileapps: Revert to last known working state (node18) [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230917 (https://phabricator.wikimedia.org/T410296) (owner: 10Jgiannelos)
[15:19:13] <jinxer-wm>	 FIRING: [2x] PuppetCertificateAboutToExpire: Puppet CA certificate eventstreams-internal.discovery.wmnet is about to expire - https://wikitech.wikimedia.org/wiki/Puppet#Renew_agent_certificate - TODO - https://alerts.wikimedia.org/?q=alertname%3DPuppetCertificateAboutToExpire
[15:22:47] <logmsgbot>	 !log jgiannelos@deploy2002 helmfile [staging] START helmfile.d/services/mobileapps: apply
[15:23:13] <logmsgbot>	 !log jgiannelos@deploy2002 helmfile [staging] DONE helmfile.d/services/mobileapps: apply
[15:23:33] <logmsgbot>	 !log jgiannelos@deploy2002 helmfile [eqiad] START helmfile.d/services/mobileapps: apply
[15:23:44] <wikibugs>	 (03PS1) 10Fabfur: varnish: set Retry-After for cli_tool, wdqs and library policies [puppet] - 10https://gerrit.wikimedia.org/r/1230937 (https://phabricator.wikimedia.org/T415375)
[15:24:15] <logmsgbot>	 !log jgiannelos@deploy2002 helmfile [eqiad] DONE helmfile.d/services/mobileapps: apply
[15:24:31] <wikibugs>	 (03CR) 10Fabfur: "check experimental" [puppet] - 10https://gerrit.wikimedia.org/r/1230937 (https://phabricator.wikimedia.org/T415375) (owner: 10Fabfur)
[15:24:48] <logmsgbot>	 !log jgiannelos@deploy2002 helmfile [codfw] START helmfile.d/services/mobileapps: apply
[15:25:30] <logmsgbot>	 !log jgiannelos@deploy2002 helmfile [codfw] DONE helmfile.d/services/mobileapps: apply
[15:26:49] <icinga-wm>	 RECOVERY - MariaDB Replica Lag: s1 on dbstore1008 is OK: OK slave_sql_lag Replication lag: 49.14 seconds https://wikitech.wikimedia.org/wiki/MariaDB/troubleshooting%23Depooling_a_replica
[15:30:57] <wikibugs>	 (03PS1) 10Clément Goubert: failoid-ng: Break completely [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230938
[15:31:06] <wikibugs>	 (03CR) 10CI reject: [V:04-1] failoid-ng: Break completely [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230938 (owner: 10Clément Goubert)
[15:31:20] <wikibugs>	 (03PS2) 10Clément Goubert: failoid-ng: Break completely [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230938
[15:41:35] <wikibugs>	 (03PS3) 10Clément Goubert: failoid-ng: Break completely [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230938
[15:52:09] <wikibugs>	 (03CR) 10Ahmon Dancy: "Exciting!" [puppet] - 10https://gerrit.wikimedia.org/r/1229145 (https://phabricator.wikimedia.org/T412951) (owner: 10Elukey)
[15:53:51] <jinxer-wm>	 FIRING: ATSBackendErrorsHigh: ATS: elevated 5xx errors from swift.discovery.wmnet in codfw #page - https://wikitech.wikimedia.org/wiki/Apache_Traffic_Server#Debugging - https://grafana.wikimedia.org/d/1T_4O08Wk/ats-backends-origin-servers-overview?orgId=1&viewPanel=12&var-site=codfw&var-cluster=upload&var-origin=swift.discovery.wmnet - https://alerts.wikimedia.org/?q=alertname%3DATSBackendErrorsHigh
[15:54:03] <volans>	 !ack
[15:54:04] <sirenbot>	 7365 (ACKED)  ATSBackendErrorsHigh cache_upload sre (swift.discovery.wmnet codfw)
[15:54:10] <elukey>	 hellooo
[15:54:21] <marostegui>	 same thing as we got in the morning
[15:54:40] <volans>	 yep: https://grafana.wikimedia.org/goto/aXOvJ8SDg?orgId=1
[15:54:46] <volans>	 and yesterday and tonight
[15:54:52] <elukey>	 marostegui: you clearly didn't apply the right cookbooks
[15:55:02] <marostegui>	 elukey: busy with cumin!
[15:55:18] <volans>	 we're still at a pretty low rps of errors
[15:56:07] <wikibugs>	 (03PS24) 10Daniel Kinzler: api-gateway: Rest-gateway Read `ratelimit_class` and `user_id` from JWT [deployment-charts] - 10https://gerrit.wikimedia.org/r/1192579 (https://phabricator.wikimedia.org/T405578) (owner: 10Pmiazga)
[15:56:18] <wikibugs>	 (03PS3) 10Daniel Kinzler: rest-gateway: add support for sessionJwt cookies [deployment-charts] - 10https://gerrit.wikimedia.org/r/1224173
[15:58:17] <marostegui>	 volans: godo.g mentioned this for this specific alert https://phabricator.wikimedia.org/T400675
[15:58:47] <wikibugs>	 (03CR) 10Brouberol: [C:03+1] "LGTM" [puppet] - 10https://gerrit.wikimedia.org/r/1199783 (https://phabricator.wikimedia.org/T401022) (owner: 10Xcollazo)
[15:59:51] <wikibugs>	 (03PS1) 10Xcollazo: Scale down mw-content-history-reconcile-enrich [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230950 (https://phabricator.wikimedia.org/T411803)
[16:01:05] <wikibugs>	 (03CR) 10Kamila Součková: [C:03+1] rest-gateway: add support for sessionJwt cookies [deployment-charts] - 10https://gerrit.wikimedia.org/r/1224173 (owner: 10Daniel Kinzler)
[16:02:35] <wikibugs>	 (03CR) 10Brouberol: [C:03+1] "Thanks!" [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230950 (https://phabricator.wikimedia.org/T411803) (owner: 10Xcollazo)
[16:02:46] <wikibugs>	 (03CR) 10JavierMonton: [C:03+2] "Thanks!" [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230950 (https://phabricator.wikimedia.org/T411803) (owner: 10Xcollazo)
[16:03:49] <wikibugs>	 (03CR) 10A-pizzata: [C:03+1] Scale down mw-content-history-reconcile-enrich [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230950 (https://phabricator.wikimedia.org/T411803) (owner: 10Xcollazo)
[16:04:04] <wikibugs>	 10ops-eqsin, 06SRE, 06DC-Ops, 06Traffic: cp5022 is unreachable - https://phabricator.wikimedia.org/T414411#11549362 (10Vgutierrez)
[16:04:08] <wikibugs>	 10ops-eqsin, 06SRE: Unresponsive management for cp5022.mgmt:22 - https://phabricator.wikimedia.org/T414879#11549365 (10Vgutierrez) →14Duplicate dup:03T414411
[16:04:31] <wikibugs>	 (03Merged) 10jenkins-bot: Scale down mw-content-history-reconcile-enrich [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230950 (https://phabricator.wikimedia.org/T411803) (owner: 10Xcollazo)
[16:04:43] <wikibugs>	 (03CR) 10Kamila Součková: [C:03+1] api-gateway: Rest-gateway Read `ratelimit_class` and `user_id` from JWT [deployment-charts] - 10https://gerrit.wikimedia.org/r/1192579 (https://phabricator.wikimedia.org/T405578) (owner: 10Pmiazga)
[16:05:20] <logmsgbot>	 !log vgutierrez@cumin1003 DONE (PASS) - Cookbook sre.hosts.downtime (exit_code=0) for 10 days, 0:00:00 on cp5022.eqsin.wmnet with reason: cp5022 is unreacheable
[16:05:36] <wikibugs>	 10ops-eqsin, 06SRE, 06DC-Ops, 06Traffic: cp5022 is unreachable - https://phabricator.wikimedia.org/T414411#11549368 (10ops-monitoring-bot) Icinga downtime and Alertmanager silence (ID=85b11191-0733-4a6c-a314-a87c77eb102d) set by vgutierrez@cumin1003 for 10 days, 0:00:00 on 1 host(s) and their services with...
[16:05:37] <fabfur>	 ah I was about to do the same
[16:07:40] <wikibugs>	 (03CR) 10Pmiazga: [C:03+1] rest-gateway: add support for sessionJwt cookies [deployment-charts] - 10https://gerrit.wikimedia.org/r/1224173 (owner: 10Daniel Kinzler)
[16:08:51] <jinxer-wm>	 FIRING: [2x] ATSBackendErrorsHigh: ATS: elevated 5xx errors from swift.discovery.wmnet in codfw #page - https://wikitech.wikimedia.org/wiki/Apache_Traffic_Server#Debugging  - https://alerts.wikimedia.org/?q=alertname%3DATSBackendErrorsHigh
[16:09:18] <volans>	 !ack
[16:09:18] <sirenbot>	 no value provided for parameter incident and no default available
[16:09:18] <sirenbot>	 All incidents are already acked.
[16:09:31] <volans>	 !incidents
[16:09:31] <sirenbot>	 7365 (ACKED)  ATSBackendErrorsHigh cache_upload sre (swift.discovery.wmnet codfw)
[16:09:31] <sirenbot>	 7364 (RESOLVED)  ATSBackendErrorsHigh cache_upload sre (swift.discovery.wmnet codfw)
[16:09:32] <sirenbot>	 7363 (RESOLVED)  ATSBackendErrorsHigh cache_upload sre (swift.discovery.wmnet codfw)
[16:09:32] <sirenbot>	 7362 (RESOLVED)  ATSBackendErrorsHigh cache_upload sre (swift.discovery.wmnet codfw)
[16:09:32] <sirenbot>	 7361 (RESOLVED)  ATSBackendErrorsHigh cache_upload sre (swift.discovery.wmnet codfw)
[16:09:32] <sirenbot>	 7360 (RESOLVED)  ATSBackendErrorsHigh cache_upload sre (swift.discovery.wmnet codfw)
[16:10:33] <wikibugs>	 (03CR) 10Brouberol: [C:03+2] dumps: Release the new MW Content File Export. Deprecate legacy XML dumps. [puppet] - 10https://gerrit.wikimedia.org/r/1199783 (https://phabricator.wikimedia.org/T401022) (owner: 10Xcollazo)
[16:13:30] <wikibugs>	 (03CR) 10Daniel Kinzler: [C:03+2] api-gateway: Rest-gateway Read `ratelimit_class` and `user_id` from JWT [deployment-charts] - 10https://gerrit.wikimedia.org/r/1192579 (https://phabricator.wikimedia.org/T405578) (owner: 10Pmiazga)
[16:13:33] <wikibugs>	 (03CR) 10Daniel Kinzler: [C:03+2] rest-gateway: add support for sessionJwt cookies [deployment-charts] - 10https://gerrit.wikimedia.org/r/1224173 (owner: 10Daniel Kinzler)
[16:15:26] <wikibugs>	 (03PS1) 10Clément Goubert: thumbor: 100 replicas to absorb queue [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230951
[16:15:45] <wikibugs>	 (03Merged) 10jenkins-bot: api-gateway: Rest-gateway Read `ratelimit_class` and `user_id` from JWT [deployment-charts] - 10https://gerrit.wikimedia.org/r/1192579 (https://phabricator.wikimedia.org/T405578) (owner: 10Pmiazga)
[16:15:47] <wikibugs>	 (03Merged) 10jenkins-bot: rest-gateway: add support for sessionJwt cookies [deployment-charts] - 10https://gerrit.wikimedia.org/r/1224173 (owner: 10Daniel Kinzler)
[16:16:20] <wikibugs>	 (03CR) 10Hnowlan: [C:03+1] thumbor: 100 replicas to absorb queue [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230951 (owner: 10Clément Goubert)
[16:16:26] <wikibugs>	 (03CR) 10Volans: [C:03+1] "LGTM" [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230951 (owner: 10Clément Goubert)
[16:16:27] <wikibugs>	 (03PS1) 10Ahmon Dancy: pretrain: Run one hour later, at 02:00UTC [puppet] - 10https://gerrit.wikimedia.org/r/1230952 (https://phabricator.wikimedia.org/T398873)
[16:16:39] <wikibugs>	 (03CR) 10Elukey: [C:03+1] thumbor: 100 replicas to absorb queue [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230951 (owner: 10Clément Goubert)
[16:17:18] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.dns.netbox
[16:17:19] <wikibugs>	 (03CR) 10Ahmon Dancy: "check experimental" [puppet] - 10https://gerrit.wikimedia.org/r/1230952 (https://phabricator.wikimedia.org/T398873) (owner: 10Ahmon Dancy)
[16:17:25] <wikibugs>	 (03CR) 10Clément Goubert: [C:03+2] thumbor: 100 replicas to absorb queue [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230951 (owner: 10Clément Goubert)
[16:18:24] <logmsgbot>	 !log daniel@deploy2002 helmfile [staging] START helmfile.d/services/rest-gateway: apply
[16:19:24] <wikibugs>	 (03Merged) 10jenkins-bot: thumbor: 100 replicas to absorb queue [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230951 (owner: 10Clément Goubert)
[16:19:37] <logmsgbot>	 !log daniel@deploy2002 helmfile [staging] DONE helmfile.d/services/rest-gateway: apply
[16:20:07] <logmsgbot>	 !log cgoubert@deploy2002 helmfile [eqiad] START helmfile.d/services/thumbor: apply
[16:20:15] <logmsgbot>	 !log cgoubert@deploy2002 helmfile [eqiad] DONE helmfile.d/services/thumbor: apply
[16:20:22] <logmsgbot>	 !log cgoubert@deploy2002 helmfile [codfw] START helmfile.d/services/thumbor: apply
[16:20:53] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.puppet.sync-netbox-hiera generate netbox hiera data: "Triggered by cookbooks.sre.dns.netbox: added network and mgmt tools-k8  - jclark@cumin1003"
[16:20:58] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.puppet.sync-netbox-hiera (exit_code=0) generate netbox hiera data: "Triggered by cookbooks.sre.dns.netbox: added network and mgmt tools-k8  - jclark@cumin1003"
[16:20:58] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.dns.netbox (exit_code=0)
[16:21:08] <logmsgbot>	 !log cgoubert@deploy2002 helmfile [codfw] DONE helmfile.d/services/thumbor: apply
[16:23:00] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.dns.netbox
[16:23:39] <wikibugs>	 (03PS1) 10Muehlenhoff: Record LDAP access for lerickson [puppet] - 10https://gerrit.wikimedia.org/r/1230955
[16:23:51] <jinxer-wm>	 RESOLVED: [2x] ATSBackendErrorsHigh: ATS: elevated 5xx errors from swift.discovery.wmnet in codfw #page - https://wikitech.wikimedia.org/wiki/Apache_Traffic_Server#Debugging  - https://alerts.wikimedia.org/?q=alertname%3DATSBackendErrorsHigh
[16:25:22] <logmsgbot>	 !log jclark@cumin1003 END (FAIL) - Cookbook sre.dns.netbox (exit_code=99)
[16:25:45] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.dns.netbox
[16:25:49] <icinga-wm>	 PROBLEM - Check unit status of httpbb_kubernetes_mw-api-int_hourly on cumin2002 is CRITICAL: CRITICAL: Status of the systemd unit httpbb_kubernetes_mw-api-int_hourly https://wikitech.wikimedia.org/wiki/Monitoring/systemd_unit_state
[16:26:15] <wikibugs>	 (03PS1) 10Xcollazo: dumps: Fix MW Content File Export. Remove already absented file def. [puppet] - 10https://gerrit.wikimedia.org/r/1230956 (https://phabricator.wikimedia.org/T414389)
[16:26:43] <wikibugs>	 (03CR) 10Ahmon Dancy: "PCC output: https://puppet-compiler.wmflabs.org/output/1230952/5691/deploy2002.codfw.wmnet/index.html" [puppet] - 10https://gerrit.wikimedia.org/r/1230952 (https://phabricator.wikimedia.org/T398873) (owner: 10Ahmon Dancy)
[16:26:57] <wikibugs>	 (03CR) 10Muehlenhoff: [C:03+2] Record LDAP access for lerickson [puppet] - 10https://gerrit.wikimedia.org/r/1230955 (owner: 10Muehlenhoff)
[16:28:13] <wikibugs>	 10ops-eqsin, 06SRE, 06DC-Ops, 06Traffic: cp5022 is unreachable - https://phabricator.wikimedia.org/T414411#11549433 (10RobH) While I've contacted Jin to do this work (T415090) I'm hesitant to do so during the week of the SRE offsite.  While I am attending remotely, the shift I'll have to make to attend in...
[16:28:45] <wikibugs>	 (03CR) 10Brouberol: [C:03+1] dumps: Fix MW Content File Export. Remove already absented file def. [puppet] - 10https://gerrit.wikimedia.org/r/1230956 (https://phabricator.wikimedia.org/T414389) (owner: 10Xcollazo)
[16:28:48] <wikibugs>	 (03CR) 10Brouberol: [C:03+2] dumps: Fix MW Content File Export. Remove already absented file def. [puppet] - 10https://gerrit.wikimedia.org/r/1230956 (https://phabricator.wikimedia.org/T414389) (owner: 10Xcollazo)
[16:30:18] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.puppet.sync-netbox-hiera generate netbox hiera data: "Triggered by cookbooks.sre.dns.netbox: added network and mgmt tools-k8  - jclark@cumin1003"
[16:30:23] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.puppet.sync-netbox-hiera (exit_code=0) generate netbox hiera data: "Triggered by cookbooks.sre.dns.netbox: added network and mgmt tools-k8  - jclark@cumin1003"
[16:30:23] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.dns.netbox (exit_code=0)
[16:31:00] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.provision for host tools-k8s-worker1002.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[16:31:11] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.provision for host tools-k8s-worker1003.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[16:33:21] <wikibugs>	 (03CR) 10BryanDavis: [C:03+1] "Nice find." [puppet] - 10https://gerrit.wikimedia.org/r/1230952 (https://phabricator.wikimedia.org/T398873) (owner: 10Ahmon Dancy)
[16:35:49] <icinga-wm>	 RECOVERY - Check unit status of httpbb_kubernetes_mw-api-int_hourly on cumin2002 is OK: OK: Status of the systemd unit httpbb_kubernetes_mw-api-int_hourly https://wikitech.wikimedia.org/wiki/Monitoring/systemd_unit_state
[16:36:57] <logmsgbot>	 jclark@cumin1003 provision (PID 3294117) is awaiting input
[16:38:34] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.provision (exit_code=0) for host tools-k8s-worker1002.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[16:39:53] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.provision (exit_code=0) for host tools-k8s-worker1003.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[16:41:12] <wikibugs>	 (03PS1) 10Jdrewniak: Bumping portals submodule to master [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1230961 (https://phabricator.wikimedia.org/T128546)
[16:41:16] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.provision for host tools-k8s-worker1002.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[16:43:05] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.reimage for host tools-k8s-worker1003.eqiad.wmnet with OS trixie
[16:43:18] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops: Q2:rack/setup/install Toolforge - https://phabricator.wikimedia.org/T410403#11549459 (10ops-monitoring-bot) Cookbook cookbooks.sre.hosts.reimage was started by jclark@cumin1003 for host tools-k8s-worker1003.eqiad.wmnet with OS trixie
[16:43:39] <logmsgbot>	 !log jclark@cumin1003 END (FAIL) - Cookbook sre.hosts.provision (exit_code=99) for host tools-k8s-worker1002.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[16:48:29] <logmsgbot>	 !log dancy@deploy2002 Installing scap version "4.235.0" for 2 host(s)
[16:49:16] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.provision for host tools-k8s-worker1002.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[16:50:20] <logmsgbot>	 !log dancy@deploy2002 Installation of scap version "4.235.0" completed for 2 hosts
[16:52:37] <wikibugs>	 (03PS1) 10Xcollazo: dumps: Update index.html file to reflect XML dumps deprecation [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230965 (https://phabricator.wikimedia.org/T414389)
[16:53:22] <wikibugs>	 06SRE, 06Infrastructure-Foundations: Integrate Bookworm 12.13 point update - https://phabricator.wikimedia.org/T414205#11549524 (10MoritzMuehlenhoff)
[16:53:51] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops: Q2:rack/setup/install Toolforge - https://phabricator.wikimedia.org/T410403#11549527 (10Jclark-ctr)
[16:53:59] <wikibugs>	 (03CR) 10Brouberol: [C:03+1] "No more DVDs :(" [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230965 (https://phabricator.wikimedia.org/T414389) (owner: 10Xcollazo)
[16:54:03] <wikibugs>	 (03CR) 10Brouberol: [C:03+2] dumps: Update index.html file to reflect XML dumps deprecation [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230965 (https://phabricator.wikimedia.org/T414389) (owner: 10Xcollazo)
[16:54:04] <wikibugs>	 (03CR) 10Brouberol: [V:03+2 C:03+2] dumps: Update index.html file to reflect XML dumps deprecation [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230965 (https://phabricator.wikimedia.org/T414389) (owner: 10Xcollazo)
[16:55:04] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.downtime for 2:00:00 on tools-k8s-worker1003.eqiad.wmnet with reason: host reimage
[16:56:46] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.provision (exit_code=0) for host tools-k8s-worker1002.mgmt.eqiad.wmnet with chassis set policy FORCE_RESTART
[16:56:51] <jinxer-wm>	 FIRING: ATSBackendErrorsHigh: ATS: elevated 5xx errors from swift.discovery.wmnet in codfw #page - https://wikitech.wikimedia.org/wiki/Apache_Traffic_Server#Debugging - https://grafana.wikimedia.org/d/1T_4O08Wk/ats-backends-origin-servers-overview?orgId=1&viewPanel=12&var-site=codfw&var-cluster=upload&var-origin=swift.discovery.wmnet - https://alerts.wikimedia.org/?q=alertname%3DATSBackendErrorsHigh
[16:56:53] <logmsgbot>	 !log brouberol@deploy2002 helmfile [dse-k8s-eqiad] START helmfile.d/services/mediawiki-dumps-legacy: apply
[16:57:10] <volans>	 !ack
[16:57:11] <sirenbot>	 7366 (ACKED)  ATSBackendErrorsHigh cache_upload sre (swift.discovery.wmnet codfw)
[16:57:36] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.reimage for host tools-k8s-worker1002.eqiad.wmnet with OS trixie
[16:57:44] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops: Q2:rack/setup/install Toolforge - https://phabricator.wikimedia.org/T410403#11549541 (10ops-monitoring-bot) Cookbook cookbooks.sre.hosts.reimage was started by jclark@cumin1003 for host tools-k8s-worker1002.eqiad.wmnet with OS trixie
[16:59:26] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.downtime (exit_code=0) for 2:00:00 on tools-k8s-worker1003.eqiad.wmnet with reason: host reimage
[17:01:00] <logmsgbot>	 !log brouberol@deploy2002 helmfile [dse-k8s-eqiad] DONE helmfile.d/services/mediawiki-dumps-legacy: apply
[17:05:25] <jinxer-wm>	 FIRING: SystemdUnitFailed: send_tile_invalidations.service on maps1011:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[17:08:58] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.hosts.downtime for 2:00:00 on tools-k8s-worker1002.eqiad.wmnet with reason: host reimage
[17:13:12] <wikibugs>	 (03PS1) 10Kamila Součková: Revert "api-gateway: Rest-gateway Read `ratelimit_class` and `user_id` from JWT" [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230969
[17:13:17] <wikibugs>	 (03PS1) 10Elukey: dse-k8s-services: add service-secrets to airflow-sre's helmfile config [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230970 (https://phabricator.wikimedia.org/T402512)
[17:13:22] <wikibugs>	 (03CR) 10CI reject: [V:04-1] Revert "api-gateway: Rest-gateway Read `ratelimit_class` and `user_id` from JWT" [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230969 (owner: 10Kamila Součková)
[17:13:35] <wikibugs>	 (03PS1) 10Kamila Součková: Revert "rest-gateway: add support for sessionJwt cookies" [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230971
[17:14:41] <wikibugs>	 (03CR) 10CI reject: [V:04-1] dse-k8s-services: add service-secrets to airflow-sre's helmfile config [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230970 (https://phabricator.wikimedia.org/T402512) (owner: 10Elukey)
[17:14:50] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.downtime (exit_code=0) for 2:00:00 on tools-k8s-worker1002.eqiad.wmnet with reason: host reimage
[17:15:26] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.puppet.sync-netbox-hiera generate netbox hiera data: "Triggered by cookbooks.sre.hosts.reimage: Host reimage - jclark@cumin1003"
[17:16:16] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.puppet.sync-netbox-hiera (exit_code=0) generate netbox hiera data: "Triggered by cookbooks.sre.hosts.reimage: Host reimage - jclark@cumin1003"
[17:16:17] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.reimage (exit_code=0) for host tools-k8s-worker1003.eqiad.wmnet with OS trixie
[17:16:24] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops: Q2:rack/setup/install Toolforge - https://phabricator.wikimedia.org/T410403#11549599 (10ops-monitoring-bot) Cookbook cookbooks.sre.hosts.reimage started by jclark@cumin1003 for host tools-k8s-worker1003.eqiad.wmnet with OS trixie completed: - tools-k8s-worker1003 (**PASS**)   -...
[17:19:50] <wikibugs>	 (03CR) 10Kamila Součková: [C:03+2] Revert "rest-gateway: add support for sessionJwt cookies" [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230971 (owner: 10Kamila Součková)
[17:20:55] <wikibugs>	 (03PS2) 10Kamila Součková: Revert "api-gateway: Rest-gateway Read `ratelimit_class` and `user_id` from JWT" [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230969
[17:21:04] <wikibugs>	 (03CR) 10CI reject: [V:04-1] Revert "api-gateway: Rest-gateway Read `ratelimit_class` and `user_id` from JWT" [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230969 (owner: 10Kamila Součková)
[17:21:51] <jinxer-wm>	 RESOLVED: ATSBackendErrorsHigh: ATS: elevated 5xx errors from swift.discovery.wmnet in codfw #page - https://wikitech.wikimedia.org/wiki/Apache_Traffic_Server#Debugging - https://grafana.wikimedia.org/d/1T_4O08Wk/ats-backends-origin-servers-overview?orgId=1&viewPanel=12&var-site=codfw&var-cluster=upload&var-origin=swift.discovery.wmnet - https://alerts.wikimedia.org/?q=alertname%3DATSBackendErrorsHigh
[17:22:01] <wikibugs>	 (03Merged) 10jenkins-bot: Revert "rest-gateway: add support for sessionJwt cookies" [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230971 (owner: 10Kamila Součková)
[17:22:34] <wikibugs>	 (03PS3) 10Kamila Součková: Revert "api-gateway: Rest-gateway Read `ratelimit_class` and `user_id` from JWT" [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230969
[17:25:29] <wikibugs>	 (03CR) 10Kamila Součková: [C:03+2] Revert "api-gateway: Rest-gateway Read `ratelimit_class` and `user_id` from JWT" [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230969 (owner: 10Kamila Součková)
[17:27:49] <wikibugs>	 (03Merged) 10jenkins-bot: Revert "api-gateway: Rest-gateway Read `ratelimit_class` and `user_id` from JWT" [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230969 (owner: 10Kamila Součková)
[17:28:18] <logmsgbot>	 !log jclark@cumin1003 START - Cookbook sre.puppet.sync-netbox-hiera generate netbox hiera data: "Triggered by cookbooks.sre.hosts.reimage: Host reimage - jclark@cumin1003"
[17:28:34] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.puppet.sync-netbox-hiera (exit_code=0) generate netbox hiera data: "Triggered by cookbooks.sre.hosts.reimage: Host reimage - jclark@cumin1003"
[17:28:35] <logmsgbot>	 !log jclark@cumin1003 END (PASS) - Cookbook sre.hosts.reimage (exit_code=0) for host tools-k8s-worker1002.eqiad.wmnet with OS trixie
[17:28:46] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops: Q2:rack/setup/install Toolforge - https://phabricator.wikimedia.org/T410403#11549622 (10ops-monitoring-bot) Cookbook cookbooks.sre.hosts.reimage started by jclark@cumin1003 for host tools-k8s-worker1002.eqiad.wmnet with OS trixie completed: - tools-k8s-worker1002 (**PASS**)   -...
[17:28:54] <logmsgbot>	 !log kamila@deploy2002 helmfile [staging] START helmfile.d/services/rest-gateway: apply
[17:29:24] <logmsgbot>	 !log kamila@deploy2002 helmfile [staging] DONE helmfile.d/services/rest-gateway: apply
[17:29:25] <jinxer-wm>	 FIRING: [9x] SystemdUnitFailed: dump_cloud_ip_ranges.service on puppetserver2004:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[17:32:48] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops: Q2:rack/setup/install Toolforge - https://phabricator.wikimedia.org/T410403#11549642 (10Jclark-ctr)
[17:34:13] <jinxer-wm>	 FIRING: JobUnavailable: Reduced availability for job thanos-compact in ops@codfw - https://wikitech.wikimedia.org/wiki/Prometheus#Prometheus_job_unavailable - https://grafana.wikimedia.org/d/NEJu05xZz/prometheus-targets - https://alerts.wikimedia.org/?q=alertname%3DJobUnavailable
[17:40:47] <wikibugs>	 10SRE-swift-storage, 06Data-Persistence, 10MediaViewer, 10Thumbor, 06Traffic: FY 25/26 WE 5.4.10 Standard Thumbnail Sizes Only - https://phabricator.wikimedia.org/T414805#11549678 (10Quiddity)
[17:42:01] <wikibugs>	 (03PS1) 10Arlolra: Deploy PRV to 20 wikis [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1230974 (https://phabricator.wikimedia.org/T415386)
[17:49:55] <wikibugs>	 (03PS1) 10Clément Goubert: failoid-ng: Prepare 10 releases [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230976
[17:51:04] <wikibugs>	 (03CR) 10Clément Goubert: [C:03+2] failoid-ng: Break completely [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230938 (owner: 10Clément Goubert)
[17:51:19] <wikibugs>	 (03PS2) 10Arlolra: Deploy PRV to 21 wikis [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1230974 (https://phabricator.wikimedia.org/T415386)
[17:52:50] <wikibugs>	 (03Merged) 10jenkins-bot: failoid-ng: Break completely [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230938 (owner: 10Clément Goubert)
[17:54:02] <wikibugs>	 (03CR) 10Clément Goubert: [C:03+2] failoid-ng: Prepare 10 releases [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230976 (owner: 10Clément Goubert)
[17:55:51] <wikibugs>	 (03Merged) 10jenkins-bot: failoid-ng: Prepare 10 releases [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230976 (owner: 10Clément Goubert)
[17:59:03] <jinxer-wm>	 FIRING: MediaWikiEditFailures: Elevated MediaWiki edit failures (session_loss) for cluster  - https://wikitech.wikimedia.org/wiki/Application_servers/Runbook - https://grafana.wikimedia.org/d/000000208/edit-count?orgId=1&viewPanel=13 - https://alerts.wikimedia.org/?q=alertname%3DMediaWikiEditFailures
[18:01:59] <icinga-wm>	 PROBLEM - Host wikikube-worker1108 is DOWN: PING CRITICAL - Packet loss = 77%, RTA = 7991.51 ms
[18:02:33] <icinga-wm>	 RECOVERY - Host wikikube-worker1108 is UP: PING OK - Packet loss = 0%, RTA = 0.27 ms
[18:12:25] <wikibugs>	 (03CR) 10Thcipriani: [C:03+1] WP25EasterEggs added to extension-list, config var, enabled on beta cluster. [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1230931 (https://phabricator.wikimedia.org/T415372) (owner: 10Jdrewniak)
[18:12:37] <wikibugs>	 (03PS1) 10Clément Goubert: failoid_ng: raise quotas to allow all replicas [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230984
[18:18:45] <wikibugs>	 (03CR) 10Clément Goubert: [V:03+2 C:03+2] failoid_ng: raise quotas to allow all replicas [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230984 (owner: 10Clément Goubert)
[18:19:31] <logmsgbot>	 !log cgoubert@deploy2002 helmfile [staging-eqiad] START helmfile.d/admin 'apply'.
[18:20:10] <logmsgbot>	 !log cgoubert@deploy2002 helmfile [staging-eqiad] DONE helmfile.d/admin 'apply'.
[18:21:13] <logmsgbot>	 !log cgoubert@deploy2002 helmfile [staging-eqiad] START helmfile.d/admin 'apply'.
[18:23:12] <logmsgbot>	 !log cgoubert@deploy2002 helmfile [staging-eqiad] DONE helmfile.d/admin 'apply'.
[18:29:03] <jinxer-wm>	 RESOLVED: MediaWikiEditFailures: Elevated MediaWiki edit failures (session_loss) for cluster  - https://wikitech.wikimedia.org/wiki/Application_servers/Runbook - https://grafana.wikimedia.org/d/000000208/edit-count?orgId=1&viewPanel=13 - https://alerts.wikimedia.org/?q=alertname%3DMediaWikiEditFailures
[18:31:22] <logmsgbot>	 !log xcollazo@deploy2002 helmfile [dse-k8s-eqiad] START helmfile.d/dse-k8s-services/mw-content-history-reconcile-enrich: apply
[18:31:40] <logmsgbot>	 !log xcollazo@deploy2002 helmfile [dse-k8s-eqiad] DONE helmfile.d/dse-k8s-services/mw-content-history-reconcile-enrich: apply
[18:35:33] <jinxer-wm>	 FIRING: MediaWikiEditFailures: Elevated MediaWiki edit failures (session_loss) for cluster  - https://wikitech.wikimedia.org/wiki/Application_servers/Runbook - https://grafana.wikimedia.org/d/000000208/edit-count?orgId=1&viewPanel=13 - https://alerts.wikimedia.org/?q=alertname%3DMediaWikiEditFailures
[18:36:23] <wikibugs>	 (03PS1) 10Clément Goubert: failoid-ng: fix correct release [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230992
[18:43:00] <wikibugs>	 10SRE-swift-storage, 06Data-Persistence, 10MediaViewer, 10Thumbor, 06Traffic: FY 25/26 WE 5.4.10 Standard Thumbnail Sizes Only - https://phabricator.wikimedia.org/T414805#11549814 (10Quiddity)
[18:43:55] <wikibugs>	 (03Merged) 10jenkins-bot: failoid-ng: fix correct release [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230992 (owner: 10Clément Goubert)
[19:01:10] <inflatador>	 !llog bking@clouddumps1002 remove non-puppet-managed file `/srv/dumps/xmldatadumps/public/dvd.html`
[19:01:56] <inflatador>	 !log bking@clouddumps1002 remove non-puppet-managed file `/srv/dumps/xmldatadumps/public/dvd.html`
[19:01:58] <stashbot>	 Logged the message at https://wikitech.wikimedia.org/wiki/Server_Admin_Log
[19:10:37] <wikibugs>	 (03CR) 10RLazarus: [C:04-1] "Yep, tested locally and you're right -- I thought I had seen somewhere that a minimal implementation "just works, for free" but I see from" [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230544 (owner: 10RLazarus)
[19:18:45] <wikibugs>	 (03PS3) 10Arlolra: Deploy PRV to 21 wikis + bump 3 top50 to 100% [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1230974 (https://phabricator.wikimedia.org/T415386)
[19:19:13] <jinxer-wm>	 FIRING: [2x] PuppetCertificateAboutToExpire: Puppet CA certificate eventstreams-internal.discovery.wmnet is about to expire - https://wikitech.wikimedia.org/wiki/Puppet#Renew_agent_certificate - TODO - https://alerts.wikimedia.org/?q=alertname%3DPuppetCertificateAboutToExpire
[19:20:33] <jinxer-wm>	 RESOLVED: MediaWikiEditFailures: Elevated MediaWiki edit failures (session_loss) for cluster  - https://wikitech.wikimedia.org/wiki/Application_servers/Runbook - https://grafana.wikimedia.org/d/000000208/edit-count?orgId=1&viewPanel=13 - https://alerts.wikimedia.org/?q=alertname%3DMediaWikiEditFailures
[19:31:01] <wikibugs>	 (03PS1) 10Ryan Kemper: Revert "wdqs: make avail SLOs dc & svc agnostic" [puppet] - 10https://gerrit.wikimedia.org/r/1230996
[19:32:11] <wikibugs>	 (03CR) 10Ryan Kemper: [C:03+2] "Thanks appreciate all the help and duly noted, I definitely moved way too fast on this one." [puppet] - 10https://gerrit.wikimedia.org/r/1230399 (https://phabricator.wikimedia.org/T393966) (owner: 10Ryan Kemper)
[19:36:56] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops, 06Data-Platform-SRE (2026.01.23 - 2026.02.13), 07Essential-Work: Degraded RAID on an-worker1200 - https://phabricator.wikimedia.org/T413360#11549953 (10RKemper) ` ------------------------------------------------------------------------------- Record:      7 Date/Time:   12/2...
[19:39:48] <wikibugs>	 (03CR) 10Ryan Kemper: "Merging since existing config is broken" [puppet] - 10https://gerrit.wikimedia.org/r/1230996 (owner: 10Ryan Kemper)
[19:39:52] <wikibugs>	 (03CR) 10Ryan Kemper: [C:03+2] Revert "wdqs: make avail SLOs dc & svc agnostic" [puppet] - 10https://gerrit.wikimedia.org/r/1230996 (owner: 10Ryan Kemper)
[19:45:03] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops: Q2:rack/setup/install Toolforge - https://phabricator.wikimedia.org/T410403#11549966 (10Jclark-ctr) @cmooney  @Andrew  I am racking 4 servers Trying to keep diverse but when provisioning networks for Rack E4 &F4 I get this error can it be added to wmcs racks in new cage?     ` t...
[19:46:01] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops: Q2:rack/setup/install Toolforge - https://phabricator.wikimedia.org/T410403#11549968 (10Jclark-ctr)
[19:51:37] <wikibugs>	 (03CR) 10Ryan Kemper: [C:03+2] "I see the availability SLOs populating in https://slo.wikimedia.org/?search=avail again as expected, and am not seeing errors in pyrra-fil" [puppet] - 10https://gerrit.wikimedia.org/r/1230996 (owner: 10Ryan Kemper)
[19:54:07] <icinga-wm>	 RECOVERY - Dell PowerEdge or Supermicro Broadcom RAID Controller on an-worker1204 is OK: communication: 0 OK : controller: 0 OK : physical_disk: 0 OK : virtual_disk: 0 OK : bbu: 0 OK : enclosure: 0 OK https://wikitech.wikimedia.org/wiki/PERCCli%23Monitoring
[19:57:33] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops, 06Data-Platform-SRE (2026.01.23 - 2026.02.13): Degraded RAID on an-worker1187 - https://phabricator.wikimedia.org/T415002#11549993 (10Jclark-ctr) @BTullis  these drives have arrives please let me know when i can swap these.  I am not at summit so can take care of anytime next...
[20:01:10] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db2238 (T410589)', diff saved to https://phabricator.wikimedia.org/P87889 and previous config saved to /var/cache/conftool/dbconfig/20260123-200109-ladsgroup.json
[20:01:16] <stashbot>	 T410589: Optimize all core tables, late 2025 - https://phabricator.wikimedia.org/T410589
[20:01:32] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops, 06Data-Platform-SRE (2026.01.23 - 2026.02.13): Degraded RAID on an-worker1204 - https://phabricator.wikimedia.org/T414861#11550003 (10Jclark-ctr) @BTullis  this drive has been replaced
[20:11:19] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db2238', diff saved to https://phabricator.wikimedia.org/P87890 and previous config saved to /var/cache/conftool/dbconfig/20260123-201118-ladsgroup.json
[20:21:27] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db2238', diff saved to https://phabricator.wikimedia.org/P87891 and previous config saved to /var/cache/conftool/dbconfig/20260123-202126-ladsgroup.json
[20:21:28] <logmsgbot>	 !log jforrester@deploy2002 helmfile [codfw] START helmfile.d/services/wikifunctions: sync
[20:21:57] <logmsgbot>	 !log jforrester@deploy2002 helmfile [codfw] DONE helmfile.d/services/wikifunctions: sync
[20:30:34] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops, 06Data-Platform-SRE (2026.01.23 - 2026.02.13): Degraded RAID on an-worker1187 - https://phabricator.wikimedia.org/T415002#11550041 (10Jclark-ctr) @elukey  @BTullis  @wiki_willy  @RobH  @Papaul   looking for some input on these disk errors   The system is currently set to Perfo...
[20:31:35] <logmsgbot>	 !log ladsgroup@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db2238 (T410589)', diff saved to https://phabricator.wikimedia.org/P87892 and previous config saved to /var/cache/conftool/dbconfig/20260123-203134-ladsgroup.json
[20:31:40] <stashbot>	 T410589: Optimize all core tables, late 2025 - https://phabricator.wikimedia.org/T410589
[20:35:46] <wikibugs>	 (03CR) 10C. Scott Ananian: [C:03+1] Deploy PRV to 21 wikis + bump 3 top50 to 100% [mediawiki-config] - 10https://gerrit.wikimedia.org/r/1230974 (https://phabricator.wikimedia.org/T415386) (owner: 10Arlolra)
[20:43:22] <wikibugs>	 (03CR) 10CDanis: [C:03+1] Stop running the IP reputation dump on the Puppet 5 servers [puppet] - 10https://gerrit.wikimedia.org/r/1230912 (https://phabricator.wikimedia.org/T365798) (owner: 10Muehlenhoff)
[20:44:51] <jinxer-wm>	 FIRING: ATSBackendErrorsHigh: ATS: elevated 5xx errors from swift.discovery.wmnet in codfw #page - https://wikitech.wikimedia.org/wiki/Apache_Traffic_Server#Debugging - https://grafana.wikimedia.org/d/1T_4O08Wk/ats-backends-origin-servers-overview?orgId=1&viewPanel=12&var-site=codfw&var-cluster=upload&var-origin=swift.discovery.wmnet - https://alerts.wikimedia.org/?q=alertname%3DATSBackendErrorsHigh
[20:45:00] <wikibugs>	 (03CR) 10CDanis: [C:03+1] profile::pyrra: add second SLO for Abstract Wikipedia [puppet] - 10https://gerrit.wikimedia.org/r/1230259 (https://phabricator.wikimedia.org/T415067) (owner: 10Elukey)
[20:45:04] <rzl>	 !ack
[20:45:05] <sirenbot>	 7368 (ACKED)  ATSBackendErrorsHigh cache_upload sre (swift.discovery.wmnet codfw)
[20:45:23] <wikibugs>	 (03CR) 10CDanis: [C:03+1] jaeger: decommision old IDP hosts [deployment-charts] - 10https://gerrit.wikimedia.org/r/1198913 (https://phabricator.wikimedia.org/T406455) (owner: 10Slyngshede)
[20:50:01] <sukhe>	 !ack
[20:50:02] <sirenbot>	 no value provided for parameter incident and no default available
[20:50:02] <sirenbot>	 All incidents are already acked.
[20:54:51] <jinxer-wm>	 RESOLVED: ATSBackendErrorsHigh: ATS: elevated 5xx errors from swift.discovery.wmnet in codfw #page - https://wikitech.wikimedia.org/wiki/Apache_Traffic_Server#Debugging - https://grafana.wikimedia.org/d/1T_4O08Wk/ats-backends-origin-servers-overview?orgId=1&viewPanel=12&var-site=codfw&var-cluster=upload&var-origin=swift.discovery.wmnet - https://alerts.wikimedia.org/?q=alertname%3DATSBackendErrorsHigh
[21:05:40] <jinxer-wm>	 FIRING: SystemdUnitFailed: send_tile_invalidations.service on maps1011:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[21:07:38] <wikibugs>	 10ops-eqiad, 06SRE, 06DC-Ops, 06Data-Platform-SRE (2026.01.23 - 2026.02.13), 07Essential-Work: Degraded RAID on an-worker1200 - https://phabricator.wikimedia.org/T413360#11550169 (10VRiley-WMF) 05Open→03Resolved I'm going to be closing this ticket for the time being. Will continue to monitor if t...
[21:12:52] <wikibugs>	 06SRE, 10SRE-Access-Requests: Requesting access to DataPlatform for lerickson - https://phabricator.wikimedia.org/T415406 (10lerickson) 03NEW
[21:21:33] <wikibugs>	 (03CR) 10Jforrester: [C:03+1] "I think this looks correct, thank you!" [puppet] - 10https://gerrit.wikimedia.org/r/1230259 (https://phabricator.wikimedia.org/T415067) (owner: 10Elukey)
[21:28:38] <wikibugs>	 06SRE, 10MediaWiki-Debug-Logger, 06Traffic, 06MediaWiki-Platform-Team (Q3 Kanban Board): Pass through information about the client from the CDN to MediaWiki to Logstash - https://phabricator.wikimedia.org/T412396#11550209 (10Tgr) Added to the [[https://logstash.wikimedia.org/app/dashboards#/view/3e1d0bd0-1...
[21:29:40] <jinxer-wm>	 FIRING: [9x] SystemdUnitFailed: dump_cloud_ip_ranges.service on puppetserver2004:9100 - https://wikitech.wikimedia.org/wiki/Monitoring/check_systemd_state - https://grafana.wikimedia.org/d/g-AaZRFWk/systemd-status - https://alerts.wikimedia.org/?q=alertname%3DSystemdUnitFailed
[21:33:28] <wikibugs>	 (03CR) 10Jforrester: [C:03+1] "<3" [mediawiki-config] - 10https://gerrit.wikimedia.org/r/999060 (https://phabricator.wikimedia.org/T357054) (owner: 10C. Scott Ananian)
[21:34:13] <jinxer-wm>	 FIRING: JobUnavailable: Reduced availability for job thanos-compact in ops@codfw - https://wikitech.wikimedia.org/wiki/Prometheus#Prometheus_job_unavailable - https://grafana.wikimedia.org/d/NEJu05xZz/prometheus-targets - https://alerts.wikimedia.org/?q=alertname%3DJobUnavailable
[21:38:19] <wikibugs>	 06SRE, 10SRE-Access-Requests: Requesting access to analytics-privatedata-users for lerickson - https://phabricator.wikimedia.org/T415406#11550219 (10Novem_Linguae)
[21:39:46] <wikibugs>	 06SRE, 10MediaWiki-Debug-Logger, 06Traffic, 06MediaWiki-Platform-Team (Q3 Kanban Board): Pass through information about the client from the CDN to MediaWiki to Logstash - https://phabricator.wikimedia.org/T412396#11550221 (10Tgr) 05Open→03Resolved
[21:42:16] <wikibugs>	 (03PS1) 10Volans: wmcs: fix infra-tracing-nfs [puppet] - 10https://gerrit.wikimedia.org/r/1231034 (https://phabricator.wikimedia.org/T415199)
[21:44:07] <wikibugs>	 (03CR) 10CI reject: [V:04-1] wmcs: fix infra-tracing-nfs [puppet] - 10https://gerrit.wikimedia.org/r/1231034 (https://phabricator.wikimedia.org/T415199) (owner: 10Volans)
[21:45:16] <wikibugs>	 (03PS2) 10Volans: wmcs: fix infra-tracing-nfs [puppet] - 10https://gerrit.wikimedia.org/r/1231034 (https://phabricator.wikimedia.org/T415199)
[21:52:19] <wikibugs>	 (03CR) 10Volans: "Tested on toolsbeta-test-k8s-worker-nfs-10, ready for review." [puppet] - 10https://gerrit.wikimedia.org/r/1231034 (https://phabricator.wikimedia.org/T415199) (owner: 10Volans)
[22:14:15] <wikibugs>	 (03PS4) 10Ryan Kemper: opensearch-semantic-search: provision namespace [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230512 (https://phabricator.wikimedia.org/T414702)
[22:14:37] <wikibugs>	 (03Abandoned) 10Ryan Kemper: opensearch-semantic-search: enable ceph [deployment-charts] - 10https://gerrit.wikimedia.org/r/1230511 (https://phabricator.wikimedia.org/T414702) (owner: 10Ryan Kemper)
[22:22:55] <wikibugs>	 (03PS1) 10Ryan Kemper: opensearch-semantic-search-test: provision ns [deployment-charts] - 10https://gerrit.wikimedia.org/r/1231046 (https://phabricator.wikimedia.org/T414702)
[22:27:10] <wikibugs>	 (03PS2) 10Ryan Kemper: opensearch-semantic-search-test: provision ns [deployment-charts] - 10https://gerrit.wikimedia.org/r/1231046 (https://phabricator.wikimedia.org/T414702)
[22:27:17] <jinxer-wm>	 FIRING: [2x] ProbeDown: Service wdqs1014:443 has failed probes (http_wdqs_main_external_search_sparql_endpoint_ip4) - https://wikitech.wikimedia.org/wiki/Runbook#wdqs1014:443 - https://grafana.wikimedia.org/d/O0nHhdhnz/network-probes-overview?var-job=probes/custom&var-module=All - https://alerts.wikimedia.org/?q=alertname%3DProbeDown
[22:42:41] <icinga-wm>	 PROBLEM - SSH on bast3007 is CRITICAL: Server answer: Exceeded MaxStartups https://wikitech.wikimedia.org/wiki/SSH/monitoring
[22:43:32] <robh>	 nah its fine
[22:43:41] <icinga-wm>	 RECOVERY - SSH on bast3007 is OK: SSH OK - OpenSSH_9.2p1 Debian-2+deb12u7 (protocol 2.0) https://wikitech.wikimedia.org/wiki/SSH/monitoring
[22:44:46] <logmsgbot>	 !log marostegui@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db2164 (T411163 T411164)', diff saved to https://phabricator.wikimedia.org/P87893 and previous config saved to /var/cache/conftool/dbconfig/20260123-224446-marostegui.json
[22:44:53] <stashbot>	 T411163: Drop ar_sha1 from archive table in wmf production - https://phabricator.wikimedia.org/T411163
[22:44:54] <stashbot>	 T411164: Drop rev_sha1 from revision table in wmf production - https://phabricator.wikimedia.org/T411164
[22:53:15] <icinga-wm>	 RECOVERY - snapshot of s2 in codfw on backupmon1001 is OK: Last snapshot for s2 at codfw (db2197) taken on 2026-01-23 22:10:01 (664 GiB, +2.3 %) https://wikitech.wikimedia.org/wiki/MariaDB/Backups%23Rerun_a_failed_backup
[22:54:55] <logmsgbot>	 !log marostegui@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db2164', diff saved to https://phabricator.wikimedia.org/P87894 and previous config saved to /var/cache/conftool/dbconfig/20260123-225454-marostegui.json
[23:05:03] <logmsgbot>	 !log marostegui@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db2164', diff saved to https://phabricator.wikimedia.org/P87895 and previous config saved to /var/cache/conftool/dbconfig/20260123-230502-marostegui.json
[23:15:13] <logmsgbot>	 !log marostegui@cumin1003 dbctl commit (dc=all): 'Repooling after maintenance db2164 (T411163 T411164)', diff saved to https://phabricator.wikimedia.org/P87897 and previous config saved to /var/cache/conftool/dbconfig/20260123-231511-marostegui.json
[23:15:19] <stashbot>	 T411163: Drop ar_sha1 from archive table in wmf production - https://phabricator.wikimedia.org/T411163
[23:15:19] <stashbot>	 T411164: Drop rev_sha1 from revision table in wmf production - https://phabricator.wikimedia.org/T411164
[23:15:29] <logmsgbot>	 !log marostegui@cumin1003 DONE (PASS) - Cookbook sre.hosts.downtime (exit_code=0) for 3 days, 0:00:00 on db2165.codfw.wmnet with reason: Maintenance
[23:15:37] <logmsgbot>	 !log marostegui@cumin1003 dbctl commit (dc=all): 'Depooling db2165 (T411163 T411164)', diff saved to https://phabricator.wikimedia.org/P87898 and previous config saved to /var/cache/conftool/dbconfig/20260123-231537-marostegui.json
[23:19:13] <jinxer-wm>	 FIRING: [2x] PuppetCertificateAboutToExpire: Puppet CA certificate eventstreams-internal.discovery.wmnet is about to expire - https://wikitech.wikimedia.org/wiki/Puppet#Renew_agent_certificate - TODO - https://alerts.wikimedia.org/?q=alertname%3DPuppetCertificateAboutToExpire