[01:34:30] PROBLEM Puppet freshness is now: CRITICAL on nova-ldap1 i-000000df output: Puppet has not run in last 20 hours [01:43:29] sure [01:45:30] i half expected you were asleep and logged in accidentally. ;-P [01:45:36] * jeremyb pokes mailman [01:46:32] I'm off to sleep soon but I guess I can leave you to poke at the poor mailman [01:49:55] Thehelpfulone: try now [01:50:14] ah there we go [01:50:26] will puppet reset that? [01:50:33] also you've got a PM jeremyb [01:52:05] puppet may. i stopped puppet for now but it's not the first time i stopped puppet and then it got started again [01:52:11] PROBLEM HTTP is now: WARNING on mailman-01 i-00000235 output: HTTP WARNING: HTTP/1.1 403 Forbidden - 498 bytes in 0.009 second response time [02:04:26] Thehelpfulone: try now [02:04:39] more stuff broken by puppet [02:05:09] ok [02:05:18] yep, works now [02:05:39] PROBLEM HTTP is now: CRITICAL on deployment-web4 i-00000214 output: CRITICAL - Socket timeout after 10 seconds [02:05:39] PROBLEM HTTP is now: CRITICAL on deployment-web3 i-00000219 output: CRITICAL - Socket timeout after 10 seconds [02:05:39] PROBLEM HTTP is now: CRITICAL on deployment-web i-00000217 output: CRITICAL - Socket timeout after 10 seconds [02:05:39] PROBLEM HTTP is now: CRITICAL on deployment-web5 i-00000213 output: CRITICAL - Socket timeout after 10 seconds [02:07:29] PROBLEM Free ram is now: WARNING on bots-2 i-0000009c output: Warning: 19% free memory [02:08:25] Thehelpfulone: -> channel? ;) [02:08:35] anyway, so: sudo mmsitepass -c lakjsdflkajsdflkajsdlkfjalksdfj [02:09:31] and if you do it over an existing one, it will overwrite it? [02:09:36] yes [02:09:58] but you can have a site and a creator at the same time. they don't overwrite eachother [02:10:07] yep [02:10:29] PROBLEM HTTP is now: WARNING on deployment-web4 i-00000214 output: HTTP WARNING: HTTP/1.1 403 Forbidden - 366 bytes in 0.014 second response time [02:10:29] PROBLEM HTTP is now: WARNING on deployment-web3 i-00000219 output: HTTP WARNING: HTTP/1.1 403 Forbidden - 366 bytes in 0.017 second response time [02:10:29] PROBLEM HTTP is now: WARNING on deployment-web i-00000217 output: HTTP WARNING: HTTP/1.1 403 Forbidden - 366 bytes in 0.018 second response time [02:10:29] PROBLEM HTTP is now: WARNING on deployment-web5 i-00000213 output: HTTP WARNING: HTTP/1.1 403 Forbidden - 366 bytes in 0.007 second response time [02:12:39] !log mailman stopped puppet again. copied /etc/mailman/mm_cfg.py{.bak,} /etc/lighttpd/conf-available/50-mailman.conf{.bak,}. booted lighttpd. [02:13:06] and list creator can only do that, crete lists? [02:13:09] create* [02:13:21] i guess? [02:13:34] what do the docs say? ;) [02:14:15] yep seems to be just that [02:17:01] !log mailman [mailman-01] stopped puppet again. copied /etc/mailman/mm_cfg.py{.bak,} /etc/lighttpd/conf-available/50-mailman.conf{.bak,}. booted lighttpd. [02:17:03] Logged the message, Master [02:17:07] danke [02:22:34] RECOVERY Free ram is now: OK on bots-2 i-0000009c output: OK: 20% free memory [02:24:42] !log bots [bots-2] labs-morebots was running but working. $ sudo service adminbot status; * logslogbot is running; $ sudo service adminbot restart; * Restarting IRC Logging bot for WMF labs logslogbot; ...done. [02:24:43] Logged the message, Master [02:26:55] !log mailman [mailman-01] Thehelpfulone and I both have the site and list creator passwords [02:26:56] Logged the message, Master [02:27:41] !log bots [bots-2] then investigated further (after the restart) and it turns out there were 3 adminlogbot.py procs (including the new one that had just been started). the other 2 were from May 9 and May 12. killed them all and started again from scratch [02:27:43] Logged the message, Master [02:28:15] !log bots [bots-2] could use some lockfiles... either in wrapper or in python itself [02:28:16] Logged the message, Master [02:28:25] !log bots [bots-2] should find out what prod uses [02:28:26] Logged the message, Master [02:35:33] PROBLEM Free ram is now: WARNING on bots-2 i-0000009c output: Warning: 19% free memory [02:46:20] 05/21/2012 - 02:46:20 - Updating keys for laner at /export/home/deployment-prep/laner [02:53:18] 05/21/2012 - 02:53:18 - Updating keys for laner at /export/home/deployment-prep/laner [02:56:19] 05/21/2012 - 02:56:19 - Updating keys for laner at /export/home/deployment-prep/laner [03:02:35] PROBLEM HTTP is now: CRITICAL on deployment-web3 i-00000219 output: CRITICAL - Socket timeout after 10 seconds [03:02:35] PROBLEM HTTP is now: CRITICAL on deployment-web4 i-00000214 output: CRITICAL - Socket timeout after 10 seconds [03:02:35] PROBLEM HTTP is now: CRITICAL on deployment-web i-00000217 output: CRITICAL - Socket timeout after 10 seconds [03:02:35] PROBLEM HTTP is now: CRITICAL on deployment-web5 i-00000213 output: CRITICAL - Socket timeout after 10 seconds [03:04:18] i wonder what's up with ryan's key syncing ^^^ [03:04:35] (once is enough? and why not do all of his projects at once?) [03:05:50] computers suck [03:06:41] i mean, i've seen him do it in the past and it did *all* of them (which is a lot) [03:07:02] PROBLEM Current Load is now: WARNING on bots-cb i-0000009e output: WARNING - load average: 1.19, 5.59, 5.34 [03:09:25] PROBLEM Current Load is now: CRITICAL on nagios 127.0.0.1 output: CRITICAL - load average: 10.43, 11.07, 6.93 [03:12:47] RECOVERY Current Load is now: OK on bots-cb i-0000009e output: OK - load average: 1.20, 2.88, 4.23 [03:14:14] PROBLEM HTTP is now: CRITICAL on mailman-01 i-00000235 output: CRITICAL - Socket timeout after 10 seconds [03:16:43] PROBLEM Current Load is now: WARNING on bots-apache1 i-000000b0 output: WARNING - load average: 10.83, 9.68, 7.34 [03:20:00] PROBLEM Disk Space is now: CRITICAL on precise-test i-00000231 output: CHECK_NRPE: Socket timeout after 10 seconds. [03:20:00] PROBLEM HTTP is now: WARNING on mailman-01 i-00000235 output: HTTP WARNING: HTTP/1.1 403 Forbidden - 498 bytes in 0.011 second response time [03:20:26] PROBLEM Current Load is now: CRITICAL on precise-test i-00000231 output: CHECK_NRPE: Socket timeout after 10 seconds. [03:20:26] PROBLEM Total Processes is now: CRITICAL on precise-test i-00000231 output: CHECK_NRPE: Socket timeout after 10 seconds. [03:21:26] PROBLEM Free ram is now: CRITICAL on precise-test i-00000231 output: CHECK_NRPE: Socket timeout after 10 seconds. [03:21:27] PROBLEM dpkg-check is now: CRITICAL on precise-test i-00000231 output: CHECK_NRPE: Socket timeout after 10 seconds. [03:21:53] PROBLEM Current Load is now: WARNING on deployment-nfs-memc i-000000d7 output: WARNING - load average: 9.42, 9.71, 7.66 [03:22:04] PROBLEM Current Users is now: CRITICAL on precise-test i-00000231 output: CHECK_NRPE: Socket timeout after 10 seconds. [03:22:04] PROBLEM Disk Space is now: CRITICAL on reportcard2 i-000001ea output: CHECK_NRPE: Socket timeout after 10 seconds. [03:23:45] PROBLEM Total Processes is now: CRITICAL on mobile-testing i-00000271 output: CHECK_NRPE: Socket timeout after 10 seconds. [03:23:59] RECOVERY Disk Space is now: OK on precise-test i-00000231 output: DISK OK [03:25:30] RECOVERY Current Load is now: OK on precise-test i-00000231 output: OK - load average: 5.08, 6.11, 4.21 [03:25:31] RECOVERY Total Processes is now: OK on precise-test i-00000231 output: PROCS OK: 81 processes [03:25:41] PROBLEM Current Load is now: CRITICAL on mobile-testing i-00000271 output: CHECK_NRPE: Socket timeout after 10 seconds. [03:25:41] PROBLEM Disk Space is now: CRITICAL on mobile-testing i-00000271 output: CHECK_NRPE: Socket timeout after 10 seconds. [03:25:41] PROBLEM Current Users is now: CRITICAL on mobile-testing i-00000271 output: CHECK_NRPE: Socket timeout after 10 seconds. [03:25:41] PROBLEM Free ram is now: CRITICAL on mobile-testing i-00000271 output: CHECK_NRPE: Socket timeout after 10 seconds. [03:25:55] RECOVERY Free ram is now: OK on precise-test i-00000231 output: OK: 86% free memory [03:25:55] RECOVERY dpkg-check is now: OK on precise-test i-00000231 output: All packages OK [03:26:54] RECOVERY Current Users is now: OK on precise-test i-00000231 output: USERS OK - 0 users currently logged in [03:28:29] RECOVERY Total Processes is now: OK on mobile-testing i-00000271 output: PROCS OK: 144 processes [03:29:56] RECOVERY Current Load is now: OK on mobile-testing i-00000271 output: OK - load average: 1.08, 4.66, 4.48 [03:29:56] RECOVERY Disk Space is now: OK on mobile-testing i-00000271 output: DISK OK [03:29:56] RECOVERY Current Users is now: OK on mobile-testing i-00000271 output: USERS OK - 0 users currently logged in [03:29:56] RECOVERY Free ram is now: OK on mobile-testing i-00000271 output: OK: 85% free memory [03:31:19] 05/21/2012 - 03:31:19 - Updating keys for laner at /export/home/deployment-prep/laner [03:32:06] RECOVERY Disk Space is now: OK on reportcard2 i-000001ea output: DISK OK [03:41:00] PROBLEM Current Load is now: WARNING on nagios 127.0.0.1 output: WARNING - load average: 0.75, 1.61, 3.91 [03:41:11] PROBLEM Current Load is now: CRITICAL on bots-apache1 i-000000b0 output: CHECK_NRPE: Socket timeout after 10 seconds. [03:46:04] RECOVERY Current Load is now: OK on bots-apache1 i-000000b0 output: OK - load average: 3.63, 4.40, 4.84 [03:47:05] RECOVERY Current Load is now: OK on deployment-nfs-memc i-000000d7 output: OK - load average: 1.74, 2.39, 4.52 [03:52:16] PROBLEM Free ram is now: WARNING on test-oneiric i-00000187 output: Warning: 17% free memory [03:57:06] PROBLEM Current Load is now: CRITICAL on nagios 127.0.0.1 output: CRITICAL - load average: 6.81, 5.89, 4.39 [03:59:58] PROBLEM Free ram is now: WARNING on nova-daas-1 i-000000e7 output: Warning: 14% free memory [04:07:35] PROBLEM Free ram is now: WARNING on utils-abogott i-00000131 output: Warning: 14% free memory [04:15:34] PROBLEM Current Load is now: WARNING on deployment-nfs-memc i-000000d7 output: WARNING - load average: 9.04, 8.61, 6.63 [04:15:35] PROBLEM Free ram is now: CRITICAL on test-oneiric i-00000187 output: Critical: 3% free memory [04:15:35] PROBLEM Disk Space is now: CRITICAL on rds i-00000207 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:15:35] PROBLEM Total Processes is now: CRITICAL on rds i-00000207 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:15:39] PROBLEM Free ram is now: CRITICAL on migration1 i-00000261 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:15:40] PROBLEM Current Users is now: CRITICAL on rds i-00000207 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:15:40] PROBLEM Current Load is now: CRITICAL on rds i-00000207 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:15:40] PROBLEM Free ram is now: CRITICAL on rds i-00000207 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:15:40] PROBLEM Disk Space is now: CRITICAL on worker1 i-00000208 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:15:41] PROBLEM Current Users is now: CRITICAL on worker1 i-00000208 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:15:41] PROBLEM Total Processes is now: CRITICAL on worker1 i-00000208 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:15:45] PROBLEM Current Load is now: CRITICAL on worker1 i-00000208 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:15:45] PROBLEM Free ram is now: CRITICAL on worker1 i-00000208 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:15:46] PROBLEM Disk Space is now: CRITICAL on migration1 i-00000261 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:15:46] PROBLEM Current Load is now: CRITICAL on migration1 i-00000261 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:15:46] PROBLEM Current Users is now: CRITICAL on migration1 i-00000261 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:15:46] PROBLEM dpkg-check is now: CRITICAL on migration1 i-00000261 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:15:46] PROBLEM Total Processes is now: CRITICAL on migration1 i-00000261 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:17:23] PROBLEM Free ram is now: CRITICAL on nova-daas-1 i-000000e7 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:18:14] PROBLEM Free ram is now: WARNING on orgcharts-dev i-0000018f output: Warning: 15% free memory [04:18:24] PROBLEM Current Users is now: CRITICAL on incubator-bot2 i-00000252 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:19:07] PROBLEM Current Load is now: CRITICAL on incubator-bot2 i-00000252 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:19:07] PROBLEM Free ram is now: CRITICAL on incubator-bot2 i-00000252 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:19:07] PROBLEM Disk Space is now: CRITICAL on incubator-bot2 i-00000252 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:19:07] PROBLEM dpkg-check is now: CRITICAL on incubator-bot2 i-00000252 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:19:23] RECOVERY Disk Space is now: OK on rds i-00000207 output: DISK OK [04:19:23] RECOVERY Current Users is now: OK on rds i-00000207 output: USERS OK - 0 users currently logged in [04:19:23] RECOVERY Current Load is now: OK on rds i-00000207 output: OK - load average: 3.58, 5.19, 4.34 [04:19:23] RECOVERY Free ram is now: OK on rds i-00000207 output: OK: 92% free memory [04:19:23] RECOVERY Disk Space is now: OK on migration1 i-00000261 output: DISK OK [04:19:23] RECOVERY Current Load is now: OK on migration1 i-00000261 output: OK - load average: 5.59, 5.76, 3.75 [04:19:24] RECOVERY Current Users is now: OK on migration1 i-00000261 output: USERS OK - 0 users currently logged in [04:19:24] RECOVERY Total Processes is now: OK on migration1 i-00000261 output: PROCS OK: 87 processes [04:19:28] RECOVERY dpkg-check is now: OK on migration1 i-00000261 output: All packages OK [04:19:28] RECOVERY Total Processes is now: OK on rds i-00000207 output: PROCS OK: 81 processes [04:19:50] RECOVERY Free ram is now: OK on migration1 i-00000261 output: OK: 83% free memory [04:21:06] RECOVERY Free ram is now: OK on test-oneiric i-00000187 output: OK: 97% free memory [04:22:41] PROBLEM Free ram is now: CRITICAL on utils-abogott i-00000131 output: Critical: 4% free memory [04:22:41] PROBLEM Free ram is now: WARNING on nova-daas-1 i-000000e7 output: Warning: 6% free memory [04:24:00] RECOVERY Current Load is now: OK on incubator-bot2 i-00000252 output: OK - load average: 4.93, 5.01, 3.43 [04:24:00] RECOVERY Disk Space is now: OK on incubator-bot2 i-00000252 output: DISK OK [04:24:00] RECOVERY Free ram is now: OK on incubator-bot2 i-00000252 output: OK: 64% free memory [04:24:00] RECOVERY dpkg-check is now: OK on incubator-bot2 i-00000252 output: All packages OK [04:24:20] RECOVERY Disk Space is now: OK on worker1 i-00000208 output: DISK OK [04:24:20] RECOVERY Current Users is now: OK on worker1 i-00000208 output: USERS OK - 0 users currently logged in [04:24:20] RECOVERY Total Processes is now: OK on worker1 i-00000208 output: PROCS OK: 90 processes [04:24:25] RECOVERY Current Load is now: OK on worker1 i-00000208 output: OK - load average: 2.06, 4.87, 4.35 [04:24:25] RECOVERY Free ram is now: OK on worker1 i-00000208 output: OK: 92% free memory [04:27:23] RECOVERY Free ram is now: OK on utils-abogott i-00000131 output: OK: 97% free memory [04:28:09] RECOVERY Current Users is now: OK on incubator-bot2 i-00000252 output: USERS OK - 0 users currently logged in [04:28:34] PROBLEM Free ram is now: CRITICAL on orgcharts-dev i-0000018f output: CHECK_NRPE: Socket timeout after 10 seconds. [04:33:18] PROBLEM Free ram is now: WARNING on orgcharts-dev i-0000018f output: Warning: 7% free memory [04:36:49] PROBLEM Total Processes is now: CRITICAL on upload-wizard i-0000021c output: CHECK_NRPE: Socket timeout after 10 seconds. [04:36:55] PROBLEM Current Load is now: CRITICAL on upload-wizard i-0000021c output: CHECK_NRPE: Socket timeout after 10 seconds. [04:36:55] PROBLEM Disk Space is now: CRITICAL on upload-wizard i-0000021c output: CHECK_NRPE: Socket timeout after 10 seconds. [04:36:55] PROBLEM Current Users is now: CRITICAL on upload-wizard i-0000021c output: CHECK_NRPE: Socket timeout after 10 seconds. [04:36:55] PROBLEM Free ram is now: CRITICAL on upload-wizard i-0000021c output: CHECK_NRPE: Socket timeout after 10 seconds. [04:48:28] RECOVERY Total Processes is now: OK on upload-wizard i-0000021c output: PROCS OK: 89 processes [04:48:33] PROBLEM Current Load is now: WARNING on upload-wizard i-0000021c output: WARNING - load average: 3.81, 5.88, 5.03 [04:48:33] RECOVERY Disk Space is now: OK on upload-wizard i-0000021c output: DISK OK [04:48:33] RECOVERY Current Users is now: OK on upload-wizard i-0000021c output: USERS OK - 0 users currently logged in [04:48:33] RECOVERY Free ram is now: OK on upload-wizard i-0000021c output: OK: 91% free memory [04:49:46] PROBLEM Current Load is now: WARNING on bots-cb i-0000009e output: WARNING - load average: 1.80, 14.38, 11.19 [04:50:12] PROBLEM Current Load is now: CRITICAL on migration1 i-00000261 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:50:12] PROBLEM Disk Space is now: CRITICAL on migration1 i-00000261 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:50:12] PROBLEM Current Users is now: CRITICAL on migration1 i-00000261 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:50:12] PROBLEM Disk Space is now: CRITICAL on worker1 i-00000208 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:50:12] PROBLEM Current Users is now: CRITICAL on worker1 i-00000208 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:50:12] PROBLEM Total Processes is now: CRITICAL on worker1 i-00000208 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:50:17] PROBLEM Current Load is now: CRITICAL on worker1 i-00000208 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:50:17] PROBLEM Total Processes is now: CRITICAL on migration1 i-00000261 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:50:22] PROBLEM Free ram is now: CRITICAL on worker1 i-00000208 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:50:22] PROBLEM Free ram is now: CRITICAL on migration1 i-00000261 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:50:22] PROBLEM dpkg-check is now: CRITICAL on migration1 i-00000261 output: CHECK_NRPE: Socket timeout after 10 seconds. [04:53:48] RECOVERY Current Load is now: OK on upload-wizard i-0000021c output: OK - load average: 0.56, 2.21, 3.64 [05:04:58] RECOVERY Current Load is now: OK on bots-cb i-0000009e output: OK - load average: 0.98, 1.36, 4.58 [05:09:10] PROBLEM Current Load is now: WARNING on nagios 127.0.0.1 output: WARNING - load average: 1.95, 2.46, 3.72 [05:12:23] PROBLEM Free ram is now: WARNING on bots-2 i-0000009c output: Warning: 14% free memory [05:18:18] PROBLEM Current Load is now: WARNING on ganglia-test2 i-00000250 output: WARNING - load average: 1.94, 23.26, 19.10 [05:43:29] RECOVERY Current Load is now: OK on ganglia-test2 i-00000250 output: OK - load average: 0.81, 1.42, 4.65 [05:52:28] PROBLEM Free ram is now: WARNING on deployment-squid i-000000dc output: Warning: 19% free memory [06:33:20] PROBLEM Current Users is now: CRITICAL on incubator-bot1 i-00000251 output: CHECK_NRPE: Socket timeout after 10 seconds. [06:33:20] PROBLEM Disk Space is now: CRITICAL on incubator-bot1 i-00000251 output: CHECK_NRPE: Socket timeout after 10 seconds. [06:33:20] PROBLEM Current Load is now: CRITICAL on incubator-bot1 i-00000251 output: CHECK_NRPE: Socket timeout after 10 seconds. [06:33:20] PROBLEM Free ram is now: CRITICAL on incubator-bot1 i-00000251 output: CHECK_NRPE: Socket timeout after 10 seconds. [06:33:20] PROBLEM dpkg-check is now: CRITICAL on incubator-bot1 i-00000251 output: CHECK_NRPE: Socket timeout after 10 seconds. [06:33:25] PROBLEM Free ram is now: CRITICAL on precise-test i-00000231 output: CHECK_NRPE: Socket timeout after 10 seconds. [06:33:25] PROBLEM dpkg-check is now: CRITICAL on precise-test i-00000231 output: CHECK_NRPE: Socket timeout after 10 seconds. [06:33:25] PROBLEM Current Users is now: CRITICAL on precise-test i-00000231 output: CHECK_NRPE: Socket timeout after 10 seconds. [06:33:27] PROBLEM Disk Space is now: CRITICAL on precise-test i-00000231 output: CHECK_NRPE: Socket timeout after 10 seconds. [06:43:09] PROBLEM HTTP is now: CRITICAL on mailman-01 i-00000235 output: CRITICAL - Socket timeout after 10 seconds [06:43:09] PROBLEM Current Load is now: CRITICAL on precise-test i-00000231 output: CHECK_NRPE: Socket timeout after 10 seconds. [06:43:09] PROBLEM Total Processes is now: CRITICAL on precise-test i-00000231 output: CHECK_NRPE: Socket timeout after 10 seconds. [06:44:04] PROBLEM HTTP is now: WARNING on mailman-01 i-00000235 output: HTTP WARNING: HTTP/1.1 403 Forbidden - 498 bytes in 0.005 second response time [07:00:07] PROBLEM Current Load is now: WARNING on mobile-testing i-00000271 output: WARNING - load average: 15.85, 13.94, 8.17 [07:00:23] PROBLEM Current Load is now: WARNING on bots-cb i-0000009e output: WARNING - load average: 18.98, 23.28, 13.46 [07:01:28] Err .. !help ..? [07:01:42] Bastion refuses my login ... [07:01:46] HELP [07:01:51] Probably iolaggedout again [07:01:54] Happens [07:01:58] PROBLEM Total Processes is now: CRITICAL on mobile-testing i-00000271 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:02:02] * Beetstra kicks bastion [07:02:03] Tends to be everything alerts at the same time ^ [07:02:49] hmm [07:02:52] :-( [07:05:39] PROBLEM Current Load is now: WARNING on bots-apache1 i-000000b0 output: WARNING - load average: 9.10, 14.28, 14.10 [07:05:44] PROBLEM Current Load is now: WARNING on labs-nfs1 i-0000005d output: WARNING - load average: 11.57, 12.61, 11.54 [07:05:49] PROBLEM Current Load is now: WARNING on bots-sql2 i-000000af output: WARNING - load average: 7.11, 9.76, 10.59 [07:06:04] PROBLEM Current Load is now: CRITICAL on bots-cb i-0000009e output: CHECK_NRPE: Socket timeout after 10 seconds. [07:06:09] PROBLEM Disk Space is now: CRITICAL on bots-sql2 i-000000af output: CHECK_NRPE: Socket timeout after 10 seconds. [07:06:09] PROBLEM Free ram is now: CRITICAL on bots-sql2 i-000000af output: CHECK_NRPE: Socket timeout after 10 seconds. [07:06:09] PROBLEM SSH is now: CRITICAL on bots-sql2 i-000000af output: CRITICAL - Socket timeout after 10 seconds [07:06:09] PROBLEM Total Processes is now: CRITICAL on bots-sql2 i-000000af output: CHECK_NRPE: Socket timeout after 10 seconds. [07:06:09] PROBLEM dpkg-check is now: CRITICAL on bots-sql2 i-000000af output: CHECK_NRPE: Socket timeout after 10 seconds. [07:06:10] PROBLEM Current Load is now: CRITICAL on migration1 i-00000261 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:06:10] PROBLEM Current Users is now: CRITICAL on migration1 i-00000261 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:06:10] PROBLEM Disk Space is now: CRITICAL on migration1 i-00000261 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:06:10] PROBLEM Free ram is now: CRITICAL on migration1 i-00000261 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:06:10] PROBLEM Total Processes is now: CRITICAL on migration1 i-00000261 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:06:15] PROBLEM dpkg-check is now: CRITICAL on migration1 i-00000261 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:06:15] PROBLEM Current Load is now: CRITICAL on mobile-testing i-00000271 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:06:15] PROBLEM Current Load is now: CRITICAL on rds i-00000207 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:06:15] PROBLEM Current Users is now: CRITICAL on rds i-00000207 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:06:15] PROBLEM Disk Space is now: CRITICAL on rds i-00000207 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:06:15] PROBLEM Free ram is now: CRITICAL on rds i-00000207 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:06:16] PROBLEM Total Processes is now: CRITICAL on rds i-00000207 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:09:27] PROBLEM Current Load is now: WARNING on mobile-feeds i-000000c1 output: WARNING - load average: 4.90, 5.23, 5.34 [07:09:27] PROBLEM Current Load is now: WARNING on jenkins2 i-00000102 output: WARNING - load average: 5.58, 6.37, 6.05 [07:09:27] PROBLEM Current Load is now: WARNING on swift-be4 i-000001ca output: WARNING - load average: 6.45, 7.28, 7.57 [07:09:27] PROBLEM Current Load is now: WARNING on swift-be2 i-000001c8 output: WARNING - load average: 6.39, 6.77, 6.41 [07:09:27] PROBLEM Current Load is now: WARNING on ganglia-collector i-000000b7 output: WARNING - load average: 3.75, 5.24, 5.16 [07:09:27] PROBLEM Current Load is now: WARNING on deployment-apache23 i-00000270 output: WARNING - load average: 5.21, 5.30, 5.08 [07:09:28] PROBLEM Current Load is now: WARNING on deployment-imagescaler01 i-0000025a output: WARNING - load average: 13.91, 13.79, 12.05 [07:09:28] PROBLEM Current Load is now: WARNING on bots-2 i-0000009c output: WARNING - load average: 6.83, 7.15, 6.56 [07:09:37] PROBLEM Current Load is now: WARNING on upload-wizard i-0000021c output: WARNING - load average: 15.50, 12.32, 7.42 [07:09:37] RECOVERY Disk Space is now: OK on incubator-bot1 i-00000251 output: DISK OK [07:09:37] RECOVERY Current Users is now: OK on incubator-bot1 i-00000251 output: USERS OK - 0 users currently logged in [07:09:37] RECOVERY Free ram is now: OK on incubator-bot1 i-00000251 output: OK: 28% free memory [07:09:37] PROBLEM Current Load is now: WARNING on wep i-000000c2 output: WARNING - load average: 6.54, 5.81, 5.24 [07:09:37] PROBLEM Current Load is now: WARNING on hugglewiki i-000000aa output: WARNING - load average: 6.99, 6.53, 6.32 [07:09:38] RECOVERY dpkg-check is now: OK on incubator-bot1 i-00000251 output: All packages OK [07:18:15] PROBLEM Current Load is now: WARNING on mailman-01 i-00000235 output: WARNING - load average: 10.21, 8.40, 7.31 [07:18:15] PROBLEM Current Load is now: WARNING on swift-be3 i-000001c9 output: WARNING - load average: 7.60, 7.22, 5.90 [07:18:15] PROBLEM Disk Space is now: CRITICAL on incubator-bot2 i-00000252 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:18:15] PROBLEM Free ram is now: CRITICAL on upload-wizard i-0000021c output: CHECK_NRPE: Socket timeout after 10 seconds. [07:18:15] PROBLEM Disk Space is now: CRITICAL on reportcard2 i-000001ea output: CHECK_NRPE: Socket timeout after 10 seconds. [07:18:15] PROBLEM Total Processes is now: CRITICAL on reportcard2 i-000001ea output: CHECK_NRPE: Socket timeout after 10 seconds. [07:18:20] PROBLEM Free ram is now: CRITICAL on incubator-bot2 i-00000252 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:18:20] PROBLEM dpkg-check is now: CRITICAL on incubator-bot2 i-00000252 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:18:22] PROBLEM HTTP is now: CRITICAL on mailman-01 i-00000235 output: CRITICAL - Socket timeout after 10 seconds [07:18:25] PROBLEM Current Users is now: CRITICAL on incubator-bot2 i-00000252 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:18:25] PROBLEM Current Load is now: CRITICAL on incubator-bot2 i-00000252 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:18:25] PROBLEM Current Load is now: CRITICAL on reportcard2 i-000001ea output: CHECK_NRPE: Socket timeout after 10 seconds. [07:18:25] PROBLEM Current Users is now: CRITICAL on reportcard2 i-000001ea output: CHECK_NRPE: Socket timeout after 10 seconds. [07:18:25] PROBLEM dpkg-check is now: CRITICAL on reportcard2 i-000001ea output: CHECK_NRPE: Socket timeout after 10 seconds. [07:18:25] PROBLEM Free ram is now: CRITICAL on reportcard2 i-000001ea output: CHECK_NRPE: Socket timeout after 10 seconds. [07:18:26] PROBLEM Current Load is now: CRITICAL on labs-lvs1 i-00000057 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:18:30] PROBLEM Current Load is now: WARNING on precise-test i-00000231 output: WARNING - load average: 8.82, 10.06, 10.29 [07:18:30] RECOVERY Total Processes is now: OK on precise-test i-00000231 output: PROCS OK: 100 processes [07:18:35] PROBLEM Current Load is now: WARNING on migration1 i-00000261 output: WARNING - load average: 7.10, 6.96, 8.03 [07:18:35] RECOVERY Current Users is now: OK on migration1 i-00000261 output: USERS OK - 0 users currently logged in [07:18:35] RECOVERY Disk Space is now: OK on migration1 i-00000261 output: DISK OK [07:18:35] RECOVERY Total Processes is now: OK on migration1 i-00000261 output: PROCS OK: 99 processes [07:18:40] RECOVERY Free ram is now: OK on migration1 i-00000261 output: OK: 83% free memory [07:18:40] RECOVERY dpkg-check is now: OK on migration1 i-00000261 output: All packages OK [07:18:50] PROBLEM Current Load is now: CRITICAL on bots-apache1 i-000000b0 output: CRITICAL - load average: 34.58, 22.06, 16.48 [07:18:50] RECOVERY Free ram is now: OK on bots-sql2 i-000000af output: OK: 77% free memory [07:26:35] PROBLEM Current Load is now: CRITICAL on upload-wizard i-0000021c output: CHECK_NRPE: Socket timeout after 10 seconds. [07:26:41] RECOVERY Disk Space is now: OK on incubator-bot2 i-00000252 output: DISK OK [07:26:41] RECOVERY Free ram is now: OK on upload-wizard i-0000021c output: OK: 91% free memory [07:26:41] RECOVERY Free ram is now: OK on incubator-bot2 i-00000252 output: OK: 63% free memory [07:26:41] RECOVERY dpkg-check is now: OK on incubator-bot2 i-00000252 output: All packages OK [07:26:41] RECOVERY Current Users is now: OK on incubator-bot2 i-00000252 output: USERS OK - 0 users currently logged in [07:26:41] PROBLEM Current Load is now: WARNING on incubator-bot2 i-00000252 output: WARNING - load average: 11.19, 12.46, 12.02 [07:26:41] PROBLEM Current Load is now: WARNING on labs-lvs1 i-00000057 output: WARNING - load average: 1.40, 3.65, 5.04 [07:29:01] RECOVERY Disk Space is now: OK on reportcard2 i-000001ea output: DISK OK [07:29:02] RECOVERY Total Processes is now: OK on reportcard2 i-000001ea output: PROCS OK: 98 processes [07:29:07] PROBLEM Current Load is now: WARNING on reportcard2 i-000001ea output: WARNING - load average: 3.48, 5.63, 6.26 [07:29:07] PROBLEM Current Load is now: WARNING on bots-cb i-0000009e output: WARNING - load average: 0.99, 4.29, 15.53 [07:29:24] RECOVERY Current Users is now: OK on reportcard2 i-000001ea output: USERS OK - 0 users currently logged in [07:29:24] PROBLEM Current Load is now: CRITICAL on migration1 i-00000261 output: Connection refused or timed out [07:29:24] PROBLEM Current Load is now: CRITICAL on precise-test i-00000231 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:32:34] RECOVERY Total Processes is now: OK on mobile-testing i-00000271 output: PROCS OK: 213 processes [07:32:39] PROBLEM Current Load is now: WARNING on bots-apache1 i-000000b0 output: WARNING - load average: 14.26, 12.82, 14.07 [07:32:44] RECOVERY Current Load is now: OK on deployment-apache23 i-00000270 output: OK - load average: 4.10, 2.89, 3.84 [07:32:44] RECOVERY Current Load is now: OK on ganglia-collector i-000000b7 output: OK - load average: 2.86, 3.56, 4.64 [07:32:44] RECOVERY Current Load is now: OK on hugglewiki i-000000aa output: OK - load average: 3.28, 3.47, 4.51 [07:32:44] RECOVERY Current Load is now: OK on mobile-feeds i-000000c1 output: OK - load average: 1.19, 2.72, 4.82 [07:32:44] PROBLEM Current Load is now: WARNING on upload-wizard i-0000021c output: WARNING - load average: 4.00, 4.65, 6.13 [07:32:44] RECOVERY Current Load is now: OK on wep i-000000c2 output: OK - load average: 3.79, 4.21, 4.91 [07:32:49] PROBLEM Current Load is now: WARNING on ganglia-test2 i-00000250 output: WARNING - load average: 7.94, 7.22, 7.03 [07:32:49] PROBLEM Current Load is now: WARNING on gerrit i-000000ff output: WARNING - load average: 6.92, 5.72, 5.38 [07:32:54] PROBLEM Current Load is now: WARNING on deployment-transcoding i-00000105 output: WARNING - load average: 9.87, 9.12, 8.00 [07:32:54] PROBLEM Current Load is now: CRITICAL on bots-sql2 i-000000af output: CHECK_NRPE: Socket timeout after 10 seconds. [07:34:30] RECOVERY Current Load is now: OK on mailman-01 i-00000235 output: OK - load average: 0.32, 1.34, 3.89 [07:34:30] RECOVERY Current Load is now: OK on swift-be3 i-000001c9 output: OK - load average: 0.93, 3.26, 4.97 [07:35:24] PROBLEM Current Load is now: CRITICAL on incubator-bot1 i-00000251 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:36:13] RECOVERY Current Load is now: OK on labs-lvs1 i-00000057 output: OK - load average: 0.71, 1.44, 3.29 [07:36:14] PROBLEM Current Load is now: CRITICAL on incubator-bot2 i-00000252 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:36:14] PROBLEM Current Load is now: CRITICAL on reportcard2 i-000001ea output: CHECK_NRPE: Socket timeout after 10 seconds. [07:37:34] RECOVERY Current Load is now: OK on labs-nfs1 i-0000005d output: OK - load average: 0.65, 1.63, 3.61 [07:37:53] PROBLEM Current Load is now: WARNING on bots-sql2 i-000000af output: WARNING - load average: 9.86, 11.04, 10.27 [07:37:53] RECOVERY Total Processes is now: OK on bots-sql2 i-000000af output: PROCS OK: 100 processes [07:38:09] RECOVERY SSH is now: OK on bots-sql2 i-000000af output: SSH OK - OpenSSH_5.3p1 Debian-3ubuntu7 (protocol 2.0) [07:38:09] RECOVERY Disk Space is now: OK on bots-sql2 i-000000af output: DISK OK [07:39:11] RECOVERY Current Load is now: OK on swift-be2 i-000001c8 output: OK - load average: 1.17, 1.57, 3.63 [07:39:11] RECOVERY Current Load is now: OK on swift-be4 i-000001ca output: OK - load average: 1.67, 1.66, 3.95 [07:39:11] RECOVERY Current Load is now: OK on gerrit i-000000ff output: OK - load average: 0.79, 2.54, 4.09 [07:39:11] RECOVERY Current Load is now: OK on jenkins2 i-00000102 output: OK - load average: 0.40, 2.03, 4.18 [07:39:11] PROBLEM Puppet freshness is now: CRITICAL on localpuppet1 i-0000020b output: Puppet has not run in last 20 hours [07:39:11] PROBLEM Current Load is now: WARNING on aggregator-test2 i-0000024e output: WARNING - load average: 5.06, 5.29, 5.51 [07:41:04] PROBLEM dpkg-check is now: CRITICAL on incubator-bot1 i-00000251 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:41:04] PROBLEM Disk Space is now: CRITICAL on incubator-bot1 i-00000251 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:41:04] PROBLEM Current Users is now: CRITICAL on incubator-bot1 i-00000251 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:41:04] PROBLEM Free ram is now: CRITICAL on incubator-bot1 i-00000251 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:41:14] PROBLEM Total Processes is now: CRITICAL on precise-test i-00000231 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:41:57] PROBLEM Current Load is now: WARNING on incubator-bot1 i-00000251 output: WARNING - load average: 11.37, 8.25, 6.91 [07:41:57] PROBLEM Current Load is now: WARNING on robh2 i-000001a2 output: WARNING - load average: 2.01, 4.17, 5.28 [07:43:21] PROBLEM Current Load is now: WARNING on rds i-00000207 output: WARNING - load average: 6.48, 6.64, 6.83 [07:43:21] RECOVERY Current Users is now: OK on rds i-00000207 output: USERS OK - 0 users currently logged in [07:43:21] RECOVERY Disk Space is now: OK on rds i-00000207 output: DISK OK [07:43:21] RECOVERY Free ram is now: OK on rds i-00000207 output: OK: 92% free memory [07:43:21] RECOVERY Total Processes is now: OK on rds i-00000207 output: PROCS OK: 85 processes [07:43:25] helllo [07:43:26] RECOVERY dpkg-check is now: OK on bots-sql2 i-000000af output: All packages OK [07:43:26] PROBLEM Disk Space is now: CRITICAL on reportcard2 i-000001ea output: Connection refused or timed out [07:43:27] PROBLEM Current Users is now: CRITICAL on reportcard2 i-000001ea output: Connection refused or timed out [07:43:27] PROBLEM Total Processes is now: CRITICAL on reportcard2 i-000001ea output: Connection refused or timed out [07:43:32] PROBLEM dpkg-check is now: CRITICAL on mobile-testing i-00000271 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:43:37] PROBLEM Free ram is now: CRITICAL on mobile-testing i-00000271 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:44:51] paravoid: Hi :-D [07:45:05] paravoid: I believe that is the cronjobs that kills the lab [07:45:37] PROBLEM Current Users is now: CRITICAL on mobile-testing i-00000271 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:45:37] PROBLEM Disk Space is now: CRITICAL on mobile-testing i-00000271 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:45:37] PROBLEM Total Processes is now: CRITICAL on mobile-testing i-00000271 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:45:42] RECOVERY Current Load is now: OK on deployment-imagescaler01 i-0000025a output: OK - load average: 0.12, 0.63, 3.78 [07:47:13] RECOVERY Free ram is now: OK on precise-test i-00000231 output: OK: 86% free memory [07:47:13] RECOVERY Disk Space is now: OK on precise-test i-00000231 output: DISK OK [07:47:13] RECOVERY Current Users is now: OK on precise-test i-00000231 output: USERS OK - 0 users currently logged in [07:47:13] RECOVERY dpkg-check is now: OK on precise-test i-00000231 output: All packages OK [07:47:18] RECOVERY Current Load is now: OK on robh2 i-000001a2 output: OK - load average: 0.15, 1.71, 3.91 [07:47:19] PROBLEM Current Load is now: CRITICAL on incubator-bot1 i-00000251 output: CHECK_NRPE: Socket timeout after 10 seconds. [07:48:44] or the bots [07:48:45] :-D [07:49:27] !bots [07:49:27] http://www.mediawiki.org/wiki/Wikimedia_Labs/Create_a_bot_running_infrastructure proposal for bots [07:49:38] It's around the same time very morning though [07:50:14] RECOVERY Current Load is now: OK on deployment-transcoding i-00000105 output: OK - load average: 0.84, 1.91, 4.44 [07:50:16] hashar: hi [07:50:19] PROBLEM Current Load is now: CRITICAL on aggregator-test2 i-0000024e output: CRITICAL - load average: 33.83, 13.69, 8.17 [07:50:24] PROBLEM Free ram is now: CRITICAL on upload-wizard i-0000021c output: CHECK_NRPE: Socket timeout after 10 seconds. [07:52:59] Damianz: should be that [07:53:33] RECOVERY Free ram is now: OK on reportcard2 i-000001ea output: OK: 85% free memory [07:53:33] RECOVERY dpkg-check is now: OK on reportcard2 i-000001ea output: All packages OK [07:53:34] RECOVERY Free ram is now: OK on mobile-testing i-00000271 output: OK: 79% free memory [07:53:34] PROBLEM Current Load is now: WARNING on mobile-testing i-00000271 output: WARNING - load average: 1.54, 5.80, 11.82 [07:53:42] all ubuntu instances are having their cron jobs kicking at 6:25 UTC (aka 1 hour and a half ago) [07:54:06] The root cause is an I/O issue though [07:54:19] ?? [07:54:48] The random lags is I/O meh gluster wise apparently, and probably is what causes the total drop out [07:54:53] PROBLEM Current Load is now: WARNING on aggregator-test2 i-0000024e output: WARNING - load average: 1.84, 6.43, 6.53 [07:55:47] and gluster goes wild because everyone starts moving their huge log files at the same minute :-D [07:56:05] Hence why my logs rotate based on size :D [07:56:11] <3 supervisord [07:56:21] yeahh http://ganglia.wmflabs.org/latest/?c=bots&h=bots-cb&m=cpu_report&r=custom&s=by%20name&hc=4&mc=2&cs=05%2F21%2F2012%2004%3A00%20&ce=05%2F21%2F2012%2008%3A00%20 [07:56:32] bots-cb had like 120 procs :) [07:56:39] Only 120? [07:56:50] RECOVERY Total Processes is now: OK on incubator-bot1 i-00000251 output: PROCS OK: 103 processes [07:57:18] ah, better reporting of ganglia now :) [07:57:28] Ganglia is shiny [07:57:45] do any of you know about the bot infrastructure ? [07:58:05] bots-apache1 is 100% CPU since yesterday [07:58:08] Interestingly bots-cb doesn't use project storage or much disk when running yet it still dies [07:58:30] RECOVERY Current Load is now: OK on rds i-00000207 output: OK - load average: 0.25, 1.37, 3.85 [07:58:36] I know about it somewaht, really busy with work atm though. [07:58:44] I can understand :-D [07:58:54] will ask petan whenever he is back around [08:00:00] RECOVERY Current Load is now: OK on bots-2 i-0000009c output: OK - load average: 2.55, 3.03, 4.32 [08:00:00] RECOVERY Current Load is now: OK on ganglia-test2 i-00000250 output: OK - load average: 0.63, 1.38, 3.84 [08:08:06] PROBLEM Free ram is now: CRITICAL on incubator-bot2 i-00000252 output: CHECK_NRPE: Socket timeout after 10 seconds. [08:08:06] PROBLEM Disk Space is now: CRITICAL on incubator-bot2 i-00000252 output: CHECK_NRPE: Socket timeout after 10 seconds. [08:08:06] PROBLEM Current Users is now: CRITICAL on incubator-bot2 i-00000252 output: CHECK_NRPE: Socket timeout after 10 seconds. [08:08:06] PROBLEM dpkg-check is now: CRITICAL on incubator-bot2 i-00000252 output: CHECK_NRPE: Socket timeout after 10 seconds. [08:08:56] meh [08:09:04] hashar: hi [08:11:51] Here is the bug https://bugzilla.wikimedia.org/36993 -- Labs cluster dies daily at roughly 6:30 UTC [08:11:51] ;) [08:12:00] petan|wk: looks like some "bots" instances are in trouble [08:12:07] apache1 is 100% CPU since yesterday [08:12:09] RECOVERY Total Processes is now: OK on incubator-bot2 i-00000252 output: PROCS OK: 106 processes [08:12:14] bots-1 & bots-2 are both 100% cpu [08:12:52] http://ganglia.wmflabs.org/latest/?r=custom&cs=05%2F21%2F2012+5%3A00+&ce=05%2F21%2F2012+9%3A00+&m=cpu_report&s=by+name&c=bots&h=&host_regex=&max_graphs=0&tab=m&vn=&sh=1&z=small&hc=4 [08:12:58] aha [08:14:51] cpu doesn't matter to me, only load [08:15:09] problem is that load might just be some I/O wait ;-D [08:15:22] And if you're wanked on cpu then your load is going to climb [08:15:32] I will probably ask to add some disk usage metrics in Ganglia [08:15:41] so we find out who is heavily writing / reading from "disks" [08:15:46] Damianz: simple english? [08:15:48]