De thuisserver van m'n broer heeft al een tijdje kuren. Het ding is ondertussen al wat op leeftijd, en ik verdenk eigenlijk de voeding, maar hard maken kan ik dat niet. Hij staat weggemoffeld in de kast, en alles loopt via het LAN. Het is gewone huis-tuin-keukenhardware, dus geen remote monitoring etc. Het ding draait Debian 10 (Buster). De configuratie is van februari 2014, dus al meer dan 7 jaar oud. Systeem is een Skylake G1610 CPU met een ASRock B85M-ITX mobo en wat andere consumentenhardware.
Het begon met wat leek op vastlopers, met de server die niet bereikbaar was. Samba mounts die vastlopen op clients, geen reactie op pings, en uiteindelijk fysiek via de aan-knop op de kast uitschakelen forceren (meestal diende die 5s ingedrukt, wat suggereert dat het om effectieve vastlopers gaat). Het probleem lijkt langzaam maar zeker meer voor te komen en mijn broer stelde onlangs ook vast dat hij spontaan herstartte.
Ik heb een tijdje terug persistent logging in systemd aangezet om de logs te kunnen nakijken bij die vastlopers, maar daar passeert niks vreemds in (log verderop). Als ik journalctl de herstarts laat oplijsten komt daar wel een schrikbarende waslijst uit. Het idee is dat de server in het weekend aan blijft staan - dus vrijdag start hij op om 6:45 's morgens, en maandag sluit hij om 1:30 's morgens af, om dan weer de hele week door 6:45 op te starten en 1:30 af te sluiten. Elke werkdag eigenlijk één keer afsluiten en opstarten.
Als ik vanaf vrijdag 14/8 een lijst vraag, dan toont hij meer dan 30 herstarts tot dinsdagavond 17/8. Daar zitten een paar handmatig geforceerde herstarts tussen, maar die zijn alleen van 16-17/8; mijn broer signaleerde pas 16/8 problemen en heeft die dan met een herstart proberen te verhelpen.
Hij heeft de kast opengehaald en gekeken of er misschien extreem veel stof in zit, maar de stoffilters van de behuizing doen goed hun werk, en stof was er nauwelijks.
Ik heb de server log (journalctl uitvoer) hier geplakt, teveel voor GoT: https://0paste.com/288314-a754d4a3. Daar zitten een paar reboots tussen op 14/8, en nergens zie ik iets wat een mogelijk softwareprobleem suggereert.
Ik zie echt niks in de logs, wat mij doet vermoeden dat het een hardwareprobleem is. 6 juli is de microcode van de Skylake CPU nog bijgewerkt, maar het probleem heeft zich eerder ook al voorgedaan dus ik denk niet dat het aan de microcode ligt. Ik veronderstel dat er dan ook wel foutmeldingen in de logs te zien zouden moeten zijn.
Het begon met wat leek op vastlopers, met de server die niet bereikbaar was. Samba mounts die vastlopen op clients, geen reactie op pings, en uiteindelijk fysiek via de aan-knop op de kast uitschakelen forceren (meestal diende die 5s ingedrukt, wat suggereert dat het om effectieve vastlopers gaat). Het probleem lijkt langzaam maar zeker meer voor te komen en mijn broer stelde onlangs ook vast dat hij spontaan herstartte.
Ik heb een tijdje terug persistent logging in systemd aangezet om de logs te kunnen nakijken bij die vastlopers, maar daar passeert niks vreemds in (log verderop). Als ik journalctl de herstarts laat oplijsten komt daar wel een schrikbarende waslijst uit. Het idee is dat de server in het weekend aan blijft staan - dus vrijdag start hij op om 6:45 's morgens, en maandag sluit hij om 1:30 's morgens af, om dan weer de hele week door 6:45 op te starten en 1:30 af te sluiten. Elke werkdag eigenlijk één keer afsluiten en opstarten.
Als ik vanaf vrijdag 14/8 een lijst vraag, dan toont hij meer dan 30 herstarts tot dinsdagavond 17/8. Daar zitten een paar handmatig geforceerde herstarts tussen, maar die zijn alleen van 16-17/8; mijn broer signaleerde pas 16/8 problemen en heeft die dan met een herstart proberen te verhelpen.
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
| # journalctl --list-boots|egrep 08-1[4-7] -34 512748696e3444139dd123b19e23e7df Fri 2021-08-13 06:45:28 CEST—Sat 2021-08-14 04:36:10 CEST -33 3d22af1f127c43e88911b17c121b1a5c Sat 2021-08-14 04:43:45 CEST—Sat 2021-08-14 04:56:09 CEST -32 ef8c7f44a0944a2fa99eda9b95b44804 Sat 2021-08-14 06:08:42 CEST—Sat 2021-08-14 07:18:25 CEST -31 4e138beae71045e583c82300606fb498 Sat 2021-08-14 08:32:38 CEST—Sat 2021-08-14 08:37:54 CEST -30 a792a5be8ad14499a4bd81f94d9a3029 Sat 2021-08-14 09:05:54 CEST—Sat 2021-08-14 09:16:38 CEST -29 112b2c7eae6c479e9d4c2e93962d8eb1 Sat 2021-08-14 09:41:23 CEST—Sat 2021-08-14 09:51:21 CEST -28 57539019b2824822bd68b6ffbc0871ff Sat 2021-08-14 10:15:31 CEST—Sat 2021-08-14 10:30:36 CEST -27 11221d3d76884ada88b436b0207b9646 Sat 2021-08-14 11:21:14 CEST—Mon 2021-08-16 01:30:06 CEST -26 95488a01884b41868735530ec3034bd5 Mon 2021-08-16 06:45:30 CEST—Mon 2021-08-16 09:23:17 CEST -25 a627d8b47e244452bbce9b9c4563b3df Mon 2021-08-16 09:58:07 CEST—Mon 2021-08-16 10:23:04 CEST -24 717b099ff2624e2f8cde2b89a725cb1e Mon 2021-08-16 11:11:06 CEST—Mon 2021-08-16 11:19:57 CEST -23 a8e7b35bef134f5ab3d127669eefbd59 Mon 2021-08-16 11:54:40 CEST—Mon 2021-08-16 12:15:10 CEST -22 48d6037845604195ae8c9a52c087478f Mon 2021-08-16 12:45:56 CEST—Mon 2021-08-16 14:07:46 CEST -21 f0ee7c0b55a94085960c00c9ed3ba0f3 Mon 2021-08-16 14:56:26 CEST—Mon 2021-08-16 15:13:09 CEST -20 a8b1eac22df347d08f6e051b01d3d571 Mon 2021-08-16 16:15:07 CEST—Mon 2021-08-16 16:53:08 CEST -19 05b42db450a14e028bf8308653f921ea Mon 2021-08-16 16:54:26 CEST—Mon 2021-08-16 16:54:27 CEST -18 20edefda5b0d42c38cf6d051e02acfbf Mon 2021-08-16 17:55:56 CEST—Mon 2021-08-16 18:04:32 CEST -17 c256baf4984f419b850f8e80035ecbc1 Mon 2021-08-16 18:12:14 CEST—Mon 2021-08-16 18:14:45 CEST -16 305e1b0945534586ab2bdcb1a29e4ad3 Mon 2021-08-16 18:19:43 CEST—Mon 2021-08-16 18:37:43 CEST -15 905ccaba4d4d4355bddd1434e487076f Mon 2021-08-16 19:05:21 CEST—Mon 2021-08-16 19:12:55 CEST -14 a2e6d9b8a9394cc3aba65dfcae1b6c1f Mon 2021-08-16 20:11:34 CEST—Tue 2021-08-17 00:33:46 CEST -13 8a789300ed4c442fbd7d1d997a40e731 Tue 2021-08-17 00:38:05 CEST—Tue 2021-08-17 01:30:03 CEST -12 dbd147ee5c6f42048b1a9c343fa0f839 Tue 2021-08-17 06:45:27 CEST—Tue 2021-08-17 10:42:50 CEST -11 975253aed42b42d7a74d56c7f2c3a61a Tue 2021-08-17 10:46:31 CEST—Tue 2021-08-17 10:50:04 CEST -10 bfc6bfc5b7fd4f07b01779061f437abb Tue 2021-08-17 11:05:07 CEST—Tue 2021-08-17 12:43:27 CEST -9 ac4ad86696ab480d9515d2f6f76474c3 Tue 2021-08-17 13:03:35 CEST—Tue 2021-08-17 13:11:06 CEST -8 18738946f92b4b83af1b1f45e9d6744f Tue 2021-08-17 13:11:56 CEST—Tue 2021-08-17 13:13:16 CEST -7 390d7cee20ae4f669d123868020a6dab Tue 2021-08-17 13:14:17 CEST—Tue 2021-08-17 13:21:39 CEST -6 aa75875e5eb24fa181c3478288544dde Tue 2021-08-17 13:29:56 CEST—Tue 2021-08-17 16:30:14 CEST -5 dcb3af0d65204bceb839d03b6d2679a8 Tue 2021-08-17 16:36:57 CEST—Tue 2021-08-17 16:52:47 CEST -4 5d40be76d71a4a2f8491c1f2e7f164f8 Tue 2021-08-17 16:53:53 CEST—Tue 2021-08-17 16:55:17 CEST -3 b5385e7a0e5a4470bf26d0edc84683a1 Tue 2021-08-17 16:57:06 CEST—Tue 2021-08-17 16:57:26 CEST -2 d45eac41c1ab4ab6a4bf58d46fe9f0fe Tue 2021-08-17 17:29:48 CEST—Tue 2021-08-17 18:40:21 CEST -1 176ad247b1634c6198822ae291c40bfb Tue 2021-08-17 18:48:42 CEST—Tue 2021-08-17 19:20:13 CEST 0 efd8f3c1daa24f699fc583c979007a72 Tue 2021-08-17 19:29:38 CEST—Tue 2021-08-17 20:54:04 CEST |
Hij heeft de kast opengehaald en gekeken of er misschien extreem veel stof in zit, maar de stoffilters van de behuizing doen goed hun werk, en stof was er nauwelijks.
Ik heb de server log (journalctl uitvoer) hier geplakt, teveel voor GoT: https://0paste.com/288314-a754d4a3. Daar zitten een paar reboots tussen op 14/8, en nergens zie ik iets wat een mogelijk softwareprobleem suggereert.
Ik zie echt niks in de logs, wat mij doet vermoeden dat het een hardwareprobleem is. 6 juli is de microcode van de Skylake CPU nog bijgewerkt, maar het probleem heeft zich eerder ook al voorgedaan dus ik denk niet dat het aan de microcode ligt. Ik veronderstel dat er dan ook wel foutmeldingen in de logs te zien zouden moeten zijn.
Got Leenucks? | Debian Bookworm x86_64 / ARM | OpenWrt: Empower your router | Blogje