Deze week heb ik een internet-servertje geïnstalleerd: Compaq Deskpro EN SFF p3 1 GHz, 384 MB SDRAM, onboard netwerk + 2 PCI NIC's, 30 GB Maxtor ATA133 schijf.
FreeBSD 4.11.
Functies: router, firewall, webserver voor een paar sites. Dit is een upgrade, het was een Celeron 333, dus softwarematig niets nieuws. Installatie (schone install) ging dan ook prima, totdat steeds na ongeveer een uur (ik was aan het compilen) de machine vastliep. Soms was de machine nog te pingen, soms niet. Toetsenbord deed niets. Voordat ik ging installeren, heb ik 20 uren lang memtest86 gedraaid om er zeker van te zijn dat geheugen ok is.
Bij het vastlopen kreeg ik geen duidelijke meldingen, maar tijdens het functioneren van de machine kreeg ik meldingen van ATA-timeouts. Harddisk werd hoofdverdachte, ook omdat vastlopers veel frequenter zijn bij intensief schijf gebruik (compilen).
Na een uptime van zo'n 16 uur met heel weinig schijf gebruik is de machine weer vastgelopen, met de volgende meldingen in /var/log/messages:
Gistermiddag portscan laten doen, vandaar de meldingen om 14:00. Niets aan de hand nog. Iets na 3:00 's nachts problemen met ata en de schijf. Om 10:53 nieuwe start toen de machine niet meer reageerde. Of de machine al direct om 3:00 bleef hangen weet ik niet, ik vermoed van wel, omdat het in voorgaande gevallen ook zo was, ik was pas weer bij de machine om 10:30 en toen hing de boel.
Schijf- en controller-gegevens van kernel:
Mijn vraag is: Hoe moet ik die meldingen interpreteren? Moet ik het probleem zoeken bij de schijf, de controller of is het een simpel hardware conflict?
Na een reboot kreeg ik van het BIOS de melding dat er geen schijf is. Dit bleef zich herhalen. Kast open gemaakt, even aan de schijf gerammeld, en nu draait de machine weer even (en kan ik dit bericht typen). Schrijf wordt steeds verdachter..
Met Google kwam ik de melding ook vaak tegen, maar de oorzaak is niet duidelijk. De ene keer heeft iemand het bij de ene versie van FreeBSD wel en de andere niet, een andere keer wordt over conflicten gesproken. Zijn hier mede-FreeBSD'ers die ervaring hebben met deze foutmeldingen?
EDIT: Ik had een scriptje op de achtergrond draaien die aan een log-bestandje elke 10 seconden de output van het 'data' commando toevoegt. Dit ging door tot 8:04 vanochtend. Dit betekent dat de machine nog een tijd heeft doorgedraaid na die meldingen, wat klopt met mijn eerdere ervaringen met het vastlopen zonder directe meldingen. De ATA timeout meldingen verschijnen dus al veel eerder dan het vastlopen, dat zonder enige melding gebeurt.
FreeBSD 4.11.
Functies: router, firewall, webserver voor een paar sites. Dit is een upgrade, het was een Celeron 333, dus softwarematig niets nieuws. Installatie (schone install) ging dan ook prima, totdat steeds na ongeveer een uur (ik was aan het compilen) de machine vastliep. Soms was de machine nog te pingen, soms niet. Toetsenbord deed niets. Voordat ik ging installeren, heb ik 20 uren lang memtest86 gedraaid om er zeker van te zijn dat geheugen ok is.
Bij het vastlopen kreeg ik geen duidelijke meldingen, maar tijdens het functioneren van de machine kreeg ik meldingen van ATA-timeouts. Harddisk werd hoofdverdachte, ook omdat vastlopers veel frequenter zijn bij intensief schijf gebruik (compilen).
Na een uptime van zo'n 16 uur met heel weinig schijf gebruik is de machine weer vastgelopen, met de volgende meldingen in /var/log/messages:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
| May 19 14:00:38 internet /kernel: Limiting closed port RST response from 240 to 200 packets per second May 19 14:00:39 internet /kernel: Limiting closed port RST response from 218 to 200 packets per second May 20 03:02:31 internet /kernel: ad2: READ command timeout tag=0 serv=0 - reset ting May 20 03:02:42 internet /kernel: ata1: resetting devices .. done May 20 03:02:42 internet /kernel: ad2: WRITE command timeout tag=0 serv=0 - rese tting May 20 03:02:42 internet /kernel: ata1: resetting devices .. done May 20 03:02:56 internet /kernel: ad2: READ command timeout tag=0 serv=0 - reset ting May 20 03:02:56 internet /kernel: ata1: resetting devices .. done May 20 10:53:38 internet /kernel: Copyright (c) 1992-2005 The FreeBSD Project. May 20 10:53:38 internet /kernel: Copyright (c) 1979, 1980, 1983, 1986, 1988, 19 89, 1991, 1992, 1993, 1994 |
Gistermiddag portscan laten doen, vandaar de meldingen om 14:00. Niets aan de hand nog. Iets na 3:00 's nachts problemen met ata en de schijf. Om 10:53 nieuwe start toen de machine niet meer reageerde. Of de machine al direct om 3:00 bleef hangen weet ik niet, ik vermoed van wel, omdat het in voorgaande gevallen ook zo was, ik was pas weer bij de machine om 10:30 en toen hing de boel.
Schijf- en controller-gegevens van kernel:
code:
1
2
3
4
5
6
| [simon@internet:~]$ dmesg | grep ata atapci0: <Intel ICH2 ATA100 controller> port 0x2460-0x246f at device 31.1 on pci0 ata0: at 0x1f0 irq 14 on atapci0 ata1: at 0x170 irq 15 on atapci0 ad2: 29325MB <Maxtor 6E030L0> [59582/16/63] at ata1-master UDMA100 acd0: CDROM <LTN485> at ata0-master PIO4 |
Mijn vraag is: Hoe moet ik die meldingen interpreteren? Moet ik het probleem zoeken bij de schijf, de controller of is het een simpel hardware conflict?
Na een reboot kreeg ik van het BIOS de melding dat er geen schijf is. Dit bleef zich herhalen. Kast open gemaakt, even aan de schijf gerammeld, en nu draait de machine weer even (en kan ik dit bericht typen). Schrijf wordt steeds verdachter..
Met Google kwam ik de melding ook vaak tegen, maar de oorzaak is niet duidelijk. De ene keer heeft iemand het bij de ene versie van FreeBSD wel en de andere niet, een andere keer wordt over conflicten gesproken. Zijn hier mede-FreeBSD'ers die ervaring hebben met deze foutmeldingen?
EDIT: Ik had een scriptje op de achtergrond draaien die aan een log-bestandje elke 10 seconden de output van het 'data' commando toevoegt. Dit ging door tot 8:04 vanochtend. Dit betekent dat de machine nog een tijd heeft doorgedraaid na die meldingen, wat klopt met mijn eerdere ervaringen met het vastlopen zonder directe meldingen. De ATA timeout meldingen verschijnen dus al veel eerder dan het vastlopen, dat zonder enige melding gebeurt.
[ Voor 18% gewijzigd door SvMp op 20-05-2005 11:27 ]