Ik heb al enkele maanden last van spontane hangs op een van mijn servers. De hangs gebeuren op random momenten en lijken geen verband te hebben met serverload.
Het enige wat ik in mijn logs kan vinden voordat de server er het bijltje bij neerlegt is:
Hierna doet de machine niets meer en werkt alleen een powerboot weer om het beestje weer draaiend te krijgen, en dit houd 'ie dan meestal weer een maandje (of iets korter) vol, om er vervolgens weer mee te stoppen.
De server draait Debian 3.1/stable en heeft een stock 2.4.27-686 kernel. De harddisk in kwestie is een Maxtor 6V250F0, en wordt gebruikt voor een paar websites (is dus geen boot schijf) en wat kleine backups.
SMART checks op deze drive leveren niets op:
Het handmatig uitschakelen van DMA werkt zonder problemen.
Uiteraard al geprobeerd om te zoeken op verschillende sites, maar de meeste errors in deze trend hebben iets met CD-romspelers of SCSI-controllers te maken, iets waar hier geen sprake van is.
Je gaat al snel uit van een harddisk fout, maar ik betwijfel of dit echt aan de harddisk ligt aangezien deze zoals reeds genoemd gewoon blijft werken na een reboot en door alle SMART checks heenkomt.
Ik hoop dat iemand enig idee heeft wat er aan de hand kan zijn
Het enige wat ik in mijn logs kan vinden voordat de server er het bijltje bij neerlegt is:
code:
1
2
3
4
| Jan 18 15:33:53 nameless kernel: hdg: dma_timer_expiry: dma status == 0x21
Jan 18 15:34:03 nameless kernel: hdg: dma timeout retry: status=0xd0 { Busy }
Jan 18 15:34:03 nameless kernel:
Jan 18 15:34:03 nameless kernel: hdg: DMA disabled |
Hierna doet de machine niets meer en werkt alleen een powerboot weer om het beestje weer draaiend te krijgen, en dit houd 'ie dan meestal weer een maandje (of iets korter) vol, om er vervolgens weer mee te stoppen.
De server draait Debian 3.1/stable en heeft een stock 2.4.27-686 kernel. De harddisk in kwestie is een Maxtor 6V250F0, en wordt gebruikt voor een paar websites (is dus geen boot schijf) en wat kleine backups.
SMART checks op deze drive leveren niets op:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
| nameless:~# smartctl -a /dev/hdg smartctl version 5.32 Copyright (C) 2002-4 Bruce Allen Home page is http://smartmontools.sourceforge.net/ === START OF INFORMATION SECTION === Device Model: Maxtor 6V250F0 Serial Number: V50109GG Firmware Version: VA111630 Device is: Not in smartctl database [for details use: -P showall] ATA Version is: 7 ATA Standard is: ATA/ATAPI-7 T13 1532D revision 0 Local Time is: Thu Jan 18 16:20:28 2007 CET SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED .. |
Het handmatig uitschakelen van DMA werkt zonder problemen.
Uiteraard al geprobeerd om te zoeken op verschillende sites, maar de meeste errors in deze trend hebben iets met CD-romspelers of SCSI-controllers te maken, iets waar hier geen sprake van is.
Je gaat al snel uit van een harddisk fout, maar ik betwijfel of dit echt aan de harddisk ligt aangezien deze zoals reeds genoemd gewoon blijft werken na een reboot en door alle SMART checks heenkomt.
Ik hoop dat iemand enig idee heeft wat er aan de hand kan zijn