Server hangt op een DMA timeout na willekeurige periode

Pagina: 1
Acties:

  • soczol
  • Registratie: Oktober 2002
  • Laatst online: 01:44

soczol

Doet iets met energie

Topicstarter
Ik heb al enkele maanden last van spontane hangs op een van mijn servers. De hangs gebeuren op random momenten en lijken geen verband te hebben met serverload.

Het enige wat ik in mijn logs kan vinden voordat de server er het bijltje bij neerlegt is:
code:
1
2
3
4
Jan 18 15:33:53 nameless kernel: hdg: dma_timer_expiry: dma status == 0x21
Jan 18 15:34:03 nameless kernel: hdg: dma timeout retry: status=0xd0 { Busy }
Jan 18 15:34:03 nameless kernel:
Jan 18 15:34:03 nameless kernel: hdg: DMA disabled


Hierna doet de machine niets meer en werkt alleen een powerboot weer om het beestje weer draaiend te krijgen, en dit houd 'ie dan meestal weer een maandje (of iets korter) vol, om er vervolgens weer mee te stoppen.

De server draait Debian 3.1/stable en heeft een stock 2.4.27-686 kernel. De harddisk in kwestie is een Maxtor 6V250F0, en wordt gebruikt voor een paar websites (is dus geen boot schijf) en wat kleine backups.

SMART checks op deze drive leveren niets op:

code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
nameless:~# smartctl -a /dev/hdg
smartctl version 5.32 Copyright (C) 2002-4 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     Maxtor 6V250F0
Serial Number:    V50109GG
Firmware Version: VA111630
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   7
ATA Standard is:  ATA/ATAPI-7 T13 1532D revision 0
Local Time is:    Thu Jan 18 16:20:28 2007 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
..


Het handmatig uitschakelen van DMA werkt zonder problemen.

Uiteraard al geprobeerd om te zoeken op verschillende sites, maar de meeste errors in deze trend hebben iets met CD-romspelers of SCSI-controllers te maken, iets waar hier geen sprake van is.

Je gaat al snel uit van een harddisk fout, maar ik betwijfel of dit echt aan de harddisk ligt aangezien deze zoals reeds genoemd gewoon blijft werken na een reboot en door alle SMART checks heenkomt.

Ik hoop dat iemand enig idee heeft wat er aan de hand kan zijn

  • blaataaps
  • Registratie: Juli 2001
  • Niet online
Ik zou toch de harddisk blijven verdenken (helemaal als de melding consequent voor hdg is), het feit dat de smart-check niks vindt is natuurlijk 0 garantie dat de harde schijf niet stuk is.

  • soczol
  • Registratie: Oktober 2002
  • Laatst online: 01:44

soczol

Doet iets met energie

Topicstarter
Ik heb de harddisk ook nog niet uitgesloten ;) Ik hoop alleen dat het wat anders is. Het vreemde is namelijk dat de server hier helemaal op vastloopt, terwijl de drive zelf niet van essentieel belang zou moeten zijn (tenzij de websites net op dat moment aangeroepen zouden worden), ik weet niet in hoeverre linux op z'n 'bek' gaat als een harddisk zich niet gedraagd.

De vraag is dus, of dit een normaal gedrag is, bij een brakke harddisk, of dat er misschien iets anders niet helemaal lekker loopt.

edit:

Nog even de logs doorgespit; lijkt inderdaad consequent op hdg te zijn. Verder geen andere DMA meldingen op andere schijven.

Aansluiten op een andere controller gaat helaas een beetje moeilijk aangezien de server colocated is.

[ Voor 19% gewijzigd door soczol op 18-01-2007 16:50 . Reden: ik kan niet typen :D ]


  • Diabolical
  • Registratie: Augustus 2005
  • Laatst online: 02-10-2023
Lijkt op HD fout maar kan ook controller fout zijn. HD aansluiten op een andere controller? Kun je in ieder geval e.e.a. mee uitsluiten.

"The internet has given a voice to the voiceless, but unfortunately it hasn't given a brain to the brainless."


  • _JGC_
  • Registratie: Juli 2000
  • Nu online
Hmm, 2.4 kernel, SATA-II schijf... gaat er bij jou ook een lichtje branden? SATA is flink wat jonger dan de kernel die je draait. Een beetje recente 2.6 kernel geeft zeer waarschijnlijk geen enkel probleem.

  • soczol
  • Registratie: Oktober 2002
  • Laatst online: 01:44

soczol

Doet iets met energie

Topicstarter
_JGC_ schreef op donderdag 18 januari 2007 @ 18:06:
Hmm, 2.4 kernel, SATA-II schijf...
Het is inderdaad een SATA-II schijf, maar vziw (tijdje geleden) staat ie op SATA-I ingesteld, al zou ik kunnen proberen om 2.6.x kernel te nemen ja.

Verwijderd

Heb even geleden ook zoiets gehad, ook Maxtor hardeschijven (2!) die de weg kwijt waren.
Powermax tooltje al geprobeerd? Heb je wel windows voor nodig.
En schroll ook even door bij smartctl, die geeft ook een error count aan. Stond bij mij op ongeveer13000 :X

  • _JGC_
  • Registratie: Juli 2000
  • Nu online
soczol schreef op donderdag 18 januari 2007 @ 18:23:
[...]


Het is inderdaad een SATA-II schijf, maar vziw (tijdje geleden) staat ie op SATA-I ingesteld, al zou ik kunnen proberen om 2.6.x kernel te nemen ja.
Het is niet alleen SATA of SATA-II die het probleem veroorzaakt, maar eerder het gebrek aan ondersteuning van SATA in de 2.4 kernels. 2.6 is inmiddels al een jaar of 3 uit, zo niet langer, SATA is iets van de laatste 2 jaar. Als je dan nog met een 2.4 kernel aan komt zetten is het niet vreemd dat SATA niet betrouwbaar werkt. Sommige SATA chipsets, zoals de diverse Intel ICH7 of ESB-nogwat chips, hebben een recente 2.6.18+ kernel nodig om fatsoenlijk te kunnen werken. Zonder een recente kernel kan je foutloze DMA gewoon vergeten op nieuwe chipsets.

  • soczol
  • Registratie: Oktober 2002
  • Laatst online: 01:44

soczol

Doet iets met energie

Topicstarter
Verwijderd schreef op donderdag 18 januari 2007 @ 21:49:
En schroll ook even door bij smartctl, die geeft ook een error count aan. Stond bij mij op ongeveer13000 :X
Logdumpje: http://nameless.bserved.nl/~soczol/smart.txt, zie momenteel dus geen errors en de laatste test heb ik voor de zekerheid nog even een paar minuten geleden gedraaid.
_JGC_ schreef op donderdag 18 januari 2007 @ 21:54:
[...]


Het is niet alleen SATA of SATA-II die het probleem veroorzaakt, maar eerder het gebrek aan ondersteuning van SATA in de 2.4 kernels. 2.6 is inmiddels al een jaar of 3 uit, zo niet langer, SATA is iets van de laatste 2 jaar. Als je dan nog met een 2.4 kernel aan komt zetten is het niet vreemd dat SATA niet betrouwbaar werkt.

Volgens mij heeft debian trouwens ook SATA patches backported van de 2.6.x kernel, maar dit weet ik niet zeker.
Mjah het leuke is dat ik reeds 2 andere servers heb met dezelfde kernel en SATA schijven en totaal geen problemen, alleen deze server lijkt moeite te hebben (met deze harddisk), al durf ik niet direct te zeggen of deze servers ook dezelfde chipset hebben, van deze server weet ik iig dat er een Asus P4P800-VM moederplankje in zit dus het lijkt erop dat deze de ICH5 chipset heeft (ook volgens lspci).

Op afstand booten in 2.6.x ging niet helemaal super, geen errors in de logs, maar reageren deed 'ie verder ook niet en zonder scherm kan ik ook niet 123 zien wat er fout gaat, draait nu dus weer in 2.4.x. Ik ga binnenkort wel even proberen om 'm op 2.6.x te laten lopen.

  • _JGC_
  • Registratie: Juli 2000
  • Nu online
Grote kans dat je harddisks ineens /dev/sda heten ipv /dev/hda met een nieuwe kernel. Zelfs IDE disks krijgen met 2.6.19 en het nieuwe libata framework al /dev/sda namen.
Pagina: 1