DMA errors op HD: kernel of hardware issue?

Pagina: 1
Acties:

Acties:
  • 0 Henk 'm!

  • drm
  • Registratie: Februari 2001
  • Laatst online: 09-06 13:31

drm

f0pc0dert

Topicstarter
Ik draai sinds een jaar of twee zonder problemen verschillende os'en op mijn systeem. In dit systeem heb ik drie HD's, waaronder twee Seagates Barracuda 7200.10 (vroeger in softraid0 opstelling). Op één van de twee heb ik een tijd lang Windows (7) laten staan voor games in een multiboot opstelling, op de andere draaide ik al voor lange tijd met plezier Debian als primair OS. De laatste is een WD Caviar 1TB schijf die ik gebruik als /home mountpoint.

Nou leek laatst de HD waar ik Debian op draaide er ineens mee op te houden. Dat was niet zo'n probleem want ik had al heel lang niet meer gegamed, dus Windows 7 mocht er wel aan geloven. Dus, de tweede Barracuda leeggegooid, daar Debian opnieuw op geinstalleerd en weer vrolijk aan de slag, want alle belangrijke spullen stonden toch op de Caviar. Dat heeft een maandje prima gedraaid en plots krijg ik ook op die barracuda dezelfde symptomen.

Elke keer als ik lange grote reads deed (vooral goed te reproduceren met een "aptitude update") kreeg ik in mijn syslog foutmeldingen over DMA Read errors. Dat was bij allebei de harde schijven precies hetzelfde. Frappant, want na 1 harde schijf geloof ik nog best dat het een hardware failure is, maar als de tweede ineens precies hetzelfde gaat doen (na veel minder belaste draaiuren) dan krijg ik toch wel zo'n stripfiguurlijk vraagteken boven mijn hoofd.

Dus, ik aan het googlen en uitproberen geslagen. En hoe meer ik erover lees, en hoe meer ik probeer, hoe vager het probleem wordt:

[ul]• dd if=/dev/sda1 of=/dev/null draait zonder problemen
• Mount + find . -exec cat '{}' \; > /dev/null werkt zonder problemen
• Mount + find . > ./tmp.txt werkt zonder problemen
• Mount, remount /proc en /dev + chroot => bruikbaar systeem. Dan binnen dat systeem aptitude update => zelfde issues
• In BIOS geswitcht van AHCI naar ATA en v.v., foutmeldingen verschillen iets (vnl wel/niet NCQ), maar symptomen zijn hetzelfde
• Verschillende kernels geprobeerd (3.1 vanuit debian/testing en 2.6.35-22 vanuit squeeze (stable))

Ik ben een beetje de draad kwijt. Misschien is het wel gewoon het beste om de HD's weg te gooien en er wat nieuws in te prikken, maar eerlijk gezegd hou ik daar nooit zo van, want voor hetzelfde geld is het stiekem toch de controller op mijn mobo, of is er gewoon een geheugenreepje dat roet in het eten gooit (niet waarschijnlijk, maar toch...).

Wie kent het probleem, of vergelijkbare problemen, en heeft enig idee hoe ik aan kan tonen wat exact het probleem is ...?

edit:
Vergeten syslog snippet erbij te plakken:
code:
1
2
3
4
5
6
7
8
Jan 22 18:27:35 escape-pod kernel: [  102.342194] ata3.00: exception Emask 0x0 SAct 0x3 SErr 0x0 action 0x0
Jan 22 18:27:35 escape-pod kernel: [  102.342246] ata3.00: irq_stat 0x40000008
Jan 22 18:27:35 escape-pod kernel: [  102.342294] ata3.00: failed command: READ FPDMA QUEUED
Jan 22 18:27:35 escape-pod kernel: [  102.342347] ata3.00: cmd 60/00:00:c8:4b:6d/01:00:08:00:00/40 tag 0 ncq 131072 in
Jan 22 18:27:35 escape-pod kernel: [  102.342462] ata3.00: status: { DRDY ERR }
Jan 22 18:27:35 escape-pod kernel: [  102.342509] ata3.00: error: { UNC }
Jan 22 18:27:35 escape-pod kernel: [  102.346361] ata3.00: configured for UDMA/133
Jan 22 18:27:35 escape-pod kernel: [  102.346375] ata3: EH complete

[ Voor 13% gewijzigd door drm op 22-01-2012 19:02 ]

Music is the pleasure the human mind experiences from counting without being aware that it is counting
~ Gottfried Leibniz


Acties:
  • 0 Henk 'm!

  • cschutijser
  • Registratie: Januari 2008
  • Laatst online: 03-06-2022
Dit soort problemen heb ik een lange tijd geleden ook gehad en ik heb toen lang gezocht naar een oplossing. Ik heb toen de harde schijf aangesloten met een andere SATA-kabel en toen verdwenen de problemen.. Ik kan niet echt aantonen dat het kabeltje het probleem was maar toevallig waren de problemen wel weg.. Je zou het eens kunnen proberen? Eventueel nog de harde schijf in een andere computer stoppen en kijken of het probleem ook optreed.

Acties:
  • 0 Henk 'm!

  • xx77qq
  • Registratie: Januari 2004
  • Niet online
drm schreef op zondag 22 januari 2012 @ 19:00:
Ik draai sinds een jaar of twee zonder problemen verschillende os'en op mijn systeem. In dit systeem heb ik drie
Wie kent het probleem, of vergelijkbare problemen, en heeft enig idee hoe ik aan kan tonen wat exact het probleem is ...?
Zou je wat meer info kunnen posten, dat maakt het analyseren wat makkelijker.

Wat voor hardware? (sudo lshw) en kan je een dmesg van net na het booten eens tonen?
Wat is de output van smartctl (bv. smartctl --all /dev/sda)?