HDD of controller defect?

Pagina: 1
Acties:

  • Josefien
  • Registratie: Juni 2006
  • Laatst online: 03-02 00:53
In mijn thuisserver zitten 2x Western Digital 640GB schijven (WD6400AACS-0) als opslag, aangesloten op een Promise SATA300 TX2-plus PCI SATA-controller. Ze zitten in een RAID1-array m.b.v. Linux-RAID.

Sinds een paar maanden begint de set problemen te geven waardoor de eerste schijf (/dev/sda, poort 1 op de Promise-controller) telkens als faulty wordt gemarkeerd. Hierbij geeft de console deze meldingen:


Je zal hier bijna denken dat de HDD kapot is. Echter, als ik de HDD in een ander systeem ga testen met WD Diagnostics, dan komt hij elke keer goed door de test. De SMART-waarden zijn prima. Als ik de schijf daarna terugzet in de server en de RAID-array laat rebuilden, werkt het ook weer een paar dagen tot een paar weken goed.

Is hierbij toch de HDD de boosdoender, of de Promise-controller? Zal ik er verstandig aan doen om de HDD's te vervangen door een nieuwe set of ook de controller vervangen? Ik kan niet "zomaar" het hele systeem uitzetten om te testen (bovendien werkt hij dagen tot weken goed voordat het probleem zich weer voordoet...), de server dient namelijk als LDAP/NFS/DCHP/DNS-server, zonder hem kan niemand thuis meer computeren...

De rest van de server-specs zijn als volgt:
Compaq Deskpro EN
Intel Pentium III 667MHz
384MB PC133 SDRAM
Onboard i810 VGA
Intel PRO/1000 gigabit NIC PCI
VIA VT82xx USB2.0 PCI-controller

Alles draait op Debian 5.0 ;)

  • Guardian Angel
  • Registratie: Juni 2000
  • Niet online

Guardian Angel

Bejaard en langharig tuig

1.
Heb je ook de andere HD gecontroleerd?
2.
Heb je de HD zonder partitie of format geprobeerd te laten syncen?

ARME AOW’er


  • Q
  • Registratie: November 1999
  • Laatst online: 23:55

Q

Au Contraire Mon Capitan!

Brakke kabel?

  • CaptJackSparrow
  • Registratie: Februari 2009
  • Niet online

CaptJackSparrow

x07 - License to Tweak.

Je spreekt over het testen van DE HDD alsof je maar 1 drive in een ander systeem getest hebt met DL Diagnostics. Ze moeten natuurlijk beide getest worden. En wel met de extended test natuurlijk. Liefst ook een 'destructieve' test die eventuele bad sectors remapt.

Heb je al gegoogled op enkele relevante foutmeldingen die ik op dat scherm zie staan? Vreemd dat ik ook iets zie over een 'usbdisk'. Hoe zit dat?

Verder moet je ook rekening houden met een mogelijk voedingprobleem.

Ik heb overigens in het systeem waarop ik dit schrijf ook een RAID-1 array met dezelfde schijven aan een op een SiI 3512 gebaseerde controller. Loopt nu zo'n 1,5 jaar probleemloos.

PS.
Gebruik je op die controller de laatste firmware?

[ Voor 9% gewijzigd door CaptJackSparrow op 10-11-2010 22:11 ]


  • Josefien
  • Registratie: Juni 2006
  • Laatst online: 03-02 00:53
Het "/media/usbdisk" is het aankoppelpunt van mijn backup-disk en is geen onderdeel van de foutmelding, het was dat de console in de directory zat ;)

Ik heb maar één HDD getest, omdat de 2e schijf geen problemen geeft. Deze draait nog vrolijk verder als de 1e defect gaat er uit de array wordt gezet. Dat is ook de bedoeling, omdat de server anders niet kan werken.

Bij de defecte schijf heb ik uiteraard de "extended test" laten lopen, zelfs meerdere keren, maar deze gaf geen problemen.

De SATA-kabel kan hem niet zijn, ik heb deze namelijk al eens tussen de schijven verwisseld, maar daarbij verschoof het probleem NIET naar de andere schijf.

Re-syncen heb ik gedaan nadat ik de "defecte" HDD helemaal had uit "ge-zero'd" met de WD tool.

De Promise-controller is al reeds voorzien van de nieuwste firmware (overigens al bij aankoop, de nieuwste versie is uit 2005).

Het gekke is eigenlijk dat het probleem pas terugkomt na enkele dagen tot weken...

[ Voor 8% gewijzigd door Josefien op 10-11-2010 22:31 ]


  • Guardian Angel
  • Registratie: Juni 2000
  • Niet online

Guardian Angel

Bejaard en langharig tuig

Een HD kost niet veel, iig is een nieuwe controller duurder. Ik zou er voor een paar tientjes een andere HD in proppen. Werkt dat ook niet dan is er nog maar een andere mogelijkheid. :)

ARME AOW’er


  • CaptJackSparrow
  • Registratie: Februari 2009
  • Niet online

CaptJackSparrow

x07 - License to Tweak.

kienwaiwong schreef op woensdag 10 november 2010 @ 22:29:
Ik heb maar één HDD getest, omdat de 2e schijf geen problemen geeft. Deze draait nog vrolijk verder als de 1e defect gaat er uit de array wordt gezet. Dat is ook de bedoeling, omdat de server anders niet kan werken.
Ik kan begrijpen dat dit een verleidelijke conclusie is maar.... "Assumption is the mother of all fuck-ups".

Ik WEET nl. niet of die controller of Linux op de een of andere manier beide schijven niet gelijk behandelt bijvoorbeeld maar dat er een soort 'primaire' en 'secundaire' schijf is die kan beïnvloeden welke schijf eruit valt en dat dit nier per sé de schijf hoeft te zijn die het verstoren van de array veroorzaakt bij bepaalde kleine problemen. Aangezien ik dat niet WEET mag ik het ook niet aannemen.

Het kan ook interessant zijn om te vergelijken hoelang de extended test duurt bij beide schijven. Als een van de schijven bijv. de nodige retries doet tijdens de test zal die evt. langer kunnen duren. Als een schijf er te lang over doet om van zo'n interne fout te herstellen, ook al herstelt hij er wel van door bijv. een bad sector te remappen, dan kan ie door de controller uit het array gegooid worden. WD heeft daarvoor ook speciale RAID schijven (RE serie) die juist niet te lang mogen proberen om te herstellen. Dat heet: "RAID-specific, time-limited error recovery (TLER) - Prevents drive fallout caused by the extended hard drive error-recovery processes common to desktop drives".

Heb je de voedingskabels van de schijven al eens verwisseld?

[ Voor 6% gewijzigd door CaptJackSparrow op 10-11-2010 22:59 ]


  • Q
  • Registratie: November 1999
  • Laatst online: 23:55

Q

Au Contraire Mon Capitan!

Als de schijven identiek zijn, kabels goed zijn dan is ofwel je controller aansluiting brak of is de disk flaky.

Test die aansluiting met een andere disk.

  • jbhc
  • Registratie: Juli 2007
  • Laatst online: 03:53
Je zou ook eens de schijven kunnen verwisselen van controller aansluiting om zo de controller uit te sluiten.. Dat zou moeten kunnen met linuxraid volgens mij.

  • Josefien
  • Registratie: Juni 2006
  • Laatst online: 03-02 00:53
Inmiddels heb ik twee nieuwe schijven gekocht in de vorm van Hitachi Desktar 1TB schijven. De controller heb ik niet vervangen. Hij draait inmiddels al enkele dagen met deze schijven, ik wacht wel even af of hij met deze schijven het wèl blijft doen.

De controller is lastig te vervangen, omdat de meeste computerzaken weinig keuze meer hebben in S-ATA controllers met PCI-aansluiting, zonder RAID-functie. De enigen zijn de Promise SATA300 TX2/4 en el-cheapo kaartjes met een Silicon Image Sil3512 chipset (heb er eentje gekocht voor het geval dat het toch de Promise is die problemen geeft). Enkeling heeft een VIA-chipset, maar deze lijken mij ook niet de beste controllers voor 24/7.

Ik weet dat fake-RAID kaartjes onder Linux gebruikt kunnen worden als "gewone" controllers, maar daardoor wordt vaak dmraid getriggerd of er wordt een soort metadata aan de schijven toegevoegd, dat is ongewenst ;)

Nog langer allerlei testen uitvoeren met de oude schijven was toch niet de bedoeling. De server is nogal "onmisbaar" en ik heb helaas niet elke dag de tijd om eraan te werken ;)

[ Voor 9% gewijzigd door Josefien op 21-11-2010 17:48 ]


Verwijderd

PCI-X kaarten kunnen ook in een PCI slot gestoken worden(backwards compatible). Deze bv :
http://www.webconnexxion....?cPath=38&products_id=264
Deze kaart is non-raid, heeft 8 poorten en zoals je ziet, met vele OS'en compatible.

  • CaptJackSparrow
  • Registratie: Februari 2009
  • Niet online

CaptJackSparrow

x07 - License to Tweak.

Nu de oude schijven uit gebruik genomen zijn kun je ze makkelijker alsnog allebei testen. Ik hoop dat je ook wel de nieuwe schijven eerst door de extended Drive Fitness Test van Hitachi gehaald hebt. Begin vorig jaar heb ik ook een hoop gedoe gehad met het kopen van schijven. Ook voor RAID-1 arrays. Van een zending van twee schijven leek een van de twee het gewoon te doen maar die kwam mooi niet door de extended diagnostische test. Daar wil je wel meteen achter komen en niet als ie na maanden voor drie kwart vol staat. Van een zending van twee daarvoor spinde een schijf al niet eens op. Beide zendingen zijn terug gegaan. Pas de derde zending was goed en heb ik in gebruik genomen.

Oeverloos. ;(
Pagina: 1