SATA softRAID laat het afweten onder CentOS 4.5 - Linux en overige clients

dinsdag 19 juni 2007 11:12

Acties:

Topicstarter

Vorige week had ik een server die opeens onverklaarbaar was gecrashed. In het datacenter bleek het een fatale hd error te zijn, en na een reboot was het opgelost (+ na wat MySQL reparaties die erdoor nodig waren). Google gaf niet bijster veel info (buiten mensen met hetzelfde probleem, zonder oplossing) en ook de webhost had het nog niet gezien.
Allemaal ok leek me, als het maar één keer voorvalt. Nu nog geen week later is het er echter opnieuw (nog niet bevestigd dat het dat is, maar ik kan het al wel raden).

De server is een al wat oudere 1U Supermicro server met P4SCi moederbord, 3Ghz P4, 2,5GB geheugen (niet-ECC) en twee nieuwe SATAII 80GB schijven (Maxtor Diamondmax 10, jumpers in SATA (I) modus).
Er staat CentOS 4.5 op, met de laatste nieuwe kernel en updates. De harde schijven draaien in softRAID 1 (hardware RAID met de onboard ondersteuning van het mobo faalde in combinatie met Linux). De server loads zitten altijd erg goed, en ik als het RAID1 is moet de processor toch geen pariteitsgegevens berekenen? Zou hij er dan toch onder door gaan omdat het softwarematig is en dat te veel vraagt op een drukke server?
De configuratie heeft nochtans zo met softRAID al meer dan een maand wél goed gedraaid onder ongeveer dezelfde belasting (ervoor was het zonder RAID). Anderzijds lijkt kernel 2.6.9-55 me misschien ook de boosdoener (om alles open te houden), want die is er nog maar vrij recent.

De error (eerste keer) die op het scherm kwam:

code:

CentOS release 4.5 (Final)
Kernel 2.6.9-55.ELsmp on an i686

<computernaam> login: ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen
ata2.00: cmd ca/00:08:57:46:a2/00:00:00:00:00/e0 tag 0 cdb 0x0 data 4096 out
     res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
ata2: port is slow to respond, please be patient (Status 0xd0)
ata2: port failed to respond (30 secs, Status 0xd0)

In /var/log/messages is niets te vinden ervan uiteraard (schijferror) en ook anderen soortgelijke errors staan er niet in. Ook is de softRAID nog in prima conditie volgens /proc/mdstat.

Via Google vond ik tal van mailinglist berichten en enkele forumberichten. Sommige zeggen er om de kernel te updaten, andere zeggen dat het aan een striktere nieuwe kernel ligt, ... Ook wordt gezegd met de combined_mode=libata parameter op te starten via de Grub menu.lst configuratie, maar daar wordt dan weer op gereageerd dat het probleem er ook niet door wordt opgelost.
Zelfs op de CentOS bugtracker staat een melding ervan, enkele reacties van mensen die het ook hebben, maar de bug report staat al even open. Ook onder andere distro's bestaat het probleem wel.

[ Voor 8% gewijzigd door RS_Jelle op 19-06-2007 12:32 ]

woensdag 20 juni 2007 11:02

Acties:

RS_Jelle

Topicstarter

Kleine bump na 24h

De server is inmiddels ter plaatse gereboot en deze keer was het scherm gewoon leeg: geen cursor of iets, gewoon niets kwam erop. Na een reboot werkt alles weer prima, net zoals de vorige keer en de error log is leeg.
Ik heb de top stats nagekeken en de processor draait niet onder superbelasting (60/70 procent idle, dus prima). De softRAID 1 heeft dan ook geen zware cpu acties nodig zoals softRAID 5 wel nodig heeft voor de pariteitsgegevens. Ook het geheugengebruik zit maar half vol (al is dat bij Linux uiteraard geen echte indicatie).

Wat kan dan nu nog de exacte oorzaak zijn? Want ik ben die willekeurige crashes zonder enige duidelijke oorzaak vrij beu en de gebruikers van de server ook

[ Voor 6% gewijzigd door RS_Jelle op 20-06-2007 12:01 . Reden: typo ]

woensdag 20 juni 2007 11:46

Acties:

DJ Buzzz

Die foutmelding kan wijzen op b.v. een bug in je ata drivers. Ik zou in ieder geval eens de kernel upgraden, 2.6.9 is archaisch oud en nieuwere versies hebben vaak erg veel bugfixes, zeker op het gebied van een beetje recente SATA controllers.

woensdag 20 juni 2007 12:05

Acties:

Verwijderd

DJ Buzzz schreef op woensdag 20 juni 2007 @ 11:46:
Die foutmelding kan wijzen op b.v. een bug in je ata drivers. Ik zou in ieder geval eens de kernel upgraden, 2.6.9 is archaisch oud en nieuwere versies hebben vaak erg veel bugfixes, zeker op het gebied van een beetje recente SATA controllers.

Klopt dat het oud is, echter als je goed kijkt, dan zie je dat het om een 2.6.9-55.ELsmp. Dat is een zwaar gemodificeerde kernel gemaakt door Red Hat zelf, die dus de patches daarin verwerken. Oftewel, dit werkt prima. Heb zelf 50 servers onder mijn beheer die het goed doen met deze kernel. Ook zelfs met zelfde mobo als TS zegt.

Dan voor de TS. Kan je eens 24 uur gaan monitoren wat hij gebruikt aan load / iostats etc... dus eigenlijk alles monitoren? Maakt hij s'avonds backups? Is hij heel toevallig uitgevallen op het zelfde moment en tijd? Als dat zo is, kijk even de crontabs na.

Ik moet zeggen dat ik dit ook wel eens heb gehad, en het bleek soms meerderen dingen te zijn. Ik noem er een paar voor je op:

Defecte processor.
Defecte geheugen modules.
Harde schijven die niet lekker werken met de sata modus.
Brakke moederbord.
Brakke voeding / voltages die soms niet goed gaan.

Ik weet toevallig dat maxtor en met name hun Diamondmax 10 series, dat ze problemen geven met jumperen naar sata1 modus. Oftewel, dit is heel moeilijk voor je te achterhalen. Echter, hou je dit probleem, dan raad ik je aan toch naar een nieuwe server te gaan zoeken, of alles te gaan testen. Ik zou eerst echter eens andere hd's testen. Pak een WD of Hitatchi of ander merk en kijk wat er dan gebeurd.

woensdag 20 juni 2007 12:17

Acties:

RiDo78

Mijn probleem heeft een iets andere aard: [OpenSuse] Raid 1 bootdevice blijft breken tijdens boot
Ik heb ook ruzie gehad met SATA drivers in de 2.6.18 kernel. Deze waren opgelost in de 2.6.21 kernel.

Just so you know...

[ Voor 30% gewijzigd door RiDo78 op 20-06-2007 12:20 ]

woensdag 20 juni 2007 13:34

Acties:

Verwijderd

Wanneer heb je de kernel upgrade uitgevoerd? Kan je nog even proberen om te switchen naar de laatste kernel voor de update zeg maar? Kan soms wonderen doen namelijk. Dan kan je meteen een bug report sturen naar Red Hat. Alan Cox lost meestal dan het echt super snel op

.

vrijdag 22 juni 2007 08:44

Acties:

RS_Jelle

Topicstarter

Verwijderd schreef op woensdag 20 juni 2007 @ 12:05:
Dan voor de TS. Kan je eens 24 uur gaan monitoren wat hij gebruikt aan load / iostats etc... dus eigenlijk alles monitoren? Maakt hij s'avonds backups? Is hij heel toevallig uitgevallen op het zelfde moment en tijd? Als dat zo is, kijk even de crontabs na.

Ik heb de top stats en iostats nog niet 24h volledig nagekeken, maar wel zo al eens verschillende keren los door de dag. De processor zit rond zo'n 10-20% gebruik, de rest is idle en iostat geeft als hoogste waarde iets van een 12 (11 komma twee cijfers, die altijd wat verschillen) tps aan voor de meest drukke partities.
We hebben geen automatische backup of iets anders zwaar 's nachts (dat moest nog terug aangezet worden na alle crashes). De twee crashes waren ook op twee verschillende momenten: 18h 's avonds de eerste keer en laat in de nacht/'s ochtends heel vroeg de andere keer (iets van een 6 uur ofzo).
Persoonlijk denk ik dus al vrij zeker dat het niet aan overbelasting ligt.

Verwijderd schreef op woensdag 20 juni 2007 @ 12:05:Ik moet zeggen dat ik dit ook wel eens heb gehad, en het bleek soms meerderen dingen te zijn. Ik noem er een paar voor je op:

Defecte processor.
Defecte geheugen modules.
Harde schijven die niet lekker werken met de sata modus.
Brakke moederbord.
Brakke voeding / voltages die soms niet goed gaan.

Ik weet toevallig dat maxtor en met name hun Diamondmax 10 series, dat ze problemen geven met jumperen naar sata1 modus. Oftewel, dit is heel moeilijk voor je te achterhalen. Echter, hou je dit probleem, dan raad ik je aan toch naar een nieuwe server te gaan zoeken, of alles te gaan testen. Ik zou eerst echter eens andere hd's testen. Pak een WD of Hitatchi of ander merk en kijk wat er dan gebeurd.

Van die problemen met de Diamondmax 10 serie had ik inderdaad ook gelezen ... toen het al te laat was

Vreemd dat je zegt dat die jumper op SATA1 het juist veroorzaakt, terwijl in de problemen topics met die serie (vooral dan met de nForce 4 chipset en die heeft ons mobo niet, maar ook met andere chipsets) juist het zetten van de jumper op SATA 1 het probleem zou oplossen (omdat het een probleem met een SATA II functie was -dacht ik-).

Verwijderd schreef op woensdag 20 juni 2007 @ 13:34:
Wanneer heb je de kernel upgrade uitgevoerd? Kan je nog even proberen om te switchen naar de laatste kernel voor de update zeg maar? Kan soms wonderen doen namelijk. Dan kan je meteen een bug report sturen naar Red Hat. Alan Cox lost meestal dan het echt super snel op .

De laatste kernel (wat toen ook de upgrade was van CentOS 4.4 naar 4.5) dateert van 22 mei. Daarvoor hebben we in elk geval zulke problemen niet gehad. Maar wel andere: nadat we de CentOS installatie hadden gedaan met softRAID, viel enkele dagen later al één van de schijven uit in de array. Die hebben we toen vervangen door een nieuwe en de array hersteld. Thuis met SeaTools kon die onder een stress test geen problemen ontdekken aan de schijf

Normaal gezien gaan we binnenkort upgraden naar CentOS 5, dus als het de kernel is hoop ik dat het daar al zeker in opgelost is. Die is standaard van huis uit ook al wat moderner, meerbepaald 2.6.18 i.p.v. nu 2.6.9 (+ backwards geporte bugfixes)

vrijdag 22 juni 2007 08:49

Acties:

UltraSub

Die softraid, das toch mdadm? Zie je daar meldingen van? Want zolang die niks zegt, is er imo niks aan de hand met je raid. Over cpu usage, raid 1 zie je niet eens, raid 5 gebruikt minder als een procent cpu op een X2 3800!
Nee, ook ik neig gewoon naar je drivers.

vrijdag 22 juni 2007 09:57

Acties:

RS_Jelle

Topicstarter

UltraSub schreef op vrijdag 22 juni 2007 @ 08:49:
Die softraid, das toch mdadm? Zie je daar meldingen van? Want zolang die niks zegt, is er imo niks aan de hand met je raid. Over cpu usage, raid 1 zie je niet eens, raid 5 gebruikt minder als een procent cpu op een X2 3800!
Nee, ook ik neig gewoon naar je drivers.

Het is inderdaad mdadm, die standaard softRAID verzorgd bij RHEL/CentOS. Die zegt niets: er komen tijdens het draaien geen warnings/errors in de messages log, wat ik bij andere mensen met problemen wel al heb gelezen.

Het is dus twijfelen tussen de drivers die misschien een foutje hebben na de kernel upgrade van v4.5, ofwel de brakke Diamondmax 10 serie.