Harddisk array faalt keer op keer. Voeding te zwak?

Pagina: 1
Acties:

  • Firefox
  • Registratie: Juni 1999
  • Laatst online: 08-09-2024

Firefox

Een Vurig Vosje

Topicstarter
Ik heb een redelijk zwaar uitgevoerde server: Vette Antec Serverkast met een hoop 5,25" bay's, Tyan S2665, 2x 2,66GHz Xeon DP, 3 GB geheugen, Adaptec 29160 dual channel controllertje met een (externe) LTO, IDE CD-ROM, IDE ZIPdrive, floppy en tot voor kort 6 120 GB harddiskjes aan een LSI SATA150-6 RAID controllertje. Inmiddels ook voorzien van een 3Ware 9500S (12poorts)

Niet al te snel, maar hij doet deed het verder best. Het OS mirror draaide zonder problemen, maar de data schijven in Raid 10 gingen de laatste tijd steed meer kuren vertonen. Al een jaar valt zo nu en dan een schijfje weg, maar opnieuw toevoegen aan het array, en een paar uur traag rebuilden en het liep allemaal wel weer verder. Schijfjes piepen en gieren nogal, maar na 4 jaar nonstop mag het ook wel eens gebeuren dat ze er genoeg aan hebben. Recentelijk volgen de uitvallen frequenter, en ook steeds meer schijven tegelijk. RAID 10 kan - als je mazzel hebt - een dubbele fail trekken, dus geen drama... tot 3 van de 4 tegelijk kappen. Ouch.

Als goed beheerder heb je op je werk backups, en thuis ook (toch? ;)) dus geen drama, maar toch maar geprobeerd om met een forced online de meest relevante schijf terug te brengen, en tot mijn opluchting was het volume net zo snel weer "degraded" ipv "failed", en kon er nog even snel een laatste verse backup gemaakt worden.

4 nieuwe schijven gekocht ter vervanging van de oudste set 120 GB schijven. WesternDigital 500 GB RE2. Even schroeven, hotswap laatjes terug zetten, spanning op de schijven en... werken, we kunnen verder. Volume aangemaakt, initialiseren, partitioneren en formateren ... een luide piep en 3 van de 4 schijven offline.

Zou het dan misschien de hotswap bay's zijn? -> een reserve bay aangesloten, schijven er in en bij serieuze activiteit.... 1 schijf offline tijdens de restore, al spoedig volgen er meer. Da's het dus niet.

Misschien dan toch de controller? -> andere controller geregeld met multilane connectoren, waardoor ook meteen de bekabeling vervangen is. weinig gebruikte controller, en de ML kabels kwamen schoon uit het doosje, evengoed... *plof*

Ís de voeding gaar aan het worden? Hij heeft het tijden goed gedaan (Antec 550 EPS TruePower van ongeveer 3 jaar oud) maar het zou kunnen... Andere voeding die nog op de plank lag aangesloten, booten, controle in de raid manager: "Rebuild 0% - Paused". Ziet er goed uit. En terwijl ik aan het kijken ben hoe ik het rebuilden weer verder kan laten gaan krijg ik 2 online meldingen: Rebuild on port 9 started, Rebuild on port 10 started. Mooi! Flush Cache to unit 0 failed, Port 0 offline! ... Niet zo mooi dus. Nou was dat een onderdeel van een softmirror van de OS partitie en de andere disk deed het nog gewoon, maar het heeft me wel weer aan het denken gezet...

Wat is jullie idee hier?
  1. Gaat een andere voeding hier iets uitmaken, of zit ik tegen een ander probleem aan te hikken waar ik nog niet aan heb gedacht. Heel lang heeft het uitstekend gewerkt, dus waarom nou ineens 550 watt niet genoeg zou zijn... :?
  2. Gegeven een Dual Xeon 2,66 met het eea aan hardware aan boord, waaronder een 6-tal hardeschijven, heeft die voldoende aan een 550WATT voeding? Als 550 krap bemeten zou zijn, is 750WATT een oplossing, of moet ik dan maar meteen gaan hakken en er een 850 of zelfs een 1000 wat voeding in proppen? Voor €100 heb je wel een aardige 750 WATT EPS12V voeding (geen ATX dus!) 1000 WATT EPS voedingen zijn... ehhmm... iets prijziger ;-). Interessant hierbij is te weten wat de impact van een uitbreiding met 4 extra harddisks hierin is.
  3. Geluids productie is niet heel essentieel... met een Matrox G450 heb ik ook geen fancy stekkertjes nodig en ook sata powerconnectoren zijn, dankzij de hotzwap modules geen noodzaak (kan wel). Ik denk wel dat de stroom stabiliteit essentieel is, en wellicht de efficientie van de voeding.
  4. Is een Enermax nou echt zo veel beter dat de 25-45% meerprijs t.o.v. een Chieftech, ThermalTake of Silverstone gerechtvaardigd is? (rekening ermee houdend dat geluidsproductie dus niet echt een issue voor mij is.)
Ik hoor graag jullie mening!

Fox.

Better to have loved and lost then never loved at all... yeah right.


  • Mr Alfabet
  • Registratie: Juli 2005
  • Laatst online: 16-11-2025
voor hdd's is vooral de 12 en 5V lijn erg belangrijk. kijk even op de site wat de maximaal benodigde stroom is in gebruik, kijk of je voeding deze stroomsterkte (A) aankan bovenop een normaal systeem
http://extreme.outervision.com/psucalculator.jsp
Power Supply Calculator - What Power Supply Do I Need

Verwijderd

Het lijkt me erg onwaarschijnlijk dat het je voeding is.

Bij het starten trekken alle schijven tegelijk een enorme stroom uit de voeding, dit omdat de spoelen van de hdd motoren tijdelijk even zo goed als kortsluiting maken terwijl de schijf nog stil staat. Natuurlijk beginnen de schijven dan te draaien en zakt de stroom in no time terug naar alsnog een hoog niveau maar niet meer zo hoog om vervolgens af te zakken naar hun normale hou de schijf op gang stroom.

Dit doen schijven op de 12 volt lijn, als deze te zwak is merk je het meteen bij het starten, niet alle schijven kunnen dan in 1x starten waardoor je motoren hoort aan en afslaan, als eenmaal een deel draait kan de rest ook zonder moeite op gang komen maar die vertraging ga je zeker merken.

Als de voeding even inzakt of kapt terwijl de schijven draaien dan hebben over het algemeen alle schijven hier last van en niet maar 1 of 2. Deze schijven kunnen dan binnen een seconde van deze fout recoveren en buiten even een dip in de performance zal dit niet de schijven in een offline status kicken (dan moeten ze wel erg lang plat zijn wil dat gebeuren, als in 3 sec of langer). Ook dit merk je weer duidelijk doordat je haperende motoren hoort, iedereen die dit ooit gehoord heeft weet precies hoe het klinkt.

Ik zou toch echt kijken naar de controller, of naar het geheugen/mobo/cpu. De controller die je gebruikt is hardware maar zal nog steeds de CPU en het interne geheugen nodig hebben om te kunnen werken, als daarin fouten zitten kun je dit soort onvoorspelbare gedrag krijgen. Aan de andere kant zou je zeggen dat je dit aan meer zaken merkt als enkel de RAID controller, maar bij een gaar slot op het mobo kan het goed bij alleen 1 kaart voorkomen.

Even wat memtesten lijkt me dus handig om even te doen.
Dan lijkt me de meest logische stap om de voeding even te vervangen door een nieuw krachtiger model, het lijkt me niet dat het hieraan ligt maar als je door memtest heen komt dan zou je enkel de controller zeggen en die heb je al getest. Het lijkt me ook niet dat het aan de gloednieuwe schijven zal liggen.

Enne @Mr Alfabet:

Hdd's zitten enkel op de 5 volt en 12 volt aangesloten, dus nogal logisch dat deze het belangrijkste zijn voor ze :+

Op de 5 volt draait echter alleen de electronica en dat zuipt amper stroom, ook de rest van het systeem zal weinig van de 5 volt vragen en dat zal dus waarschijnlijk geen probleem zijn.

[ Voor 7% gewijzigd door Verwijderd op 05-09-2007 05:13 ]


  • Firefox
  • Registratie: Juni 1999
  • Laatst online: 08-09-2024

Firefox

Een Vurig Vosje

Topicstarter
Mr Alfabet schreef op woensdag 05 september 2007 @ 04:48:
voor hdd's is vooral de 12 en 5V lijn erg belangrijk. kijk even op de site wat de maximaal benodigde stroom is in gebruik, kijk of je voeding deze stroomsterkte (A) aankan bovenop een normaal systeem
http://extreme.outervision.com/psucalculator.jsp
Power Supply Calculator - What Power Supply Do I Need
Afhankelijk van het soort moederbord (regular server/highend server) kom ik uit op zo'n 480 tot 505 Watt en dan is 550 opzich genoeg blijkbaar. Wat ik nog niet wist was dat bij vol-continue gebruik de voeding in kwaliteit afneemt, even als gebruik bij > 1 jaar. Uitgaande van de 30% overhead die ze daarvoor rekenen kom je in de buurt van de 650W. Ehh... dan is't nie genoeg... :o

Gesteld dat ik er nog 4 extra HD's in de toekomst bij zou hangen heb ik dan eerder 850W nodig... Dat geeft te denken.
Verwijderd schreef op woensdag 05 september 2007 @ 05:09:
Het lijkt me erg onwaarschijnlijk dat het je voeding is.
Help, en ik dacht dat ik er al was ;)
Bij het starten trekken alle schijven tegelijk een enorme stroom uit de voeding, dit omdat de spoelen van de hdd motoren tijdelijk even zo goed als kortsluiting maken terwijl de schijf nog stil staat. Natuurlijk beginnen de schijven dan te draaien en zakt de stroom in no time terug naar alsnog een hoog niveau maar niet meer zo hoog om vervolgens af te zakken naar hun normale hou de schijf op gang stroom.

Dit doen schijven op de 12 volt lijn, als deze te zwak is merk je het meteen bij het starten, niet alle schijven kunnen dan in 1x starten waardoor je motoren hoort aan en afslaan, als eenmaal een deel draait kan de rest ook zonder moeite op gang komen maar die vertraging ga je zeker merken.

Als de voeding even inzakt of kapt terwijl de schijven draaien dan hebben over het algemeen alle schijven hier last van en niet maar 1 of 2. Deze schijven kunnen dan binnen een seconde van deze fout recoveren en buiten even een dip in de performance zal dit niet de schijven in een offline status kicken (dan moeten ze wel erg lang plat zijn wil dat gebeuren, als in 3 sec of langer). Ook dit merk je weer duidelijk doordat je haperende motoren hoort, iedereen die dit ooit gehoord heeft weet precies hoe het klinkt.
Inderdaad is dat een bekend geluid. Helaas maakt de rest van de server nogal wat kabaal, dus erg opvallen doet het niet als dat bij mij zo zou zijn. Veel RAID Controllers hebben echter hier het truckje "Staged powerup" voor. Elke harddisk krijgt onafhankelijk van elkaar het commando om te gaan draaien. In het geval van de 3ware controller is hier zelfs een timeout tussen in te stellen die bij mij op 2 seconden staat. me dunkt dat dat voldoende moet zijn om dit euvel te tackelen.

Het valt op dat de problemen vooral komen wanneer het systeem ook echt wat met de schijven moet doen: Zware defragmentatie, Rebuild van volumes, harde format van partities, restore van backup zijn momenten dat het blijkbaar net even te veel wordt. In rust is er weinig tot niets aan de hand.
Ik zou toch echt kijken naar de controller, of naar het geheugen/mobo/cpu. De controller die je gebruikt is hardware maar zal nog steeds de CPU en het interne geheugen nodig hebben om te kunnen werken, als daarin fouten zitten kun je dit soort onvoorspelbare gedrag krijgen. Aan de andere kant zou je zeggen dat je dit aan meer zaken merkt als enkel de RAID controller, maar bij een gaar slot op het mobo kan het goed bij alleen 1 kaart voorkomen.
dan zijn er meer sloten die problemen hebben. Momenteel zit er behalve de originele LSI controller ook dus een 3Ware bij, en die passen niet tegelijkertijd in 1 slot. ;) Dat zou dus wat twijfelachtig kunnen zijn als oorzaak. Niet dat ik het direct uit sluit, maar meer als een challenge aan wat je zegt. Overigens loopt/liep die server als een zonnetje. Exchange 2003, SQL 2005, ePO 3.6, WSUS, RIS, WDS, File en Print serving, Backup Exec, Virtual Server... Bij memory problemen zou je daar op zijn minst wat 'issues' mee verwachten, idem met CPU problemen. Windows geeft soms wat probleempjes, maar dat is wel terug te leiden naar de ontzettende berg meuk die er op draait ;-)
Even wat memtesten lijkt me dus handig om even te doen.
Dan lijkt me de meest logische stap om de voeding even te vervangen door een nieuw krachtiger model, het lijkt me niet dat het hieraan ligt maar als je door memtest heen komt dan zou je enkel de controller zeggen en die heb je al getest. Het lijkt me ook niet dat het aan de gloednieuwe schijven zal liggen.
Helaas is "even" vervangen van een voeding niet helemaal de oplossing ;) EPS-voedingen liggen niet dik gezaaid binnen de vrienden kring ter test of dat het oplost, laat staan eentje met 750 of 850W. :o Dat wordt dan dus kopen. Vandaar eerst mijn oproep hier om met mij mee te denken of dit zin heeft :)

Terugkomend op mijn eerdere vragen: Wat zou dan een fatsoenlijke voeding hier zijn? Is die dure Enermax echt zoveel beter dat dat het extra geld rechtvaardigt?

Memtesten ben ik inmiddels niet meer erg bedreven in. Wat zijn hier tegenwoordig de betere oplossingen voor? Een ouwe dosflop spreekt in ieder geval niet echt aan ;)

Ik hoor graag meer commentaar van jullie en anderen, in ieder geval dank voor zover.

Better to have loved and lost then never loved at all... yeah right.


Verwijderd

Tegenwoordig doen we het met een CD'tje ;) (oa)

Ik denk dat die berekening van 850 watt enigsinds overdreven is, je hebt het niet over consumenten voedingen maar over het meer professionelere spul. Als daarop staat: 550 watt, dan zal ie ook daadwerkelijke 550 watt kunnen leveren.

De cijfers daar geloof ik ook niet helemaal, dan zouden de helft van mijn servers problemen moeten hebben met de voeding en dat is niet zo.

Je zou kunnen denken over een iets zwaarder model maar in de basis zou ik niet zeggen dat ie te zwak is.

Dat de slijtage van de voeding zo erg kan zijn geloof ik ook helemaal niets van, met een el-cheapo Sweex voeding misschien, maar een professionele server voeding dient toch in ieder geval gedurende de garantie periode (3 tot 5 jaar) gewoon te leveren wat erop staat.

Er staat nergens in kleine letters: Ohwjah na een jaar gaat ie minder performen, surprise :+

Staged powerup is geloof ik wel iets wat de schijven ook daadwerkelijk moeten ondersteunen, maar dat zal wel goed zitten neem ik aan? Zeker aangezien het zo'n swap bay en controller in 1 product is.

Het is dus waarschijnlijk niet:

CPU/Mem/Mobo (memtest geeft hier 100% uitsluitsel over)

Het is zeker niet:

Mobo slot (meerdere getest)
Controller (meerdere getest)
Schijven (nieuwe schijven gepakt)
Bay (reserve getest)

Dan blijft inderdaad de voeding als enig puntje over.

Moet je het zelf betalen of moet de baas het betalen? Ik denk dat je met deze testgegevens toch zeker wel moet kunnen rechtvaardigen een nieuwe voeding aan te schaffen.

  • Firefox
  • Registratie: Juni 1999
  • Laatst online: 08-09-2024

Firefox

Een Vurig Vosje

Topicstarter
Verwijderd schreef op woensdag 05 september 2007 @ 15:30:
Tegenwoordig doen we het met een CD'tje ;) (oa)

Ik denk dat die berekening van 850 watt enigsinds overdreven is, je hebt het niet over consumenten voedingen maar over het meer professionelere spul. Als daarop staat: 550 watt, dan zal ie ook daadwerkelijke 550 watt kunnen leveren.

De cijfers daar geloof ik ook niet helemaal, dan zouden de helft van mijn servers problemen moeten hebben met de voeding en dat is niet zo.

Je zou kunnen denken over een iets zwaarder model maar in de basis zou ik niet zeggen dat ie te zwak is.

Dat de slijtage van de voeding zo erg kan zijn geloof ik ook helemaal niets van, met een el-cheapo Sweex voeding misschien, maar een professionele server voeding dient toch in ieder geval gedurende de garantie periode (3 tot 5 jaar) gewoon te leveren wat erop staat.

Er staat nergens in kleine letters: Ohwjah na een jaar gaat ie minder performen, surprise :+
[...]
Staged powerup is geloof ik wel iets wat de schijven ook daadwerkelijk moeten ondersteunen, maar dat zal wel goed zitten neem ik aan? Zeker aangezien het zo'n swap bay en controller in 1 product is.
Staged powerup is meer de term die ik er aan heb gegeven om het beestje een naam te geven. Ik weet eigenlijk niet of dat de correcte term is. De hotswap bay's zijn van 2 merken die ik destijds in de Pricewatch terug kon vinden, en worden met gewone sata kabeltjes per drive gekoppeld. De truck die er in zit is dat bij het booten de IDE/SATA controller een spinup commando geeft, en dat lijkt te werken. Mijn hardware kennis is niet zo denderend meer sinds ik me een paar jaar terug uit het hardware review gebeuren heb terug getrokken.
Het is dus waarschijnlijk niet:

CPU/Mem/Mobo (memtest geeft hier 100% uitsluitsel over)

Het is zeker niet:

Mobo slot (meerdere getest)
Controller (meerdere getest)
Schijven (nieuwe schijven gepakt)
Bay (reserve getest)

Dan blijft inderdaad de voeding als enig puntje over.

Moet je het zelf betalen of moet de baas het betalen? Ik denk dat je met deze testgegevens toch zeker wel moet kunnen rechtvaardigen een nieuwe voeding aan te schaffen.
Mijn huidige professionele hardware overwegingen worden meer geleid door wat voor CPU kracht ik ongeveer nodig heb, hoeveel geheugen, en dat het een standaard chassis moet zijn i.v.m. hardware standaardisatie voor het server park. Ik ben dus bij lange na niet meer zo diep into hardware als dat ik een jaar of 5 a 6 geleden was. Van een HP Proliant verwacht ik dat de voeding genoeg puf heeft om de boel draaiend te houden, slijtage boeit niet gezien de garantie: if it's broke, get over here and bloody fix it. Dus dan liggen de verhoudingen iets anders. :) Mijn "thuis" servertje is voor de meesten een tikkie over de top, maar ik doe er ook het een en ander aan software evaluaties en simulaties op voor examens en nieuwe functionaliteit voor op kantoor waar ik nieuwsgierig naar ben. Het is dus mijn eigen prive servertje. Dat laat niet onverlet dat er een beetje op de kosten gelet moet worden. 500 euro aan nieuwe schijven, 400 euro aan een raid controller. Als daar nu geld bij komt voor een voeding wil ik wel het gelazer dan daarmee klaar hebben, want de baas (en daarmee dus ook de penningmeester in het huishouden ;)) geeft me wel duidelijk te verstaan dat de bankrekening niet zonder einde is :+

Maargoed. Even eerst memtesten dan dus maar. Ik ga wel even googlennaar een goeie memtest (nou nog een PC die er ook nog een CD van kan maken |:(

Better to have loved and lost then never loved at all... yeah right.


  • ChessSpider
  • Registratie: Mei 2006
  • Laatst online: 31-01 21:30
De windows based memtest is ook aardig goed heb ik gehoord, vond dingen die de DOS versie niet vond.

Toen de (oude, sweex) voeding van mij het bijna begaf, werd hij heel erg warm. Misschien kan je controleren hoe warm je voeding word om te kijken of hij op zijn achterste poten loopt of niet? Of anders gewoon een programma downloaden die je voltages checked? Misschien niet 100% professionele manier, maar als je het niet geprobeerd hebt is het het wel waard..

  • Firefox
  • Registratie: Juni 1999
  • Laatst online: 08-09-2024

Firefox

Een Vurig Vosje

Topicstarter
4 Paralelle Memtests gedraaid vandaag, waarbij een heel groot gedeelte ruim 11x is doorlopen, en het restant zelfs 25x. Geen enkele fout aangetroffen. Ik hou het er dus maar even op dat het geheugen prima in orde is.

Better to have loved and lost then never loved at all... yeah right.

Pagina: 1