Windows Server Raid 5 Probleem

Pagina: 1
Acties:

  • Manotje90
  • Registratie: Mei 2009
  • Laatst online: 28-01 13:44
Beste lezers,

Van de week heb ik een softwarematige raid 5 gemaakt in Windows server 2008 R2 bestaande uit 4 western digital 3TB caviar green .
hierbij viel me op dat het schrijven maar met 11MB gaat en dat lezen wel met 79MB gaat.

Dus ik heb het even gemonitord en hierbij viel me op dat de disk queue van 3 disken redelijk normaal blijven maar van 1 disk schiet hij skyhigh met een maximum van 599 en een gemiddelde van 26.
Dit is alleen van disk 1, de rest van de schjiven blijven redelijk laag. wat me ook op valt is dat als de disk que van disk 1 bijvoorbeeld naar 100 schiet, dat de disk que van de rest van de schijven leeg is, dus 0,00

ik heb dus getest wat er gebeurd als ik deze disk er uit haal en dan gaat alles soepeler, een schrijf snelheid van 40 MB/s en geen hoge disk queue enz enz.

ook het maken van de raid duurd erg lang en daarbij zijn ook de lange disk queue te zien.


ik zal er een paar afbeeldingen bji doen voor de duidelijkheid

Disk queue in cijfers via resource monitor:

Afbeeldingslocatie: http://i1083.photobucket.com/albums/j382/qonfusion90/diskname.jpg

Disk queue in grafiek via resource monitor:

Afbeeldingslocatie: http://i1083.photobucket.com/albums/j382/qonfusion90/diskqueuegrafisch.jpg

Perfmon:

Het vlaggetje geeft aan disk queue_26

Afbeeldingslocatie: http://i1083.photobucket.com/albums/j382/qonfusion90/perfmon.jpg

Verwijderd

SMART data van die betreffende disk? Gaat het om 4 exact dezelfde disks?

  • Manotje90
  • Registratie: Mei 2009
  • Laatst online: 28-01 13:44
Edit: ik weet niet of het invloed heeft maar hij is nu aan het resyncen dus en het gaat inderdaad op 4 exact de zelfde disken allemaal WDC WD30EZRX-00MMMB0 ATA Device.

Bij deze:

WDC WD30EZRX-00MMMB0 ATA Device
Manufacturer Western Digital
Heads 16
Cylinders 16383
SATA type SATA-II 3.0Gb/s
Device type Fixed
ATA Standard ATA8-ACS
LBA Size 48-bit LBA
Power On Count 138 㲨Ԥ
Power On Time 82 Days 4 Hours
Features S.M.A.R.T., NCQ
Transfer Mode SATA III
Interface SATA
Capacity 2930GB
Real size 3.000.592.982.016 bytes
RAID Type Soft RAID
S.M.A.R.T
01 Read Error Rate 200 (200 worst) Data 0000000001
03 Spin-Up Time 175 (142) Data 0000002031
04 Start/Stop Count 100 (100) Data 0000000090
05 Reallocated Sectors Count 175 (175) Data 0000000168
07 Seek Error Rate 200 (200) Data 0000000000
09 Power-On Hours (POH) 098 (098) Data 00000007B4
0A Spin Retry Count 100 (100) Data 0000000000
0B Recalibration Retries 100 (100) Data 0000000000
0C Device Power Cycle Count 100 (100) Data 000000008A
C0 Power-off Retract Count 200 (200) Data 0000000064
C1 Load/Unload Cycle Count 200 (200) Data 00000004DB
C2 Temperature 112 (092) Data 0000000028
C4 Reallocation Event Count 037 (037) Data 00000000A3
C5 Current Pending Sector Count 200 (200) Data 0000000000
C6 Uncorrectable Sector Count 200 (200) Data 0000000000
C7 UltraDMA CRC Error Count 200 (200) Data 0000000000
C8 Write Error Rate / Multi-Zone Error Rate 200 (200) Data 0000000000
Temperature 40 °C
Temperature Range ok (less than 50 °C)
Status Good
Partition 0
Partition ID Disk #1, Partition #0
Size 1,00 MB
Partition 1
Partition ID Disk #1, Partition #1
Disk Letter D:
File System NTFS
Volume Serial Number 0E0C5B19
Size 8383GB
Used Space 814GB (10%)
Free Space 7569GB (90%)

[ Voor 4% gewijzigd door Manotje90 op 04-11-2011 11:47 ]


Verwijderd

Geen kabelfouten maar wel behoorlijk wat bad sectors op die schijf. Het is dan ook een 3TB schijf waar dit vaker voorkomt, maar dan nog kun je wel stellen dat het duidelijk meer dan wenselijk is. Deze schijf is door de hoeveelheid bad sectors RMA-waardig, maar dit feit alleen hoeft niet je probleem te zijn.

  • Manotje90
  • Registratie: Mei 2009
  • Laatst online: 28-01 13:44
Zou je me ook kunnen uitleggen hoe je bad sectors hebt kunnen waarnemen van een SMART, want ik zie het niet en dan hoef ik niet elke keer hier te posten als het zo simple te zien is...

bedankt voor je hulp in ieder geval.

[ Voor 52% gewijzigd door Manotje90 op 04-11-2011 12:25 ]


Verwijderd

05 Reallocated Sectors Count 175 (175) Data 0000000168

Je moet naar de raw value kijken. Je hebt deze gegevens met een programma wat ze in hexadecimaal formaat aanlevert, wat ik niet erg handig vind. Dus 0x168 = 360 decimaal, dus 360 bad sectors die zijn omgewisseld.

Echter, er zijn geen zichtbare ('actieve') bad sectors meer, want je Pending Sectors is 0:
C5 Current Pending Sector Count 200 (200) Data 0000000000

Dus alle bad sectors zijn reeds omgewisseld met reserve sectoren. Toch vind ik 360 erg hoog, ook voor een oude schijf. Ik zou de schijf daarom zelf liever omruilen. Probeer is wel dat je dan met een degraded RAID5 zit.

Overigens nog een ander punt: je maakt gebruik van een erg onveilige RAID5 driver. Heb je al eens iets als een NAS overwogen, met een veel betrouwbaarder systeem zoals ZFS? Dat is wel even wat anders dan je nu gebruikt, maar software RAID5 onder Windows is gewoon niet betrouwbaar. Waarschijnlijk denk je beschermd te zijn door de parity, maar de praktijk is veel complexer en als je niet naar non-Windows technieken wilt kijken zou ik veel eerder in een goede backup investeren ipv RAID5 zonder backup gebruiken.

  • Valkyre
  • Registratie: April 2002
  • Laatst online: 20:07

Valkyre

Kitesurf FTW!

Even ter indicatie ik heb een raid 5 met 4 x 2TB schijven, en het rebuilden nam 4 dagen een een paar uur in beslag, in jouw geval zal het waarschijnlijk een dag of 6 a 7 zijn.
De windows % balkje is mega brak en springt afentoe weer naar blank.

persoonlijk snap ik niet waarom er niet een optie is die zegt rebuild nu en gebruik 100% CPU of 75% CPU, of neem het volume offline zodat het in een nachtje gebeurt is.

iRacing Profiel


Verwijderd

Het gaat niet zozeer om CPU maar om seektijden. Daarnaast doen sommige RAID engines aan throttling, zodat bijvoorbeeld de rebuild maar 50% van de beschikbare disk I/O gebruikt, zodat je nog wel redelijk door kan werken. Dit verlengt wel de rebuild-tijd, maar dat heeft verder niets met je CPU te maken. RAID5 kost helemaal niet zoveel CPU als men denkt, alleen erg inefficiente drivers willen nog wel aardig wat CPU gebruiken, en vaak omvat dit ook interrupts.

Dat sommige RAID5 rebuilds enorm traag zijn, komt omdat ze de disks continu laten seeken. Per stripe gaan ze dan lezen en de parity schrijven. Continu moeten disks wisselen van read en write en kunnen dus niet sequentiëel lezen en schrijven. Goede RAID5 engines met write-back doen dit wel en pakken bijvoorbeeld blokken van 100MB zodat je al veel minder vaak zit te wisselen tussen read en write.

Mijn grootste bezwaar is dat traditioneel RAID5 al snel als veilig wordt beschouwd terwijl je met een paar bad sectors al gelijk diep in de problemen kan zitten. De tijd dat hardeschijven óf goed werken óf stuk zijn is wel voorbij, steeds vaker krijgen we te maken met bad sectors dus schijven die een klein gedeelte niet kunnen lezen. Veel traditionele RAID engines kunnen daar bijzonder slecht tegen en beschouwen een hele schijf als 'dood' als één kleine sector onleesbaar wordt.

Stel je hebt een RAID5 array en opeens gaat een schijf dood (echt dood), dan pak je gelijk een nieuwe schijf en ga je rebuilden. Maar tijdens een rebuild heeft een van de resterende schijven een bad sector. Dan zit je in de problemen want vrijwel alle RAID engines kunnen daar niet tegen. Veel RAID engines gooien de betreffende schijf uit de array en dan is je array failed. Dat is handmatig wel te recoveren maar dan moet je wel goed weten wat je doet, heel veel mensen verliezen op die manier hun gegevens. In de praktijk loopt hun Windows vast en bij een rebuild zien ze dan dat één of meer schijven opeens uit de array liggen en de array failed is. Dan denken ze: hoe kan dat nou, ik heb toch RAID5?!

Bovenstaand verhaal is ook de basis voor het populaire doch omstreden artikel op ZDnet:
Why RAID 5 stops working in 2009

Maak dus niet dezelfde fout en kijk naar écht veilige alternatieven zoals ZFS (in de praktijk een computer die als NAS fungeert uitsluitend voor de opslag van bestanden via het netwerk) of concentreer je op goede backups. De grootste onveiligheid is een schijnveiligheid.

  • Manotje90
  • Registratie: Mei 2009
  • Laatst online: 28-01 13:44
Gohan-san schreef op vrijdag 04 november 2011 @ 12:28:
Even ter indicatie ik heb een raid 5 met 4 x 2TB schijven, en het rebuilden nam 4 dagen een een paar uur in beslag, in jouw geval zal het waarschijnlijk een dag of 6 a 7 zijn.
De windows % balkje is mega brak en springt afentoe weer naar blank.

persoonlijk snap ik niet waarom er niet een optie is die zegt rebuild nu en gebruik 100% CPU of 75% CPU, of neem het volume offline zodat het in een nachtje gebeurt is.
Het duurde bij mij 11 dagen om hem te resyncen de eerste keer.. ik denk als ik zo kijk naar de vooruitgang nu weer..

ps om de % terug te krijgen sluit server manager ff af en start opnieuw dan even refreshen en je hebt hem terug. ik doe dit elke x als ik % wil zien.

  • Valkyre
  • Registratie: April 2002
  • Laatst online: 20:07

Valkyre

Kitesurf FTW!

Ik vind het een goed verhaal wat je geschreven hebt, en ik ken inderdaad dat artikel (in mijn geval zit ik maar op een kleine 5.5TB).
Voor mij persoonlijk heb ik de risico's afgewogen en zelfs een test straat met freenas (en dus ook ZFS) gehad, maar omdat mijn linux kennis erg klein is ben ik er toch niet mee door gegaan, omdat ik zakelijk ook met windows werk, en de meeste IT leer je ook door je prive situatie mee te nemen naar je werk en vica versa (dan bedoel ik niet de gegevens maar bepaalde ontwerpen/vraagstukken)

Als windows gebruiker heb je dan eigenlijk vrij weinig keus, tsja je kan JBOD draaien, want als ik het artikel goed interpereer kan dit net zo goed voorkomen als je een hardware controller gebruikt voor je RAID level.

In mijn geval heb ik het opgelost door zoals je zegt goede backups te maken, alle belangrijke informatie word 1x per week naar mijn Synology NAS gekopieerd. Wel lokaal in het lan dus ik ben niet beveiligd tegen diefstal/brand wat een ingecalculeerd risico is op het moment.

Over het CPU gebruik, bedankt voor de uitleg! Dat is ook min of meer wat ik bedoel, dat de throttling niet plaatsvind waardoor je rebuild sneller gaat :)
Manotje90 schreef op vrijdag 04 november 2011 @ 13:30:
[...]


Het duurde bij mij 11 dagen om hem te resyncen de eerste keer.. ik denk als ik zo kijk naar de vooruitgang nu weer..

ps om de % terug te krijgen sluit server manager ff af en start opnieuw dan even refreshen en je hebt hem terug. ik doe dit elke x als ik % wil zien.
Tering 11 dagen! heb je in de tussentijd veel gebruik gemaakt van de schijven? ik heb 1 avond veel informatie naar het volume gekopieerd en daarna eigenlijk alleen maar lees acties.
.

[ Voor 26% gewijzigd door Valkyre op 04-11-2011 13:45 ]

iRacing Profiel


  • Manotje90
  • Registratie: Mei 2009
  • Laatst online: 28-01 13:44
Gohan-san schreef op vrijdag 04 november 2011 @ 13:34:
Ik vind het een goed verhaal wat je geschreven hebt, en ik ken inderdaad dat artikel (in mijn geval zit ik maar op een kleine 5.5TB).
Voor mij persoonlijk heb ik de risico's afgewogen en zelfs een test straat met freenas (en dus ook ZFS) gehad, maar omdat mijn linux kennis erg klein is ben ik er toch niet mee door gegaan, omdat ik zakelijk ook met windows werk, en de meeste IT leer je ook door je prive situatie mee te nemen naar je werk en vica versa (dan bedoel ik niet de gegevens maar bepaalde ontwerpen/vraagstukken)

Als windows gebruiker heb je dan eigenlijk vrij weinig keus, tsja je kan JBOD draaien, want als ik het artikel goed interpereer kan dit net zo goed voorkomen als je een hardware controller gebruikt voor je RAID level.

In mijn geval heb ik het opgelost door zoals je zegt goede backups te maken, alle belangrijke informatie word 1x per week naar mijn Synology NAS gekopieerd. Wel lokaal in het lan dus ik ben niet beveiligd tegen diefstal/brand wat een ingecalculeerd risico is op het moment.


[...]


Tering 11 dagen! heb je in de tussentijd veel gebruik gemaakt van de schijven? ik heb 1 avond veel informatie naar het volume gekopieerd en daarna eigenlijk alleen maar lees acties.
.
sterker nog heb helemaal niks met de raid gedaan in die periode.. alleen maar wachten wachten wachten..
het rare is ook nog is dat een van de eerste keren dat ik het met deze opstelling maakt hij er maar 16 uur over deed

[ Voor 3% gewijzigd door Manotje90 op 04-11-2011 13:40 ]


  • Valkyre
  • Registratie: April 2002
  • Laatst online: 20:07

Valkyre

Kitesurf FTW!

Hmm zelfs met 3 schijven (2TB) heb ik het nooit onder de 3 dagen gehad, zelfs de eerste keer niet.

iRacing Profiel


Verwijderd

Gohan-san schreef op vrijdag 04 november 2011 @ 13:34:
Voor mij persoonlijk heb ik de risico's afgewogen en zelfs een test straat met freenas (en dus ook ZFS) gehad, maar omdat mijn linux kennis erg klein is ben ik er toch niet mee door gegaan, omdat ik zakelijk ook met windows werk
Je hebt toch geen Linux kennis nodig om een web-interface te besturen? FreeNAS draait trouwens op BSD en niet Linux, maar dat terzijde.

Daarnaast denk ik dat je Windows en een NAS draaiende op een non-Windows OS prima kunt combineren. Je hoeft toch niet gelijk Windows achter je te laten, of al je huidige kennis overboord gooien?
Als windows gebruiker heb je dan eigenlijk vrij weinig keus, tsja je kan JBOD draaien, want als ik het artikel goed interpereer kan dit net zo goed voorkomen als je een hardware controller gebruikt voor je RAID level.
Dat klopt ja, dus je enige echte alternatief is een goede backup. Dat is dan ook mijn advies als je geen ZFS of non-Windows software RAID wilt overwegen.

  • Valkyre
  • Registratie: April 2002
  • Laatst online: 20:07

Valkyre

Kitesurf FTW!

Verwijderd schreef op vrijdag 04 november 2011 @ 13:48:
[...]

Je hebt toch geen Linux kennis nodig om een web-interface te besturen? FreeNAS draait trouwens op BSD en niet Linux, maar dat terzijde.

Daarnaast denk ik dat je Windows en een NAS draaiende op een non-Windows OS prima kunt combineren. Je hoeft toch niet gelijk Windows achter je te laten, of al je huidige kennis overboord gooien?


[...]

Dat klopt ja, dus je enige echte alternatief is een goede backup. Dat is dan ook mijn advies als je geen ZFS of non-Windows software RAID wilt overwegen.
Excuses ik had *nix os moeten zeggen :)
Over het combineren tsja had misschien gekund, maar dan had ik ESXi oid moeten gaan gebruiken wil ik dat op de zelfde h/w draaien, wat an sich wel zou kunnen maar ik pas gerealiseerd heb nadat ik alles ingesteld hebt e.d.
Ik wil niet heel veel beren op de weg zien, en zeker virtualisatie wil ik nog even goed naar kijken.

iRacing Profiel


Verwijderd

Ik bedoelde ook niet virtualisatie, maar simpelweg dat je bijvoorbeeld een FreeNAS servertje combineert in je overwegend Windows serverpark of workstations. Jouw verhaal kwam over als dat je gelijk je bekende Windows-omgeving achter je moet laten en helemaal over moet op Linux. Nu bedoelde je dat vast niet, maar zo klinkt het. Wat is er mis met een web-interface? Is het zo erg dat het onderliggende OS geen Windows is? Verandert dat gelijk alles?

Neem nou een iPhone. Dat draait op iOS, dat weer op Darwin draait en in feite dus FreeBSD is, waar ook FreeNAS op draait. Denk je dat iPhone gebruikers kennis van FreeBSD moeten hebben, met command line enzo? Nee toch?

Het wordt wel wat anders als je heel specifieke functionaliteit wilt draaien wat FreeNAS niet out-of-the-box ondersteunt. Maar dan kun je evengoed een virtualisatie iets draaien als dat persé op dezelfde hardware moet draaien. Wil je het lekker simpel dan heb je gewoon een klein servertje waar FreeNAS of iets vergelijkbaars op draait voor de veilige opslag van je bestanden, en hou je de rest lekker Windows. Daar is toch niet zoveel bezwaar tegen als Windows-gebruiker?

Ik vind het mooi als Windows gebruikers hun speelveld willen verbreden en ook naar non-Windows OS willen kijken en daar meer van leren. Maar als je dat niet wilt, betekent dat niet gelijk dat je alle non-Windows OS moet uitsluiten naar mijn mening. Iets met een web-interface valt prima te gebruiken, ook al heb je 0,0 ervaring met command line. Daarom is ook die web-interface ontworpen natuurlijk.
Pagina: 1