Problemen Areca 1220 icm 4x Samsung HD103UJ - Opslag en back-up

vrijdag 25 januari 2008 17:58

Acties:

Verwijderd

Topicstarter

Hallo,

Ik heb laatst een Areca 1220 RAID controller gekocht met 4x Samsung HD103UJ disks. Deze wil ik met RAID6 gaan gebruiken.

In eerste instantie had ik de disks aangesloten met de bij de controller bijgeleverde kabels op de Areca. De performance was erg slecht, in JBOD geprobeerd, waar ik zo'n 17MB/s haalde per disk!

Hierna heb ik de disks met kortere SATA kabels aangelosten op de onboard Intel ICH7A controller en de diagnostics tool HUTIL v2.10 gedraaid. De uitkomst hiervan was dat op alle disken de "Check MC" test failed met "Ecc error", de 2e disk failed de "Read DMA" test met "Error command timeout" en de 3e en 4e disk failen daarnaast nog de "Simple surface scan" met "Ecc error".

Niet goed lijkt me dus. Ik heb wat gegoogled op deze errors, en zie dat meerdere mensen dit probleem hebben.

Daarna heb ik de disks met de korte kabels aan de controller gehangen, waarbij ik per disk in JBOD mode >100MB/s zowel lezen als schrijven haal (simpel erop en eraf dd'en). Dat leek ok. Ik heb er een RAID6 van gemaakt, waarmee ik 158MB/s schrijven en 208MB/s lezen haal, best ok dus.

Als laatste was ik begonnen met het overzetten van de data van oude disks, waarna na een gig of 80 kopieren ineens drie van de vier disks failden in RAID. Na een reboot zag de controller de 4 disks als 4 disks uit verschillende RAID sets leek het wel..

(Alles draait op een Supermicro PDSMA moederbord en ik heb alles iig getest onder Linux kernel 2.6.24 en een paar tests ook onder 2.6.22 en 2.6.19 waar ik steeds hetzelfde resultaat kreeg).

Heeft iemand tips of ervaringen ? Heeft iemand dezelfde combinatie Areca 1220 met HD103UJ disks ?

zaterdag 26 januari 2008 01:02

Acties:

dvl-2

Ik heb geen ervaring met de controller die jij noemt en die disks, heb zelf het grotere broertje de 1280 en heb ook wel eens met een 'kapotte' array gemaakt. De manier waarop is wellicht wat 'vreemd' maar het werkt:

Je start netjes de pc op met 1 schijf eraan van de gebroken array. Dan gaat de controller uiteindelijk 'krijsen' dat zn array degraded is omdat ie maar 1 disk heeft. Op dat moment sluit je 1 extra disk aan (gewoon met de eerste keer booten zorgen dat alle disks al spinnen en alleen de sata-kabel loshalen). De kans is groot dat hij nu de tweede disk herkent als onderdeel van de array. Dan gewoon de derde eraan, de vierde etc etc. Uiteindelijk heb je dan weer een complete array.

Feit blijft dat ik het vreemd vindt dat die disks zomaar uitvallen. Ik zou er anders eens een 'sea-tools' overheen draaien (maar dan de samsung versie) om te kijken of dat de disks wel goed zijn.

zaterdag 26 januari 2008 13:49

Acties:

John2B

I Love RAID5..!!

If you view the event log and see "Dev fail (SMART)" for each drives. When you go into Physical Drives, you will get a display showing all drives but all with status "failed" and SMART Spin-up Time: 1(25). This problem is generated by the controller with staggered spin-up enable, the disk immediately detect the motor status without waiting the motor spin-up time. The problem can be fixed by upgrading Samsung firmware

A friendship founded on business is better than a business founded on friendship

zaterdag 26 januari 2008 14:09

Acties:

Verwijderd

Topicstarter

Ik ben er gisteren nog de hele avond mee bezig geweest. Heb de 4 disks op de Areca aangesloten (de BBU -battery- was niet aangesloten), een RAID6 gemaakt (duurde 8.5 uur trouwens, is dat normaal?) en heb een paar honderd gig erop en eraf ge-dd'ed. Ging allemaal goed. Ik haalde:

dd if=/dev/zero of=10G bs=1M count=10000 -> 142MB/s
dd if=10G of=/dev/null -> 194 MB/s

Zijn dat normale snelheden voor een RAID6 met 4 van deze disks ?

Maargoed, dit heb ik meerdere malen gedaan, ook een paar keer 100GB erop en eraf dus. Alles ging goed.

Hierna heb ik de BBU aangesloten, en ben de tests gaan herhalen, maar binnen 5 minuten begon de controller te piepen, er ging een rood ledje branden op de BBU, de 3e disk ging uit en in de logs zag ik:

IDE Channel 3 - Device Failed
Raid Set #00 - RaidSet Degraded
ARC-1220-VOL#00 - Volume Degraded

Ik heb de server hierna uitgezet, BBU losgehaald, 3e disk eruit gehaald, server aan, naar Areca bios, en daar de 3e disk er weer ingestopt. Hierna is de controller begonnen met de RAID set te rebuilden, waarmee hij nu na een half uur op 8% zit...

Ik wil nu proberen om - als de RAID weer ok is - weer een paar honderd gig erop en eraf te dd'en, en als dat goed gaat, weer met BBU proberen. Als dat fout gaat, geef ik de schuld daaraan.

Iemand anders problemen gehad met de BBU ?

John2B: Ik had "HDD SMART Status Polling" uit staan, zodra de rebuild af is, zal ik 'm eens aanzetten, en kijken of ik wat meer in m'n logs te zien krijg.

zaterdag 26 januari 2008 23:56

Acties:

John2B

I Love RAID5..!!

Zijn mij geen problemen met BBU bekend, maar hou het in de gaten.

Log zie ik wel verschijnen hiet of per mail.

A friendship founded on business is better than a business founded on friendship

zondag 27 januari 2008 04:13

Acties:

Verwijderd

Topicstarter

Nadat de het RAID6 volume weer healthy was heb ik m'n server vanavond 10x 100GB erop en eraf laten dd'en. Toen ik net terugkwam leek alles goed gegaan te zijn. Ik ga nu proberen de BBU opnieuw aan te sluiten, en kijken of het mis gaat.

zondag 27 januari 2008 04:49

Acties:

Verwijderd

Topicstarter

Nadat ik de BBU had aangesloten ging er al een rood ledje op branden, geboot naar Linux, begonnen met dd'en, en binnen een minuut zag ik de leds van de hdd's af en toe al uit- en aan gaan, en nog een minuut later failde de 2e disk:

IDE Channel #02 - Device Failed
Raid Set # 00 - Raid Set Degraded
ARC-1220-VOL#00 - Volume Degraded

Verder zag ik ook nog het volgende steeds herhalen in syslog (dmesg) :

Jan 27 03:19:49 dom0 kernel: [ 123.796750] WARNING: at /build/buildd/linux-2.6.24/arch/x86/kernel/pci-dma_32.c:66 dma_free_coherent()
Jan 27 03:19:49 dom0 kernel: [ 123.796756] Pid: 4690, comm: cli32 Not tainted 2.6.24-2-server #1
Jan 27 03:19:49 dom0 kernel: [ 123.796777] [parport_pc:dma_free_coherent+0x9c/0xa0] dma_free_coherent+0x9c/0xa0
Jan 27 03:19:49 dom0 kernel: [ 123.796797] [<f88c9275>] arcmsr_queue_command+0x7b5/0xa00 [arcmsr]
Jan 27 03:19:49 dom0 kernel: [ 123.796816] [<f8901035>] scsi_init_io+0x55/0xe0 [scsi_mod]
Jan 27 03:19:49 dom0 kernel: [ 123.796843] [<f8901147>] scsi_setup_blk_pc_cmnd+0x47/0x100 [scsi_mod]
Jan 27 03:19:49 dom0 kernel: [ 123.796862] [lock_timer_base+0x27/0x60] lock_timer_base+0x27/0x60
Jan 27 03:19:49 dom0 kernel: [ 123.796868] [<f88ff660>] scsi_times_out+0x0/0x80 [scsi_mod]
Jan 27 03:19:49 dom0 kernel: [ 123.796887] [hisax:__mod_timer+0x9d/0xb0] __mod_timer+0x9d/0xb0
Jan 27 03:19:49 dom0 kernel: [ 123.796901] [<f88fbda7>] scsi_dispatch_cmd+0x147/0x290 [scsi_mod]
Jan 27 03:19:49 dom0 kernel: [ 123.796924] [<f890215a>] scsi_request_fn+0x1ea/0x380 [scsi_mod]
Jan 27 03:19:49 dom0 kernel: [ 123.796940] [isdn:del_timer+0x64/0x2540] del_timer+0x64/0x80
Jan 27 03:19:49 dom0 kernel: [ 123.796957] [__generic_unplug_device+0x25/0x30] __generic_unplug_device+0x25/0x30
Jan 27 03:19:49 dom0 kernel: [ 123.796964] [scsi_mod:blk_execute_rq_nowait+0x63/0xc0] blk_execute_rq_nowait+0x63/0xc0
Jan 27 03:19:49 dom0 kernel: [ 123.796979] [<f8901d7f>] scsi_execute_async+0x1bf/0x3b0 [scsi_mod]
Jan 27 03:19:49 dom0 kernel: [ 123.796995] [<f8901500>] scsi_end_async+0x0/0x60 [scsi_mod]
Jan 27 03:19:49 dom0 kernel: [ 123.797032] [<f896939a>] sg_common_write+0x18a/0x840 [sg]
Jan 27 03:19:49 dom0 kernel: [ 123.797049] [<f8969c80>] sg_cmd_done+0x0/0x2d0 [sg]
Jan 27 03:19:49 dom0 kernel: [ 123.797066] [__switch_to+0x9e/0x150] __switch_to+0x9e/0x150
Jan 27 03:19:49 dom0 kernel: [ 123.797095] [<f8969bbd>] sg_new_write+0x16d/0x230 [sg]
Jan 27 03:19:49 dom0 kernel: [ 123.797120] [<f896b81d>] sg_ioctl+0x4dd/0xaa0 [sg]
Jan 27 03:19:49 dom0 kernel: [ 123.797138] [<c0145730>] autoremove_wake_function+0x0/0x40
Jan 27 03:19:49 dom0 kernel: [ 123.797155] [do_ioctl+0x78/0x90] do_ioctl+0x78/0x90
Jan 27 03:19:49 dom0 kernel: [ 123.797167] [vfs_ioctl+0x22e/0x2b0] vfs_ioctl+0x22e/0x2b0
Jan 27 03:19:49 dom0 kernel: [ 123.797180] [sys_ioctl+0x56/0x70] sys_ioctl+0x56/0x70
Jan 27 03:19:49 dom0 kernel: [ 123.797190] [syscall_call+0x7/0x0b] syscall_call+0x7/0xb
Jan 27 03:19:49 dom0 kernel: [ 123.797207] [sigd_enq2+0x1a0/0x2d0] sigd_enq2+0x1a0/0x2d0
Jan 27 03:19:49 dom0 kernel: [ 123.797224] =======================

(de machine heet dom0, maar er draait geen xen kernel op 't moment)

Maar nu ik de server heb gereboot, array verwijderd, en ben opgestart in JBOD mode (zonder BBU), en de cli32 tool van Areca start, krijg ik hetzelfde te zien, dus ik betwijfel of deze meldingen met mijn problemen te maken hebben..

Iemand nog tips ?

zondag 27 januari 2008 12:23

Acties:

jwpmzijl

@pngn
Uit het bericht van John2B maak ik op dat er voor deze schijven nieuwe firmware zou zijn. Ik weet uit eigen ervaring (overigens met een andere combo van controller-disk) dat je een dergelijke update echt moet installeren voordat de problemen opgelost kunnen worden.

Het lijkt erop dat je deze firmware update alleen via de samsung helpdesk kunt verkrijgen (ik kan hem via Google niet vinden). Het kost je een paar mailtjes maar als er daadwerkelijk een firmware update is dan zal men die toesturen.

Ik denk dat het ook geen kwaad kan om dit probleem naar Areca te mailen. Wellicht dat zij nog iets in hun firmware kunnen verbeteren (maar dat zal je op korte termijn niet helpen :-)

Verder ga ik ervan uit dat je de meest recente firmware en drivers vanaf de areca website hebt geïnstalleerd. Zo niet dan is dat een to-do!

Hans van Zijl

zondag 27 januari 2008 12:45

Acties:

zmaster

Nou dat is toevallig zeg!

Ik heb sindskort ook een ARC-1220 aangeschaft in combinatie met 4 Samsung HD753LJ schijven (750GB) inclusief een BBU en heb exact dezelfde problemen.

Ik had van de vier schijven een RAID5 array gemaakt (duurde trouwens 15 uur) en gewacht totdat de BBU helemaal vol was. Daarna ben ik ook data gaan overzetten, RAID controller begon te piepen en plots viel een schijf uit. "Device failed, RAID set degraded". PC uitgezet, kabels nog eens nagegaan en andere kabels geprobeerd. PC weer aangezet en toen vond hij alle schijven weer. Maargoed, dan wilt hij weer gaan rebuilden en dat betekende weer 15 uur wachten.

Dat geduld had ik niet echt dus heb ik de schijven eens direct op mijn moederbord aangesloten. HDUtil van Samsung laten lopen over alle vier de schijven en alles leek goed te gaan, hij liep alleen fout op Check M.C., precies wat jij dus ook hebt.

Ik heb daarna alles toch maar weer eens aangesloten op de ARC-1220 en heb ik er een RAID0 array van gemaakt. Dit werkte wonderbaarlijk genoeg wel goed. Enige instelling wat ik moest aanpassen om snelle writes te krijgen was Disk Write Cache Mode op Enabled zetten ipv. Automatic.

Ik heb de ARC-1220 trouwens getest in een PCIe x16 slo9t op een Gigabyte GA-965P-DS3P moederbord. BIOS versie van de ARC-1220 is 1.17F en F/W: 1.43A en ik heb de laatste STORport driver voor Windows XP gebruikt.

Kijk eens of een RAID0 array bij jou ook beter functioneerd? Misschien kunnen we daar dan iets uit concluderen. Ik heb trouwens niet getest zonder BBU dus ik kan niet aangeven of het bij mij zonder BBU iets uitmaakte. Inmiddels heb ik alles uit mijn desktop PC gehaald en zit alles weer terug in de doos wachtend op de rest van de server onderdelen

zondag 27 januari 2008 13:57

Acties:

Verwijderd

Topicstarter

Ben weer bezig geweest, had er een software raid6 van gemaakt om snelheid te testen. Deze was identiek aan de Areca raid6.. Maar misschien dat dat anders is als er ge-expand wordt naar 8 disks ?

Iig hierna een RAID0 gemaakt (op de Areca), zonder BBU geboot, en haal ik 290MB/S lezen en 228MB/s schrijven, server gerestart, BBU aangesloten en dezelfde tests gedaan:

57MB/s schrijven (meerdere keren getest, komt op zelfde uit)
228MB/s lezen

(Er was niks noemenswaardigs in de Areca event logs te zien op dat moment)

Hierna de tip van zmaster gevolgd, en de Disk Write Cache Mode op enabled gezet ipv automatic, waarna schrijven een stuk beter gaat..

289MB/s schrijven
229MB/s lezen

Wel aardig, al had ik wat hoger verwacht (ik had namelijk eergisteren ook een RAID0 geprobeerd te maken op de Areca - zonder de voorgenoemde Disk Write Cache Mode op enabled - en kreeg toen 328MB/s schrijven.. Waar komt dat verschil vandaan..

De disks vallen nu niet uit het array, maar ik wil geen RAID0..

Ik ben nu nog een keer een HW RAID6 aan het maken dit keer terwijl de BBU aangesloten zit, maar ik vertrouw de hele setup helemaal niet, terwijl dat wel de bedoeling is van RAID6..

zondag 27 januari 2008 14:19

Acties:

Verwijderd

Topicstarter

jwpmzijl: wat betreft firmwares, ik heb standaard al v1.43 van 2007/4/17 erin zitten, en voor de disks kan ik ook geen firmware vinden online..

Heb afgelopen week al wel gemailed naar Samsung, maar heb nog geen antwoord gekregen.. Areca heb ik nog niet gemailed..

zondag 2 maart 2008 10:03

Acties:

rachez

Interessant, ben ook van plan deze combinatie aan te schaffen, en ben daarom benieuwd of hier nog een oplossing voor gevonden is.

Iemand misschien nog nieuws?

zondag 2 maart 2008 15:30

Acties:

John2B

I Love RAID5..!!

De melding die ik eerder plaatste:

If you view the event log and see "Dev fail (SMART)" for each drives. When you go into Physical Drives, you will get a display showing all drives but all with status "failed" and SMART Spin-up Time: 1(25). This problem is generated by the controller with staggered spin-up enable, the disk immediately detect the motor status without waiting the motor spin-up time. The problem can be fixed by upgrading Samsung firmware

Is van Areca afkomstig, dus per mail kan je de een firmware update opvragen. Die staan voor de harddisk fabrikanten standaard niet online.

Areca mailen voor de firmware van de Samsung disk heeft natuurlijk geen zijn ;-(

[ Voor 6% gewijzigd door John2B op 02-03-2008 15:32 ]

A friendship founded on business is better than a business founded on friendship

dinsdag 11 maart 2008 21:09

Acties:

zmaster

Even uit puur interesse dit topic nog eens omhoog schoppen. Ik heb inmiddels mijn Asus P5BP-E/4L server moederbord binnen. Hier heb ik 4x de Samsung HD753LJ in RAID5 gezet en nu werkt alles als een zonnetje. Ik maak gebruik van een 128KB stripesize en van de laatste STORport driver voor Windows Server 2003. Zelf draai ik Windows Server 2003 Ent. R2. Ik weet dus niet waar het bij mij heeft aangelegen maar het werkt nu veel beter. Heb jij er nog last van pngn?

maandag 12 januari 2009 10:31

Acties:

lampie1979

Hoepla!

Ik heb een 1280ML i.c.m. HD103UJ 1TB schijven, en heb ook het spontaan uitvallen van schijven. Voorlopig lijkt dit te zijn opgelost door NCQ uit te zetten!

Is er ook een ander firmware voor de HD103UJ bekend?

They call her... c*ck juggeling Thunderc*nt!

maandag 12 januari 2009 10:47

Acties:

nose

size matters

@ TS: Als je eerst in de Areca HDD Compatibility List had gekeken, had je kunnen zien dat er met deze disk problemen te verwachten waren. NCQ uitzetten lost idd een hoop op, maar lang niet alles.

P R N D

maandag 12 januari 2009 11:55

Acties:

TERW_DAN

Met een hamer past alles.

Samsungs geven inderdaad veel problemen. Veel fabrikanten raden Samsungs dan inderdaad ook af.
Kijk eens in [HDD] De Samsung Spinpoint F1 is er! topic, daar staan heel veel ervaringen over de F1 genoemd, ook icm RAID array's.

Omdat je vraag daar beter in terecht kan dan in dit oude topic gaat deze op slot, een kick is niet echt nodig.

Pagina: 1

Dit topic is gesloten.