Continue device resets SATA disks op SAS-controller+expander

vrijdag 28 juli 2023 13:13

Acties:

Topicstarter

Hoi,

Ik heb een fileserver die ongeveer een jaar oud is, met de volgende specs:

#	Category	Product
1	Behuizingen	Phanteks Enthoo Primo - Zwart
1	Voedingen	be quiet! Pure Power 11 500W
1	Moederborden	ASUS Prime X570-P
1	Processors	AMD Ryzen 7 5700G Boxed
2	Geheugen intern	Micron MTA18ASF4G72AZ-3G2B1
2	Controllers	LSI SAS 9207-8i
1	Controllers	Lenovo FRU03X3834 SAS-expander
1	Interne HDD/SSD behuizingen	Supermicro M28SACB-OEM Zwart
10	Interne harde schijven	Seagate Barracuda Compute 2,5" (5400rpm), 4TB
3	Interne HDD/SSD behuizingen	Icy Box IB-2240SSK
6	Solid state drives	Adata Ultimate SU630 480GB

Ik heb het ding samengesteld zonder al teveel naar de geschiktheid van de componenten te kijken, en er zaten aanvankelijk maar 7 x 2.5" HDD's in, in een RAIDZ2 pool van 5, met 2 hot spares; en nog eens 3 SSD's in een RAIDZ1 pool. Ik weet dat deze schijven niet bij uitstek geschikt zijn voor gebruik in een NAS, maar ik ga er stiekem een beetje van uit dat dit de levensduur en performance beïnvloedt, niet basale functionaliteit.

De controllers worden doorgegeven aan een libvirt-vm waarin TrueNAS Scale draait. De bedoeling is dat ik dit systeem als hypervisor kon gebruiken, waarbij de VM's draaien vanaf VDI's in de virtuele fileserver, maar ook als desktop linux machine voor spelletjes enzo. De nas-VM krijgt 1 statisch gemapte core, 2 threads, en 16G RAM.

Deze configuratie heeft out-of-the-box een jaar lang zonder issues gedraaid.

Onlangs heb ik me gewaagd aan een kleine uitbreiding van de pool: 7 naar 10 schijven, RAIDZ2 van 8 + 2 hot spares; plus 6 SSD's in een 3 x mirror pool. Alle HDD's zitten op 1 van de controllers, via een SAS-expander. De SSD's zitten op de andere controller, via 2 mini-SAS -> mini-SAS kabels op de 8x2.5" SAS-SATA backplane. De SSD-enclosure is aangesloten op 1 voedingskabel direct vanuit de PSU, 2 HHD-enclosures zitten samen serieel op 1 voedingskabel vanuit de PSU, en een derde enclosure deelt (op dit moment) een voedingskabel met de ledstrips van de case (en zat voorheen op dezelfde kabel als de andere twee HDD enclosures).

Sinds de uitbreiding krijg ik aan de lopende band dit soort meldingen:

code:

Jul 28 02:03:48 nas kernel: sd 8:0:27:0: attempting task abort!scmd(0x0000000054eb3936), outstanding for 1016 ms & timeout 1000 ms
Jul 28 02:03:48 nas kernel: sd 8:0:27:0: tag#7836 CDB: ATA command pass through(16) 85 08 0e 00 d5 00 01 00 e0 00 4f 00 c2 00 b0 00
Jul 28 02:03:48 nas kernel: scsi target8:0:27: handle(0x0014), sas_address(0x500262d0cd7bb9ec), phy(11)
Jul 28 02:03:48 nas kernel: scsi target8:0:27: enclosure logical id(0x500262d0cd7bb9e0), slot(11) 
Jul 28 02:03:48 nas kernel: sd 8:0:27:0: task abort: SUCCESS scmd(0x0000000054eb3936)
Jul 28 02:03:50 nas kernel: sd 8:0:27:0: Power-on or device reset occurred

code:

Jul 30 14:55:49 nas kernel: sd 8:0:18:0: [sdh] Synchronizing SCSI cache
Jul 30 14:55:49 nas kernel: sd 8:0:18:0: [sdh] Synchronize Cache(10) failed: Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
Jul 30 14:55:49 nas kernel: mpt2sas_cm1: mpt3sas_transport_port_remove: removed: sas_addr(0x500262d0cd7bb9e2)
Jul 30 14:55:49 nas kernel: mpt2sas_cm1: removing handle(0x000b), sas_addr(0x500262d0cd7bb9e2)
Jul 30 14:55:49 nas kernel: mpt2sas_cm1: enclosure logical id(0x500262d0cd7bb9e0), slot(1)
Jul 30 14:55:49 nas kernel: mpt2sas_cm1: device is not present handle(0x04b)!!!
Jul 30 14:55:50 nas kernel: scsi 8:0:19:0: Direct-Access     ATA      ST4000LM024-2AN1 0001 PQ: 0 ANSI: 6
Jul 30 14:55:50 nas kernel: scsi 8:0:19:0: SATA: handle(0x000b), sas_addr(0x500262d0cd7bb9e2), phy(1), device_name(0x0000000000000000)
Jul 30 14:55:50 nas kernel: scsi 8:0:19:0: enclosure logical id (0x500262d0cd7bb9e0), slot(1) 
Jul 30 14:55:50 nas kernel: scsi 8:0:19:0: atapi(n), ncq(y), asyn_notify(n), smart(y), fua(y), sw_preserve(y)
Jul 30 14:55:50 nas kernel: scsi 8:0:19:0: qdepth(32), tagged(1), scsi_level(7), cmd_que(1)
Jul 30 14:55:50 nas kernel: sd 8:0:19:0: Power-on or device reset occurred
Jul 30 14:55:50 nas kernel: sd 8:0:19:0: Attached scsi generic sg7 type 0
Jul 30 14:55:50 nas kernel: [609020]: scst: Attached to scsi8, channel 0, id 19, lun 0, type 0
Jul 30 14:55:50 nas kernel: sd 8:0:19:0: [sdh] 7814037168 512-byte logical blocks: (4.00 TB/3.64 TiB)
Jul 30 14:55:50 nas kernel: sd 8:0:19:0: [sdh] 4096-byte physical blocks
Jul 30 14:55:50 nas kernel:  end_device-8:0:19: add: handle(0x000b), sas_addr(0x500262d0cd7bb9e2)
Jul 30 14:55:50 nas kernel: sd 8:0:19:0: [sdh] Write Protect is off
Jul 30 14:55:50 nas kernel: sd 8:0:19:0: [sdh] Write cache: enabled, read cache: enabled, supports DPO and FUA
Jul 30 14:55:53 nas kernel:  sdh: sdh1 sdh9
Jul 30 14:55:56 nas kernel: sd 8:0:19:0: [sdh] Attached SCSI disk

Tijdens een resilver geeft met name de target HDD met een frequentie van meer dan eens per minuut deze melding. SMART geeft aan dat alle schijven volledig gezond zijn. Voor een aantal schijven kon een 'long' self-test met succes worden afgerond, maar bij schijven die op dit moment worden geresilvered lukt dat niet vanwege de continue resets.

Ik heb aan verschillende oorzaken gedacht:

Vermogen: piekverbruik is tijdens het opstarten, en tijdens resilvers op de 8xHDD RAIDZ2 pool, maar komt nooit boven de 200W uit. De voeding zou dit zonder veel problemen moeten kunnen leveren.
Bekabeling: zowel de data als de voedingskabels al twee maal opnieuw gelegd. De beschikbare voedingsuitgangen op verschillende manieren serieel/parallel over de schijven verdeeld, etc. Ik heb nieuwe data-kabels besteld (SFF-8087 -> 4xSATA) maar ik verwacht er niet teveel van.
Temperatuur: de controllers zijn vrij heet. Extra koeling geïnstalleerd, en draait nu iets koeler. Tijdens resilvers piekt de temperatuur van de radiatoren rond de 60C. Nog steeds vrij warm, maar lijkt mij dat de hardware dat aan moet kunnen. De expander wordt een stuk minder warm, dus daar lijkt me de beschikbare koeling voldoende. De schijven zelf draaien ruim onder de 40C.
Brakke controllers: uit voorzorg beide vervangen, geen verschil.
Brakke expander: ik heb een nieuwe expander besteld, misschien dat dat iets doet. Duurt nog even voordat die aankomt, dus ik begin alvast met vragen stellen. Ik heb overigens ook een configuratie met 8 HDD's direct op 1 van de controllers geprobeerd, zonder expander ertussen, en dit gaf eveneens problemen.
configuratie: SAS-controllers in passthrough naar een VM om de zpools aan te sturen gaat gewoon niet met deze hardware -- ik hoop niet dat dat het geval is, want dan is het "back to the drawing board", en moet ik een hoop van mijn kleine plannetjes voor deze machine herzien. Hiervoor ga ik tzt. nog wat experimentjes draaien, maar daarvoor moet ik eea verbouwen aan de hypervisor, en dat gaat even duren, dus ik stel nu alvast mijn vragen.

Mijn vragen aan u, geleerd publiek:

Bent u dit soort dingen wel eens tegengekomen?
Wat denkt u dat de meest voordehandliggende oorzaak is?
Wat zou ik -- behalve het vervangen van de bekabeling en de expander -- nog kunnen proberen?

ADDENDUM 2023-07-31

Thanks to Ben(V) for pointing out what I should have thought of before buying these disks

De volgende vraag is: is er een manier om de timeout dit in dit stukje logging wordt vermeld

code:

1	Jul 28 02:03:48 nas kernel: sd 8:0:27:0: attempting task abort!scmd(0x0000000054eb3936), outstanding for 1016 ms & timeout 1000 ms

te verhogen? Ik heb geprobeerd de setting te vinden in de SAS-controller BIOS, maar na het verdubbelen van alle timeout-attributen krijg ik nog steeds dezelfde melding. What am I missing?

Alvast dank voor uw reactie!

Gr,

Gr.

[ Voor 28% gewijzigd door Gralgrathor op 31-07-2023 12:09 ]

zondag 30 juli 2023 09:03

Acties:

Ben(V)

Het enige wat ik kan bedenken is de lengte van de kabel naar de disken.
Sata kabels mogen maximaal 1m zijn terwijl Sas kabels veel langer mogen zijn.

All truth passes through three stages: First it is ridiculed, second it is violently opposed and third it is accepted as being self-evident.

zondag 30 juli 2023 14:23

Acties:

Gralgrathor

Topicstarter

Ben(V) schreef op zondag 30 juli 2023 @ 09:03:
Het enige wat ik kan bedenken is de lengte van de kabel naar de disken.
Sata kabels mogen maximaal 1m zijn terwijl Sas kabels veel langer mogen zijn.

De mini-SAS-4xSATA kabels zijn 50cm lang, maar ik heb destijds niet de duurste gekozen. Ook heb ik er tot de uitbreiding geen last mee gehad, dus ik acht de kans dat het aan de datakabels ligt klein. Desondanks heb ik nieuwe kabels besteld, wat prijziger deze keer. Gewittutnooitnie.

Overigens zie ik sinds de laatste keer dat ik de voedingskabeltjes opnieuw heb aangesloten een kleine vermindering in de frequentie van resets. Dat was gemiddeld eens per minuut, en nu gemiddeld eens per twee minuten (8 in de laatste 20 minuten). Helaas komen er niet meer draadjes uit mijn PSU, anders had ik alle enclosures hun eigen draadje gegeven om te zien of dat wat uitmaakt...

zondag 30 juli 2023 14:54

Acties:

Ben(V)

Welke disken gebruik je, want het komt voor dat bepaalde Sata disken niet lekker werken met SAS controllers.

All truth passes through three stages: First it is ridiculed, second it is violently opposed and third it is accepted as being self-evident.

zondag 30 juli 2023 16:06

Acties:

Gralgrathor

Topicstarter

Ben(V) schreef op zondag 30 juli 2023 @ 14:54:
Welke disken gebruik je, want het komt voor dat bepaalde Sata disken niet lekker werken met SAS controllers.

D'n die:

uitvoering: Seagate Barracuda Compute 2,5" (5400rpm), 4TB

Ik kon hiervan een stapeltje goedkoop krijgen, en kwam zo op het idee om een machine te bouwen rond de 2.5" form factor. De bedoeling is dat ik gaandeweg HDD's ga vervangen door SSD's, als de €/gb wat omlaag komt.

Deze schijven zijn, zoals ik al zei, niet bedoeld om in NAS-machines te stoppen, maar de bedoeling is ook niet dat deze machine permanent aan staat, en ik ben op het internet nog niets tegengekomen over issues met ST4000LM024's en SAS-controllers. Seagate zelf heeft er in ieder geval niets over te zeggen.

zondag 30 juli 2023 16:42

Acties:

Ben(V)

Dat zijn volgens mij smr schijven.
Daar zal je probleem wel vandaan komen dan, want je hebt last van time-out problemen aan je foutmelding te zien.

All truth passes through three stages: First it is ridiculed, second it is violently opposed and third it is accepted as being self-evident.

zondag 30 juli 2023 16:52

Acties:

Gralgrathor

Topicstarter

Ben(V) schreef op zondag 30 juli 2023 @ 16:42:
Dat zijn volgens mij smr schijven.
Daar zal je probleem wel vandaan komen dan, want je hebt last van time-out problemen aan je foutmelding te zien.

Zoals ik de melding lees (er zijn meerdere meldingen; ik heb net een tweede stukje logging toegevoegd aan de OP) is een schijf na een schrijfactie soms een hele seconde niet bereikbaar.
Nou snap ik dat er tussen SMR en CMR (onder meer) een enorm verschil in performance is -- maar dat een hele schijf een seconde lang geen piep geeft en dan gereset moet worden, dat kan ik me niet voorstellen.

Maar het is een goed idee om even te kijken of er een manier is om de mpt2sas driver te vertellen wat rustiger aan te doen. Ik weet dat ik dat per device kan instellen; misschien dat er ook een manier is om de default timeout voor alle aangesloten devices in te stellen. Ik hoef geen performance van de array, maar al die resets zijn gewoon niet leuk...

zondag 30 juli 2023 16:58

Acties:

Ben(V)

smr schijven zijn een volkomen miskleun van de fabrikanten en 2,5 inch disken helemaal.
Daar moeten de sporen nog dichter bij elkaar liggen dan bij 3.5 disken.
Dit probleem was waarschijnlijk de reden dat je ze goedkoop kon krijgen.

Ik denk dat je het alleen oplost met andere disken,

All truth passes through three stages: First it is ridiculed, second it is violently opposed and third it is accepted as being self-evident.

zondag 30 juli 2023 17:12

Acties:

Gralgrathor

Topicstarter

Ben(V) schreef op zondag 30 juli 2023 @ 16:58:
smr schijven zijn een volkomen miskleun van de fabrikanten en 2,5 inch disken helemaal.

I see what you mean...
https://blocksandfiles.co...zones-for-caching-writes/

Ben(V) schreef op zondag 30 juli 2023 @ 16:58:Ik denk dat je het alleen oplost met andere disken,

Dat zou jammer zijn. Ik ga het nog eens proberen door te spelen met timeouts (ik hoop dat ik die voor alle schijven kan verhogen). Als dat niet lukt inderdaad maar gaan shoppen naar nieuwe schijven. Thanks!

maandag 31 juli 2023 12:11

Acties:

Gralgrathor

Topicstarter

De volgende vraag is: is er een manier om de timeout dit in dit stukje logging wordt vermeld

code:

1	Jul 28 02:03:48 nas kernel: sd 8:0:27:0: attempting task abort!scmd(0x0000000054eb3936), outstanding for 1016 ms & timeout 1000 ms

te verhogen? Ik heb geprobeerd de setting te vinden in de SAS-controller BIOS, maar na het verdubbelen van alle timeout-attributen krijg ik nog steeds dezelfde melding. What am I missing?

Nota bene: ja, ik ga werken aan het vervangen van deze schijven met spul dat beter geschikt is, maar dat kan even duren, en in de tussentijd zou ik toch graag mijn experimentjes willen draaien, en dat dat met gereduceerde prestaties en levensduur gepaard gaat neem ik dan maar voor lief.

[ Voor 25% gewijzigd door Gralgrathor op 31-07-2023 12:15 ]

maandag 31 juli 2023 12:49

Acties:

Ben(V)

Heb je gekeken of er misschien firmware updates voor deze disken zijn?

https://apps1.seagate.com...ferredLocaleCookie=en_US_

All truth passes through three stages: First it is ridiculed, second it is violently opposed and third it is accepted as being self-evident.

maandag 31 juli 2023 13:16

Acties:

Gralgrathor

Topicstarter

Ben(V) schreef op maandag 31 juli 2023 @ 12:49:
Heb je gekeken of er misschien firmware updates voor deze disken zijn?

Goeie tip, thanks! Alas, geen nieuws voor deze schijven. Ik blijf even doorgooglen om te kijken of er mogelijkheden zijn de mpt3sas-driver of de controller-firmware te tweaken.

Ondertussen is de array in zijn huidige configuratie bijna klaar met initialiseren. Ik ga het ding as is in gebruik nemen, en hopen dat ik niet al te vaak een disk hoef te resilveren, terwijl ik spaar voor SSD's om het stapeltje 4TB HDD's te vervangen.

Onderwerpen