Hoi,
Ik heb een fileserver die ongeveer een jaar oud is, met de volgende specs:
Ik heb het ding samengesteld zonder al teveel naar de geschiktheid van de componenten te kijken, en er zaten aanvankelijk maar 7 x 2.5" HDD's in, in een RAIDZ2 pool van 5, met 2 hot spares; en nog eens 3 SSD's in een RAIDZ1 pool. Ik weet dat deze schijven niet bij uitstek geschikt zijn voor gebruik in een NAS, maar ik ga er stiekem een beetje van uit dat dit de levensduur en performance beïnvloedt, niet basale functionaliteit.
De controllers worden doorgegeven aan een libvirt-vm waarin TrueNAS Scale draait. De bedoeling is dat ik dit systeem als hypervisor kon gebruiken, waarbij de VM's draaien vanaf VDI's in de virtuele fileserver, maar ook als desktop linux machine voor spelletjes enzo. De nas-VM krijgt 1 statisch gemapte core, 2 threads, en 16G RAM.
Deze configuratie heeft out-of-the-box een jaar lang zonder issues gedraaid.
Onlangs heb ik me gewaagd aan een kleine uitbreiding van de pool: 7 naar 10 schijven, RAIDZ2 van 8 + 2 hot spares; plus 6 SSD's in een 3 x mirror pool. Alle HDD's zitten op 1 van de controllers, via een SAS-expander. De SSD's zitten op de andere controller, via 2 mini-SAS -> mini-SAS kabels op de 8x2.5" SAS-SATA backplane. De SSD-enclosure is aangesloten op 1 voedingskabel direct vanuit de PSU, 2 HHD-enclosures zitten samen serieel op 1 voedingskabel vanuit de PSU, en een derde enclosure deelt (op dit moment) een voedingskabel met de ledstrips van de case (en zat voorheen op dezelfde kabel als de andere twee HDD enclosures).
Sinds de uitbreiding krijg ik aan de lopende band dit soort meldingen:
Tijdens een resilver geeft met name de target HDD met een frequentie van meer dan eens per minuut deze melding. SMART geeft aan dat alle schijven volledig gezond zijn. Voor een aantal schijven kon een 'long' self-test met succes worden afgerond, maar bij schijven die op dit moment worden geresilvered lukt dat niet vanwege de continue resets.
Ik heb aan verschillende oorzaken gedacht:
Thanks to Ben(V) for pointing out what I should have thought of before buying these disks
De volgende vraag is: is er een manier om de timeout dit in dit stukje logging wordt vermeld
Alvast dank voor uw reactie!
Gr,
Gr.
Ik heb een fileserver die ongeveer een jaar oud is, met de volgende specs:
# | Category | Product |
---|---|---|
1 | Behuizingen | Phanteks Enthoo Primo - Zwart |
1 | Voedingen | be quiet! Pure Power 11 500W |
1 | Moederborden | ASUS Prime X570-P |
1 | Processors | AMD Ryzen 7 5700G Boxed |
2 | Geheugen intern | Micron MTA18ASF4G72AZ-3G2B1 |
2 | Controllers | LSI SAS 9207-8i |
1 | Controllers | Lenovo FRU03X3834 SAS-expander |
1 | Interne HDD/SSD behuizingen | Supermicro M28SACB-OEM Zwart |
10 | Interne harde schijven | Seagate Barracuda Compute 2,5" (5400rpm), 4TB |
3 | Interne HDD/SSD behuizingen | Icy Box IB-2240SSK |
6 | Solid state drives | Adata Ultimate SU630 480GB |
Ik heb het ding samengesteld zonder al teveel naar de geschiktheid van de componenten te kijken, en er zaten aanvankelijk maar 7 x 2.5" HDD's in, in een RAIDZ2 pool van 5, met 2 hot spares; en nog eens 3 SSD's in een RAIDZ1 pool. Ik weet dat deze schijven niet bij uitstek geschikt zijn voor gebruik in een NAS, maar ik ga er stiekem een beetje van uit dat dit de levensduur en performance beïnvloedt, niet basale functionaliteit.
De controllers worden doorgegeven aan een libvirt-vm waarin TrueNAS Scale draait. De bedoeling is dat ik dit systeem als hypervisor kon gebruiken, waarbij de VM's draaien vanaf VDI's in de virtuele fileserver, maar ook als desktop linux machine voor spelletjes enzo. De nas-VM krijgt 1 statisch gemapte core, 2 threads, en 16G RAM.
Deze configuratie heeft out-of-the-box een jaar lang zonder issues gedraaid.
Onlangs heb ik me gewaagd aan een kleine uitbreiding van de pool: 7 naar 10 schijven, RAIDZ2 van 8 + 2 hot spares; plus 6 SSD's in een 3 x mirror pool. Alle HDD's zitten op 1 van de controllers, via een SAS-expander. De SSD's zitten op de andere controller, via 2 mini-SAS -> mini-SAS kabels op de 8x2.5" SAS-SATA backplane. De SSD-enclosure is aangesloten op 1 voedingskabel direct vanuit de PSU, 2 HHD-enclosures zitten samen serieel op 1 voedingskabel vanuit de PSU, en een derde enclosure deelt (op dit moment) een voedingskabel met de ledstrips van de case (en zat voorheen op dezelfde kabel als de andere twee HDD enclosures).
Sinds de uitbreiding krijg ik aan de lopende band dit soort meldingen:
code:
1
2
3
4
5
6
| Jul 28 02:03:48 nas kernel: sd 8:0:27:0: attempting task abort!scmd(0x0000000054eb3936), outstanding for 1016 ms & timeout 1000 ms Jul 28 02:03:48 nas kernel: sd 8:0:27:0: tag#7836 CDB: ATA command pass through(16) 85 08 0e 00 d5 00 01 00 e0 00 4f 00 c2 00 b0 00 Jul 28 02:03:48 nas kernel: scsi target8:0:27: handle(0x0014), sas_address(0x500262d0cd7bb9ec), phy(11) Jul 28 02:03:48 nas kernel: scsi target8:0:27: enclosure logical id(0x500262d0cd7bb9e0), slot(11) Jul 28 02:03:48 nas kernel: sd 8:0:27:0: task abort: SUCCESS scmd(0x0000000054eb3936) Jul 28 02:03:50 nas kernel: sd 8:0:27:0: Power-on or device reset occurred |
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
| Jul 30 14:55:49 nas kernel: sd 8:0:18:0: [sdh] Synchronizing SCSI cache Jul 30 14:55:49 nas kernel: sd 8:0:18:0: [sdh] Synchronize Cache(10) failed: Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK Jul 30 14:55:49 nas kernel: mpt2sas_cm1: mpt3sas_transport_port_remove: removed: sas_addr(0x500262d0cd7bb9e2) Jul 30 14:55:49 nas kernel: mpt2sas_cm1: removing handle(0x000b), sas_addr(0x500262d0cd7bb9e2) Jul 30 14:55:49 nas kernel: mpt2sas_cm1: enclosure logical id(0x500262d0cd7bb9e0), slot(1) Jul 30 14:55:49 nas kernel: mpt2sas_cm1: device is not present handle(0x04b)!!! Jul 30 14:55:50 nas kernel: scsi 8:0:19:0: Direct-Access ATA ST4000LM024-2AN1 0001 PQ: 0 ANSI: 6 Jul 30 14:55:50 nas kernel: scsi 8:0:19:0: SATA: handle(0x000b), sas_addr(0x500262d0cd7bb9e2), phy(1), device_name(0x0000000000000000) Jul 30 14:55:50 nas kernel: scsi 8:0:19:0: enclosure logical id (0x500262d0cd7bb9e0), slot(1) Jul 30 14:55:50 nas kernel: scsi 8:0:19:0: atapi(n), ncq(y), asyn_notify(n), smart(y), fua(y), sw_preserve(y) Jul 30 14:55:50 nas kernel: scsi 8:0:19:0: qdepth(32), tagged(1), scsi_level(7), cmd_que(1) Jul 30 14:55:50 nas kernel: sd 8:0:19:0: Power-on or device reset occurred Jul 30 14:55:50 nas kernel: sd 8:0:19:0: Attached scsi generic sg7 type 0 Jul 30 14:55:50 nas kernel: [609020]: scst: Attached to scsi8, channel 0, id 19, lun 0, type 0 Jul 30 14:55:50 nas kernel: sd 8:0:19:0: [sdh] 7814037168 512-byte logical blocks: (4.00 TB/3.64 TiB) Jul 30 14:55:50 nas kernel: sd 8:0:19:0: [sdh] 4096-byte physical blocks Jul 30 14:55:50 nas kernel: end_device-8:0:19: add: handle(0x000b), sas_addr(0x500262d0cd7bb9e2) Jul 30 14:55:50 nas kernel: sd 8:0:19:0: [sdh] Write Protect is off Jul 30 14:55:50 nas kernel: sd 8:0:19:0: [sdh] Write cache: enabled, read cache: enabled, supports DPO and FUA Jul 30 14:55:53 nas kernel: sdh: sdh1 sdh9 Jul 30 14:55:56 nas kernel: sd 8:0:19:0: [sdh] Attached SCSI disk |
Tijdens een resilver geeft met name de target HDD met een frequentie van meer dan eens per minuut deze melding. SMART geeft aan dat alle schijven volledig gezond zijn. Voor een aantal schijven kon een 'long' self-test met succes worden afgerond, maar bij schijven die op dit moment worden geresilvered lukt dat niet vanwege de continue resets.
Ik heb aan verschillende oorzaken gedacht:
- Vermogen: piekverbruik is tijdens het opstarten, en tijdens resilvers op de 8xHDD RAIDZ2 pool, maar komt nooit boven de 200W uit. De voeding zou dit zonder veel problemen moeten kunnen leveren.
- Bekabeling: zowel de data als de voedingskabels al twee maal opnieuw gelegd. De beschikbare voedingsuitgangen op verschillende manieren serieel/parallel over de schijven verdeeld, etc. Ik heb nieuwe data-kabels besteld (SFF-8087 -> 4xSATA) maar ik verwacht er niet teveel van.
- Temperatuur: de controllers zijn vrij heet. Extra koeling geïnstalleerd, en draait nu iets koeler. Tijdens resilvers piekt de temperatuur van de radiatoren rond de 60C. Nog steeds vrij warm, maar lijkt mij dat de hardware dat aan moet kunnen. De expander wordt een stuk minder warm, dus daar lijkt me de beschikbare koeling voldoende. De schijven zelf draaien ruim onder de 40C.
- Brakke controllers: uit voorzorg beide vervangen, geen verschil.
- Brakke expander: ik heb een nieuwe expander besteld, misschien dat dat iets doet. Duurt nog even voordat die aankomt, dus ik begin alvast met vragen stellen. Ik heb overigens ook een configuratie met 8 HDD's direct op 1 van de controllers geprobeerd, zonder expander ertussen, en dit gaf eveneens problemen.
- configuratie: SAS-controllers in passthrough naar een VM om de zpools aan te sturen gaat gewoon niet met deze hardware -- ik hoop niet dat dat het geval is, want dan is het "back to the drawing board", en moet ik een hoop van mijn kleine plannetjes voor deze machine herzien. Hiervoor ga ik tzt. nog wat experimentjes draaien, maar daarvoor moet ik eea verbouwen aan de hypervisor, en dat gaat even duren, dus ik stel nu alvast mijn vragen.
- Bent u dit soort dingen wel eens tegengekomen?
- Wat denkt u dat de meest voordehandliggende oorzaak is?
- Wat zou ik -- behalve het vervangen van de bekabeling en de expander -- nog kunnen proberen?
Thanks to Ben(V) for pointing out what I should have thought of before buying these disks
De volgende vraag is: is er een manier om de timeout dit in dit stukje logging wordt vermeld
code:
te verhogen? Ik heb geprobeerd de setting te vinden in de SAS-controller BIOS, maar na het verdubbelen van alle timeout-attributen krijg ik nog steeds dezelfde melding. What am I missing?1
| Jul 28 02:03:48 nas kernel: sd 8:0:27:0: attempting task abort!scmd(0x0000000054eb3936), outstanding for 1016 ms & timeout 1000 ms |
Alvast dank voor uw reactie!
Gr,
Gr.
[ Voor 28% gewijzigd door Gralgrathor op 31-07-2023 12:09 ]