Check je SMART

woensdag 23 november 2022 21:47

Raymond P schreef op woensdag 23 november 2022 @ 21:10:
@Farabi Zonder te weten waar je naar verwijst kan je daar niets zinnigs over zeggen.

Heb je een SMART test gedaan? Zo ja welke attribute geeft dan 98% en welke schijf/firmware gaat het om?

Met crystaldiskinfo gecheckt. Het is een toshiba ssdtje in mijn laptop. M2.

Acties:

woensdag 23 november 2022 22:20

@Farabi Dat is de naam van de tool en merk / interface van de schijf.

Wellicht heeft iemand anders een antwoord voor je.

- knip -

Acties:

woensdag 23 november 2022 22:27

Raymond P schreef op woensdag 23 november 2022 @ 21:47:
@Farabi Dat is de naam van de tool en merk / interface van de schijf.

Wellicht heeft iemand anders een antwoord voor je.

Sorry, ben een leek op dit gebied. Dan heb ik het niet begrepen.

Acties:

woensdag 23 november 2022 23:18

@Farabi De SMART test is niet voor elke schijf hetzelfde.
Een lijstje attributen worden uitgelezen, en zonder te weten welke attribute exact de "health" score omlaag haalt is een gepast antwoord op je vraag niet mogelijk.

Enkel de fabrikant van de schijf en naam van de gebruikte software is echt niet voldoende info om iets te kunnen zeggen.

Je kan natuurlijk de uitslag van de hele test delen, dat is het meest gangbare hier...

- knip -

Acties:

donderdag 24 november 2022 00:04

Raymond P schreef op woensdag 23 november 2022 @ 22:27:
@Farabi De SMART test is niet voor elke schijf hetzelfde.
Een lijstje attributen worden uitgelezen, en zonder te weten welke attribute exact de "health" score omlaag haalt is een gepast antwoord op je vraag niet mogelijk.

Enkel de fabrikant van de schijf en naam van de gebruikte software is echt niet voldoende info om iets te kunnen zeggen.

Je kan natuurlijk de uitslag van de hele test delen, dat is het meest gangbare hier...

zoiets?

Afbeeldingslocatie: https://tweakers.net/i/ANFSVRTKslTTNMNCwkxwEqRpO4M=/full-fit-in/4920x3264/filters:max_bytes(3145728):no_upscale():strip_icc():fill(white):strip_exif()/f/image/p2ajrLqO4QpQNBM0xxCObrDF.jpg?f=user_large

Acties:

donderdag 24 november 2022 00:07

@Farabi exact.
Het lijkt mij dat de 98% gebaseerd is op "percentage gebruikt" en zal, gok ik, grofweg overeen komen met het verhaal boven je initiele post.

- knip -

Acties:

donderdag 24 november 2022 05:06

Raymond P schreef op donderdag 24 november 2022 @ 00:04:
@Farabi exact.
Het lijkt mij dat de 98% gebaseerd is op "percentage gebruikt" en zal, gok ik, grofweg overeen komen met het verhaal boven je initiele post.

wat gebeurt er als die percentage opeens op 10% staat bijv? hoe moet ik dat zien? tijd om te veranderen?

Acties:

donderdag 24 november 2022 11:05

S.m.a.r.t.

@Farabi

Deze drive heeft geen current, worst en threshold waarden voor één SMART code. Die informatie is verspreid over SMART waarden 3 tot en met 5.

3: beschikbare reserve (0x64 = 100, hexadecimaal getal naar decimaal getal)
4: minimum waarde voor de reserve (0x0A = 10, threshold)
5: percentage gebruikte reserve (2%)

100-2%=98%, dat is kennelijk het cijfer dat CrystalDiskInfo aangeeft voor "health status". Dat cijfer is niet alleszeggend.

De waarde voor 5 daalt als het goed is niet zomaar plotseling tot 10% of minder. Uiteraard maak je altijd een backup van gegevens die je niet kan missen. Als het toch op die drempel komt kun je overwegen de drive vervangen als de data betrouwbaar moet zijn. Het kan best zo zijn dat die waarde nooit wordt bereikt en dat het ook niet veel verder zakt.

Ik heb een gloednieuwe SSD die nieuw al op 1% wear leveling/POR recovery count stond. Om een nieuwe drive te testen schrijf ik die helemaal vol en lees terug met h2testw. Daarmee schat ik in hoe goed of slecht de drive is en voorkom ik dat slechte plekken worden gebruikt. Het bleef in dit geval op 1% staan. Ik maak me daar weinig zorgen over.

Acties:

donderdag 24 november 2022 13:55

mrmrmr schreef op donderdag 24 november 2022 @ 05:06:
@Farabi

Deze drive heeft geen current, worst en threshold waarden voor één SMART code. Die informatie is verspreid over SMART waarden 3 tot en met 5.

3: beschikbare reserve (0x64 = 100, hexadecimaal getal naar decimaal getal)
4: minimum waarde voor de reserve (0x0A = 10, threshold)
5: percentage gebruikte reserve (2%)

100-2%=98%, dat is kennelijk het cijfer dat CrystalDiskInfo aangeeft voor "health status". Dat cijfer is niet alleszeggend.

De waarde voor 5 daalt als het goed is niet zomaar plotseling tot 10% of minder. Uiteraard maak je altijd een backup van gegevens die je niet kan missen. Als het toch op die drempel komt kun je overwegen de drive vervangen als de data betrouwbaar moet zijn. Het kan best zo zijn dat die waarde nooit wordt bereikt en dat het ook niet veel verder zakt.

Ik heb een gloednieuwe SSD die nieuw al op 1% wear leveling/POR recovery count stond. Om een nieuwe drive te testen schrijf ik die helemaal vol en lees terug met h2testw. Daarmee schat ik in hoe goed of slecht de drive is en voorkom ik dat slechte plekken worden gebruikt. Het bleef in dit geval op 1% staan. Ik maak me daar weinig zorgen over.

kan je het een beetje een jip en janneke taal uitleggen? haha, kan het niet volgen.

Acties:

donderdag 24 november 2022 14:15

S.m.a.r.t.

Farabi schreef op donderdag 24 november 2022 @ 11:05:
kan je het een beetje een jip en janneke taal uitleggen? haha, kan het niet volgen.

De humane uitleg begint in de alinea "De waarde van 5 daalt...".

Acties:

vrijdag 25 november 2022 15:56

@Farabi Heel simpel gezegd: als die op 0% staat en de schijf doet het nog, dan voldoet het product aan de verwachte levensduur van de fabrikant.

- knip -

Acties:

LooneyTunes

verwarring:

Drive zat als L2ARC cache in een Freenas servertje die op een gegeven moment foutmeldingen begon te geven: (met zo'n mooie rode alert-knop rechts boven)

code:

1
2
3

Nov 23 22:50:44 FreeNas_II (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 00 88 99 c3 40 00 00 00 01 00 00
Nov 23 22:50:44 FreeNas_II (ada1:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error
Nov 23 22:50:44 FreeNas_II (ada1:ahcich1:0:0:0): Retrying command

( ^ dit dus vele schermen vol )

De SSD aan een Windows bak gehangen en nu krijg ik tegengestelde waarden:
De tool van Adata roept 'BAD' en Diskinfo roept 'Good'.

Afbeeldingslocatie: https://tweakers.net/i/KXVcH-Gj26i-fSffKIQCqqPOsxo=/800x/filters:strip_icc():strip_exif()/f/image/kKRyzhocphYBSzyOcn3nxPnX.jpg?f=fotoalbum_large

Gevalletje 'pech en garantie claimen'? (slechts 3,1 TBW van de 80 die wordt opgegeven door Adata)

[ Voor 3% gewijzigd door LooneyTunes op 25-11-2022 16:00 ]

vrijdag 25 november 2022 19:30

Acties:

zondag 27 november 2022 11:20

S.m.a.r.t.

@LooneyTunes Ik zie dat de drive wel erg veel NAND hergeschreven heeft ten opzichte van de omvang van de netto data writes. Hele kleine stukjes data?

Dat geeft overmatige slijtage, en het gevolg zie je vermoedelijk bij de remaining liftetime die op 12% staat. Deze SSD lijkt ongeschikt voor het doel waarvoor je hem gebruikt. Geheugen is misschien beter bestand tegen kleine aanpassingen.

Wat betreft de SMART tools: ik denk dat het het beste is de interpretatie van de fabrikant te volgen. De fabrikant heeft als het goed is meer kennis over de interne werking dan de maker van CrystalDiskInfo. De drive heeft 70TB TBW. De garantie wijst intensief gebruik af.

Voor de fouten in de logs kun je een andere data kabel proberen of een andere SATA poort.

Acties:

LooneyTunes

mrmrmr schreef op vrijdag 25 november 2022 @ 19:30:
@LooneyTunes Ik zie dat de drive wel erg veel NAND hergeschreven heeft ten opzichte van de omvang van de netto data writes. Hele kleine stukjes data?

Hij draaide als cache drive, dus (als ik het goed heb) komt alle data van het netwerk éérst op die schijf en gaat later de ZFS-pool in. (en met 1 Gbit zou de de drive dat met 2 vingers in de neus moeten aankunnen)
Het grootste gebruik is wekelijks bij de backups (images van Macrium)

Verder gaat het om minimaal gebruik.

Dat geeft overmatige slijtage, en het gevolg zie je vermoedelijk bij de remaining liftetime die op 12% staat. Deze SSD lijkt ongeschikt voor het doel waarvoor je hem gebruikt. Geheugen is misschien beter bestand tegen kleine aanpassingen.

Dat zou de controller toch moeten regelen? Die houdt een wear-level tabelletje bij. Toch?
En helaas, het geheugen is al maximaal. Meer kan 't orgel niet aan.

Voor de fouten in de logs kun je een andere data kabel proberen of een andere SATA poort.

Nieuwe disk er in werkt ook

Voor 2 tientjes zo'n zelfde schijf er in gedonderd. Kleine SSD's zijn gelukkig goedkoop.

Het aardige is dat een kloon van deze freenas server (die veel intensiever gebruikt wordt) nog geen problemen vertoont. (en ach, ze draaiden hiervoor al dik 4 jaar zonder L2ARC cache. Mocht het 'eten' van SSD's een gewoonte worden gaan ze weer gewoon zonder cache verder)

Mogelijk dat dit gewoon een maandagochtend exemplaar is. (kan ook gebeuren)

Edit:
De laatste DiskInfo maakt er helemaal een potje van:
12% en toch 'good'

Afbeeldingslocatie: https://tweakers.net/i/rRN9Q3h-AFLJnQQDEw-KL184Q9I=/x800/filters:strip_icc():strip_exif()/f/image/MT1UGAhHbTtffOddLLHGEzWu.jpg?f=fotoalbum_large

[ Voor 12% gewijzigd door LooneyTunes op 27-11-2022 11:56 ]

maandag 28 november 2022 21:24

Acties:

LaserJet

Deze harddisk vind ik niet alleen vrij luid qua lezen en schrijven, maar maakt af en toe ook rare geluiden. Is niet van mij, dus ik kan niet bepalen of dit geluid normaal is voor dit merk/type schijf. Kapot?

Afbeeldingslocatie: https://tweakers.net/i/ydtg_AAhOMU5Xoy2GKH87f28jwo=/full-fit-in/4000x4000/filters:no_upscale():fill(white):strip_exif()/f/image/lzvbaO5TqEtOvo66mKtvT8yq.png?f=user_large

Afbeeldingslocatie: https://tweakers.net/i/ydtg_AAhOMU5Xoy2GKH87f28jwo=/full-fit-in/4000x4000/filters:no_upscale():fill(white):strip_exif()/f/image/lzvbaO5TqEtOvo66mKtvT8yq.png?f=user_large

Klopt deze conclusie?

Reallocated Sectors Count 62 slecht.
Current Pending Sector Count wel goed.

Raw Read Error Rate en Seek error rate slecht. Maar ik lees dat bij Seagate dat niet zoveel zegt als bij andere merken?

53 Power on Count icm 53701 hours vind ik bijzonder. Ingezet als serverdisk geweest?

[ Voor 40% gewijzigd door LaserJet op 29-11-2022 14:27 . Reden: beter screenshot ]

maandag 28 november 2022 22:48

Acties:

maandag 5 december 2022 09:26

S.m.a.r.t.

LaserJet schreef op maandag 28 november 2022 @ 21:24:
Deze harddisk vind ik niet alleen vrij luid qua lezen en schrijven, maar maakt af en toe ook rare geluiden. Is niet van mij, dus ik kan niet bepalen of dit geluid normaal is voor dit merk/type schijf. Kapot?

Ik weet niet wat die rare geluiden zijn, daar kan ik zo niet over oordelen.

De disk is meer dan 6 jaar oud en het is een model uit 2011.

De drempelwaarde van de relocated sectors count is te hoog (=62) volgens de grens (=36) van de fabrikant . Dat is niet goed, vooral als het nog stijgende is. Tijd om vervanging te regelen.

De disk zit in een server bij een organisatie? Dan zou ik hem sowieso vervangen.

Met SeaTools kun je nog een aantal tests doen. Alleen interessant als je wil doorgaan met deze disk.

Acties:

MrMaxedTank

Raymond P schreef op maandag 21 november 2022 @ 13:34:
@MrMaxedTank Ik ben benieuwd, hopelijk deel je je data over een maandje.

Het gaat langzamer, maar zet nog steeds door: inmiddels staat ie op 26% terwijl ik hem bewust minder belast. Gelukkig een 4TB mx500 op de kop getikt met black friday, dus ik vervang hem preventief over een paar dagen.

dinsdag 6 december 2022 12:06

Acties:

zaterdag 7 januari 2023 08:56

LaserJet schreef op maandag 28 november 2022 @ 21:24:
Deze harddisk vind ik niet alleen vrij luid qua lezen en schrijven, maar maakt af en toe ook rare geluiden. Is niet van mij, dus ik kan niet bepalen of dit geluid normaal is voor dit merk/type schijf. Kapot?

Raw Read Error Rate en Seek error rate slecht. Maar ik lees dat bij Seagate dat niet zoveel zegt als bij andere merken?

https://www.disktuna.com/...es-arent-always-bad-news/, ik schreef er een blogje over. Dit verhaaltje gaat ook op voor raw read en seek error rates.

Attribute ID 7: Seek Error Rate
Monitor seeks requiring one or more retries. Exclude calibration seeks and seeks in system area.
Normalized Seek Error Rate = 10 * log10(SeekCount / SeekErrors) which is only updated when
SeekCount is in the range 106
to 109. The counts are cleared when SeekCount = 109 . (Evaluates
to a value from 1 to 100).
Raw Usage
Raw [3 – 0] = Number of seeks
Raw [5 – 4] = Number of seek errors

296836270 = 11B15CAE

Seeks = 11B15CAE
Errors = 0

[Attribute ID 1: Raw Error Rate
Normalized Raw Error Rate = 10 * log10(NumberOfSectorsTransferredToOrFromHost * 512 * 8 /
(Number of sectors requiring retries))
Where the factor of 512*8 is to convert from sectors to bits. The attribute value is only
computed when the number of bits in the "transferred bits" count is in the range 1010 to 1012
.
The counts are cleared when Number Of Bits Transferred To Or From Host > 1012.
“Number of sectors requiring retries” does not count free retry or hidden retry.
Normalized Raw Error Rate is evaluated to a number between 1 and 166.
Raw Usage
Raw [3 – 0] = Number of sector reads
Raw [6 - 4] = Number of read errors.

14763439 = E145AF

Reads = 00E145AF
Errors = 0

Ik hoop dat ik alle getalletjes uit screenshot goed heb overgenomen, kon leesbrilletje niet vinden ..

Joep

Acties:

zaterdag 7 januari 2023 10:36

In april vorig jaar postte ik al een afbeelding van een schijf in m'n NAS. Dat is deze afbeelding:
Afbeeldingslocatie: https://tweakers.net/i/U7M1G-Hv1TmXdrhg20aK42PZYZM=/full-fit-in/4920x3264/filters:max_bytes(3145728):no_upscale():strip_icc():fill(white):strip_exif()/f/image/ogIAQdhkSeWy75GASnRXpRQJ.jpg?f=user_large

Afbeeldingslocatie: https://tweakers.net/i/U7M1G-Hv1TmXdrhg20aK42PZYZM=/full-fit-in/4920x3264/filters:max_bytes(3145728):no_upscale():strip_icc():fill(white):strip_exif()/f/image/ogIAQdhkSeWy75GASnRXpRQJ.jpg?f=user_large

Toen werd ik al gewezen op bepaalde waardes waar ik op moest letten.

Nu een afbeelding van gisteren:

Afbeeldingslocatie: https://tweakers.net/i/ZGhT-5eTc-ja2kF6ZJe3OPfh-uM=/x800/filters:strip_icc():strip_exif()/f/image/t4qX7imZew0yHJjATzLikSvt.jpg?f=fotoalbum_large

Graag hoor ik of ik actie moet ondernemen in de zin van de schijf onder garantie om te ruilen.

Acties:

zaterdag 7 januari 2023 12:21

S.m.a.r.t.

@Ferret Kun je het volledige typenummer geven van de disk?

Wat zegt SeaTools Health/FixAll?

Acties:

zaterdag 7 januari 2023 14:06

mrmrmr schreef op zaterdag 7 januari 2023 @ 10:36:
@Ferret Kun je het volledige typenummer geven van de disk?

Wat zegt SeaTools Health/FixAll?

Het typenummer is WSD2RXTF en het is een 8TB Ironwolff ST8000VN004.

Die tool heb ik nog niet bekeken maar dat ga ik nu even doen. Kan deze tool ook schijven in het netwerk (NAS) checken of moet ik de schijf fysiek aan m'n PC hangen?

[ Voor 11% gewijzigd door Ferret op 07-01-2023 12:22 ]

Acties:

zaterdag 7 januari 2023 15:01

Ferret schreef op zaterdag 7 januari 2023 @ 08:56:
In april vorig jaar postte ik al een afbeelding van een schijf in m'n NAS. Dat is deze afbeelding:
[Afbeelding]

Toen werd ik al gewezen op bepaalde waardes waar ik op moest letten.

Nu een afbeelding van gisteren:
[Afbeelding]

Graag hoor ik of ik actie moet ondernemen in de zin van de schijf onder garantie om te ruilen.

Ik had dat persoonlijk al gedaan bij 472 reallocated sectors, dus een jaar geleden.

Joep

Acties:

zondag 8 januari 2023 09:58

Ik zie nu ook dit in de Logboeken:

Afbeeldingslocatie: https://tweakers.net/i/jIRqeovWXNMB-Rl4NL2W3I9ELqM=/800x/filters:strip_icc():strip_exif()/f/image/T8qwSMbGcWtcIjQ8YImdS3IE.jpg?f=fotoalbum_large

Ziet er niet goed uit. Ik ga hem omruilen...

Acties:

maandag 16 januari 2023 22:05

Nog even een vraag; ik wil de disk leeg maken en ik zie dat je dat kunt doen in DSM. Ga naar Opslagbeheer, kies de schijf en selecteer Secure Erase. Maar doe ik dat voor of na het deactiveren van de schijf?

Acties:

deepbass909

[☼☼] [:::][:::] [☼☼]

Ik heb een hele vage fout bij één van mijn Ironwolf schijven, namelijk dat de SMART-test direct stopt met een read failure:

code:

smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-57-generic] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate IronWolf
Device Model:     ST4000VN008-2DR166
Serial Number:    ZM419S75
LU WWN Device Id: 5 000c50 0c64b17de
Firmware Version: SC60
User Capacity:    4.000.787.030.016 bytes [4,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5980 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Mon Jan 16 22:02:25 2023 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 121) The previous self-test completed having
                                        the read element of the test failed.
Total time to complete Offline 
data collection:                (  591) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 651) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x50bd) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   075   064   044    Pre-fail  Always       -       95149479
  3 Spin_Up_Time            0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       17
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       48
  7 Seek_Error_Rate         0x000f   081   060   045    Pre-fail  Always       -       129422211
  9 Power_On_Hours          0x0032   078   078   000    Old_age   Always       -       19843 (29 245 0)
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       16
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   082   082   000    Old_age   Always       -       18
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       12885098499
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   071   052   040    Old_age   Always       -       29 (Min/Max 28/30)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       20
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       311
194 Temperature_Celsius     0x0022   029   048   000    Old_age   Always       -       29 (0 22 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       19840 (223 71 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       56847969068
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       183343912028

SMART Error Log Version: 1
ATA Error Count: 22 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 22 occurred at disk power-on lifetime: 19843 hours (826 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 00 00 00 00 00  Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  b0 d4 00 81 4f c2 00 00      00:38:54.289  SMART EXECUTE OFF-LINE IMMEDIATE
  b0 d0 01 00 4f c2 00 00      00:38:54.264  SMART READ DATA
  ec 00 01 00 00 00 00 00      00:38:54.257  IDENTIFY DEVICE
  ec 00 01 00 00 00 00 00      00:38:54.256  IDENTIFY DEVICE
  b0 d1 01 00 4f c2 00 00      00:38:51.399  SMART READ ATTRIBUTE THRESHOLDS [OBS-4]

Error 21 occurred at disk power-on lifetime: 19842 hours (826 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 00 00 00 00 00  Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  b0 d4 00 82 4f c2 00 00      00:09:53.087  SMART EXECUTE OFF-LINE IMMEDIATE
  b0 d0 01 00 4f c2 00 00      00:09:53.046  SMART READ DATA
  ec 00 01 00 00 00 00 00      00:09:53.040  IDENTIFY DEVICE
  ec 00 01 00 00 00 00 00      00:09:53.039  IDENTIFY DEVICE
  60 00 08 ff ff ff 4f 00      00:09:46.801  READ FPDMA QUEUED

Error 20 occurred at disk power-on lifetime: 19842 hours (826 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 00 00 00 00 00  Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  b0 d4 00 81 4f c2 00 00      00:09:37.343  SMART EXECUTE OFF-LINE IMMEDIATE
  b0 d0 01 00 4f c2 00 00      00:09:37.307  SMART READ DATA
  ec 00 01 00 00 00 00 00      00:09:37.301  IDENTIFY DEVICE
  ec 00 01 00 00 00 00 00      00:09:37.300  IDENTIFY DEVICE
  b0 d4 00 7f 4f c2 00 00      00:09:27.168  SMART EXECUTE OFF-LINE IMMEDIATE

Error 19 occurred at disk power-on lifetime: 19842 hours (826 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 00 00 00 00 00  Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  b0 d4 00 81 4f c2 00 00      00:04:15.818  SMART EXECUTE OFF-LINE IMMEDIATE
  b0 d0 01 00 4f c2 00 00      00:04:15.788  SMART READ DATA
  ec 00 00 00 00 00 00 00      00:04:15.782  IDENTIFY DEVICE
  b0 d4 00 01 4f c2 00 00      00:03:51.585  SMART EXECUTE OFF-LINE IMMEDIATE
  b0 d0 01 00 4f c2 00 00      00:03:51.558  SMART READ DATA

Error 18 occurred at disk power-on lifetime: 19281 hours (803 days + 9 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 28 ff ff ff 4f 00   4d+15:22:01.618  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00   4d+15:22:01.617  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00   4d+15:22:01.605  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00   4d+15:22:01.569  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00   4d+15:22:01.568  READ FPDMA QUEUED

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short captive       Completed: read failure       90%     19843         -
# 2  Short offline       Completed without error       00%     19843         -
# 3  Short offline       Completed: read failure       90%     19843         -
# 4  Short offline       Completed: read failure       90%     19843         -
# 5  Extended captive    Completed: read failure       90%     19842         -
# 6  Short captive       Completed: read failure       90%     19842         -
# 7  Short offline       Completed: read failure       90%     19842         -
# 8  Conveyance offline  Completed: read failure       90%     19842         -
# 9  Short captive       Completed: read failure       90%     19842         -
#10  Short offline       Completed: read failure       90%     19842         -
#11  Short offline       Completed: read failure       90%     19842         -
#12  Extended offline    Completed: read failure       90%     19813         -
#13  Short offline       Completed: read failure       10%     19813         -
#14  Short offline       Completed: read failure       90%     19803         -
#15  Short offline       Completed: read failure       90%     19635         -
#16  Short offline       Completed: read failure       90%     19467         -
#17  Extended offline    Completed: read failure       90%     19466         -
#18  Short offline       Completed: read failure       90%     19299         -
#19  Short offline       Completed: read failure       90%     19131         -
#20  Short offline       Completed: read failure       80%     18963         -
#21  Short offline       Completed: read failure       80%     18795         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Als ik met SeaTools andere testen draai, geeft deze schijf echter geen foutmeldingen en wordt hij zelfs als gezond gemarkeerd en functioneert hij ook gewoon prima

Deze schijf zit nog t/m oktober dit jaar in garantie, dus heeft het zin een claim te starten?

Waarschuwing, opperprutser aan het werk... en als je een opmerking van mij niet snapt, klik dan hier

donderdag 19 januari 2023 13:53

Acties:

bokkow

deepbass909 schreef op maandag 16 januari 2023 @ 22:05:
Ik heb een hele vage fout bij één van mijn Ironwolf schijven, namelijk dat de SMART-test direct stopt met een read failure:

code:

smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-57-generic] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate IronWolf
Device Model:     ST4000VN008-2DR166
Serial Number:    ZM419S75
LU WWN Device Id: 5 000c50 0c64b17de
Firmware Version: SC60
User Capacity:    4.000.787.030.016 bytes [4,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5980 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Mon Jan 16 22:02:25 2023 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 121) The previous self-test completed having
                                        the read element of the test failed.
Total time to complete Offline 
data collection:                (  591) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 651) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x50bd) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   075   064   044    Pre-fail  Always       -       95149479
  3 Spin_Up_Time            0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       17
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       48
  7 Seek_Error_Rate         0x000f   081   060   045    Pre-fail  Always       -       129422211
  9 Power_On_Hours          0x0032   078   078   000    Old_age   Always       -       19843 (29 245 0)
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       16
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   082   082   000    Old_age   Always       -       18
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       12885098499
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   071   052   040    Old_age   Always       -       29 (Min/Max 28/30)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       20
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       311
194 Temperature_Celsius     0x0022   029   048   000    Old_age   Always       -       29 (0 22 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       19840 (223 71 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       56847969068
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       183343912028

SMART Error Log Version: 1
ATA Error Count: 22 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 22 occurred at disk power-on lifetime: 19843 hours (826 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 00 00 00 00 00  Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  b0 d4 00 81 4f c2 00 00      00:38:54.289  SMART EXECUTE OFF-LINE IMMEDIATE
  b0 d0 01 00 4f c2 00 00      00:38:54.264  SMART READ DATA
  ec 00 01 00 00 00 00 00      00:38:54.257  IDENTIFY DEVICE
  ec 00 01 00 00 00 00 00      00:38:54.256  IDENTIFY DEVICE
  b0 d1 01 00 4f c2 00 00      00:38:51.399  SMART READ ATTRIBUTE THRESHOLDS [OBS-4]

Error 21 occurred at disk power-on lifetime: 19842 hours (826 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 00 00 00 00 00  Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  b0 d4 00 82 4f c2 00 00      00:09:53.087  SMART EXECUTE OFF-LINE IMMEDIATE
  b0 d0 01 00 4f c2 00 00      00:09:53.046  SMART READ DATA
  ec 00 01 00 00 00 00 00      00:09:53.040  IDENTIFY DEVICE
  ec 00 01 00 00 00 00 00      00:09:53.039  IDENTIFY DEVICE
  60 00 08 ff ff ff 4f 00      00:09:46.801  READ FPDMA QUEUED

Error 20 occurred at disk power-on lifetime: 19842 hours (826 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 00 00 00 00 00  Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  b0 d4 00 81 4f c2 00 00      00:09:37.343  SMART EXECUTE OFF-LINE IMMEDIATE
  b0 d0 01 00 4f c2 00 00      00:09:37.307  SMART READ DATA
  ec 00 01 00 00 00 00 00      00:09:37.301  IDENTIFY DEVICE
  ec 00 01 00 00 00 00 00      00:09:37.300  IDENTIFY DEVICE
  b0 d4 00 7f 4f c2 00 00      00:09:27.168  SMART EXECUTE OFF-LINE IMMEDIATE

Error 19 occurred at disk power-on lifetime: 19842 hours (826 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 51 00 00 00 00 00  Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  b0 d4 00 81 4f c2 00 00      00:04:15.818  SMART EXECUTE OFF-LINE IMMEDIATE
  b0 d0 01 00 4f c2 00 00      00:04:15.788  SMART READ DATA
  ec 00 00 00 00 00 00 00      00:04:15.782  IDENTIFY DEVICE
  b0 d4 00 01 4f c2 00 00      00:03:51.585  SMART EXECUTE OFF-LINE IMMEDIATE
  b0 d0 01 00 4f c2 00 00      00:03:51.558  SMART READ DATA

Error 18 occurred at disk power-on lifetime: 19281 hours (803 days + 9 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 28 ff ff ff 4f 00   4d+15:22:01.618  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00   4d+15:22:01.617  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00   4d+15:22:01.605  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00   4d+15:22:01.569  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00   4d+15:22:01.568  READ FPDMA QUEUED

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short captive       Completed: read failure       90%     19843         -
# 2  Short offline       Completed without error       00%     19843         -
# 3  Short offline       Completed: read failure       90%     19843         -
# 4  Short offline       Completed: read failure       90%     19843         -
# 5  Extended captive    Completed: read failure       90%     19842         -
# 6  Short captive       Completed: read failure       90%     19842         -
# 7  Short offline       Completed: read failure       90%     19842         -
# 8  Conveyance offline  Completed: read failure       90%     19842         -
# 9  Short captive       Completed: read failure       90%     19842         -
#10  Short offline       Completed: read failure       90%     19842         -
#11  Short offline       Completed: read failure       90%     19842         -
#12  Extended offline    Completed: read failure       90%     19813         -
#13  Short offline       Completed: read failure       10%     19813         -
#14  Short offline       Completed: read failure       90%     19803         -
#15  Short offline       Completed: read failure       90%     19635         -
#16  Short offline       Completed: read failure       90%     19467         -
#17  Extended offline    Completed: read failure       90%     19466         -
#18  Short offline       Completed: read failure       90%     19299         -
#19  Short offline       Completed: read failure       90%     19131         -
#20  Short offline       Completed: read failure       80%     18963         -
#21  Short offline       Completed: read failure       80%     18795         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Als ik met SeaTools andere testen draai, geeft deze schijf echter geen foutmeldingen en wordt hij zelfs als gezond gemarkeerd en functioneert hij ook gewoon prima

Deze schijf zit nog t/m oktober dit jaar in garantie, dus heeft het zin een claim te starten?

Antwoord op die laatste vraag lijkt mij heel makkelijk; ja, je hebt twijfels over de betrouwbaarheid en wat kan het nadeel zijn als ze de claim niet accepteren? Ik zou m gewoon aanmelden, destijds voldoende voor betaald ook...

Ik had zelf eigenlijk ook de vraag of iemand eens naar mijn CrystalDisk readouts wil kijken. Gaat om 2 8TB WD schijven waarvan ik er een heb geshucked (ik weet, geen garantie, niet voor betaald ook) en in mn PC heeft gezeten en bijna 24/7 aan, dat is ook wel te zien; 4 jaar aan gestaan. Die andere heb ik enkel periodiek gebruikt om een backup te maken van de eerste, die heeft beduidend minder uren gedraaid natuurlijk. Nu heb ik recent een leuke NAS op de kop getikt en wil ik deze schijven daar in blijven gebruiken tot hun oude-dag is bereikt (een soort van Old MacDonald's Farm voor schijven haha). Maar dan is het wel fijn tussentijds te weten of er iets nu al op duidt dat een van de schijf op het randje van omvallen staat. Bij deze:

Afbeeldingslocatie: https://i.imgur.com/pSeZmxSl.png

Afbeeldingslocatie: https://i.imgur.com/pSeZmxSl.png

Afbeeldingslocatie: https://i.imgur.com/IjK4zorl.png

Alvast bedankt voor wie dan ook een blik op kan en wil werpen $_/-\o_$

Tesla Model 3 Performance - Tesla Model 3 Long Range - 6320Wp Oost-West

vrijdag 20 januari 2023 09:57

Acties:

zondag 22 januari 2023 20:16

S.m.a.r.t.

@deepbass909

Dit zijn 3 "interessante" onderdelen van SMART:
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 48
187 Reported_Uncorrect 0x0032 082 082 000 Old_age Always - 18
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0

Achteraan staat de huidige waarde. Bij deze datapunten is de grens van de fabrikant niet bereikt. Het is niet goed natuurlijk dat er fouten zijn, maar dat gebeurt wel vaker met mechanische hard disks.

Kijk eens in de Linux systeem logs of je daar ata fouten ziet.

Kijk of de waarden in SMART 5,187 en 197 oplopen als je nog een test draait. Ik zou wat andere diskcontroletools proberen om te zien of die wel verder gaan.

Seagate gebruikt bij herstel onderdelen die ze beschikbaar hebben. Dat kunnen onderdelen zijn van andere ingestuurde disks (gebruikt dus) of nieuw. Het kan een verbetering zijn, maar er is ook een kans op verslechtering.

@bokkow
Ik zie geen problemen met die SMART waarden.

Acties:

jurk738

Laatst heb ik 2 WD Red HDDs overgenomen van een medetweaker voor mijn Synology NAS. Eén ervan lijkt helaas niet ok, maar ik kan het probleem niet helemaal pinpointen.

Ik heb de Synology een korte SMART test laten doen. Die slaagt.
Ik heb de Synology ook een uitgebreide SMART test laten doen. Maar die blijft helaas steken op 90%. Ik vond hierover dit KB artikel, maar dat gaf me niet 1-2-3 een oplossing.

Vervolgens heb ik contact gezocht met Synology Support en daarbij de logfile opgestuurd. Synology Support heeft in de logfile gezien dat er een schrijffout (failed command: WRITE FPDMA QUEUED) was opgetreden, en adviseerde om een uitgebreide test te doen met de WD Dashboard tool.

Ik heb speciaal hiervoor een (Windows 10) PC geregeld waar de HDD in past. Een korte SMART test slaagt. Maar een uitgebreide SMART test faalt, met foutcode 7 zonder verdere info. Ik kan over deze foutcode helaas geen duidelijke info vinden.

Kan iemand vertellen wat ik kan doen om te achterhalen wat het probleem is?

Edit: Hierbij ook de info die CrystalDiskInfo geeft.
Afbeeldingslocatie: https://tweakers.net/i/mKUkuNYf9qewJusUdAIq5HvP8dY=/full-fit-in/4000x4000/filters:no_upscale():fill(white):strip_exif()/f/image/uCaamf6yWXGGmlGLkFYQgkgb.png?f=user_large

Afbeeldingslocatie: https://tweakers.net/i/mKUkuNYf9qewJusUdAIq5HvP8dY=/full-fit-in/4000x4000/filters:no_upscale():fill(white):strip_exif()/f/image/uCaamf6yWXGGmlGLkFYQgkgb.png?f=user_large

[ Voor 9% gewijzigd door jurk738 op 22-01-2023 20:19 ]

woensdag 25 januari 2023 14:55

Acties:

biomass

@jurk738 392 uur is niet bijster lang. Waar heeft je mede-tweaker die schijf gekocht? Want als ik het serienummer invul op https://support-en.wd.com/app/warrantystatusweb wordt er niets gevonden in Belgie of Nederland? Als jij de spares van die medetweaker hebt gekocht na het verlopen van de garantie periode heb je vette pech..

donderdag 26 januari 2023 01:45

Acties:

donderdag 26 januari 2023 19:34

S.m.a.r.t.

@jurk738

Error code 7 is een indicatie van terugsturen volgens WD.

https://support-en.wd.com...ilweb/a_id/31759#subject4

Drive Failed Test Results: The drive has failed the Short or Extended test and should not be used for data storage. Please refer to the "Warranty Replacement and Data Recovery" section of this article for options.

Behalve de C8 Write Error Rate zie ik niets bijzonders in de SMART waarden.

Je kan proberen een goede voedingskabel en een goede datakabel te gebruiken, die beide ook stevig moeten zijn aangesloten.

Ik test drives meestal voor gebruik met h2testw. Die schrijft de disk vol met data en leest het daarna terug. Zo'n test duurt lang. Na het testen kun je zien of er wijzigingen zijn geweest in de SMART waarden. De Windows' Event Viewer kun je controleren op disk gerelateerde foutmeldingen.

Het voordeel van h2testw is dat de test het data oppervlak bijna helemaal test en dat er niet zo snel wordt gestopt als er een probleem optreedt.

Acties:

jurk738

@mrmrmr Bedankt. Kabels zijn volgens mij goed; test van een andere HDD slaagt gewoon. Zal ook eens kijken naar h2testw.
@biomass Gelukkig heb ik de HDD gekocht van een betrouwbare tweaker.

Dus dat komt wel goed.

zondag 29 januari 2023 16:13

Acties:

zaterdag 4 februari 2023 14:58

Langharig tuig

Ongeveer 1x per jaar probeer ik de gezondheid van mijn (backup) schijven te checken, om te kijken of ik (binnenkort) iets moet vervangen. Het is weer zo ver

Bij deze dus de vraag of er iets alarmerends is te zien over de volgende 3 schijven:
Afbeeldingslocatie: https://tweakers.net/i/lP0KQg_U98Poblr6q-OwvO_epn0=/full-fit-in/4000x4000/filters:no_upscale():fill(white):strip_exif()/f/image/oj5PpvgqzsHPhBQ7SoTAGCQY.png?f=user_large

Afbeeldingslocatie: https://tweakers.net/i/lP0KQg_U98Poblr6q-OwvO_epn0=/full-fit-in/4000x4000/filters:no_upscale():fill(white):strip_exif()/f/image/oj5PpvgqzsHPhBQ7SoTAGCQY.png?f=user_large

Afbeeldingslocatie: https://tweakers.net/i/KLhdDXmr92YI7dqG-w60VcqbPfo=/full-fit-in/4000x4000/filters:no_upscale():fill(white):strip_exif()/f/image/e8w9pJLEYAv39uWnCILvEb4z.png?f=user_large

Afbeeldingslocatie: https://tweakers.net/i/-YTkd6d-vA7iuJRZ4yv6_yQ5C-Y=/full-fit-in/4000x4000/filters:no_upscale():fill(white):strip_exif()/f/image/mH8MffwNf7jvt2Uw3B6BqeEH.png?f=user_large

[ Voor 18% gewijzigd door LankHoar op 05-02-2023 14:06 ]

When life throws you a curve, lean into it and have faith!

Acties:

zaterdag 4 februari 2023 18:37

Langharig tuig

LankHoar schreef op zondag 29 januari 2023 @ 16:13:
Ongeveer 1x per jaar probeer ik de gezondheid van mijn (backup) schijven te checken, om te kijken of ik (binnenkort) iets moet vervangen. Het is weer zo ver Bij deze dus de vraag of er iets alarmerends is te zien over de volgende 3 schijven:
[Afbeelding]

[Afbeelding]

[Afbeelding]

Iemand?

When life throws you a curve, lean into it and have faith!

Acties:

EricJH

S.m.a.r.t.

Ik zie niets vreemds.

zaterdag 4 februari 2023 20:19

Acties:

zaterdag 4 februari 2023 21:31

Ziet er prima uit, wat veel unexpected power loss, dus je hebt best wat keren het systeem niet netjes afgesloten of de powerknop ingehouden tijdens bios-fase. Zolang alles werkt en de data intact is, is er geen probleem. Aangezien je op een Windows platform zit is corruptie een normaal verschijnsel, maar dat hoeft praktisch geen groot probleem te zijn in de praktijk.

Acties:

zondag 5 februari 2023 07:08

S.m.a.r.t.

@LankHoar

https://www.crucial.com/s...q-ssd/ssds-and-smart-data

B4 (180) is het interessantste, dat zou het aantal ongebruikte NAND blocks aangeven, hier 39. C4 (196) is het aantal reallocation events, staat op 1. C (12) Retired NAND Blocks is ook 1. CA (202) is "Percent Lifetime Used", 9%. Dus nog 91% over.

D2 (210) RAIN is de RAID equivalent voor SSD's voor redundantie. Er zijn 12 RAIN recovery incidenten geweest.

Voor het aantal gebruiksuren is dit niet zo goed, maar er is vooralsnog geen ernstig probleem zichtbaar.

De unexpected power loss kan beter zoals @Funga aanhaalt wat lager worden door de computer netjes af te sluiten, d.w.z. geen stekker eruit trekken. Dat is voor een SSD zonder buffer niet goed.

Acties:

chim0

S.m.a.r.t.

@LankHoar Download eens de laatste versie van CrystalDiskInfo want jouw versie is verouderd en laat niet alles goed zien. Al die "Vendor Specific" regels hebben een naam met de laatste versie en dan heb je een beter beeld. Zie hieronder mijn MX500 (ik heb de 500GB variant).

download: CrystalDiskInfo 8.17.14

Afbeeldingslocatie: https://tweakers.net/i/9LwPtVq4rfNSGwm2xQjlJNNPTM4=/full-fit-in/4920x3264/filters:max_bytes(3145728):no_upscale():strip_icc():fill(white):strip_exif()/f/image/HqK0HXcMtwCkR97cvDKvE2OL.jpg?f=user_large

Afbeeldingslocatie: https://tweakers.net/i/9LwPtVq4rfNSGwm2xQjlJNNPTM4=/full-fit-in/4920x3264/filters:max_bytes(3145728):no_upscale():strip_icc():fill(white):strip_exif()/f/image/HqK0HXcMtwCkR97cvDKvE2OL.jpg?f=user_large

zondag 5 februari 2023 14:10

Acties:

zondag 5 februari 2023 20:20

Langharig tuig

@Funga / @mrmrmr bijzonder van die unexpected power loss. Het gebeurd niet vaak dat ik de knop gebruik om de PC uit te zetten (enkel bij vastlopen bijvoorbeeld, dat is echt niet vaak), en wellicht dat ik een handvol keren te snel het stekkerblok uit heb gezet voordat mijn PC daadwerkelijk uit was. Dus vraag me af waar dit weg komt. Ik denk aan het volgende: wanneer mijn PC opstart heb ik bitlocker op de C drive aanstaan. Wanneer ik niet snel genoeg mijn password invoer (~30 seconden), dan sluit hij automatisch weer af. En dat gaat dan in 1 klap (hij is gewoon ineens uit zeg maar). Zou dit er mee te maken kunnen hebben? Ik weet ook niet of dat normaal is, het heet altijd al zo gewerkt op deze PC.

91% lifetime over is best goed imo, gezien ik de SSD zo'n 2 jaar heb zou dat betekenen dat deze langer mee gaat dan ik de PC zelf denk te gebruiken

@chim0 ik had versie .13 en heb nu versie .14 gedowload van de website. Nieuwe screenshots zitten in mijn oorspronkelijke post

When life throws you a curve, lean into it and have faith!

Acties:

maandag 6 februari 2023 18:02

S.m.a.r.t.

Hiermee zet je shutdown bij booten uit.

bcdedit /set {bootmgr} bootshutdowndisabled 1
Bron

Ik weet niet of dat het probleem oplost.

Acties:

maandag 6 februari 2023 21:39

Een SSD moet een STANDBY IMMEDIATE commando ontvangen voordat het stroom verliest. Tenzij het eigen capacitors heeft op het PCB - vaak de zakelijke modellen - die zeer kortstondig tegen stroomverlies kunnen beschermen, door in elk geval de huidige schrijfbewerking te voltooien. Indien de stroom wordt onderbroken tijdens het schrijven, kan er significante schade optreden zowel fysiek als een inconsistency met de translatielaag die FTL wordt genoemd. Die wordt bijgehouden door de controller firmware en kan op de achtergrond taken verrichten zoals garbarge control. Dit betekent dat ook wanneer je in het BIOS zit, er een schrijfbewerking als 'achtergrond I/O' plaatsvindt op dat moment. Dit kan bij een consumenten SSD dus een gevaar opleveren voor fysieke beschadiging of corruptie/verlies van je data.

De kans hierop is echter klein en het kan honderden keren goed gaan en één keer heb je wat verdwenen files of directories bij een filesystem check. Dat is ongeveer hoe het werkt. Of een dode SSD als de firmware in de strik raakt bij een inconsistente FTL.Dat wil zeggen dat de index of metadata niet meer overeenkomst met de data, omdat ze van tijd verschillen. Normaliter zijn er mechanismes die hiertegen beschermen. Maar vaak werkt een SSD goed bij normaal gebruik en zijn het de corner cases die firmware bugs opleveren. Dit is zo'n geval: unclean shutdowns leiden tot obscure firmware bugs die alleen jij hebt op 30 miljoen gebruikers. Leuk!

Dus: backuppen van je SSD kan prima, zorg dat je dat regelt. Geautomatiseerd en liefst met snapshots zodat je een 'timemachine' achtige ervaring hebt.

@LankHoar Je MX500 lijkt één erase block beschadigd te hebben (vaak rond de 1MB dus no big deal maar wel mogelijk corruptie) - je hebt 9% van je endurance opgebrand dus nog 91% over. De SSD wordt beneden 50% wel iets minder betrouwbaar, maar bij 0% is de betrouwbaarheid nog 'acceptabel'. Daaronder blijft de SSD werken maar is corruptie/stabiliteit lager dan de fabrieksspecificatie en geldt het officieel als failed/replace.

[ Voor 15% gewijzigd door Funga op 06-02-2023 18:21 ]

Acties:

woensdag 8 februari 2023 17:21

Langharig tuig

mrmrmr schreef op zondag 5 februari 2023 @ 20:20:
Hiermee zet je shutdown bij booten uit.

bcdedit /set {bootmgr} bootshutdowndisabled 1
Bron

Ik weet niet of dat het probleem oplost.

Top, ik heb dit nu uitgezet

Funga schreef op maandag 6 februari 2023 @ 18:02:
Een SSD moet een STANDBY IMMEDIATE commando ontvangen voordat het stroom verliest. Tenzij het eigen capacitors heeft op het PCB - vaak de zakelijke modellen - die zeer kortstondig tegen stroomverlies kunnen beschermen, door in elk geval de huidige schrijfbewerking te voltooien. Indien de stroom wordt onderbroken tijdens het schrijven, kan er significante schade optreden zowel fysiek als een inconsistency met de translatielaag die FTL wordt genoemd. Die wordt bijgehouden door de controller firmware en kan op de achtergrond taken verrichten zoals garbarge control. Dit betekent dat ook wanneer je in het BIOS zit, er een schrijfbewerking als 'achtergrond I/O' plaatsvindt op dat moment. Dit kan bij een consumenten SSD dus een gevaar opleveren voor fysieke beschadiging of corruptie/verlies van je data.

De kans hierop is echter klein en het kan honderden keren goed gaan en één keer heb je wat verdwenen files of directories bij een filesystem check. Dat is ongeveer hoe het werkt. Of een dode SSD als de firmware in de strik raakt bij een inconsistente FTL.Dat wil zeggen dat de index of metadata niet meer overeenkomst met de data, omdat ze van tijd verschillen. Normaliter zijn er mechanismes die hiertegen beschermen. Maar vaak werkt een SSD goed bij normaal gebruik en zijn het de corner cases die firmware bugs opleveren. Dit is zo'n geval: unclean shutdowns leiden tot obscure firmware bugs die alleen jij hebt op 30 miljoen gebruikers. Leuk!

Dus: backuppen van je SSD kan prima, zorg dat je dat regelt. Geautomatiseerd en liefst met snapshots zodat je een 'timemachine' achtige ervaring hebt.

@LankHoar Je MX500 lijkt één erase block beschadigd te hebben (vaak rond de 1MB dus no big deal maar wel mogelijk corruptie) - je hebt 9% van je endurance opgebrand dus nog 91% over. De SSD wordt beneden 50% wel iets minder betrouwbaar, maar bij 0% is de betrouwbaarheid nog 'acceptabel'. Daaronder blijft de SSD werken maar is corruptie/stabiliteit lager dan de fabrieksspecificatie en geldt het officieel als failed/replace.

Heldere uitleg, dank! Zeker interessant om te lezen, nu heb ik weer wat geleerd over hoe een SSD werkt

In mijn geval back ik mijn OS (SS) schijf nooit op, gezien ik enkel dingen opsla op mijn HDD. Wel is er dan nog de kans op schade (die er al deels is), dus hopelijk helpt het disablen van shutdown tijdens boot hierbij. We gaan het zien, zal over een tijdje nog eens kijken of die waarde nog steeds zo oploopt of niet.

When life throws you a curve, lean into it and have faith!

Acties:

PCJR

Jazco2nd schreef op maandag 19 september 2022 @ 20:17:
Hoe interpreteer ik deze informatie als dit alles is wat ik heb? Ik ben gewend aan de kolommen "current", "value", "worst" maar krijg nu alleen dit doorgestuurd en wil weten of de drive nog enigszins als nieuw is. Qua bedrijfsuren, lijkt het wel goed te zijn.

Ik kan alleen nergens vinden hoe ik zulke hexadecimale waarden moet interpreteren?

Samsung PM9A1 m.2 SSD:
[Afbeelding]

FW update zelf gedaan?

|| Solar 7.4kwp oostwest + 850wp zuid + Deye 12K-SG04LP3-EU + 50kWh LiFePo4 || EHVX08S23EJ9W + ERGA06EAV3H ||

maandag 13 februari 2023 23:19

Acties:

Houbie

Ik draai een zfs raidz2 pool, waarvan 1 van de vijf schijven fouten geeft. Voorlopig geeft scrubben geen fouten.

Ik vroeg me af, hoe erg zijn deze fouten, en wanneer vervang ik de schijf? Nu meteen, of wacht ik tot mijn maandelijkse scrub fouten detecteert?

Ik heb twee offsite backups, dus de data zelf is niet echt in gevaar.

code:

smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.1.9-200.fc37.x86_64] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Green
Device Model:     WDC WD30EZRX-00D8PB0
Serial Number:    
LU WWN Device Id: 
Firmware Version: 80.00A80
User Capacity:    3,000,592,982,016 bytes [3.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database 7.3/5319
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Mon Feb 13 23:15:42 2023 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 121) The previous self-test completed having
                                        the read element of the test failed.
Total time to complete Offline 
data collection:                (40860) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 410) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x7035) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       4
  3 Spin_Up_Time            0x0027   184   174   021    Pre-fail  Always       -       5783
  4 Start_Stop_Count        0x0032   095   095   000    Old_age   Always       -       5556
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   066   066   000    Old_age   Always       -       25435
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   098   098   000    Old_age   Always       -       2946
192 Power-Off_Retract_Count 0x0032   199   199   000    Old_age   Always       -       820
193 Load_Cycle_Count        0x0032   046   046   000    Old_age   Always       -       464064
194 Temperature_Celsius     0x0022   117   105   000    Old_age   Always       -       33
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       2
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       2
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       1

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%     25402         82405656
# 2  Short offline       Completed without error       00%     23715         -
# 3  Extended offline    Interrupted (host reset)      90%     23701         -
# 4  Short offline       Completed without error       00%     23691         -
# 5  Short offline       Completed without error       00%     23667         -
# 6  Short offline       Completed without error       00%     23643         -
# 7  Short offline       Completed without error       00%     23619         -
# 8  Short offline       Completed without error       00%     23595         -
# 9  Short offline       Completed without error       00%     23586         -
#10  Short offline       Completed without error       00%     23547         -
#11  Short offline       Completed without error       00%     23524         -
#12  Short offline       Completed without error       00%     23500         -
#13  Short offline       Completed without error       00%     23476         -
#14  Short offline       Completed without error       00%     23452         -
#15  Short offline       Completed without error       00%     23428         -
#16  Short offline       Completed without error       00%     23404         -
#17  Short offline       Completed without error       00%     23380         -
#18  Short offline       Completed without error       00%     23360         -
#19  Short offline       Completed without error       00%     23332         -
#20  Short offline       Completed without error       00%     23308         -
#21  Short offline       Completed without error       00%     23284         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

dinsdag 14 februari 2023 01:37

Acties:

dinsdag 14 februari 2023 10:49

Houbie schreef op maandag 13 februari 2023 @ 23:19:
Ik draai een zfs raidz2 pool, waarvan 1 van de vijf schijven fouten geeft. Voorlopig geeft scrubben geen fouten.

Ik vroeg me af, hoe erg zijn deze fouten, en wanneer vervang ik de schijf?

Niet - hierom gebruik je ZFS.

Een legacy filesystem gaat plat op deze manier. Legacy RAID gaat ook heel snel plat omdat één bad sector kan betekenen dat de hele schijf als 'FAILED' wordt gezien en uit de raid set wordt geflikkerd. Daarom dat normaal RAID met dit soort schijven eigenlijk niet meer te doen is.

Zolang je redundancy hebt met raid-z, mirror of op filesystem-niveau gebruik maakt van copies=2, heb je bescherming. ZFS scrub zal een bad sector tegenkomen en het systeem blokkeert even, je krijgt errors in je log en daarna wordt het door de self-healing feature automatisch gecorrigeerd. Althans de integriteit van het ZFS filesystem wordt hersteld - je hardeschijf kan met de bad sector blijven zitten totdat deze wordt overschreven. Omdat ZFS een copy-on-write filesystem is, kan dat best even duren. Dus het kan zijn dat je bad sectors hebt, en je scrub toch helemaal in orde lijkt. Dan bevindt de bad sector zich op een plek die niet in gebruik is door ZFS. Op het moment dat ZFS die sector wil gebruiken door ernaar te schrijven, verdwijnt de bad sector direct. De hardeschijf zal deze vervangen voor een reservesector indien beschadigd (Reallocated Sector Count). Maar veel vaker is er geen fysieke schade en heeft je hardeschijf te weinig errorcorrectie om de sector nog foutvrij te kunnen uitlezen. Overschrijf met nieuwe data en de sector is weer prima te gebruiken. Geen fysieke schade dus maar zoals aangegeven door de fabrikant valt dit under uncorrectable Bit Error Rate.

Je schijf heeft nu twee pending sectors, dus nog twee bad sectors. Als je scrub geen problemen geeft dan kun je eens proberen de hele pool vol te schrijven met nepdata en dan te verwijderen. Dan zouden de bad sectors overschreven moeten zijn. Maar dat doe je alleen als het je dwarszit - er is niets mis op het moment mits je scrub prima is. Met RAID-Z2 heb je ook dubbelvoudige parity protection dus zelfs als er op een andere schijf precies op het verkeerde plekje ook een bad sector zit, dan nog ben je 100% beschermd. Er moeten dus drie schijven op precies de verkeerde plek een bad sector hebben, om je bescherming te doorbreken. Gaat niet snel gebeuren. Maar als twee schijven uitvallen en je je redundancy verliest, dan is het wel oppassen met bad sectors. Gaat het mis dan zul je corruptie krijgen en verlies je toegang tot één of meerdere bestanden. Leuke is wel dat je precies kunt zien welke bestanden met sudo zpool status -v.

P.S. je schijf doet wel heel veel aan headparking (464064 keer, meestal is 600.000 de max) dus mechanisch slijt je schijf hier wel door. Je kunt het uitzetten met APM instelling op 254 en via wat utilities. Headparking is anders dan spindown. Het voordeel van headparking is iets lagere idle power consumption en bescherming tegen schokken/stoten op het moment dat de kop geparkeerd is.

Acties:

dinsdag 14 februari 2023 11:05

S.m.a.r.t.

@Houbie Was dit een externe drive? Op Linux forums zie je vaak rigoureuze adviezen die suggereren alle apm functies uit te zetten, dat is niet slim.

De disk heeft wel wat foute plekken, maar de drive herstelt die zelf. Wat je extra kan doen is een sector image van de disk maken en vervolgens de hele disk volschrijven en teruglezen, dat zorgt ervoor dat meer van die slechte plekken worden gevonden en niet meer worden gebruikt. Na de test kun je de image terugzetten.

'Quick disk tests' falen al bij voorbaat omdat het niet alles test. F3 schijnt wel volledig te kunnen testen. Ik gebruik meestal een Windows tool h2testw, maar dat is voor NTFS en FAT.

Acties:

Houbie

mrmrmr schreef op dinsdag 14 februari 2023 @ 10:49:
@Houbie Was dit een externe drive? Op Linux forums zie je vaak rigoureuze adviezen die suggereren alle apm functies uit te zetten, dat is niet slim.

De disk heeft wel wat foute plekken, maar de drive herstelt die zelf. Wat je extra kan doen is een sector image van de disk maken en vervolgens de hele disk volschrijven en teruglezen, dat zorgt ervoor dat meer van die slechte plekken worden gevonden en niet meer worden gebruikt. Na de test kun je de image terugzetten.

'Quick disk tests' falen al bij voorbaat omdat het niet alles test. F3 schijnt wel volledig te kunnen testen. Ik gebruik meestal een Windows tool h2testw, maar dat is voor NTFS en FAT.

Hey,

Het gaat over een interne schijf (ik weet niet of ze ooit geshucked is geweest). Draait in dit systeem: inventaris: Server

Wat raad je zelf aan? Rustig mn pool verder gebruiken en ZFS zijn werk laten doen, of toch wel echt eens heel de schijf volschrijven?

dinsdag 14 februari 2023 11:10

Acties:

LooneyTunes

Funga schreef op dinsdag 14 februari 2023 @ 01:37:
P.S. je schijf doet wel heel veel aan headparking (464064 keer, meestal is 600.000 de max) dus mechanisch slijt je schijf hier wel door. Je kunt het uitzetten met APM instelling op 254 en via wat utilities. Headparking is anders dan spindown. Het voordeel van headparking is iets lagere idle power consumption en bescherming tegen schokken/stoten op het moment dat de kop geparkeerd is.

Kan je niet de schijven 'behandelen' met WDidle3?
Ik had hier ooit WD-greens draaien die na 5! seconden al in headpark gingen (niet lekker met Freenas).
Op 5 minuten gezet en het systeem werd een stuk rustiger.

dinsdag 14 februari 2023 11:19

Acties:

dinsdag 14 februari 2023 11:23

S.m.a.r.t.

@Houbie
Dat is eigen voorkeur. Het nadeel is dat je de data backupt en terugzet en daar kan ook wat mee mis gaan. Het voordeel is dat je de hele disk test en zo een aantal mogelijke problemen voorkomt. Ik weet niet wat ik zelf zou kiezen met ZFS.

Het idee van @Funga om de disk terwijl ZFS actief is vol te schrijven met data heeft ook voordelen, maar dat test alleen de vrije ruimte. Misschien kan je daarbij ook F3 gebruiken, dat zou ik eerst controleren dat het op bestandsniveau werkt en niet met low level disk toegang. Ik heb die tool zelf nog niet gebruikt.

Acties:

Houbie

mrmrmr schreef op dinsdag 14 februari 2023 @ 11:19:
@Houbie
Dat is eigen voorkeur. Het nadeel is dat je de data backupt en terugzet en daar kan ook wat mee mis gaan. Het voordeel is dat je de hele disk test en zo een aantal mogelijke problemen voorkomt. Ik weet niet wat ik zelf zou kiezen met ZFS.

Het idee van @Funga om de disk terwijl ZFS actief is vol te schrijven met data heeft ook voordelen, maar dat test alleen de vrije ruimte. Misschien kan je daarbij ook F3 gebruiken, dat zou ik eerst controleren dat het op bestandsniveau werkt en niet met low level disk toegang. Ik heb die tool zelf nog niet gebruikt.

Bedankt voor de info. Dan ga ik het zo laten, en de schijf wat in de gaten houden de komende maanden denk ik.

vrijdag 17 februari 2023 19:06

Acties:

Lucleo

Mijn zfs raidz1 pool status is degraded en dit lijkt de boosdoener:

Afbeeldingslocatie: https://tweakers.net/i/kjApy6v4GtXFV7oXfstRwQR5gB0=/x800/filters:strip_exif()/f/image/IKyo40guyoJ6wMEUniJvj8bB.png?f=fotoalbum_large

Ik probeerde met een 'long' smart test te kijken hoeveel sectoren er faulted zijn maar de test stopt zodra "the read element of the test failed".

Is het verstandig om deze schijf te vervangen? Ik heb er een back up van.

zondag 19 februari 2023 09:43

Acties:

zondag 19 februari 2023 11:09

NAS geeft errors in de laatste scan resultaten zie ik niet geks.

Afbeeldingslocatie: https://tweakers.net/i/Y04w508Xa9_NBVmAolPmnPiWnYo=/800x/filters:strip_exif()/f/image/Ve9DfLpEUSal8ysG1txJkDOf.png?f=fotoalbum_large

Afbeeldingslocatie: https://tweakers.net/i/I5kHenLEsVtMkLJcdmKW-KXtrP4=/800x/filters:strip_exif()/f/image/4L9LwGj1271WYUDFLBJD8T6u.png?f=fotoalbum_large

Afbeeldingslocatie: https://tweakers.net/i/EaVoRzS2khzlFonjCubKhz6_MDc=/800x/filters:strip_exif()/f/image/eCsY421UNM3JsaDKIS0SVDwF.png?f=fotoalbum_large

[ Voor 3% gewijzigd door DVX73 op 19-02-2023 11:27 ]

Acties:

maandag 20 februari 2023 13:53

Gaat goed zo....

Afbeeldingslocatie: https://tweakers.net/i/Zst0Dhd5vui5jP8UMGMEQC3nm7E=/800x/filters:strip_exif()/f/image/nmTUwg8UWVYuJ2kqxpZqdKQF.png?f=fotoalbum_large

Nu maar een complete test proberen ipv een rapid.

Acties:

dinsdag 21 februari 2023 21:03

S.m.a.r.t.

@Lucleo De SMART waarden zijn normaal. Er is 1 slecht plekje gevonden dat nog hersteld moet worden. De data wordt dan naar een andere locatie verplaatst.

Je kan de hele disk testen met software zoals F3 (Linux) of h2testw (vanuit Windows). Die test vanuit gebruikersniveau door de disk nagenoeg vol te schrijven en terug te lezen.

@DVX73 Aan zulke tests die niets zinnigs terugrapporteren heb je niet veel inderdaad.

Kun je Linux of BSD opdrachten uitvoeren vanaf de command line (onder root)? Probeer dan eens de smartctl tool en een complete hard disk test met F3.

Acties:

Lucleo

mrmrmr schreef op maandag 20 februari 2023 @ 13:53:
@Lucleo De SMART waarden zijn normaal. Er is 1 slecht plekje gevonden dat nog hersteld moet worden. De data wordt dan naar een andere locatie verplaatst.

Je kan de hele disk testen met software zoals F3 (Linux) of h2testw (vanuit Windows). Die test vanuit gebruikersniveau door de disk nagenoeg vol te schrijven en terug te lezen.

Is het mogelijk dat een Current_Pending_Sector verdwijnt? Ik ben de hele raid aan het volschrijven en nu zie ik dit in de SMART van dezelfde HDD:

Afbeeldingslocatie: https://tweakers.net/i/wWHO17w3L4PYdG3n6Fb4tzlo3rk=/x800/filters:strip_exif()/f/image/BD5ID6CrPG4KFBS7M9JdNRT8.png?f=fotoalbum_large

dinsdag 21 februari 2023 21:30

Acties:

woensdag 22 februari 2023 10:45

S.m.a.r.t.

@Lucleo De firmware bepaalt wat er gebeurt. Door ingebedde SMART tools te gebruiken kan die in principe doen wat ze bij WD hebben bedacht. Ik vermoed dat het is opgelost door het slechte stukje over te slaan, maar dat de Reallocated Sector Count niet is geupdate.

Fabrikanten zijn niet altijd open over wat ze precies doen. Ik zou zelf een schrijf en terugleestest uitvoeren. Ik heb gemerkt dat dat effectiever is dan het gebruik van tools van fabrikanten.

Acties:

vrilly

mrmrmr schreef op dinsdag 21 februari 2023 @ 21:30:
@Lucleo De firmware bepaalt wat er gebeurt. Door ingebedde SMART tools te gebruiken kan die in principe doen wat ze bij WD hebben bedacht. Ik vermoed dat het is opgelost door het slechte stukje over te slaan, maar dat de Reallocated Sector Count niet is geupdate.

Fabrikanten zijn niet altijd open over wat ze precies doen. Ik zou zelf een schrijf en terugleestest uitvoeren. Ik heb gemerkt dat dat effectiever is dan het gebruik van tools van fabrikanten.

Of het slechte stukje is herschreven en de schijf heeft geen fouten meer gevonden bij het uitlezen, en zodoende bad sector promotie gegeven naar good sector

woensdag 22 februari 2023 13:36

Acties:

donderdag 23 februari 2023 18:43

S.m.a.r.t.

vrilly schreef op woensdag 22 februari 2023 @ 10:45:
[...]

Of het slechte stukje is herschreven en de schijf heeft geen fouten meer gevonden bij het uitlezen, en zodoende bad sector promotie gegeven naar good sector

Dat kan ook, maar als het een fysieke slechte plek is (lees: kans op herhaling), is dat geen goede oplossing.

De temperatuur speelt een rol, dus de vraagsteller zou bij de temperatuur dat fouten optraden kunnen testen met de user level test die ik aanraadde.

Acties:

dinsdag 7 maart 2023 11:21

Lucleo schreef op dinsdag 21 februari 2023 @ 21:03:
[...]

Is het mogelijk dat een Current_Pending_Sector verdwijnt? Ik ben de hele raid aan het volschrijven en nu zie ik dit in de SMART van dezelfde HDD:

Ja dat precies hoe het werkt.

Onleesbare sector = Current Pending Sector

Overschrijf je deze sector, dan gebeurt er het volgende:

Bij fysieke schade wordt de sector omgewisseld voor een reservesector. De Reallocated Sector Count gaat dan met één omhoog (de raw value). De Current Pending Sector verdwijnt (richting 0).
In vrijwel alle gevallen gaat het niet om fysieke schade maar om te weinig errorcorrectie; de ECC kan het niet meer corrigeren. Dat wordt ook wel Bit Error Rate (BER) genoemd en bij consumentenschijven met hoge dichtheid is dit supernormaal. Juist daarom wil je ZFS omdat deze prima om kan gaan met af en toe een onleesbare sector. Indien deze wordt overschreven dan verdwijnt de bad sector, Current Pending Sector wordt verlaagd richting 0 (de raw value) en Reallocated Sector Count blijft ongewijzigd. Je ziet nu aan de SMART niet meer dat er een bad sector is geweest. Die bestaat ook niet meer.

Dat laatste komt superveel voor en dat is de reden dat een RAID5 of RAID6 niet meer goed functioneert met huidige generatie hardeschijven. Daarom wil je ZFS omdat die hier tegen kan, mits je iets van redundancy hebt. Maar ook met een enkele schijf biedt ZFS al bescherming omdat metadata meerdere copies heeft, dus alleen de data zelf is kwetsbaar zonder redundancy. Als een bad sector zich bevindt in actieve data, dan zie je welke bestanden onleesbaar zijn met zpool status -v.

Schijf vervangen is onzin; alle consumentenschijven hebben een gespecificeerde uBER van zo'n 10^-14. Met de huidige capaciteiten betekent dit dat je op elke consumentenschijf binnen zijn levensduur pending sectors gaat krijgen. Meestal merk je dit niet; de meeste pending sectors bevinden zich in sectoren die niet in gebruik zijn. Omdat deze zeer lang geleden zijn beschreven, is de kans dat deze onleesbaar worden ook groter. Data die recent is geschreven, heeft minder grote kans om onleesbaar te worden. De signal-to-noise ratio neemt dus af met de tijd. Sommige sectoren duiken onder de tolerantiegrens die ECC errorcorrectie kan corrigeren. Dan heb je dus een bad sector, maar zonder fysieke schade. De hardeschijf is prima. Hij functioneert binnen de specificaties zoals opgegeven door de fabrikant. Bad sectors zijn dus normaal. Gebruik een modern filesystem!

Acties:

kaasaanfiets

Extreme Edition of koekoek

Ik ben van plan 3 schijven over te nemen voor in een DIY NAS (Truenas Core of Openmediavault) Zijn deze schijven hier nog geschikt voor ondanks de hoge? draaiuren? Ik zie dat ze al een uptime hebben van meer dan 3 jaar.
De bedoelding is dat er data voor plex op komt, films, series. (niet perse kritiek).

Afbeeldingslocatie: https://tweakers.net/i/soVBdPAVKWHue3TEyp53scYS_Ns=/m/88833/1PzsLCIY9KcceO108zWgBCxWkwT0dij2NIzC9nOfqtp9XpkRXU.png

Afbeeldingslocatie: https://tweakers.net/i/soVBdPAVKWHue3TEyp53scYS_Ns=/m/88833/1PzsLCIY9KcceO108zWgBCxWkwT0dij2NIzC9nOfqtp9XpkRXU.png

Afbeeldingslocatie: https://tweakers.net/i/J0Tzf2jkpvd3zzLXGN_GGaTMMfU=/m/88833/1PzsLCUhUwSdF2kUWsJA18K2LfsnI3jKKqLzq4hxxO9x4kPKJV.png

Afbeeldingslocatie: https://tweakers.net/i/s01wa2hSEhZJUBXmE7D24JacUAo=/m/88833/1PzsLC6jY8wI40A1uTCOTTKCpHBUcXAwwPh4RR14Wakm4y8rAK.png

[ Voor 6% gewijzigd door kaasaanfiets op 07-03-2023 14:09 ]

woensdag 8 maart 2023 09:33

Acties:

woensdag 8 maart 2023 18:37

Zien er prima uit, zeker voor het aantal uren dat ze gedraaid hebben. Geen enkel iets op aan te merken eigenlijk. Nouja.. 58 graden als max temperatuur, maar daar zou ik me niet heel druk om maken.

[ Voor 3% gewijzigd door Funga op 08-03-2023 09:33 ]

Acties:

vandermark

Mijn 4TB HDD (WD Green) met data laat het volgende zien:
Afbeeldingslocatie: https://share.bartserver.nl/-HpYZGPSgBh/pasted-2023-03-08T173613.686Z.png

Afbeeldingslocatie: https://share.bartserver.nl/-HpYZGPSgBh/pasted-2023-03-08T173613.686Z.png

Wat is jullie advies op basis van deze gegevens? HDD is circa 6-8 jaar oud.

De 2e identieke HDD lijkt er beter aan toe te zijn:
Afbeeldingslocatie: https://share.bartserver.nl/-EZG2wRFLyg/pasted-2023-03-08T173915.997Z.png

Afbeeldingslocatie: https://share.bartserver.nl/-EZG2wRFLyg/pasted-2023-03-08T173915.997Z.png

[ Voor 26% gewijzigd door vandermark op 08-03-2023 18:39 ]

STRAVA | Panasonic 5kW J Monoblock

donderdag 9 maart 2023 22:56

Acties:

zaterdag 11 maart 2023 19:09

1e schijf is hartstikke rot, 2e is prima.

Acties:

vandermark

Funga schreef op donderdag 9 maart 2023 @ 22:56:
1e schijf is hartstikke rot, 2e is prima.

OK! Dat is duidelijke taal. Direct vervangen dus is advies?

STRAVA | Panasonic 5kW J Monoblock

zaterdag 11 maart 2023 20:07

Acties:

zaterdag 11 maart 2023 23:16

S.m.a.r.t.

@vandermark
Het zijn Seagate 2.5" disks.

Je hebt in je SMART gegevens 65.535 staan bij reported uncorrectable errors. Dat is een herkenbaar 16bits getal. In hexadecimale notatie is dat 0xFFFF, het hoogste getal binnen de ruimte van 16 bits. Het zou een overflow kunnen zijn, of deze data is corrupt. Als het een overflow is, dan gaat het over relatief veel data die verloren is gegaan.

Een groeiende Current Pending Sector is indicatief voor een falende schijf. Wat je kan doen is:
• alle data op de schijf veiligstellen (backup maken en verifiëren).
• de schijf leegmaken en helemaal volschrijven en teruglezen. h2testw is een tool die dat kan onder Windows. Deze test duurt heel lang, maar het is de enige manier om alles te testen.

Zodoende spoor je alle slechte plekken op. Vaak eindigen "current pending sectors" in reallocated sector count. Soms worden ze toch nog hersteld en dan verdwijnen ze na een tijd. Hoe dan ook, de schijf is verdacht of slecht.

Acties:

vandermark

mrmrmr schreef op zaterdag 11 maart 2023 @ 20:07:
@vandermark
Het zijn Seagate 2.5" disks.

Je hebt in je SMART gegevens 65.535 staan bij reported uncorrectable errors. Dat is een herkenbaar 16bits getal. In hexadecimale notatie is dat 0xFFFF, het hoogste getal binnen de ruimte van 16 bits. Het zou een overflow kunnen zijn, of deze data is corrupt. Als het een overflow is, dan gaat het over relatief veel data die verloren is gegaan.

Een groeiende Current Pending Sector is indicatief voor een falende schijf. Wat je kan doen is:
• alle data op de schijf veiligstellen (backup maken en verifiëren).
• de schijf leegmaken en helemaal volschrijven en teruglezen. h2testw is een tool die dat kan onder Windows. Deze test duurt heel lang, maar het is de enige manier om alles te testen.

Zodoende spoor je alle slechte plekken op. Vaak eindigen "current pending sectors" in reallocated sector count. Soms worden ze toch nog hersteld en dan verdwijnen ze na een tijd. Hoe dan ook, de schijf is verdacht of slecht.

In de praktijk ben ik nog geen data kwijt. Ik ga voor de zekerheid deze schijf vervangen. Twijfel of ik er dan niet direct een 4tb SSD voor in de plaats zal nemen.

STRAVA | Panasonic 5kW J Monoblock

woensdag 15 maart 2023 19:42

Acties:

Zalmanman

So long,

Ik heb hier een 4TB WD Blue: uitvoering: WD Blue 3,5" (CMR, 64MB cache, 5400rpm), 4TB

Deze jongen gaf begin deze week opeens aan 4 reallocs te hebben. Daarom heb ik gisteravond/vannacht een extended SMART laten draaien via het WD Dashboard, en het zijn er nu 14. Kan dat zijn omdat de extended SMART wat slechte waarden heeft gevonden, of is deze schijf toch het einde aan het naderen?

Afbeeldingslocatie: https://tweakers.net/i/TAIwXfAk9UwVnEZzvxV0t8l_1bk=/x800/filters:strip_exif()/f/image/q15Yej9IQyQTLQIcvFdYQsyQ.png?f=fotoalbum_large

and thanks for all the fish.

donderdag 16 maart 2023 00:52

Acties:

donderdag 16 maart 2023 01:06

In vrijwel alle gevallen gaat het niet om fysieke schade maar om te weinig errorcorrectie; de ECC kan het niet meer corrigeren. Dat wordt ook wel Bit Error Rate (BER) genoemd en bij consumentenschijven met hoge dichtheid is dit supernormaal. Juist daarom wil je ZFS omdat deze prima om kan gaan met af en toe een onleesbare sector.

Ja, sorry dat lijkt me een beetje kort door de bocht allemaal.

In vrijwel alle gevallen gaat het niet om fysieke schade maar om te weinig errorcorrectie; de ECC kan het niet meer corrigeren. Dat wordt ook wel Bit Error Rate (BER) genoemd en bij consumentenschijven met hoge dichtheid is dit supernormaal.

Nee dat is het niet. ECC is zodanig 'ontworpen' voor de specifieke situatie waarbij wel afweging wordt gemaakt tussen te verwachten fouten en de 'cost', dat het in principe altijd kan corrigeren en op het moment dat dit niet het geval is, is er een probleem. Dus ja, drives passen veelvuldig ECC correctie toe (net zoals SSD's trouwens) dus dat is normaal, maar dat een read 'aan de lopende band' zoveel bit errors oplevert dat ECC correctie tekortschiet is niet normaal en al helemaal niet super normaal.

Met 'ontworpen' toegepast op situatie bedoel ik dat je voor een bepaald algoritme kiest als je 'burst errors' verwacht, en een ander algoritme wanneer je bijvoorbeeld meer random bitflips verwacht bijvoorbeeld. Daarbij is van belang dat sterkere detectie en correctie meer kost aan ruimte en eventueel rekenkracht, het is dus een balanceer act. Wanneer een drive aan de lopende band niet corrigeerbare bit errors oplevert koopt niemand dat ding. Dus aan de fabrikant om de optimale balans te vinden:de gemiddelde gebruiker wil een betrouwbare, maar ook een betaalbare drive.

Juist daarom wil je ZFS omdat deze prima om kan gaan met af en toe een onleesbare sector.

Een sector die niet gelezen kan worden is een sector die niet gelezen kan worden. De drive zal dus een UNC rapporteren. Daar gaat ZFS wat precies aan veranderen?

Schijf vervangen is onzin; alle consumentenschijven hebben een gespecificeerde uBER van zo'n 10^-14. Met de huidige capaciteiten betekent dit dat je op elke consumentenschijf binnen zijn levensduur pending sectors gaat krijgen

Ik ben geen wiskundige o.i.d. maar dat betekent dat volgens mij dus helemaal niet. Je schrijft het op alsof er een garantie op een 'uBER' is wanneer je 12.5 TB leest en dat is natuurlijk niet zo, dat is niet wat de door de fabrikant opgegeven waarde betekent.

Maar dat terzijde. MS heeft ooit een onderzoek gedaan waarbij ze 2 PB data lezen van goedkope hard drives en constateren 5 read errors. Dat zijn dus uncorrectable errors waarbij de ECC niet opgewassen is tegen aantal bit errors. Dat zouden er 112 moeten zijn geweest volgens de statistiek opgegeven door de fabrikant.

Het is natuurlijk zo dat read errors veelal geen incidenten zijn maar gevolg van een 'wrakke' schijf, een 'maandag ochtend model' waar als daar een serie fouten optreedt het gemiddelde voor een batch aan schijven die je test omhoog gaat, terwijl wanneer je een goede schijf treft je makkelijk 100 TB zonder fouten lezen kunt. MS testte ook in batches, en zo was een batch waar 756 TB gelezen werd read error vrij. Dat hadden er vlgs. de 1 per 12.5 TB formule zo'n 60 moeten zijn.

Nog zo iets: veel lezen is de schijf veel gelegenheid bieden om onbetrouwbare sectoren te vinden en op voorhand te re-mappen en het zou dus zo kunnen zijn dat op een schijf met veel cold data op den duur meer fouten kunnen optreden.

Afijn, zo zijn er allerlei bezwaren te bedenken tegen de 1 niet corrigeerbare bit error per 12.5 TB mythe.

[ Voor 10% gewijzigd door Stanton op 16-03-2023 17:27 ]

Joep

Acties:

maandag 20 maart 2023 21:20

Zalmanman schreef op woensdag 15 maart 2023 @ 19:42:
Ik heb hier een 4TB WD Blue: uitvoering: WD Blue 3,5" (CMR, 64MB cache, 5400rpm), 4TB

Deze jongen gaf begin deze week opeens aan 4 reallocs te hebben. Daarom heb ik gisteravond/vannacht een extended SMART laten draaien via het WD Dashboard, en het zijn er nu 14. Kan dat zijn omdat de extended SMART wat slechte waarden heeft gevonden, of is deze schijf toch het einde aan het naderen?

[Afbeelding]

Er zijn 2 strategieën.

1. Houdt het in de gaten.

2. Zero tolerance.

Ik ga meestal voor 2. De schijven gebruik ik dan slechts nog voor tests, niet voor OS of data.

Joep

Acties:

Pazo

Mroaw?

Mag ik ook even een SMART voorleggen aan de kenners hier?
Ik heb er niet veel verstand van, maar ik heb in mijn server 3x WD 4TB schijven van een paar oud, die in JBOD draaien (dus als 1 schijf van 12GB zijnde in Windows). Deze is puur voor data opslag (backups zijn aanwezig). Ik zie dat er 2 schijven zijn die een foutmelding geven. Verder merk ik er niets van. Moet ik daar (dringend) iets mee? Of gewoon lekker zo laten totdat 1 het begeeft? Volgens mij had ik deze fout een jaar geleden ook al.

Afbeeldingslocatie: https://tweakers.net/i/9gPcr4VR7Fgav9iAdED2WMjxVqU=/full-fit-in/4920x3264/filters:max_bytes(3145728):no_upscale():strip_icc():fill(white):strip_exif()/f/image/Ql7OHdy7ByxgYXlfU4zxVcgX.jpg?f=user_large

Afbeeldingslocatie: https://tweakers.net/i/9gPcr4VR7Fgav9iAdED2WMjxVqU=/full-fit-in/4920x3264/filters:max_bytes(3145728):no_upscale():strip_icc():fill(white):strip_exif()/f/image/Ql7OHdy7ByxgYXlfU4zxVcgX.jpg?f=user_large

Afbeeldingslocatie: https://tweakers.net/i/EQ-GZqfjnmOHuQjfBXjVmeEqw1g=/full-fit-in/4920x3264/filters:max_bytes(3145728):no_upscale():strip_icc():fill(white):strip_exif()/f/image/BFD5M47alZonnhxkspUXFo33.jpg?f=user_large

Alvast bedankt.

Grote Enphase topic • IQ Gateway uitlezen • PVOutput
PV 10,7kWp O/W • WP Panasonic KIT-WC07K3E5 7kW • Airco ME MSZ HR50VF 5kW • Gasloos per 11-2023

dinsdag 21 maart 2023 22:48

Acties:

donderdag 23 maart 2023 14:33

Op beide schijven een pending sector. Met iets als 'Victoria for Windows' kun je de sectoren 're-mappen'. Het is overigens zo dat nu een sector per drive 'pending' is maar een disk scan zou er meerdere kunnen ontdekken.

Joep

Acties:

donderdag 23 maart 2023 15:34

Ziet iemand toevallig iets geks/opvallends aan deze disk?

Alvast bedankt

code:

smartctl 7.3 2022-02-28 r5338 [x86_64-linux-5.15.102-1-MANJARO] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Green
Device Model:     WDC WD50EZRX-00MVLB1
Serial Number:    WD-WX11DA40HJ3E
LU WWN Device Id: 5 0014ee 26096c8cf
Firmware Version: 80.00A80
User Capacity:    5.000.981.078.016 bytes [5,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5700 rpm
Device is:        In smartctl database 7.3/5319
ATA Version is:   ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Thu Mar 23 14:32:01 2023 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                (62400) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 623) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x3035) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   229   187   021    Pre-fail  Always       -       7508
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -       2869
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       2031
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   098   098   000    Old_age   Always       -       2869
192 Power-Off_Retract_Count 0x0032   198   198   000    Old_age   Always       -       1856
193 Load_Cycle_Count        0x0032   186   186   000    Old_age   Always       -       44230
194 Temperature_Celsius     0x0022   112   099   000    Old_age   Always       -       40
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Acties:

donderdag 23 maart 2023 22:13

mrmrmr schreef op maandag 20 februari 2023 @ 13:53:
...

@DVX73 Aan zulke tests die niets zinnigs terugrapporteren heb je niet veel inderdaad.

Kun je Linux of BSD opdrachten uitvoeren vanaf de command line (onder root)? Probeer dan eens de smartctl tool en een complete hard disk test met F3.

Heb de disk vervangen ondertussen, maar was toch even nieuwsgierig:

code:

smartctl 7.3 2022-02-28 r5338 [x86_64-linux-5.15.102-1-MANJARO] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red
Device Model:     WDC WD60EFRX-68L0BN1
Serial Number:    WD-WX11D168PEAY
LU WWN Device Id: 5 0014ee 262ef6c80
Firmware Version: 82.00A82
User Capacity:    6.001.175.126.016 bytes [6,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5700 rpm
Device is:        In smartctl database 7.3/5319
ATA Version is:   ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 1.5 Gb/s)
Local Time is:    Thu Mar 23 15:29:47 2023 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 249) Self-test routine in progress...
                                        90% of test remaining.
Total time to complete Offline 
data collection:                ( 7604) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 729) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x303d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       81
  3 Spin_Up_Time            0x0027   244   197   021    Pre-fail  Always       -       6791
  4 Start_Stop_Count        0x0032   097   097   000    Old_age   Always       -       3192
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   061   061   000    Old_age   Always       -       28843
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1259
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       61
193 Load_Cycle_Count        0x0032   197   197   000    Old_age   Always       -       10043
194 Temperature_Celsius     0x0022   120   104   000    Old_age   Always       -       32
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       70%     28843         3131089377
# 2  Short offline       Completed: read failure       70%     28817         3131089377
# 3  Extended offline    Completed: read failure       10%     28744         3131089377
# 4  Short offline       Completed: read failure       60%     28672         3131089377
# 5  Short offline       Completed: read failure       70%     28302         3131089377
# 6  Short offline       Completed without error       00%     27559         -
# 7  Short offline       Completed without error       00%     26815         -
# 8  Short offline       Completed without error       00%     26096         -
# 9  Short offline       Completed without error       00%     25352         -
#10  Short offline       Completed without error       00%     24652         -
#11  Short offline       Completed without error       00%     24046         -
#12  Short offline       Completed without error       00%     23303         -
#13  Short offline       Completed without error       00%     22588         -
#14  Short offline       Completed without error       00%     21845         -
#15  Short offline       Completed without error       00%     21125         -
#16  Short offline       Completed without error       00%     20383         -
#17  Short offline       Completed without error       00%     19712         -
#18  Short offline       Completed without error       00%     18998         -
#19  Short offline       Completed without error       00%     18255         -
#20  Short offline       Completed without error       00%     17536         -
#21  Short offline       Completed without error       00%     16791         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

In de SMART data zie ik niets raars, maar in de self-tests wel.

Acties:

vrijdag 24 maart 2023 08:12

Dus je hebt in het verleden een pending sector gehad. Die is verdwenen na het te overschrijven. Omdat de sector niet is vervangen door een reservesector is het dus het bekende verhaal van een onleesbare sector door te weinig errorcorrectie; het bekende BER (Bit-Error-Rate) verhaal.

Dit geldt voor alle schijven van hoge dichtheid. Het is ook geen defect, het valt binnen de fabrieksspecificatie.

Vervangen is onnodig en onwenselijk. Iedere schijf gaat dit (statistisch gezien gemiddeld) meemaken gedurende zijn levensduur.

Pending sectoren kunnen vaak opduiken als je scans draait of tests doet, zoals inderdaad zo'n SMART self-test zoals jij hebt gedaan. Daarbij worden ook sectoren gelezen die niet in gebruik zijn en lange tijd niet zijn beschreven of misschien wel nooit (sinds die uit de fabriek is gekomen). Dan is het zeer logisch dat er een paar na lange tijd onleesbaar worden omdat de electromagnetische lading afneemt en daarme de Signal-to-Noise ratio. De errorcorrectie kan dit op een moment niet meer corrigeren en dus wordt het een onleesbare sector. Maar zonder dat er schade is aan de hardeschijf dus. Dit is volkomen normaal en wordt ook opgegeven door de specificaties van de fabrikant.

Als je het mij vraagt totale onzin deze schijf te vervangen. Je zou veel beter een test op filesystem niveau kunnen doen. Dit test alleen sectoren die daadwerkelijk beschreven en dus in gebruik zijn. De sectoren die niet in gebruik zijn worden overgeslagen. Zouden zich daar onleesbare sectoren voordoen, dan verdwijnen die direct zodra ze beschreven worden. Dat is ook gebeurd in jouw geval, want Current Pending Sector is 0, Reallocated Sector Count is 0 en toch heb je in het verleden een pending sector gehad. Dus die sector is ooit overschreven en daarmee verdwenen. Omdat de sector niet is omgewisseld is er geen fysieke schade dus de hardeschijf was prima in orde. Zonde om te vervangen IMO...

Acties:

vrijdag 24 maart 2023 10:00

Frontpage Admin

Kabbelend watertje

Funga schreef op donderdag 23 maart 2023 @ 22:13:

Daarbij worden ook sectoren gelezen die niet in gebruik zijn en lange tijd niet zijn beschreven of misschien wel nooit (sinds die uit de fabriek is gekomen). Dan is het zeer logisch dat er een paar na lange tijd onleesbaar worden omdat de electromagnetische lading afneemt en daarme de Signal-to-Noise ratio.

Dus je moet schijven ook gebruiken. Lege schijven gaan stuk?
Interessant om te weten.

Doen HDDs ook aan wear-levelling?

Signatures zijn voor boomers.

Acties:

zaterdag 25 maart 2023 13:31

Maasluip schreef op vrijdag 24 maart 2023 @ 08:12:
[...]

Dus je moet schijven ook gebruiken. Lege schijven gaan stuk?

Nee niet stuk, maar wel tijdelijk onleesbaar.

Dit is hoe het werkt:

Je hardeschijf komt uit de fabriek waar deze een standaardtest ondergaat; alle sectoren zijn dan al beschreven en je krijgt een hardeschijf met alle sectoren als nullen beschreven. De schijf is dan 'leeg'.
Je gaat de schijf in gebruik nemen, dus je gaat schrijven naar de schijf. Eerst een partitietabel (MBR/GPT) dan een filesystem (NTFS) en daarna ook data (Windows, Games, Documenten, etc).
Na een jaar of wat doe je een SMART test of een low-level test utility die alle sectoren scant. Niet alleen de sectoren die je hebt beschreven.
Tijdens die test wordt een sector gelezen die je nog nooit hebt beschreven, want je schijf is maar 75% vol geweest en je hebt nog niet zoveel gedaan dat alle sectoren ooit zijn beschreven door jou.
Doordat je een sector leest die nog nooit sinds de fabriek beschreven is, is door de tijd de electromagnetische lading afgenomen. Hierdoor is het moeilijker om het analoge signaal om te zetten in een digitaal signaal, dus enen en nullen. Daar zitten foutjes in, wat overigens continu gebeurt met moderne schijven die hebben echt errorcorrectie nodig anders wordt het gatenkaas en heb je overal onleesbare sectoren. Elke sector heeft naast de 'data' ook een gedeelte voor de errorcorrectie. Vroeger met 512-byte sectoren was dat 50 bytes en nu met 4096 (4K) sectoren is dat 100 bytes. Die errorcorrectie kan bitfoutjes corrigeren en er een foutloos digitaal signaal van maken. Overal gebeurt dit, in je CPU met PCI express etc.
Sectoren met een lage Signal-to-Noise ratio zullen meer bitfouten produceren. Als het er genoeg zijn, kan de errorcorrectie deze niet meer corrigeren. Als er geen foutloze data van gemaakt kan worden, dan ziet de hardeschijf die sector als onleesbaar. De hardeschijf zal een tijdje blijven proberen maar rapporteert uiteindelijk een I/O error terug: sector onleesbaar sorry vriend!
OS/filesystem doet dan nog een paar pogingen, waardoor de hardeschijf het weer tig keer opnieuw probeert. Maar helaas het werkt gewoon niet. En volgens de specs mag een hardeschijf absoluut geen foute data sturen, zo van nou het is ongeveer dit en doe het er maar mee. Nee of je stuurt goede data terug, of een I/O error, maar niks er tussenin.
De hardeschijf zal daarnaast de SMART updaten: Current Pending Sectors gaat de raw value met één omhoog. Er is immers één sector die pending is: wachtende op de gebruiker die de knoop doorhakt: òf datarecovery in een cleanlab òf de gebruiker geeft de gegevens op. Dat laatste kan met een secure erase procedure waarbij de hardeschijf alle sectoren zal overschrijven, of simpelweg door die ene sector te overschrijven.
Als de onleesbare sector wordt overschreven met nieuwe data, is de oude data niet meer nodig. Dus dan is het ook niet erg dat hij onleesbaar is, we schrijven gewoon nieuwe data. De hardeschijf doet vervolgens ook een leesoperatie op de sector die net is beschreven, want hij was pending dus toch even checken of het nu wèl werkt.
Als na deze check de sector nog steeds onleesbaar is, dan heb je een bad sector. Er was kennelijk fysieke schade en deze sector is dus definitief onbruikbaar geworden. In dit geval zal de hardeschijf de sector omwisselen met één van de vele reservesectoren. Daar merk je als gebruiker/OS/filesystem niets van de hardeschijf doet dit intern. Het filesystem ziet LBA 589858 (een sector) en dat die zich nu ergens anders bevindt op de hardeschijf zal alleen de hardeschijf zelf weten. Wel zal de hardeschijf trager zijn want hij zal moeten seeken naar een ander gedeelte op de platter waar de reservesectoren zich bevinden. Maar dit effect is miniem en ga je zeker niet merken tenzij in een kunstmatige laboratoriumtest. De SMART wordt geupdate: Current Pending Sector gaat weer terug naar 0 (of in elk geval minus één) en de Reallocated Sector Count wordt juist met één verhoogd. Nu is er bewijs dat je hardeschijf fysieke schade heeft. Die Reallocated Sector Count gaat nooit meer weg. De schijf werkt verder prima want de reservesector neemt gewoon de plek in van de foute en onbruikbare sector die simpelweg wordt overgeslagen.
Maar steeds meer met moderne hardeschijven was er helemaal geen fysieke schade. Het is simpelweg normaal dat er sectoren onleesbaar worden omdat we datadichtheid erg aan het pushen zijn en errorcorrectie heel vaak nodig is. Je kunt dit in de SMART vaak afleiden aan Raw Read Error Rate. Dat zegt zoveel als: voordat er errorcorrectie wordt toegepast, hoeveel bitfouten zit er in de ruwe data. Dat zegt wat over de kwaliteit van je hardeschijf. Als je hardeschijf niet zo goed meer is, is er vaker errorcorrectie nodig en als dan de sectoren die het wat minder goed doen sowieso al meer bitfouten hebben dan zakken die sectoren heel snel onder de grens waarop de fouten gecorrigeerd kunnen worden. Sommige schijven worden dan gatenkaas omdat er tienduizenden sectoren onleesbaar worden. Dan werkt de schijf nog wel qua motor en elektronica maar zijn de platters niet lekker meer en wil je de schijf vervangen. SMART gaat dan een failure of warning geven met Raw Read Error Rate en Current Pending Sector.
Maar ook gezonde hardeschijven zullen dit meemaken. Daar is de datadichtheid gewoon te hoog voor en de fabrikanten hebben voor 100 bytes errorcorrectie gekozen en niet meer. Dat is een afweging: 2,7% van de capaciteit wordt nu voor errorcorrectie gebruikt. Vroeger met 512-byte sectoren was dat 11,3% dus grotere sectoren zijn veel efficiënter. Hetzelfde zien we met PCI express vroeger was het 2 bits per 8 bits dus 20% errorcorrectie, maar sinds PCI express 3.0 is het 2 bits per 128 bits data dus slechts 1,56% en dus veel efficiënter.
Oke dus je hebt een onleesbare sector. Maar in dit geval geen fysieke schade. Na het overschrijven van de sector zal de hardeschijf deze lezen en in dit geval is de sector prima leesbaar nadat hij is overschreven. In dit geval wordt de sector niet omgeruild en blijft hij in gebruik. De SMART wordt geupdate: Current Pending Sector wordt met één verlaagd, richting nul. De Reallocated Sector Count blijft gelijk, bijvoorbeeld nul. In dit geval kun je niet altijd meer zien in de SMART gegevens dat je ooit een onleesbare sector hebt gehad. Het 'bewijs' kan verdwenen zijn, anders dan met omgewisselde sectoren dat bewijs gaat nooit meer weg. Alleen de fabriek kan de SMART resetten wat het ook doet met refurbished schijven.

Kortom: sectoren die lange tijd niet beschreven zijn zullen sneller in onleesbare sectoren veranderen. Die sectoren moet je dan overschrijven om ze weer bruikbaar te maken. Dat doe je door een lange format, een secure erase, handmatig met dd een UNIX-utility of met één van de vele utilities zoals bijvoorbeeld Spinrite van Steve Gibson (GRC). Die heeft ook een optie om preventief alle sectoren te lezen en te herschrijven met precies dezelfde data. Verversen kun je dat ook wel noemen. De electromagnetische lading wordt zo weer sterk en de sector kan er weer een aantal jaar tegenaan.[/list]

Het punt is dus dat een onleesbare sector vrij normaal is en je zult moeten overschrijven om die te laten verdwijnen. De hardeschijf is niet beschadigd, dit is gewoon normaal. Zakelijke hardeschijven hebben lagere datadichtheid waardoor er veel meer speelruimte is en dus sterkere signal-to-noise ratio en dan heb je minder vaak errorcorrectie nodig en dat betekent dat slechte sectoren nog prima gecorrigeerd kunnen worden en dus leesbaar. De hardeschijf merkt dat sector x best veel ruwe fouten bevatte en zal preventief de sector opnieuw beschreven na het lezen. Daar merk je als gebruiker/OS/filesystem niets van. Zo worden onleesbare sectoren voorkomen.

Wat ik dus zeg is:

Accepteer dat bij consumentenschijven de datadichtheid zo hoog is dat onleesbare sectoren min of meer erbij horen. De fabrikant geeft dit ook op met de uBER specificatie: 10^-14 is standaard voor consumentenschijven en 10^-15 en 10^-16 zie je bij enterprise schijven. Dit doen het dus tot 100 keer beter en gekoppeld met lagere capaciteit (want: lagere datadichtheid) zijn onleesbare sectoren dus veel minder groot een probleem.
Onleesbare sectoren zijn vandaag de dag bijna altijd sectoren die niet fysiek beschadigd zijn. Het is simpelweg dat ervoor gekozen is niet genoeg capaciteit op te offeren voor errorcorrectie. De schijven zijn "gemaakt" om af en toe een foutje te krijgen, min of meer. Het valt in elk geval binnen de fabrieksspecificatie.
Dit los je op door lang te formatteren zodat alle sectoren worden overschreven. Ook een snelle format kan helpen want dan blijft de pending sector voorlopig bestaan maar is hij niet in gebruik. Zodra je data gaat schrijven die die ene sector tegenkomt, wordt die overschreven en dan pas zal de pending sector verdwijnen.
Preventief de hardeschijf te laten scannen kan helpen onleesbare sectoren te ontdekken. Maar wil je het voorkomen dan zul je periodiek zoals elke maand de hardeschijf moeten verversen. Onder UNIX/Linux kan dit met: dd if=/dev/sda of=/dev/sda bs=1M conv=sync - dit commando zal elke sector lezen en vervolgens op precies dezelfde locatie schrijven op de hardeschijf. Er verandert dus niets aan de data behalve dat deze vers beschreven is. De electromagnetische lading is zo weer sterk en dus minder bitfouten en dus minder errorcorrectie nodig dus als na verloop van tijd het signaal afneemt heb je meer marge om fouten te corrigeren.
RAID-engines vooral de oudere kunnen niet lekker met onleesbare sectoren omgaan. De hardeschijf is namelijk tot 120 seconden bezig zo'n onleesbare sector te scannen voordat er uiteindelijk een I/O error wordt teruggestuurd. Maar de RAID-engine zal een schijf die 10+ seconden niet reageert beschouwen als failed en hem uit de RAID-array knikkeren. Dan draai je degraded of zelfs FAILED. Dat is flink schrikken, maar valt meestal te herstellen mits je weet wat je doet. Om deze reden kies je voor dergelijke RAID arrays speciale "TLER" schijven zoals WD Red of "RAID edition" (RE). Tegenwoordig worden die als "NAS" schijven verkocht geloof ik. TLER staat voor: Time-Limited Error Recovery. Dit betekent dat de hardeschijf al na 7 seconden ipv 120 seconden zal opgeven en een I/O error zal genereren. Vaak wordt 10 seconden als grens gehanteerd waarbij de schijf uit de RAID array wordt geknikkerd. Maar ook met TLER schijven ben je er nog niet. Afhankelijk van de RAID engine zal evengoed na een I/O error de schijf uit de array geknikkerd worden. Dus daar schiet je ook niet veel mee op.
De èchte oplossing is natuurlijk: slimme software. Dat is ook de route die Google heeft genomen. In plaats van peperdure hardeschijven (dure hardware) maken ze slimme software die goed kan omgaan met af en toe een onleesbare sector. We passen redundancy toe op filesystem-niveau. Alle moderne filesystems van de 3e generatie hebben dit: ReFS (Microsoft), Btrfs (Linux) en ZFS (Solaris, BSD, Linux, Mac OSX, Windows) doen dit voor je. Wanneer een sector onleesbaar is, kan het filesystem terugvallen op een andere sector en zo de data alsnog leveren aan de applicatie. Door het copy-on-write mechanisme van deze filesystems zal ergens anders de data opnieuw beschreven worden zodat de redundancy weer intact raakt. Op deze manier is het niet erg dat je af en toe een onleesbare sector krijgt. Wel maakt uit wat je configuratie is: ZFS kan bij RAID-Z en mirror configuraties alle data beschermen. Bij een enkele hardeschijf kan enkel de metadata worden beschermd. De metadata is de data van het filesystem zelf en dus niet de data van jouw bestanden, zoals een JPEG file. Als de metadata beschadigd raakt kan je hele filesystem onbruikbaar/ontoegankelijk worden of hele directories verdwijnen. Dus beschermt ZFS die belangrijke metadata sowieso al met zogenaamde ditto blocks ook wel bekend als copies=2. Voor de meest belangrijke metadata worden er geloof ik 16 kopieën gebruikt dit verdeeld over de hardeschijf/partitie worden opgeslagen. Alleen de data loopt dan risico en als dat gebeurt dan kun je met zpool status -v zien welke bestanden onleesbaar zijn geworden. Dan weet je tenminste wat je mist en kun je die misschien van backup terughalen of opnieuw genereren/downloaden.

Doen HDDs ook aan wear-levelling?

Nee, dat is iets voor NAND SSDs omdat daarbij de sectoren slijten als ze worden beschreven. NAND kwaliteit neemt dus af naarmate deze beschreven worden. Leesacties hebben geen invloed dus je kunt zoveel lezen als je wilt, maar schrijven is beperkt. SSDs zijn dus een soort verbruiksartikel. Daarom kun je de levensduur ook wel in percentage uitdrukken en dat kun je ook in de SMART terug vinden:

code:

1	Percentage Used: 0%

Hardeschijven slijten niet doordat sectoren beschreven worden, maar door de tijd, door mechanische wear-and-tear en door fysieke schade zoals trillingen en schokken. Simpelweg schreeuwen tegen een hardeschijf zal hem doen sidderen. Daar kun je leuke filmpjes op Youtube over vinden van mensen die schreeuwen tegen hun computerkast met hardeschijven erin en dan neemt de performance voor een paar seconden flink af. Dit komt omdat het seeken dus het vinden van de juiste sector met de leeskop, niet goed werkt door de trillingen en dit vaak overnieuw moet gebeuren.

Acties:

zaterdag 25 maart 2023 14:29

DVX73 schreef op donderdag 23 maart 2023 @ 15:34:
[...]

Heb de disk vervangen ondertussen, maar was toch even nieuwsgierig:

code:

smartctl 7.3 2022-02-28 r5338 [x86_64-linux-5.15.102-1-MANJARO] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red
Device Model:     WDC WD60EFRX-68L0BN1
Serial Number:    WD-WX11D168PEAY
LU WWN Device Id: 5 0014ee 262ef6c80
Firmware Version: 82.00A82
User Capacity:    6.001.175.126.016 bytes [6,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5700 rpm
Device is:        In smartctl database 7.3/5319
ATA Version is:   ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 1.5 Gb/s)
Local Time is:    Thu Mar 23 15:29:47 2023 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 249) Self-test routine in progress...
                                        90% of test remaining.
Total time to complete Offline 
data collection:                ( 7604) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 729) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x303d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       81
  3 Spin_Up_Time            0x0027   244   197   021    Pre-fail  Always       -       6791
  4 Start_Stop_Count        0x0032   097   097   000    Old_age   Always       -       3192
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   061   061   000    Old_age   Always       -       28843
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1259
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       61
193 Load_Cycle_Count        0x0032   197   197   000    Old_age   Always       -       10043
194 Temperature_Celsius     0x0022   120   104   000    Old_age   Always       -       32
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       70%     28843         3131089377
# 2  Short offline       Completed: read failure       70%     28817         3131089377
# 3  Extended offline    Completed: read failure       10%     28744         3131089377
# 4  Short offline       Completed: read failure       60%     28672         3131089377
# 5  Short offline       Completed: read failure       70%     28302         3131089377
# 6  Short offline       Completed without error       00%     27559         -
# 7  Short offline       Completed without error       00%     26815         -
# 8  Short offline       Completed without error       00%     26096         -
# 9  Short offline       Completed without error       00%     25352         -
#10  Short offline       Completed without error       00%     24652         -
#11  Short offline       Completed without error       00%     24046         -
#12  Short offline       Completed without error       00%     23303         -
#13  Short offline       Completed without error       00%     22588         -
#14  Short offline       Completed without error       00%     21845         -
#15  Short offline       Completed without error       00%     21125         -
#16  Short offline       Completed without error       00%     20383         -
#17  Short offline       Completed without error       00%     19712         -
#18  Short offline       Completed without error       00%     18998         -
#19  Short offline       Completed without error       00%     18255         -
#20  Short offline       Completed without error       00%     17536         -
#21  Short offline       Completed without error       00%     16791         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

In de SMART data zie ik niets raars, maar in de self-tests wel.

Ik zou 'even' een volledige surface scan draaien, bijvoorbeeld met iets als HDDScan of Victoria voor Windows. Je geeft dan de drive de kans om problemen te ontdekken. Met Victoria voor Windows kun je tevens probleem sectoren re-mappen.

Joep

Acties:

donderdag 30 maart 2023 08:54

Funga schreef op donderdag 23 maart 2023 @ 22:13:
[...]
Dus je moet schijven ook gebruiken. Lege schijven gaan stuk?
Interessant om te weten.

Doen HDDs ook aan wear-levelling?

Entropy, alles gaat stuk.

Als een moderne schijf in gebruik is zal de schijf zelf ook niet gebruikte sectoren 're-freshen'. Dit doet de firmware zelf (mits het daar de tijd voor krijgt), je hoeft hier niets voor te doen, dit is default ingeschakeld. Een data recovery engineer kan dit uitschakelen middels vendor specific commands. Seagate drives bijvoorbeeld hebben bijvoorbeeld de BGMS_DISABLE_DATA_REFRESH parameter om 'default behavior' uit te schakelen t.b.v. data recovery.

HDD's doen niet aan wear leveling, ze kunnen dat niet en hoeven dat niet. SSD wear-leveling gebeurt uit noodzaak: een cell kan slechts een beperkt aantal program-erase cycles doorstaan. Bovendien is het zo dat de kwaliteit van een cell afneemt met het toenemen van program-erase cycles. Wanneer constant dezelfde cellen gebruikt zouden worden krijg je dus grote lokale verschillen in performance en zou een aantal cellen kapot gaan terwijl anderen nog springlevend zijn en amper gebruikt. Je ziet dit fenomeen wel op heel goedkope flashdrives, het gebied waar de FAT staat is helemaal kapot geschreven terwijl de rest van de flash drive gewoon leesbaar is.

Een SSD kan gebruikt worden als ware het een HDD, dus middels het schijven naar en lezen van LBA sector adressen. Nu is het zo dat LBA adressen vaker gebruikt worden naarmate ze dichter bij de start van die disk staan. Denk bijvoorbeeld aan een heel simpel voorbeeld, de file allocation table. Die dient continu te worden bijgewerkt en voor een SSD zou dit betekenen dat het NAND geheugen toegewezen aan de FAT veel sneller zou slijten dan andere gebieden. De oplossing is een extra laag, een layer waarin de SSD firmware dynamisch LBA adressen kan koppelen aan fysieke NAND adressen en er zo dus voor kan zorgen dat een gebied als de FAT in een fixed LBA gebied, continu op een andere plek op de NAND wordt weggeschreven.

Een klassieke CMR hard drive hoeft dit niet en kan dit niet bij gebrek een een degelijke extra laag. Iets dergelijks gebeurt natuurlijk wel bij re-mappen van bad sectors waarbij een spare wordt toegewezen aan een specifiek LBA adres. Dit is dan op veel kleinere schaal een veel statischer.

Een SMR schijf heeft wel zo'n extra laag maar niet t.b.v. wear-leveling.

Joep

Acties:

donderdag 30 maart 2023 11:48

Frontpage Admin

Kabbelend watertje

Okee, dit is dus niet goed

E: drive deed wel een beetje vreemd, maar nergens read errors. Smart was ook niet helemaal slecht, behalve een current_pending_sector van 137.

Een andere tool vond dat de drive er echt slecht aan toe was.
Checkdisk /f /r /x gedaan. Veel errors.
Na de checkdisk:

code:

1 2	C:\>dir e: Data error (cyclic redundancy check).

Smart:

code:

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   197   197   051    Pre-fail  Always       -       29614
  3 Spin_Up_Time            0x0027   136   130   021    Pre-fail  Always       -       4175
  4 Start_Stop_Count        0x0032   093   093   000    Old_age   Always       -       7134
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       3
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   073   073   000    Old_age   Always       -       20040
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       552
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       582
193 Load_Cycle_Count        0x0032   143   143   000    Old_age   Always       -       171448
194 Temperature_Celsius     0x0022   119   102   000    Old_age   Always       -       24
196 Reallocated_Event_Count 0x0032   197   197   000    Old_age   Always       -       3
197 Current_Pending_Sector  0x0032   199   199   000    Old_age   Always       -       229
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%     20027         370319
# 2  Short offline       Completed: read failure       90%     20026         370319

Die laatste twee regels zijn van twee selftests die ik gisteravond heb gedaan.

Die gaat de prullenbak in. Ja, ik heb een backup.

Signatures zijn voor boomers.

Acties:

donderdag 30 maart 2023 11:49

Afbeeldingslocatie: https://tweakers.net/i/sLRRoi87Q1Of8It9GsgHdNhq4uU=/x800/filters:strip_exif()/f/image/lpWY2i0XGoTWFttZF0IAptvr.png?f=fotoalbum_large

Acties:

donderdag 30 maart 2023 12:11

Hallo,
Mijn harde schijf is niet meer benaderbaar.
Is omgezet van NTFS naar RAW.
Nu lees ik hier dat ik eerst de harde schijf moet checken. Ziet dit er goed uit of niet?
Dan kan ik daarna kijken of en hoe ik mijn bestanden kan veilig stellen.
En ja dom, maar heb niet van alles een back up...

Acties:

donderdag 30 maart 2023 12:43

marianne1981 schreef op donderdag 30 maart 2023 @ 11:49:
Hallo,
Mijn harde schijf is niet meer benaderbaar.
Is omgezet van NTFS naar RAW.
Nu lees ik hier dat ik eerst de harde schijf moet checken. Ziet dit er goed uit of niet?
Dan kan ik daarna kijken of en hoe ik mijn bestanden kan veilig stellen.
En ja dom, maar heb niet van alles een back up...

Als data erg belangrijk is dan is het altijd wijs een gratis diagnose op te vragen bij een data recovery lab. RAW bestandssysteem is een catch-all en daarmee vrij nietszeggende fout en kan dus van alles zijn. RAW betekent zoveel als, 'ik kan niet vaststellen met welk bestandssysteem we te maken hebben'.

In het gunstigste geval is het een fout die zelfs in-place te repareren is, in het ergste geval ligt er een hardwarematige fout aan ten grondslag (zelfs als SMART er zoals in jouw geval geen aanleiding toe geeft dit te vermoeden). Maar om de werkelijke fout te bepalen is er dus verdere diagnose noodzakelijk.

Als je zelf aan de slag wilt gaan clone je de schijf eerst zodat je een vangnet hebt in het geval de schijf de geest geeft of je zelf fouten maakt. Als de schijf gezond is kan dat meestal prima vanuit Windows met een goede data recovery tool (voorbeeld: YouTube: Creating a disk image (cloning) using DMDE).

Als je een clone hebt, kun je verder onderzoeken wat er aan de hand is of simpelweg de data redden vanuit het image bestand (de clone). Aangezien dit is een 'rauw' image bestand is kun je dit openen in elk kwalitatief goede data recovery tool.

Als eerst stap voor verder onderzoek zou je een screenshot kunnen invoegen van de partitions TAB van het tooltje DMDE (YouTube: DMDE partitions tab - reddit r/datarecovery). Ik vermoed dat je hiervoor het best een nieuwe topic opent.

[ Voor 4% gewijzigd door Stanton op 30-03-2023 12:20 ]

Joep

Acties:

donderdag 30 maart 2023 13:26

Afbeeldingslocatie: https://tweakers.net/i/HjmuxA5JPq0SXmIr15ZGmyAnv_Q=/800x/filters:strip_exif()/f/image/g08tupY7ulYK20eOe7TxQSBM.png?f=fotoalbum_large

Dankjewel!
Wel belangrijk, maar niet zo belangrijk dat ik er honderden euro's aan uit ga geven.

Dit is wat je bedoeld met die DMDE tool?

Acties:

donderdag 30 maart 2023 15:10

Frontpage Admin

Kabbelend watertje

NFTS naar RAW is wat ik had nadat ik chkdsk had gedraaid in Maasluip in "Check je SMART" . De disk was daarna ook leeg, wat Windows betreft.

Signatures zijn voor boomers.

Acties:

JME

zeg maar Jamie

Ik heb twee Synology NASsen, een oude DS215j en een hele oude DS211. Beide NASsen bevatten 2 schijven, beide in RAID1. De DS211 wordt gebruikt als bron voor series en films, dus dataverlies kan niet zoveel kwaad en er wordt dan ook niet gebackupt (RAID1 stamt nog uit de tijd dat ik de DS215j niet had en ik heb nooit de ruimtebehoefte gehad om dat om te zetten). De DS215j bevat backups van pc en laptops en wordt zelf ook regelmatig weer gebackupt.
Hieronder screenshots van 1 schijf uit iedere NAS (de tweede schijf is in beide gevallen vergelijkbaar). Wat zijn dingen om in de gaten te houden en wat is jullie advies?

DS211, schijf is een Samsung HD204UI

Afbeeldingslocatie: https://tweakers.net/i/6bqqViicIiSN3W6gX71OBqVY4XM=/x800/filters:strip_icc():strip_exif()/f/image/7e6X0FGFTyP0cQqH3mfaxR8N.jpg?f=fotoalbum_large

DS215j, schijf is een WDC WD40EFRX-68WT0N0
Afbeeldingslocatie: https://tweakers.net/i/AEBn3-F8VHwYwB3j0N5qugoR0uE=/full-fit-in/4920x3264/filters:max_bytes(3145728):no_upscale():strip_icc():fill(white):strip_exif()/f/image/5RYx2kTHR41VjozbdU1Hd2p2.jpg?f=user_large

Afbeeldingslocatie: https://tweakers.net/i/AEBn3-F8VHwYwB3j0N5qugoR0uE=/full-fit-in/4920x3264/filters:max_bytes(3145728):no_upscale():strip_icc():fill(white):strip_exif()/f/image/5RYx2kTHR41VjozbdU1Hd2p2.jpg?f=user_large

donderdag 30 maart 2023 15:39

Acties:

donderdag 30 maart 2023 15:59

S.m.a.r.t.

Maasluip schreef op donderdag 30 maart 2023 @ 08:54:
Okee, dit is dus niet goed

E: drive deed wel een beetje vreemd, maar nergens read errors.

Dat is vaak een tijdelijke melding en bij sommige disks zegt het op zich weinig omdat fabrikanten het gebruiken om allerlei verschillende data als bytes achter elkaar op te slaan. Bijvoorbeeld bij HGST en Seagate zeggen grote decimale getallen die SMART uitleestools tonen niet veel.

Smart was ook niet helemaal slecht, behalve een current_pending_sector van 137.

Dat is wel zorgwekkend. Die sectoren hebben allemaal een probleem. Het kan tijdelijk zijn, maar met zoveel slechte plekken is de kans dat het ernstig is tamelijk groot.

Een andere tool vond dat de drive er echt slecht aan toe was.
Checkdisk /f /r /x gedaan. Veel errors.

Ik zou niet een automatische repair (/F /R) doen bij een vermoeden van een slechte disk. Chkdsk is niet heel slim en kan dus ook dingen stuk maken. Een gewone chkdsk is veiliger. Maar: je weet al dat de disk slecht is door het hoge aantal pending sectors. Beter eerst een sector kloon (forensic clone) van de disk maken en daar mee aan de slag gaan. Zodoende maak je niet kapot wat nog te repareren zou zijn met een van de beschikbare tools. De drive zal zelf proberen de slechte plekken te "repareren" of te verplaatsen (reallocate).

Natuurlijk is een restore van de backup op een verse disk de beste oplossing voor zover die alle data bevat.

Acties:

donderdag 30 maart 2023 16:12

S.m.a.r.t.

@JME De Samsung zou ik vervangen, hoewel die pas 2 jaar heeft aangestaan, is de disk ondertussen >10 jaar oud. De SMART waarden zijn geen probleem.

De G-sense error rate onstaat als de schijf bijvoorbeeld ergens tegen aan gestoten is. Als de koppen de disk raken kan dat beschadigingen opleveren van zowel de koppen als het oppervlak.

Met de WD is niets aan de hand. Die kan nog wel een paar jaar door.

In de gaten houden: o.a. 197, 198, 5, ECC/CRC errors.

Acties:

donderdag 30 maart 2023 16:23

Frontpage Admin

Kabbelend watertje

mrmrmr schreef op donderdag 30 maart 2023 @ 15:39:
[...]

Natuurlijk is een restore van de backup een verse disk de beste oplossing voor zover die alle data bevat.

Ja, ik was net bezig deze data (persoonlijke data) aan het verhuizen want mijn C:-schijf begon vol te lopen. In het kader daarvan had ik al een volledige backup naar mijn server gemaakt, dus afgezien van dat het tijd kost is er verder niks aan de hand.

Heb de partities verwijderd, nieuw gemaakt en de disk helemaal geformatteerd. De SMART info is nu dit:

code:

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   197   197   051    Pre-fail  Always       -       31772
  3 Spin_Up_Time            0x0027   136   130   021    Pre-fail  Always       -       4175
  4 Start_Stop_Count        0x0032   093   093   000    Old_age   Always       -       7134
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       3
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   073   073   000    Old_age   Always       -       20045
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       552
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       582
193 Load_Cycle_Count        0x0032   143   143   000    Old_age   Always       -       171466
194 Temperature_Celsius     0x0022   118   102   000    Old_age   Always       -       25
196 Reallocated_Event_Count 0x0032   197   197   000    Old_age   Always       -       3
197 Current_Pending_Sector  0x0032   200   199   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

Nu ben ik weer een chkdisk aan het doen, kijken of dat nog wat geeft. Zoals je ziet heeft de disk nog niet eens zoveel uren gedraaid (2 jaar 105 dagen, ik heb harddisks in mijn server met meer dan 7 en 13 jaar power_on_hours) maar hij heeft in mijn gewone computer gezeten die elke dag aan en uit gaat (zie de start_stop_count en power_cycle_count), en heeft een tijdje in de kast gelegen. Weet niet of dat slecht is.
Wel jammer dat een disk met zo weinig gebruik al slecht is.
Die disk van > 13 jaar oud heeft maar 66 power_cycles en starts gehad.

Signatures zijn voor boomers.

Acties:

donderdag 30 maart 2023 16:25

marianne1981 schreef op donderdag 30 maart 2023 @ 12:43:
[Afbeelding]

Dankjewel!
Wel belangrijk, maar niet zo belangrijk dat ik er honderden euro's aan uit ga geven.

Dit is wat je bedoeld met die DMDE tool?

Als eerst stap voor verder onderzoek zou je een screenshot kunnen invoegen van de partitions TAB van het tooltje DMDE (YouTube: DMDE partitions tab - reddit r/datarecovery). Ik vermoed dat je hiervoor het best een nieuwe topic opent.

Joep

Acties:

donderdag 30 maart 2023 16:47

Stanton schreef op donderdag 30 maart 2023 @ 16:23:
[...]

Als eerst stap voor verder onderzoek zou je een screenshot kunnen invoegen van de partitions TAB van het tooltje DMDE (YouTube: DMDE partitions tab - reddit r/datarecovery). Ik vermoed dat je hiervoor het best een nieuwe topic opent.

Ja heb net nieuw topic geopend. Excuus.

Acties:

dinsdag 4 april 2023 20:15

S.m.a.r.t.

@Maasluip

Ik gebruikte lang HGST disks voor een jaar of 3-4 dan werden ze slechter en preventief vervangen. Maar ik heb ook een 2.5" hard disk in een laptop die al ruim 17 jaar draait. Op zo'n kleine disk met 1 platter werken veel kleinere krachten dan op een zware 3.5" disk, soms kan een mechanische disk het wel lang volhouden.

Vervallend magnetisme, temperatuurwerking, vocht en uitdroging en dergelijk zullen wel een invloed hebben ook als de disks niet lang aanstaan. Oudere disks hebben vaak ook een functioneel gaatje in de behuizing, worden dus blootgesteld aan de omgeving.

Acties:

vrijdag 7 april 2023 18:16

hebben mensen hier op Linux ervaring met smartd? Die kan je automatisch emailen als er wat aan de hand is:
https://wiki.archlinux.or...ifying_potential_problems

Ik gebruik Majaro Gnome. BTRFS filesystem. Zeer tevreden mee.
Heb 1 nvme SSD en 3 SATA SSDs.

Ik heb de test in het conf file gezet zoals in het Arch wiki artikel.

In journalctl zie ik dan dit (+ ik ontvang de test email):

code:

Starting Self Monitoring and Reporting Technology (SMART) Daemon...
 smartd 7.3 2022-02-28 r5338 [x86_64-linux-5.15.102-1-MANJARO] (local build)
 Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org
 Opened configuration file /etc/smartd.conf
 Drive: DEVICESCAN, implied '-a' Directive on line 24 of file /etc/smartd.conf
 Configuration file /etc/smartd.conf was parsed, found DEVICESCAN, scanning devices
 Device: /dev/sda, type changed from 'scsi' to 'sat'
 Device: /dev/sda [SAT], opened
 Device: /dev/sda [SAT], Samsung SSD 870 EVO 2TB, S/N:S621NF0R301106B, WWN:5-002538-f4132622b, FW:SVT01B6Q, 2.00 TB
 Device: /dev/sda [SAT], found in smartd database 7.3/5319: Samsung based SSDs
 Device: /dev/sda [SAT], can't monitor Current_Pending_Sector count - no Attribute 197
 Device: /dev/sda [SAT], can't monitor Offline_Uncorrectable count - no Attribute 198
 Device: /dev/sda [SAT], is SMART capable. Adding to "monitor" list.
 Device: /dev/sdb, type changed from 'scsi' to 'sat'
 Device: /dev/sdb [SAT], opened
 Device: /dev/sdb [SAT], Samsung SSD 860 EVO 4TB, S/N:S4WWNE0N300100P, WWN:5-002538-e00328cc9, FW:RVT04B6Q, 4.00 TB
 Device: /dev/sdb [SAT], found in smartd database 7.3/5319: Samsung based SSDs
 Device: /dev/sdb [SAT], can't monitor Current_Pending_Sector count - no Attribute 197
 Device: /dev/sdb [SAT], can't monitor Offline_Uncorrectable count - no Attribute 198
 Device: /dev/sdb [SAT], is SMART capable. Adding to "monitor" list.
 Device: /dev/sdc, type changed from 'scsi' to 'sat'
 Device: /dev/sdc [SAT], opened
 Device: /dev/sdc [SAT], Samsung SSD 870 QVO 4TB, S/N:S5STNF0T204219W, WWN:5-002538-f4221bda4, FW:SVQ02B6Q, 4.00 TB
 Device: /dev/sdc [SAT], found in smartd database 7.3/5319: Samsung based SSDs
 Device: /dev/sdc [SAT], can't monitor Current_Pending_Sector count - no Attribute 197
 Device: /dev/sdc [SAT], can't monitor Offline_Uncorrectable count - no Attribute 198
 Device: /dev/sdc [SAT], is SMART capable. Adding to "monitor" list.
 Device: /dev/nvme0, opened
 Device: /dev/nvme0, SAMSUNG MZVLB512HBJQ-000L2, S/N:S4DYNX0N681874, FW:3L1QEXF7, 512 GB
 Device: /dev/nvme0, is SMART capable. Adding to "monitor" list.
 Monitoring 3 ATA/SATA, 0 SCSI/SAS and 1 NVMe devices
 Executing test of <mail> to rmijn email @ ..com  ...

Wat betekenen deze 2 meldingen?

code:

1 2	can't monitor Current_Pending_Sector count - no Attribute 197 can't monitor Offline_Uncorrectable count - no Attribute 198

Voorbeeld van smartctl voor 1 van deze sata drives:

code:

sudo smartctl -a /dev/sdc                                                                                                                                                                                                                                           1 ✘ 
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-5.15.102-1-MANJARO] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Samsung based SSDs
Device Model:     Samsung SSD 870 QVO 4TB
Serial Number:    S5STNF0T204219W
LU WWN Device Id: 5 002538 f4221bda4
Firmware Version: SVQ02B6Q
User Capacity:    4.000.787.030.016 bytes [4,00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
TRIM Command:     Available, deterministic, zeroed
Device is:        In smartctl database 7.3/5319
ATA Version is:   ACS-4 T13/BSR INCITS 529 revision 5
SATA Version is:  SATA 3.3, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Tue Apr  4 20:14:32 2023 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:        (    0) seconds.
Offline data collection
capabilities:            (0x53) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    No Offline surface scan supported.
                    Self-test supported.
                    No Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   2) minutes.
Extended self-test routine
recommended polling time:    ( 320) minutes.
SCT capabilities:          (0x003d) SCT Status supported.
                    SCT Error Recovery Control supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       6696
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       22
177 Wear_Leveling_Count     0x0013   100   100   000    Pre-fail  Always       -       0
179 Used_Rsvd_Blk_Cnt_Tot   0x0013   100   100   010    Pre-fail  Always       -       0
181 Program_Fail_Cnt_Total  0x0032   100   100   010    Old_age   Always       -       0
182 Erase_Fail_Count_Total  0x0032   100   100   010    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0013   100   100   010    Pre-fail  Always       -       0
187 Uncorrectable_Error_Cnt 0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0032   074   050   000    Old_age   Always       -       26
195 ECC_Error_Rate          0x001a   200   200   000    Old_age   Always       -       0
199 CRC_Error_Count         0x003e   100   100   000    Old_age   Always       -       0
235 POR_Recovery_Count      0x0012   099   099   000    Old_age   Always       -       11
241 Total_LBAs_Written      0x0032   099   099   000    Old_age   Always       -       3123058096

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
  256        0    65535  Read_scanning was never started
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

197 en 198 staan daar dus ook niet tussen.. maar waarom niet? Samsung dingetje?

Acties:

Ludwig005

Ludwig005 - Verzonken in HW

Goed of slecht? Zou het lang duren voordat deze schijf het zou kunnen begeven?
Leesfouten bij surface test in Minitool, na een wipe van de HDD niks meer van te zien, maar in Crystaldiskinfo zie ik dit:
Afbeeldingslocatie: https://tweakers.net/i/atAcykyAF5bdV79EHcwS3DWlDDU=/full-fit-in/4000x4000/filters:no_upscale():fill(white):strip_exif()/f/image/dUFCbEkKMejbZyKIOrSJQnVo.png?f=user_large

Afbeeldingslocatie: https://tweakers.net/i/atAcykyAF5bdV79EHcwS3DWlDDU=/full-fit-in/4000x4000/filters:no_upscale():fill(white):strip_exif()/f/image/dUFCbEkKMejbZyKIOrSJQnVo.png?f=user_large

zaterdag 8 april 2023 15:31

Acties:

zaterdag 8 april 2023 18:09

Ik heb smartd dus pas aan staan en krijg nu na een paar dagen al een waarschuwings email voor de SSD die alleen gebruikt wordt voor downloads (= meest intensieve gebruik met veel torrent downloads die ook weer regelmatig gewist worden):

code:

The following warning/error was logged by the smartd daemon:
Device: /dev/sda [SAT], Self-Test Log error count increased from 0 to 1
Device info:
Samsung SSD 870 EVO 2TB, S/N:S621NF0R301106B, WWN:5-002538-f4132622b, FW:SVT01B6Q, 2.00 TB

For details see host's SYSLOG.

Dus maar ff smartctl -a gedaan voor deze drive:

code:

smartctl 7.3 2022-02-28 r5338 [x86_64-linux-5.15.102-1-MANJARO] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Samsung based SSDs
Device Model:     Samsung SSD 870 EVO 2TB
Serial Number:    S621NF0R301106B
LU WWN Device Id: 5 002538 f4132622b
Firmware Version: SVT01B6Q
User Capacity:    2.000.398.934.016 bytes [2,00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
TRIM Command:     Available, deterministic, zeroed
Device is:        In smartctl database 7.3/5319
ATA Version is:   ACS-4 T13/BSR INCITS 529 revision 5
SATA Version is:  SATA 3.3, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sat Apr  8 15:27:11 2023 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x80) Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 121) The previous self-test completed having
                    the read element of the test failed.
Total time to complete Offline 
data collection:        (    0) seconds.
Offline data collection
capabilities:            (0x53) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    No Offline surface scan supported.
                    Self-test supported.
                    No Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   2) minutes.
Extended self-test routine
recommended polling time:    ( 160) minutes.
SCT capabilities:          (0x003d) SCT Status supported.
                    SCT Error Recovery Control supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   046   046   010    Pre-fail  Always       -       1203
  9 Power_On_Hours          0x0032   096   096   000    Old_age   Always       -       16436
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       53
177 Wear_Leveling_Count     0x0013   099   099   000    Pre-fail  Always       -       14
179 Used_Rsvd_Blk_Cnt_Tot   0x0013   046   046   010    Pre-fail  Always       -       1203
181 Program_Fail_Cnt_Total  0x0032   100   100   010    Old_age   Always       -       0
182 Erase_Fail_Count_Total  0x0032   100   100   010    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0013   046   046   010    Pre-fail  Always       -       1203
187 Uncorrectable_Error_Cnt 0x0032   096   096   000    Old_age   Always       -       33044
190 Airflow_Temperature_Cel 0x0032   076   047   000    Old_age   Always       -       24
195 ECC_Error_Rate          0x001a   199   199   000    Old_age   Always       -       33044
199 CRC_Error_Count         0x003e   099   099   000    Old_age   Always       -       6
235 POR_Recovery_Count      0x0012   099   099   000    Old_age   Always       -       18
241 Total_LBAs_Written      0x0032   099   099   000    Old_age   Always       -       22074242184

SMART Error Log Version: 1
ATA Error Count: 33044 (device log contains only the most recent five errors)
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 33044 occurred at disk power-on lifetime: 14229 hours (592 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 08 68 e1 a0 e0  Error: UNC

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  2f 00 01 30 06 00 e0 0b  36d+09:53:01.142  READ LOG EXT
  2f 00 01 30 00 00 e0 0b  36d+09:53:01.142  READ LOG EXT
  2f 00 01 00 00 00 e0 0b  36d+09:53:01.142  READ LOG EXT
  2f 00 01 30 08 00 e0 0b  36d+09:53:01.142  READ LOG EXT
  2f 00 01 30 00 00 e0 0b  36d+09:53:01.142  READ LOG EXT

Error 33043 occurred at disk power-on lifetime: 14229 hours (592 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 08 60 e1 a0 e0  Error: 

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------

Error 33042 occurred at disk power-on lifetime: 14229 hours (592 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 38 a8 e0 a0 e0  Error: 

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------

Error 33041 occurred at disk power-on lifetime: 14229 hours (592 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 08 30 3b 9b e0  Error: UNC

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  2f 00 01 30 06 00 e0 0b  36d+09:52:59.421  READ LOG EXT
  2f 00 01 30 00 00 e0 0b  36d+09:52:59.421  READ LOG EXT
  2f 00 01 00 00 00 e0 0b  36d+09:52:59.421  READ LOG EXT
  2f 00 01 30 08 00 e0 0b  36d+09:52:59.421  READ LOG EXT
  2f 00 01 30 00 00 e0 0b  36d+09:52:59.421  READ LOG EXT

Error 33040 occurred at disk power-on lifetime: 14229 hours (592 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 08 28 3b 9b e0  Error: UNC

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  2f 00 01 30 06 00 e0 0b  36d+09:52:59.267  READ LOG EXT
  2f 00 01 30 00 00 e0 0b  36d+09:52:59.267  READ LOG EXT
  2f 00 01 00 00 00 e0 0b  36d+09:52:59.267  READ LOG EXT
  2f 00 01 30 08 00 e0 0b  36d+09:52:59.267  READ LOG EXT
  2f 00 01 30 00 00 e0 0b  36d+09:52:59.267  READ LOG EXT

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%     16424         60818344
# 2  Short offline       Completed without error       00%     16423         -
# 3  Short offline       Completed without error       00%     16399         -
# 4  Short offline       Completed without error       00%     16375         -
# 5  Short offline       Completed without error       00%     16351         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
  256        0    65535  Read_scanning was never started
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Het gaat dus om die laatste error, want volgens mij zijn de andere errors vrij oud:

code:

1	# 1 Extended offline Completed: read failure 90% 16424 60818344

Moet ik al op zoek naar een vervanger? Of hoef ik mij nog geen zorgen te maken, de SSD zorgt er wel voor dat het de foute plekken omzeild?

Acties:

zondag 9 april 2023 09:46

Ludwig005 schreef op vrijdag 7 april 2023 @ 18:16:
Goed of slecht? Zou het lang duren voordat deze schijf het zou kunnen begeven?
Leesfouten bij surface test in Minitool, na een wipe van de HDD niks meer van te zien, maar in Crystaldiskinfo zie ik dit:
[Afbeelding]

Niemand kan je dat vertellen. We kunnen zien dat er 90 reallocated sectors zijn, m.a.w. sectoren die opgegeven zijn door de drive.

Nu zou dat vanaf nu een heel statische situatie kunnen zijn. M.a.w. als je nog 10x een wipe draait zou er niets aan deze waarde veranderen. Dan hangt het van je eigen gevoel af of je dat ding nog vertrouwt. Persoonlijk zou ik de drive vervangen, 90 reallocated sectoren zijn me er zo'n 90 teveel.

Het zou ook kunnen dat de waarde toeneemt met elke wipe of scan die je draait. Dan is situatie veel duidelijker: vervangen.

Joep

Acties:

maandag 10 april 2023 10:27

Bij mij wordt het snel erger lijkt het:

code:

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       10%     16447         54543440
# 2  Extended offline    Completed: read failure       90%     16437         60818344
# 3  Extended offline    Completed: read failure       90%     16424         60818344
# 4  Short offline       Completed without error       00%     16423         -
# 5  Short offline       Completed without error       00%     16399         -
# 6  Short offline       Completed without error       00%     16375         -
# 7  Short offline       Completed without error       00%     16351         -

Acties:

3raser

⚜️ Premium member

Mijn Proxmox server gaf een fout op een van de roterende schijven. Naar aanleiding daarvan bekeek ik ook even de SMART waarden van mijn SSD's en de systeemschijf baart mij wat zorgen.

Het systeem is 1300 dagen in gebruik en draait 24/7. De systeemschijf is een Crucial MX500 en geeft de volgende waarden.

code:

smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.74-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Crucial/Micron Client SSDs
Device Model:     CT500MX500SSD4
Serial Number:    1911E1F1A554
LU WWN Device Id: 5 00a075 1e1f1a554
Firmware Version: M3CR023
User Capacity:    500,107,862,016 bytes [500 GB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    Solid State Device
Form Factor:      M.2
TRIM Command:     Available
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.3, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Mon Apr 10 09:58:22 2023 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x80) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (    0) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (  30) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x0031) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   100   000    Pre-fail  Always       -       0
  5 Reallocate_NAND_Blk_Cnt 0x0032   100   100   010    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       14476
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       23
171 Program_Fail_Count      0x0032   100   100   000    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
173 Ave_Block-Erase_Count   0x0032   084   084   000    Old_age   Always       -       248
174 Unexpect_Power_Loss_Ct  0x0032   100   100   000    Old_age   Always       -       2
180 Unused_Reserve_NAND_Blk 0x0033   000   000   000    Pre-fail  Always       -       44
183 SATA_Interfac_Downshift 0x0032   100   100   000    Old_age   Always       -       0
184 Error_Correction_Count  0x0032   100   100   000    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0022   045   019   000    Old_age   Always       -       55 (Min/Max 0/81)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_ECC_Cnt 0x0032   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   100   100   000    Old_age   Always       -       0
202 Percent_Lifetime_Remain 0x0030   084   084   001    Old_age   Offline      -       16
206 Write_Error_Rate        0x000e   100   100   000    Old_age   Always       -       0
210 Success_RAIN_Recov_Cnt  0x0032   100   100   000    Old_age   Always       -       0
246 Total_LBAs_Written      0x0032   100   100   000    Old_age   Always       -       43344924528
247 Host_Program_Page_Count 0x0032   100   100   000    Old_age   Always       -       854499554
248 FTL_Program_Page_Count  0x0032   100   100   000    Old_age   Always       -       1822081793

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Completed [00% left] (0-65535)
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

De Percent_Lifetime_Remain staat op 16. Betekend dit dat de schijf tegen zijn einde loopt? Ik heb via de Total_LBAs_Written berekend dat er 20,18 TB geschreven is. Dat lijkt me niet uitzonderlijk veel voor zijn levensduur. Wel opvallend is dat het aantal Power_On_Hours op 14476 staat. Dat is een stuk lager dan verwacht. Kan het zijn dat de schijf alleen actieve tijd berekend en dat idle tijd hier niet in mee wordt genomen? Vergelijk dit met het aantal uren van de NVME SSD in dezelfde server. Die heeft met 27692 uren bijna het dubbele aantal draaiuren. Dit is de SSD waar de VM's op draaien.

Wat betreft de roterende schijf waar ik de waarschuwing van kreeg, die heeft de volgende SMART waarden.

code:

smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.74-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red
Device Model:     WDC WD40EFRX-68N32N0
Serial Number:    WD-WCC7K1EK9449
LU WWN Device Id: 5 0014ee 2bbdef302
Firmware Version: 82.00A82
User Capacity:    4,000,787,030,016 bytes [4.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Mon Apr 10 10:02:22 2023 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (44040) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 467) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x303d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       24
  3 Spin_Up_Time            0x0027   183   183   021    Pre-fail  Always       -       5833
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       24
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   058   058   000    Old_age   Always       -       31130
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       23
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       18
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       1152
194 Temperature_Celsius     0x0022   118   105   000    Old_age   Always       -       32
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       3
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

De Current_Pending_Sector staat op 3. Dat is volgens mij een slechte zaak of niet?

vrijdag 14 april 2023 17:33

Acties:

zondag 16 april 2023 15:03

S.m.a.r.t.

@3raser De SSD wordt kennelijk zwaar belast in jouw systeem. Kijk eens waarom dat zo is. Wordt er overmatig gelogd? Is er bijvoorbeeld een energieverbruiklog die vaker dan elke minuut cumulatief logt? Zet dat dan op 1 tot 5 minuten, in plaats van bijvoorbeeld meerdere keren per seconde. Dat scheelt enorm in de belasting. Op milli of microseconde niveau loggen helpt een SSD snel naar het einde.

Ik weet niet wat deze Crucial/Micron gebruikt voor het aantal uren. Ik ga er van uit dat het aantal uren niet binair "geflipt" is, dus niet over de opslagbreedte is heen gegaan. Van belang is ook de manier waarop de SSD is gebruikt. Als er heel veel kleine bestandjes worden weggeschreven, kleiner dan de blokgrootte (4kB fysiek), neemt het aantal beschreven blokken veel meer toe dan alleen de omvang van de data. De temperatuur is hoog.

Wat betreft de WD40EFRX, er is nog niets ernstigs aan de hand, maar wel in de gaten blijven houden. Kijk of 180 afneemt en 5 toeneemt. Het is goed om de hele disk te testen.

Acties:

3raser

⚜️ Premium member

mrmrmr schreef op vrijdag 14 april 2023 @ 17:33:
@3raser De SSD wordt kennelijk zwaar belast in jouw systeem. Kijk eens waarom dat zo is. Wordt er overmatig gelogd? Is er bijvoorbeeld een energieverbruiklog die vaker dan elke minuut cumulatief logt? Zet dat dan op 1 tot 5 minuten, in plaats van bijvoorbeeld meerdere keren per seconde. Dat scheelt enorm in de belasting. Op milli of microseconde niveau loggen helpt een SSD snel naar het einde.

Als ik naar /var/log kijk dan zie ik geen bestanden die meerdere keren per minuut worden weggeschreven.

Ik weet niet wat deze Crucial/Micron gebruikt voor het aantal uren. Ik ga er van uit dat het aantal uren niet binair "geflipt" is, dus niet over de opslagbreedte is heen gegaan. Van belang is ook de manier waarop de SSD is gebruikt. Als er heel veel kleine bestandjes worden weggeschreven, kleiner dan de blokgrootte (4kB fysiek), neemt het aantal beschreven blokken veel meer toe dan alleen de omvang van de data. De temperatuur is hoog.

Ik zal kijken wat ik kan doen aan de temperatuur. De server staat op een plek waar de gemiddelde temperatuur wel iets boven kamertemperatuur ligt.

Wat betreft de WD40EFRX, er is nog niets ernstigs aan de hand, maar wel in de gaten blijven houden. Kijk of 180 afneemt en 5 toeneemt. Het is goed om de hele disk te testen.

Welke waarde bedoel je met 180? Waarde 5 staat tot nu toe op 0 dus dat is een goed teken?

maandag 17 april 2023 20:10

Acties: