- knip -
Met crystaldiskinfo gecheckt. Het is een toshiba ssdtje in mijn laptop. M2.Raymond P schreef op woensdag 23 november 2022 @ 21:10:
@Farabi Zonder te weten waar je naar verwijst kan je daar niets zinnigs over zeggen.
Heb je een SMART test gedaan? Zo ja welke attribute geeft dan 98% en welke schijf/firmware gaat het om?
Wellicht heeft iemand anders een antwoord voor je.
- knip -
Sorry, ben een leek op dit gebied. Dan heb ik het niet begrepen.Raymond P schreef op woensdag 23 november 2022 @ 21:47:
@Farabi Dat is de naam van de tool en merk / interface van de schijf.
Wellicht heeft iemand anders een antwoord voor je.
Een lijstje attributen worden uitgelezen, en zonder te weten welke attribute exact de "health" score omlaag haalt is een gepast antwoord op je vraag niet mogelijk.
Enkel de fabrikant van de schijf en naam van de gebruikte software is echt niet voldoende info om iets te kunnen zeggen.
Je kan natuurlijk de uitslag van de hele test delen, dat is het meest gangbare hier...
- knip -
zoiets?Raymond P schreef op woensdag 23 november 2022 @ 22:27:
@Farabi De SMART test is niet voor elke schijf hetzelfde.
Een lijstje attributen worden uitgelezen, en zonder te weten welke attribute exact de "health" score omlaag haalt is een gepast antwoord op je vraag niet mogelijk.
Enkel de fabrikant van de schijf en naam van de gebruikte software is echt niet voldoende info om iets te kunnen zeggen.
Je kan natuurlijk de uitslag van de hele test delen, dat is het meest gangbare hier...
Het lijkt mij dat de 98% gebaseerd is op "percentage gebruikt" en zal, gok ik, grofweg overeen komen met het verhaal boven je initiele post.
- knip -
wat gebeurt er als die percentage opeens op 10% staat bijv? hoe moet ik dat zien? tijd om te veranderen?Raymond P schreef op donderdag 24 november 2022 @ 00:04:
@Farabi exact.
Het lijkt mij dat de 98% gebaseerd is op "percentage gebruikt" en zal, gok ik, grofweg overeen komen met het verhaal boven je initiele post.
Deze drive heeft geen current, worst en threshold waarden voor één SMART code. Die informatie is verspreid over SMART waarden 3 tot en met 5.
3: beschikbare reserve (0x64 = 100, hexadecimaal getal naar decimaal getal)
4: minimum waarde voor de reserve (0x0A = 10, threshold)
5: percentage gebruikte reserve (2%)
100-2%=98%, dat is kennelijk het cijfer dat CrystalDiskInfo aangeeft voor "health status". Dat cijfer is niet alleszeggend.
De waarde voor 5 daalt als het goed is niet zomaar plotseling tot 10% of minder. Uiteraard maak je altijd een backup van gegevens die je niet kan missen. Als het toch op die drempel komt kun je overwegen de drive vervangen als de data betrouwbaar moet zijn. Het kan best zo zijn dat die waarde nooit wordt bereikt en dat het ook niet veel verder zakt.
Ik heb een gloednieuwe SSD die nieuw al op 1% wear leveling/POR recovery count stond. Om een nieuwe drive te testen schrijf ik die helemaal vol en lees terug met h2testw. Daarmee schat ik in hoe goed of slecht de drive is en voorkom ik dat slechte plekken worden gebruikt. Het bleef in dit geval op 1% staan. Ik maak me daar weinig zorgen over.
kan je het een beetje een jip en janneke taal uitleggen? haha, kan het niet volgen.mrmrmr schreef op donderdag 24 november 2022 @ 05:06:
@Farabi
Deze drive heeft geen current, worst en threshold waarden voor één SMART code. Die informatie is verspreid over SMART waarden 3 tot en met 5.
3: beschikbare reserve (0x64 = 100, hexadecimaal getal naar decimaal getal)
4: minimum waarde voor de reserve (0x0A = 10, threshold)
5: percentage gebruikte reserve (2%)
100-2%=98%, dat is kennelijk het cijfer dat CrystalDiskInfo aangeeft voor "health status". Dat cijfer is niet alleszeggend.
De waarde voor 5 daalt als het goed is niet zomaar plotseling tot 10% of minder. Uiteraard maak je altijd een backup van gegevens die je niet kan missen. Als het toch op die drempel komt kun je overwegen de drive vervangen als de data betrouwbaar moet zijn. Het kan best zo zijn dat die waarde nooit wordt bereikt en dat het ook niet veel verder zakt.
Ik heb een gloednieuwe SSD die nieuw al op 1% wear leveling/POR recovery count stond. Om een nieuwe drive te testen schrijf ik die helemaal vol en lees terug met h2testw. Daarmee schat ik in hoe goed of slecht de drive is en voorkom ik dat slechte plekken worden gebruikt. Het bleef in dit geval op 1% staan. Ik maak me daar weinig zorgen over.
De humane uitleg begint in de alinea "De waarde van 5 daalt...".Farabi schreef op donderdag 24 november 2022 @ 11:05:
kan je het een beetje een jip en janneke taal uitleggen? haha, kan het niet volgen.
- knip -
Drive zat als L2ARC cache in een Freenas servertje die op een gegeven moment foutmeldingen begon te geven: (met zo'n mooie rode alert-knop rechts boven)
1
2
3
| Nov 23 22:50:44 FreeNas_II (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 00 88 99 c3 40 00 00 00 01 00 00 Nov 23 22:50:44 FreeNas_II (ada1:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error Nov 23 22:50:44 FreeNas_II (ada1:ahcich1:0:0:0): Retrying command |
( ^ dit dus vele schermen vol )
De SSD aan een Windows bak gehangen en nu krijg ik tegengestelde waarden:
De tool van Adata roept 'BAD' en Diskinfo roept 'Good'.
:strip_exif()/f/image/kKRyzhocphYBSzyOcn3nxPnX.jpg?f=fotoalbum_large)
Gevalletje 'pech en garantie claimen'? (slechts 3,1 TBW van de 80 die wordt opgegeven door Adata)
[ Voor 3% gewijzigd door LooneyTunes op 25-11-2022 16:00 ]
Dat geeft overmatige slijtage, en het gevolg zie je vermoedelijk bij de remaining liftetime die op 12% staat. Deze SSD lijkt ongeschikt voor het doel waarvoor je hem gebruikt. Geheugen is misschien beter bestand tegen kleine aanpassingen.
Wat betreft de SMART tools: ik denk dat het het beste is de interpretatie van de fabrikant te volgen. De fabrikant heeft als het goed is meer kennis over de interne werking dan de maker van CrystalDiskInfo. De drive heeft 70TB TBW. De garantie wijst intensief gebruik af.
Voor de fouten in de logs kun je een andere data kabel proberen of een andere SATA poort.
Hij draaide als cache drive, dus (als ik het goed heb) komt alle data van het netwerk éérst op die schijf en gaat later de ZFS-pool in. (en met 1 Gbit zou de de drive dat met 2 vingers in de neus moeten aankunnen)mrmrmr schreef op vrijdag 25 november 2022 @ 19:30:
@LooneyTunes Ik zie dat de drive wel erg veel NAND hergeschreven heeft ten opzichte van de omvang van de netto data writes. Hele kleine stukjes data?
Het grootste gebruik is wekelijks bij de backups (images van Macrium)
Verder gaat het om minimaal gebruik.
Dat zou de controller toch moeten regelen? Die houdt een wear-level tabelletje bij. Toch?Dat geeft overmatige slijtage, en het gevolg zie je vermoedelijk bij de remaining liftetime die op 12% staat. Deze SSD lijkt ongeschikt voor het doel waarvoor je hem gebruikt. Geheugen is misschien beter bestand tegen kleine aanpassingen.
En helaas, het geheugen is al maximaal. Meer kan 't orgel niet aan.
Nieuwe disk er in werkt ookVoor de fouten in de logs kun je een andere data kabel proberen of een andere SATA poort.
Voor 2 tientjes zo'n zelfde schijf er in gedonderd. Kleine SSD's zijn gelukkig goedkoop.
Het aardige is dat een kloon van deze freenas server (die veel intensiever gebruikt wordt) nog geen problemen vertoont. (en ach, ze draaiden hiervoor al dik 4 jaar zonder L2ARC cache. Mocht het 'eten' van SSD's een gewoonte worden gaan ze weer gewoon zonder cache verder)
Mogelijk dat dit gewoon een maandagochtend exemplaar is. (kan ook gebeuren)
Edit:
De laatste DiskInfo maakt er helemaal een potje van:
12% en toch 'good'
[ Voor 12% gewijzigd door LooneyTunes op 27-11-2022 11:56 ]
:fill(white):strip_exif()/f/image/lzvbaO5TqEtOvo66mKtvT8yq.png?f=user_large)
Klopt deze conclusie?
Reallocated Sectors Count 62 slecht.
Current Pending Sector Count wel goed.
Raw Read Error Rate en Seek error rate slecht. Maar ik lees dat bij Seagate dat niet zoveel zegt als bij andere merken?
53 Power on Count icm 53701 hours vind ik bijzonder. Ingezet als serverdisk geweest?
[ Voor 40% gewijzigd door LaserJet op 29-11-2022 14:27 . Reden: beter screenshot ]
Ik weet niet wat die rare geluiden zijn, daar kan ik zo niet over oordelen.LaserJet schreef op maandag 28 november 2022 @ 21:24:
Deze harddisk vind ik niet alleen vrij luid qua lezen en schrijven, maar maakt af en toe ook rare geluiden. Is niet van mij, dus ik kan niet bepalen of dit geluid normaal is voor dit merk/type schijf. Kapot?
De disk is meer dan 6 jaar oud en het is een model uit 2011.
De drempelwaarde van de relocated sectors count is te hoog (=62) volgens de grens (=36) van de fabrikant . Dat is niet goed, vooral als het nog stijgende is. Tijd om vervanging te regelen.
De disk zit in een server bij een organisatie? Dan zou ik hem sowieso vervangen.
Met SeaTools kun je nog een aantal tests doen. Alleen interessant als je wil doorgaan met deze disk.
Het gaat langzamer, maar zet nog steeds door: inmiddels staat ie op 26% terwijl ik hem bewust minder belast. Gelukkig een 4TB mx500 op de kop getikt met black friday, dus ik vervang hem preventief over een paar dagen.Raymond P schreef op maandag 21 november 2022 @ 13:34:
@MrMaxedTank Ik ben benieuwd, hopelijk deel je je data over een maandje.
https://www.disktuna.com/...es-arent-always-bad-news/, ik schreef er een blogje over. Dit verhaaltje gaat ook op voor raw read en seek error rates.LaserJet schreef op maandag 28 november 2022 @ 21:24:
Deze harddisk vind ik niet alleen vrij luid qua lezen en schrijven, maar maakt af en toe ook rare geluiden. Is niet van mij, dus ik kan niet bepalen of dit geluid normaal is voor dit merk/type schijf. Kapot?
Raw Read Error Rate en Seek error rate slecht. Maar ik lees dat bij Seagate dat niet zoveel zegt als bij andere merken?
296836270 = 11B15CAEAttribute ID 7: Seek Error Rate
Monitor seeks requiring one or more retries. Exclude calibration seeks and seeks in system area.
Normalized Seek Error Rate = 10 * log10(SeekCount / SeekErrors) which is only updated when
SeekCount is in the range 106
to 109. The counts are cleared when SeekCount = 109 . (Evaluates
to a value from 1 to 100).
Raw Usage
Raw [3 – 0] = Number of seeks
Raw [5 – 4] = Number of seek errors
Seeks = 11B15CAE
Errors = 0
14763439 = E145AF[Attribute ID 1: Raw Error Rate
Normalized Raw Error Rate = 10 * log10(NumberOfSectorsTransferredToOrFromHost * 512 * 8 /
(Number of sectors requiring retries))
Where the factor of 512*8 is to convert from sectors to bits. The attribute value is only
computed when the number of bits in the "transferred bits" count is in the range 1010 to 1012
.
The counts are cleared when Number Of Bits Transferred To Or From Host > 1012.
“Number of sectors requiring retries” does not count free retry or hidden retry.
Normalized Raw Error Rate is evaluated to a number between 1 and 166.
Raw Usage
Raw [3 – 0] = Number of sector reads
Raw [6 - 4] = Number of read errors.
Reads = 00E145AF
Errors = 0
Ik hoop dat ik alle getalletjes uit screenshot goed heb overgenomen, kon leesbrilletje niet vinden ..
Joep
Het typenummer is WSD2RXTF en het is een 8TB Ironwolff ST8000VN004.mrmrmr schreef op zaterdag 7 januari 2023 @ 10:36:
@Ferret Kun je het volledige typenummer geven van de disk?
Wat zegt SeaTools Health/FixAll?
Die tool heb ik nog niet bekeken maar dat ga ik nu even doen. Kan deze tool ook schijven in het netwerk (NAS) checken of moet ik de schijf fysiek aan m'n PC hangen?
[ Voor 11% gewijzigd door Ferret op 07-01-2023 12:22 ]
Ik had dat persoonlijk al gedaan bij 472 reallocated sectors, dus een jaar geleden.Ferret schreef op zaterdag 7 januari 2023 @ 08:56:
In april vorig jaar postte ik al een afbeelding van een schijf in m'n NAS. Dat is deze afbeelding:
[Afbeelding]
Toen werd ik al gewezen op bepaalde waardes waar ik op moest letten.
Nu een afbeelding van gisteren:
[Afbeelding]
Graag hoor ik of ik actie moet ondernemen in de zin van de schijf onder garantie om te ruilen.
Joep
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
| smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-57-generic] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Seagate IronWolf
Device Model: ST4000VN008-2DR166
Serial Number: ZM419S75
LU WWN Device Id: 5 000c50 0c64b17de
Firmware Version: SC60
User Capacity: 4.000.787.030.016 bytes [4,00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5980 rpm
Form Factor: 3.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-3 T13/2161-D revision 5
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Mon Jan 16 22:02:25 2023 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 121) The previous self-test completed having
the read element of the test failed.
Total time to complete Offline
data collection: ( 591) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 651) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SCT capabilities: (0x50bd) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 075 064 044 Pre-fail Always - 95149479
3 Spin_Up_Time 0x0003 093 093 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 17
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 48
7 Seek_Error_Rate 0x000f 081 060 045 Pre-fail Always - 129422211
9 Power_On_Hours 0x0032 078 078 000 Old_age Always - 19843 (29 245 0)
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 16
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 082 082 000 Old_age Always - 18
188 Command_Timeout 0x0032 100 099 000 Old_age Always - 12885098499
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 071 052 040 Old_age Always - 29 (Min/Max 28/30)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 20
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 311
194 Temperature_Celsius 0x0022 029 048 000 Old_age Always - 29 (0 22 0 0 0)
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 19840 (223 71 0)
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 56847969068
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 183343912028
SMART Error Log Version: 1
ATA Error Count: 22 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 22 occurred at disk power-on lifetime: 19843 hours (826 days + 19 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 51 00 00 00 00 00 Error: ABRT
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
b0 d4 00 81 4f c2 00 00 00:38:54.289 SMART EXECUTE OFF-LINE IMMEDIATE
b0 d0 01 00 4f c2 00 00 00:38:54.264 SMART READ DATA
ec 00 01 00 00 00 00 00 00:38:54.257 IDENTIFY DEVICE
ec 00 01 00 00 00 00 00 00:38:54.256 IDENTIFY DEVICE
b0 d1 01 00 4f c2 00 00 00:38:51.399 SMART READ ATTRIBUTE THRESHOLDS [OBS-4]
Error 21 occurred at disk power-on lifetime: 19842 hours (826 days + 18 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 51 00 00 00 00 00 Error: ABRT
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
b0 d4 00 82 4f c2 00 00 00:09:53.087 SMART EXECUTE OFF-LINE IMMEDIATE
b0 d0 01 00 4f c2 00 00 00:09:53.046 SMART READ DATA
ec 00 01 00 00 00 00 00 00:09:53.040 IDENTIFY DEVICE
ec 00 01 00 00 00 00 00 00:09:53.039 IDENTIFY DEVICE
60 00 08 ff ff ff 4f 00 00:09:46.801 READ FPDMA QUEUED
Error 20 occurred at disk power-on lifetime: 19842 hours (826 days + 18 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 51 00 00 00 00 00 Error: ABRT
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
b0 d4 00 81 4f c2 00 00 00:09:37.343 SMART EXECUTE OFF-LINE IMMEDIATE
b0 d0 01 00 4f c2 00 00 00:09:37.307 SMART READ DATA
ec 00 01 00 00 00 00 00 00:09:37.301 IDENTIFY DEVICE
ec 00 01 00 00 00 00 00 00:09:37.300 IDENTIFY DEVICE
b0 d4 00 7f 4f c2 00 00 00:09:27.168 SMART EXECUTE OFF-LINE IMMEDIATE
Error 19 occurred at disk power-on lifetime: 19842 hours (826 days + 18 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 51 00 00 00 00 00 Error: ABRT
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
b0 d4 00 81 4f c2 00 00 00:04:15.818 SMART EXECUTE OFF-LINE IMMEDIATE
b0 d0 01 00 4f c2 00 00 00:04:15.788 SMART READ DATA
ec 00 00 00 00 00 00 00 00:04:15.782 IDENTIFY DEVICE
b0 d4 00 01 4f c2 00 00 00:03:51.585 SMART EXECUTE OFF-LINE IMMEDIATE
b0 d0 01 00 4f c2 00 00 00:03:51.558 SMART READ DATA
Error 18 occurred at disk power-on lifetime: 19281 hours (803 days + 9 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 00 28 ff ff ff 4f 00 4d+15:22:01.618 READ FPDMA QUEUED
60 00 08 ff ff ff 4f 00 4d+15:22:01.617 READ FPDMA QUEUED
60 00 08 ff ff ff 4f 00 4d+15:22:01.605 READ FPDMA QUEUED
60 00 08 ff ff ff 4f 00 4d+15:22:01.569 READ FPDMA QUEUED
60 00 08 ff ff ff 4f 00 4d+15:22:01.568 READ FPDMA QUEUED
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short captive Completed: read failure 90% 19843 -
# 2 Short offline Completed without error 00% 19843 -
# 3 Short offline Completed: read failure 90% 19843 -
# 4 Short offline Completed: read failure 90% 19843 -
# 5 Extended captive Completed: read failure 90% 19842 -
# 6 Short captive Completed: read failure 90% 19842 -
# 7 Short offline Completed: read failure 90% 19842 -
# 8 Conveyance offline Completed: read failure 90% 19842 -
# 9 Short captive Completed: read failure 90% 19842 -
#10 Short offline Completed: read failure 90% 19842 -
#11 Short offline Completed: read failure 90% 19842 -
#12 Extended offline Completed: read failure 90% 19813 -
#13 Short offline Completed: read failure 10% 19813 -
#14 Short offline Completed: read failure 90% 19803 -
#15 Short offline Completed: read failure 90% 19635 -
#16 Short offline Completed: read failure 90% 19467 -
#17 Extended offline Completed: read failure 90% 19466 -
#18 Short offline Completed: read failure 90% 19299 -
#19 Short offline Completed: read failure 90% 19131 -
#20 Short offline Completed: read failure 80% 18963 -
#21 Short offline Completed: read failure 80% 18795 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay. |
Als ik met SeaTools andere testen draai, geeft deze schijf echter geen foutmeldingen en wordt hij zelfs als gezond gemarkeerd en functioneert hij ook gewoon prima
Deze schijf zit nog t/m oktober dit jaar in garantie, dus heeft het zin een claim te starten?
Waarschuwing, opperprutser aan het werk... en als je een opmerking van mij niet snapt, klik dan hier
Antwoord op die laatste vraag lijkt mij heel makkelijk; ja, je hebt twijfels over de betrouwbaarheid en wat kan het nadeel zijn als ze de claim niet accepteren? Ik zou m gewoon aanmelden, destijds voldoende voor betaald ook...deepbass909 schreef op maandag 16 januari 2023 @ 22:05:
Ik heb een hele vage fout bij één van mijn Ironwolf schijven, namelijk dat de SMART-test direct stopt met een read failure:
code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-57-generic] (local build) Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Model Family: Seagate IronWolf Device Model: ST4000VN008-2DR166 Serial Number: ZM419S75 LU WWN Device Id: 5 000c50 0c64b17de Firmware Version: SC60 User Capacity: 4.000.787.030.016 bytes [4,00 TB] Sector Sizes: 512 bytes logical, 4096 bytes physical Rotation Rate: 5980 rpm Form Factor: 3.5 inches Device is: In smartctl database [for details use: -P show] ATA Version is: ACS-3 T13/2161-D revision 5 SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s) Local Time is: Mon Jan 16 22:02:25 2023 CET SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x82) Offline data collection activity was completed without error. Auto Offline Data Collection: Enabled. Self-test execution status: ( 121) The previous self-test completed having the read element of the test failed. Total time to complete Offline data collection: ( 591) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 1) minutes. Extended self-test routine recommended polling time: ( 651) minutes. Conveyance self-test routine recommended polling time: ( 2) minutes. SCT capabilities: (0x50bd) SCT Status supported. SCT Error Recovery Control supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 075 064 044 Pre-fail Always - 95149479 3 Spin_Up_Time 0x0003 093 093 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 17 5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 48 7 Seek_Error_Rate 0x000f 081 060 045 Pre-fail Always - 129422211 9 Power_On_Hours 0x0032 078 078 000 Old_age Always - 19843 (29 245 0) 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 16 184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0 187 Reported_Uncorrect 0x0032 082 082 000 Old_age Always - 18 188 Command_Timeout 0x0032 100 099 000 Old_age Always - 12885098499 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 071 052 040 Old_age Always - 29 (Min/Max 28/30) 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 20 193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 311 194 Temperature_Celsius 0x0022 029 048 000 Old_age Always - 29 (0 22 0 0 0) 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 19840 (223 71 0) 241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 56847969068 242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 183343912028 SMART Error Log Version: 1 ATA Error Count: 22 (device log contains only the most recent five errors) CR = Command Register [HEX] FR = Features Register [HEX] SC = Sector Count Register [HEX] SN = Sector Number Register [HEX] CL = Cylinder Low Register [HEX] CH = Cylinder High Register [HEX] DH = Device/Head Register [HEX] DC = Device Command Register [HEX] ER = Error register [HEX] ST = Status register [HEX] Powered_Up_Time is measured from power on, and printed as DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes, SS=sec, and sss=millisec. It "wraps" after 49.710 days. Error 22 occurred at disk power-on lifetime: 19843 hours (826 days + 19 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 04 51 00 00 00 00 00 Error: ABRT Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- b0 d4 00 81 4f c2 00 00 00:38:54.289 SMART EXECUTE OFF-LINE IMMEDIATE b0 d0 01 00 4f c2 00 00 00:38:54.264 SMART READ DATA ec 00 01 00 00 00 00 00 00:38:54.257 IDENTIFY DEVICE ec 00 01 00 00 00 00 00 00:38:54.256 IDENTIFY DEVICE b0 d1 01 00 4f c2 00 00 00:38:51.399 SMART READ ATTRIBUTE THRESHOLDS [OBS-4] Error 21 occurred at disk power-on lifetime: 19842 hours (826 days + 18 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 04 51 00 00 00 00 00 Error: ABRT Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- b0 d4 00 82 4f c2 00 00 00:09:53.087 SMART EXECUTE OFF-LINE IMMEDIATE b0 d0 01 00 4f c2 00 00 00:09:53.046 SMART READ DATA ec 00 01 00 00 00 00 00 00:09:53.040 IDENTIFY DEVICE ec 00 01 00 00 00 00 00 00:09:53.039 IDENTIFY DEVICE 60 00 08 ff ff ff 4f 00 00:09:46.801 READ FPDMA QUEUED Error 20 occurred at disk power-on lifetime: 19842 hours (826 days + 18 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 04 51 00 00 00 00 00 Error: ABRT Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- b0 d4 00 81 4f c2 00 00 00:09:37.343 SMART EXECUTE OFF-LINE IMMEDIATE b0 d0 01 00 4f c2 00 00 00:09:37.307 SMART READ DATA ec 00 01 00 00 00 00 00 00:09:37.301 IDENTIFY DEVICE ec 00 01 00 00 00 00 00 00:09:37.300 IDENTIFY DEVICE b0 d4 00 7f 4f c2 00 00 00:09:27.168 SMART EXECUTE OFF-LINE IMMEDIATE Error 19 occurred at disk power-on lifetime: 19842 hours (826 days + 18 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 04 51 00 00 00 00 00 Error: ABRT Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- b0 d4 00 81 4f c2 00 00 00:04:15.818 SMART EXECUTE OFF-LINE IMMEDIATE b0 d0 01 00 4f c2 00 00 00:04:15.788 SMART READ DATA ec 00 00 00 00 00 00 00 00:04:15.782 IDENTIFY DEVICE b0 d4 00 01 4f c2 00 00 00:03:51.585 SMART EXECUTE OFF-LINE IMMEDIATE b0 d0 01 00 4f c2 00 00 00:03:51.558 SMART READ DATA Error 18 occurred at disk power-on lifetime: 19281 hours (803 days + 9 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 60 00 28 ff ff ff 4f 00 4d+15:22:01.618 READ FPDMA QUEUED 60 00 08 ff ff ff 4f 00 4d+15:22:01.617 READ FPDMA QUEUED 60 00 08 ff ff ff 4f 00 4d+15:22:01.605 READ FPDMA QUEUED 60 00 08 ff ff ff 4f 00 4d+15:22:01.569 READ FPDMA QUEUED 60 00 08 ff ff ff 4f 00 4d+15:22:01.568 READ FPDMA QUEUED SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short captive Completed: read failure 90% 19843 - # 2 Short offline Completed without error 00% 19843 - # 3 Short offline Completed: read failure 90% 19843 - # 4 Short offline Completed: read failure 90% 19843 - # 5 Extended captive Completed: read failure 90% 19842 - # 6 Short captive Completed: read failure 90% 19842 - # 7 Short offline Completed: read failure 90% 19842 - # 8 Conveyance offline Completed: read failure 90% 19842 - # 9 Short captive Completed: read failure 90% 19842 - #10 Short offline Completed: read failure 90% 19842 - #11 Short offline Completed: read failure 90% 19842 - #12 Extended offline Completed: read failure 90% 19813 - #13 Short offline Completed: read failure 10% 19813 - #14 Short offline Completed: read failure 90% 19803 - #15 Short offline Completed: read failure 90% 19635 - #16 Short offline Completed: read failure 90% 19467 - #17 Extended offline Completed: read failure 90% 19466 - #18 Short offline Completed: read failure 90% 19299 - #19 Short offline Completed: read failure 90% 19131 - #20 Short offline Completed: read failure 80% 18963 - #21 Short offline Completed: read failure 80% 18795 - SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.
Als ik met SeaTools andere testen draai, geeft deze schijf echter geen foutmeldingen en wordt hij zelfs als gezond gemarkeerd en functioneert hij ook gewoon prima![]()
Deze schijf zit nog t/m oktober dit jaar in garantie, dus heeft het zin een claim te starten?
Ik had zelf eigenlijk ook de vraag of iemand eens naar mijn CrystalDisk readouts wil kijken. Gaat om 2 8TB WD schijven waarvan ik er een heb geshucked (ik weet, geen garantie, niet voor betaald ook) en in mn PC heeft gezeten en bijna 24/7 aan, dat is ook wel te zien; 4 jaar aan gestaan. Die andere heb ik enkel periodiek gebruikt om een backup te maken van de eerste, die heeft beduidend minder uren gedraaid natuurlijk. Nu heb ik recent een leuke NAS op de kop getikt en wil ik deze schijven daar in blijven gebruiken tot hun oude-dag is bereikt (een soort van Old MacDonald's Farm voor schijven haha). Maar dan is het wel fijn tussentijds te weten of er iets nu al op duidt dat een van de schijf op het randje van omvallen staat. Bij deze:


Alvast bedankt voor wie dan ook een blik op kan en wil werpen
Tesla Model 3 Performance - Tesla Model 3 Long Range - 6320Wp Oost-West
Dit zijn 3 "interessante" onderdelen van SMART:
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 48
187 Reported_Uncorrect 0x0032 082 082 000 Old_age Always - 18
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
Achteraan staat de huidige waarde. Bij deze datapunten is de grens van de fabrikant niet bereikt. Het is niet goed natuurlijk dat er fouten zijn, maar dat gebeurt wel vaker met mechanische hard disks.
Kijk eens in de Linux systeem logs of je daar ata fouten ziet.
Kijk of de waarden in SMART 5,187 en 197 oplopen als je nog een test draait. Ik zou wat andere diskcontroletools proberen om te zien of die wel verder gaan.
Seagate gebruikt bij herstel onderdelen die ze beschikbaar hebben. Dat kunnen onderdelen zijn van andere ingestuurde disks (gebruikt dus) of nieuw. Het kan een verbetering zijn, maar er is ook een kans op verslechtering.
@bokkow
Ik zie geen problemen met die SMART waarden.
Ik heb de Synology een korte SMART test laten doen. Die slaagt.
Ik heb de Synology ook een uitgebreide SMART test laten doen. Maar die blijft helaas steken op 90%. Ik vond hierover dit KB artikel, maar dat gaf me niet 1-2-3 een oplossing.
Vervolgens heb ik contact gezocht met Synology Support en daarbij de logfile opgestuurd. Synology Support heeft in de logfile gezien dat er een schrijffout (failed command: WRITE FPDMA QUEUED) was opgetreden, en adviseerde om een uitgebreide test te doen met de WD Dashboard tool.
Ik heb speciaal hiervoor een (Windows 10) PC geregeld waar de HDD in past. Een korte SMART test slaagt. Maar een uitgebreide SMART test faalt, met foutcode 7 zonder verdere info. Ik kan over deze foutcode helaas geen duidelijke info vinden.
Kan iemand vertellen wat ik kan doen om te achterhalen wat het probleem is?
Edit: Hierbij ook de info die CrystalDiskInfo geeft.
[ Voor 9% gewijzigd door jurk738 op 22-01-2023 20:19 ]
Error code 7 is een indicatie van terugsturen volgens WD.
https://support-en.wd.com...ilweb/a_id/31759#subject4
Drive Failed Test Results: The drive has failed the Short or Extended test and should not be used for data storage. Please refer to the "Warranty Replacement and Data Recovery" section of this article for options.
Behalve de C8 Write Error Rate zie ik niets bijzonders in de SMART waarden.
Je kan proberen een goede voedingskabel en een goede datakabel te gebruiken, die beide ook stevig moeten zijn aangesloten.
Ik test drives meestal voor gebruik met h2testw. Die schrijft de disk vol met data en leest het daarna terug. Zo'n test duurt lang. Na het testen kun je zien of er wijzigingen zijn geweest in de SMART waarden. De Windows' Event Viewer kun je controleren op disk gerelateerde foutmeldingen.
Het voordeel van h2testw is dat de test het data oppervlak bijna helemaal test en dat er niet zo snel wordt gestopt als er een probleem optreedt.
:fill(white):strip_exif()/f/image/oj5PpvgqzsHPhBQ7SoTAGCQY.png?f=user_large)
:fill(white):strip_exif()/f/image/e8w9pJLEYAv39uWnCILvEb4z.png?f=user_large)
[ Voor 18% gewijzigd door LankHoar op 05-02-2023 14:06 ]
When life throws you a curve, lean into it and have faith!
Iemand?LankHoar schreef op zondag 29 januari 2023 @ 16:13:
Ongeveer 1x per jaar probeer ik de gezondheid van mijn (backup) schijven te checken, om te kijken of ik (binnenkort) iets moet vervangen. Het is weer zo verBij deze dus de vraag of er iets alarmerends is te zien over de volgende 3 schijven:
[Afbeelding]
[Afbeelding]
[Afbeelding]
When life throws you a curve, lean into it and have faith!
https://www.crucial.com/s...q-ssd/ssds-and-smart-data
B4 (180) is het interessantste, dat zou het aantal ongebruikte NAND blocks aangeven, hier 39. C4 (196) is het aantal reallocation events, staat op 1. C (12) Retired NAND Blocks is ook 1. CA (202) is "Percent Lifetime Used", 9%. Dus nog 91% over.
D2 (210) RAIN is de RAID equivalent voor SSD's voor redundantie. Er zijn 12 RAIN recovery incidenten geweest.
Voor het aantal gebruiksuren is dit niet zo goed, maar er is vooralsnog geen ernstig probleem zichtbaar.
De unexpected power loss kan beter zoals @Funga aanhaalt wat lager worden door de computer netjes af te sluiten, d.w.z. geen stekker eruit trekken. Dat is voor een SSD zonder buffer niet goed.
download: CrystalDiskInfo 8.17.14
91% lifetime over is best goed imo, gezien ik de SSD zo'n 2 jaar heb zou dat betekenen dat deze langer mee gaat dan ik de PC zelf denk te gebruiken
@chim0 ik had versie .13 en heb nu versie .14 gedowload van de website. Nieuwe screenshots zitten in mijn oorspronkelijke post
When life throws you a curve, lean into it and have faith!
bcdedit /set {bootmgr} bootshutdowndisabled 1
Bron
Ik weet niet of dat het probleem oplost.
De kans hierop is echter klein en het kan honderden keren goed gaan en één keer heb je wat verdwenen files of directories bij een filesystem check. Dat is ongeveer hoe het werkt. Of een dode SSD als de firmware in de strik raakt bij een inconsistente FTL.Dat wil zeggen dat de index of metadata niet meer overeenkomst met de data, omdat ze van tijd verschillen. Normaliter zijn er mechanismes die hiertegen beschermen. Maar vaak werkt een SSD goed bij normaal gebruik en zijn het de corner cases die firmware bugs opleveren. Dit is zo'n geval: unclean shutdowns leiden tot obscure firmware bugs die alleen jij hebt op 30 miljoen gebruikers. Leuk!
Dus: backuppen van je SSD kan prima, zorg dat je dat regelt. Geautomatiseerd en liefst met snapshots zodat je een 'timemachine' achtige ervaring hebt.
@LankHoar Je MX500 lijkt één erase block beschadigd te hebben (vaak rond de 1MB dus no big deal maar wel mogelijk corruptie) - je hebt 9% van je endurance opgebrand dus nog 91% over. De SSD wordt beneden 50% wel iets minder betrouwbaar, maar bij 0% is de betrouwbaarheid nog 'acceptabel'. Daaronder blijft de SSD werken maar is corruptie/stabiliteit lager dan de fabrieksspecificatie en geldt het officieel als failed/replace.
[ Voor 15% gewijzigd door Funga op 06-02-2023 18:21 ]
Top, ik heb dit nu uitgezetmrmrmr schreef op zondag 5 februari 2023 @ 20:20:
Hiermee zet je shutdown bij booten uit.
bcdedit /set {bootmgr} bootshutdowndisabled 1
Bron
Ik weet niet of dat het probleem oplost.
Heldere uitleg, dank! Zeker interessant om te lezen, nu heb ik weer wat geleerd over hoe een SSD werktFunga schreef op maandag 6 februari 2023 @ 18:02:
Een SSD moet een STANDBY IMMEDIATE commando ontvangen voordat het stroom verliest. Tenzij het eigen capacitors heeft op het PCB - vaak de zakelijke modellen - die zeer kortstondig tegen stroomverlies kunnen beschermen, door in elk geval de huidige schrijfbewerking te voltooien. Indien de stroom wordt onderbroken tijdens het schrijven, kan er significante schade optreden zowel fysiek als een inconsistency met de translatielaag die FTL wordt genoemd. Die wordt bijgehouden door de controller firmware en kan op de achtergrond taken verrichten zoals garbarge control. Dit betekent dat ook wanneer je in het BIOS zit, er een schrijfbewerking als 'achtergrond I/O' plaatsvindt op dat moment. Dit kan bij een consumenten SSD dus een gevaar opleveren voor fysieke beschadiging of corruptie/verlies van je data.
De kans hierop is echter klein en het kan honderden keren goed gaan en één keer heb je wat verdwenen files of directories bij een filesystem check. Dat is ongeveer hoe het werkt. Of een dode SSD als de firmware in de strik raakt bij een inconsistente FTL.Dat wil zeggen dat de index of metadata niet meer overeenkomst met de data, omdat ze van tijd verschillen. Normaliter zijn er mechanismes die hiertegen beschermen. Maar vaak werkt een SSD goed bij normaal gebruik en zijn het de corner cases die firmware bugs opleveren. Dit is zo'n geval: unclean shutdowns leiden tot obscure firmware bugs die alleen jij hebt op 30 miljoen gebruikers. Leuk!
Dus: backuppen van je SSD kan prima, zorg dat je dat regelt. Geautomatiseerd en liefst met snapshots zodat je een 'timemachine' achtige ervaring hebt.
@LankHoar Je MX500 lijkt één erase block beschadigd te hebben (vaak rond de 1MB dus no big deal maar wel mogelijk corruptie) - je hebt 9% van je endurance opgebrand dus nog 91% over. De SSD wordt beneden 50% wel iets minder betrouwbaar, maar bij 0% is de betrouwbaarheid nog 'acceptabel'. Daaronder blijft de SSD werken maar is corruptie/stabiliteit lager dan de fabrieksspecificatie en geldt het officieel als failed/replace.
In mijn geval back ik mijn OS (SS) schijf nooit op, gezien ik enkel dingen opsla op mijn HDD. Wel is er dan nog de kans op schade (die er al deels is), dus hopelijk helpt het disablen van shutdown tijdens boot hierbij. We gaan het zien, zal over een tijdje nog eens kijken of die waarde nog steeds zo oploopt of niet.
When life throws you a curve, lean into it and have faith!
FW update zelf gedaan?Jazco2nd schreef op maandag 19 september 2022 @ 20:17:
Hoe interpreteer ik deze informatie als dit alles is wat ik heb? Ik ben gewend aan de kolommen "current", "value", "worst" maar krijg nu alleen dit doorgestuurd en wil weten of de drive nog enigszins als nieuw is. Qua bedrijfsuren, lijkt het wel goed te zijn.
Ik kan alleen nergens vinden hoe ik zulke hexadecimale waarden moet interpreteren?
Samsung PM9A1 m.2 SSD:
[Afbeelding]
|| Solar 7.4kwp oostwest + 850wp zuid + Deye 12K-SG04LP3-EU + 50kWh LiFePo4 || EHVX08S23EJ9W + ERGA06EAV3H ||
Ik vroeg me af, hoe erg zijn deze fouten, en wanneer vervang ik de schijf? Nu meteen, of wacht ik tot mijn maandelijkse scrub fouten detecteert?
Ik heb twee offsite backups, dus de data zelf is niet echt in gevaar.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
| smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.1.9-200.fc37.x86_64] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Western Digital Green
Device Model: WDC WD30EZRX-00D8PB0
Serial Number:
LU WWN Device Id:
Firmware Version: 80.00A80
User Capacity: 3,000,592,982,016 bytes [3.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5400 rpm
Device is: In smartctl database 7.3/5319
ATA Version is: ACS-2 (minor revision not indicated)
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Mon Feb 13 23:15:42 2023 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 121) The previous self-test completed having
the read element of the test failed.
Total time to complete Offline
data collection: (40860) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 410) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x7035) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 4
3 Spin_Up_Time 0x0027 184 174 021 Pre-fail Always - 5783
4 Start_Stop_Count 0x0032 095 095 000 Old_age Always - 5556
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 066 066 000 Old_age Always - 25435
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 098 098 000 Old_age Always - 2946
192 Power-Off_Retract_Count 0x0032 199 199 000 Old_age Always - 820
193 Load_Cycle_Count 0x0032 046 046 000 Old_age Always - 464064
194 Temperature_Celsius 0x0022 117 105 000 Old_age Always - 33
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 2
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 2
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 1
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed: read failure 90% 25402 82405656
# 2 Short offline Completed without error 00% 23715 -
# 3 Extended offline Interrupted (host reset) 90% 23701 -
# 4 Short offline Completed without error 00% 23691 -
# 5 Short offline Completed without error 00% 23667 -
# 6 Short offline Completed without error 00% 23643 -
# 7 Short offline Completed without error 00% 23619 -
# 8 Short offline Completed without error 00% 23595 -
# 9 Short offline Completed without error 00% 23586 -
#10 Short offline Completed without error 00% 23547 -
#11 Short offline Completed without error 00% 23524 -
#12 Short offline Completed without error 00% 23500 -
#13 Short offline Completed without error 00% 23476 -
#14 Short offline Completed without error 00% 23452 -
#15 Short offline Completed without error 00% 23428 -
#16 Short offline Completed without error 00% 23404 -
#17 Short offline Completed without error 00% 23380 -
#18 Short offline Completed without error 00% 23360 -
#19 Short offline Completed without error 00% 23332 -
#20 Short offline Completed without error 00% 23308 -
#21 Short offline Completed without error 00% 23284 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay. |
Niet - hierom gebruik je ZFS.Houbie schreef op maandag 13 februari 2023 @ 23:19:
Ik draai een zfs raidz2 pool, waarvan 1 van de vijf schijven fouten geeft. Voorlopig geeft scrubben geen fouten.
Ik vroeg me af, hoe erg zijn deze fouten, en wanneer vervang ik de schijf?
Een legacy filesystem gaat plat op deze manier. Legacy RAID gaat ook heel snel plat omdat één bad sector kan betekenen dat de hele schijf als 'FAILED' wordt gezien en uit de raid set wordt geflikkerd. Daarom dat normaal RAID met dit soort schijven eigenlijk niet meer te doen is.
Zolang je redundancy hebt met raid-z, mirror of op filesystem-niveau gebruik maakt van copies=2, heb je bescherming. ZFS scrub zal een bad sector tegenkomen en het systeem blokkeert even, je krijgt errors in je log en daarna wordt het door de self-healing feature automatisch gecorrigeerd. Althans de integriteit van het ZFS filesystem wordt hersteld - je hardeschijf kan met de bad sector blijven zitten totdat deze wordt overschreven. Omdat ZFS een copy-on-write filesystem is, kan dat best even duren. Dus het kan zijn dat je bad sectors hebt, en je scrub toch helemaal in orde lijkt. Dan bevindt de bad sector zich op een plek die niet in gebruik is door ZFS. Op het moment dat ZFS die sector wil gebruiken door ernaar te schrijven, verdwijnt de bad sector direct. De hardeschijf zal deze vervangen voor een reservesector indien beschadigd (Reallocated Sector Count). Maar veel vaker is er geen fysieke schade en heeft je hardeschijf te weinig errorcorrectie om de sector nog foutvrij te kunnen uitlezen. Overschrijf met nieuwe data en de sector is weer prima te gebruiken. Geen fysieke schade dus maar zoals aangegeven door de fabrikant valt dit under uncorrectable Bit Error Rate.
Je schijf heeft nu twee pending sectors, dus nog twee bad sectors. Als je scrub geen problemen geeft dan kun je eens proberen de hele pool vol te schrijven met nepdata en dan te verwijderen. Dan zouden de bad sectors overschreven moeten zijn. Maar dat doe je alleen als het je dwarszit - er is niets mis op het moment mits je scrub prima is. Met RAID-Z2 heb je ook dubbelvoudige parity protection dus zelfs als er op een andere schijf precies op het verkeerde plekje ook een bad sector zit, dan nog ben je 100% beschermd. Er moeten dus drie schijven op precies de verkeerde plek een bad sector hebben, om je bescherming te doorbreken. Gaat niet snel gebeuren. Maar als twee schijven uitvallen en je je redundancy verliest, dan is het wel oppassen met bad sectors. Gaat het mis dan zul je corruptie krijgen en verlies je toegang tot één of meerdere bestanden. Leuke is wel dat je precies kunt zien welke bestanden met sudo zpool status -v.
P.S. je schijf doet wel heel veel aan headparking (464064 keer, meestal is 600.000 de max) dus mechanisch slijt je schijf hier wel door. Je kunt het uitzetten met APM instelling op 254 en via wat utilities. Headparking is anders dan spindown. Het voordeel van headparking is iets lagere idle power consumption en bescherming tegen schokken/stoten op het moment dat de kop geparkeerd is.
De disk heeft wel wat foute plekken, maar de drive herstelt die zelf. Wat je extra kan doen is een sector image van de disk maken en vervolgens de hele disk volschrijven en teruglezen, dat zorgt ervoor dat meer van die slechte plekken worden gevonden en niet meer worden gebruikt. Na de test kun je de image terugzetten.
'Quick disk tests' falen al bij voorbaat omdat het niet alles test. F3 schijnt wel volledig te kunnen testen. Ik gebruik meestal een Windows tool h2testw, maar dat is voor NTFS en FAT.
Hey,mrmrmr schreef op dinsdag 14 februari 2023 @ 10:49:
@Houbie Was dit een externe drive? Op Linux forums zie je vaak rigoureuze adviezen die suggereren alle apm functies uit te zetten, dat is niet slim.
De disk heeft wel wat foute plekken, maar de drive herstelt die zelf. Wat je extra kan doen is een sector image van de disk maken en vervolgens de hele disk volschrijven en teruglezen, dat zorgt ervoor dat meer van die slechte plekken worden gevonden en niet meer worden gebruikt. Na de test kun je de image terugzetten.
'Quick disk tests' falen al bij voorbaat omdat het niet alles test. F3 schijnt wel volledig te kunnen testen. Ik gebruik meestal een Windows tool h2testw, maar dat is voor NTFS en FAT.
Het gaat over een interne schijf (ik weet niet of ze ooit geshucked is geweest). Draait in dit systeem: inventaris: Server
Wat raad je zelf aan? Rustig mn pool verder gebruiken en ZFS zijn werk laten doen, of toch wel echt eens heel de schijf volschrijven?
Kan je niet de schijven 'behandelen' met WDidle3?Funga schreef op dinsdag 14 februari 2023 @ 01:37:
P.S. je schijf doet wel heel veel aan headparking (464064 keer, meestal is 600.000 de max) dus mechanisch slijt je schijf hier wel door. Je kunt het uitzetten met APM instelling op 254 en via wat utilities. Headparking is anders dan spindown. Het voordeel van headparking is iets lagere idle power consumption en bescherming tegen schokken/stoten op het moment dat de kop geparkeerd is.
Ik had hier ooit WD-greens draaien die na 5! seconden al in headpark gingen (niet lekker met Freenas).
Op 5 minuten gezet en het systeem werd een stuk rustiger.
Dat is eigen voorkeur. Het nadeel is dat je de data backupt en terugzet en daar kan ook wat mee mis gaan. Het voordeel is dat je de hele disk test en zo een aantal mogelijke problemen voorkomt. Ik weet niet wat ik zelf zou kiezen met ZFS.
Het idee van @Funga om de disk terwijl ZFS actief is vol te schrijven met data heeft ook voordelen, maar dat test alleen de vrije ruimte. Misschien kan je daarbij ook F3 gebruiken, dat zou ik eerst controleren dat het op bestandsniveau werkt en niet met low level disk toegang. Ik heb die tool zelf nog niet gebruikt.
Bedankt voor de info. Dan ga ik het zo laten, en de schijf wat in de gaten houden de komende maanden denk ik.mrmrmr schreef op dinsdag 14 februari 2023 @ 11:19:
@Houbie
Dat is eigen voorkeur. Het nadeel is dat je de data backupt en terugzet en daar kan ook wat mee mis gaan. Het voordeel is dat je de hele disk test en zo een aantal mogelijke problemen voorkomt. Ik weet niet wat ik zelf zou kiezen met ZFS.
Het idee van @Funga om de disk terwijl ZFS actief is vol te schrijven met data heeft ook voordelen, maar dat test alleen de vrije ruimte. Misschien kan je daarbij ook F3 gebruiken, dat zou ik eerst controleren dat het op bestandsniveau werkt en niet met low level disk toegang. Ik heb die tool zelf nog niet gebruikt.
/f/image/Ve9DfLpEUSal8ysG1txJkDOf.png?f=fotoalbum_large)
/f/image/4L9LwGj1271WYUDFLBJD8T6u.png?f=fotoalbum_large)
[ Voor 3% gewijzigd door DVX73 op 19-02-2023 11:27 ]
Je kan de hele disk testen met software zoals F3 (Linux) of h2testw (vanuit Windows). Die test vanuit gebruikersniveau door de disk nagenoeg vol te schrijven en terug te lezen.
@DVX73 Aan zulke tests die niets zinnigs terugrapporteren heb je niet veel inderdaad.
Kun je Linux of BSD opdrachten uitvoeren vanaf de command line (onder root)? Probeer dan eens de smartctl tool en een complete hard disk test met F3.
Is het mogelijk dat een Current_Pending_Sector verdwijnt? Ik ben de hele raid aan het volschrijven en nu zie ik dit in de SMART van dezelfde HDD:mrmrmr schreef op maandag 20 februari 2023 @ 13:53:
@Lucleo De SMART waarden zijn normaal. Er is 1 slecht plekje gevonden dat nog hersteld moet worden. De data wordt dan naar een andere locatie verplaatst.
Je kan de hele disk testen met software zoals F3 (Linux) of h2testw (vanuit Windows). Die test vanuit gebruikersniveau door de disk nagenoeg vol te schrijven en terug te lezen.
Fabrikanten zijn niet altijd open over wat ze precies doen. Ik zou zelf een schrijf en terugleestest uitvoeren. Ik heb gemerkt dat dat effectiever is dan het gebruik van tools van fabrikanten.
Of het slechte stukje is herschreven en de schijf heeft geen fouten meer gevonden bij het uitlezen, en zodoende bad sector promotie gegeven naar good sectormrmrmr schreef op dinsdag 21 februari 2023 @ 21:30:
@Lucleo De firmware bepaalt wat er gebeurt. Door ingebedde SMART tools te gebruiken kan die in principe doen wat ze bij WD hebben bedacht. Ik vermoed dat het is opgelost door het slechte stukje over te slaan, maar dat de Reallocated Sector Count niet is geupdate.
Fabrikanten zijn niet altijd open over wat ze precies doen. Ik zou zelf een schrijf en terugleestest uitvoeren. Ik heb gemerkt dat dat effectiever is dan het gebruik van tools van fabrikanten.
Dat kan ook, maar als het een fysieke slechte plek is (lees: kans op herhaling), is dat geen goede oplossing.vrilly schreef op woensdag 22 februari 2023 @ 10:45:
[...]
Of het slechte stukje is herschreven en de schijf heeft geen fouten meer gevonden bij het uitlezen, en zodoende bad sector promotie gegeven naar good sector
De temperatuur speelt een rol, dus de vraagsteller zou bij de temperatuur dat fouten optraden kunnen testen met de user level test die ik aanraadde.
Ja dat precies hoe het werkt.Lucleo schreef op dinsdag 21 februari 2023 @ 21:03:
[...]
Is het mogelijk dat een Current_Pending_Sector verdwijnt? Ik ben de hele raid aan het volschrijven en nu zie ik dit in de SMART van dezelfde HDD:
Onleesbare sector = Current Pending Sector
Overschrijf je deze sector, dan gebeurt er het volgende:
- Bij fysieke schade wordt de sector omgewisseld voor een reservesector. De Reallocated Sector Count gaat dan met één omhoog (de raw value). De Current Pending Sector verdwijnt (richting 0).
- In vrijwel alle gevallen gaat het niet om fysieke schade maar om te weinig errorcorrectie; de ECC kan het niet meer corrigeren. Dat wordt ook wel Bit Error Rate (BER) genoemd en bij consumentenschijven met hoge dichtheid is dit supernormaal. Juist daarom wil je ZFS omdat deze prima om kan gaan met af en toe een onleesbare sector. Indien deze wordt overschreven dan verdwijnt de bad sector, Current Pending Sector wordt verlaagd richting 0 (de raw value) en Reallocated Sector Count blijft ongewijzigd. Je ziet nu aan de SMART niet meer dat er een bad sector is geweest. Die bestaat ook niet meer.
Schijf vervangen is onzin; alle consumentenschijven hebben een gespecificeerde uBER van zo'n 10^-14. Met de huidige capaciteiten betekent dit dat je op elke consumentenschijf binnen zijn levensduur pending sectors gaat krijgen. Meestal merk je dit niet; de meeste pending sectors bevinden zich in sectoren die niet in gebruik zijn. Omdat deze zeer lang geleden zijn beschreven, is de kans dat deze onleesbaar worden ook groter. Data die recent is geschreven, heeft minder grote kans om onleesbaar te worden. De signal-to-noise ratio neemt dus af met de tijd. Sommige sectoren duiken onder de tolerantiegrens die ECC errorcorrectie kan corrigeren. Dan heb je dus een bad sector, maar zonder fysieke schade. De hardeschijf is prima. Hij functioneert binnen de specificaties zoals opgegeven door de fabrikant. Bad sectors zijn dus normaal. Gebruik een modern filesystem!
De bedoelding is dat er data voor plex op komt, films, series. (niet perse kritiek).


[ Voor 6% gewijzigd door kaasaanfiets op 07-03-2023 14:09 ]
[ Voor 3% gewijzigd door Funga op 08-03-2023 09:33 ]

Wat is jullie advies op basis van deze gegevens? HDD is circa 6-8 jaar oud.
De 2e identieke HDD lijkt er beter aan toe te zijn:
[ Voor 26% gewijzigd door vandermark op 08-03-2023 18:39 ]
STRAVA | Panasonic 5kW J Monoblock
OK! Dat is duidelijke taal. Direct vervangen dus is advies?Funga schreef op donderdag 9 maart 2023 @ 22:56:
1e schijf is hartstikke rot, 2e is prima.
STRAVA | Panasonic 5kW J Monoblock
Het zijn Seagate 2.5" disks.
Je hebt in je SMART gegevens 65.535 staan bij reported uncorrectable errors. Dat is een herkenbaar 16bits getal. In hexadecimale notatie is dat 0xFFFF, het hoogste getal binnen de ruimte van 16 bits. Het zou een overflow kunnen zijn, of deze data is corrupt. Als het een overflow is, dan gaat het over relatief veel data die verloren is gegaan.
Een groeiende Current Pending Sector is indicatief voor een falende schijf. Wat je kan doen is:
• alle data op de schijf veiligstellen (backup maken en verifiëren).
• de schijf leegmaken en helemaal volschrijven en teruglezen. h2testw is een tool die dat kan onder Windows. Deze test duurt heel lang, maar het is de enige manier om alles te testen.
Zodoende spoor je alle slechte plekken op. Vaak eindigen "current pending sectors" in reallocated sector count. Soms worden ze toch nog hersteld en dan verdwijnen ze na een tijd. Hoe dan ook, de schijf is verdacht of slecht.
In de praktijk ben ik nog geen data kwijt. Ik ga voor de zekerheid deze schijf vervangen. Twijfel of ik er dan niet direct een 4tb SSD voor in de plaats zal nemen.mrmrmr schreef op zaterdag 11 maart 2023 @ 20:07:
@vandermark
Het zijn Seagate 2.5" disks.
Je hebt in je SMART gegevens 65.535 staan bij reported uncorrectable errors. Dat is een herkenbaar 16bits getal. In hexadecimale notatie is dat 0xFFFF, het hoogste getal binnen de ruimte van 16 bits. Het zou een overflow kunnen zijn, of deze data is corrupt. Als het een overflow is, dan gaat het over relatief veel data die verloren is gegaan.
Een groeiende Current Pending Sector is indicatief voor een falende schijf. Wat je kan doen is:
• alle data op de schijf veiligstellen (backup maken en verifiëren).
• de schijf leegmaken en helemaal volschrijven en teruglezen. h2testw is een tool die dat kan onder Windows. Deze test duurt heel lang, maar het is de enige manier om alles te testen.
Zodoende spoor je alle slechte plekken op. Vaak eindigen "current pending sectors" in reallocated sector count. Soms worden ze toch nog hersteld en dan verdwijnen ze na een tijd. Hoe dan ook, de schijf is verdacht of slecht.
STRAVA | Panasonic 5kW J Monoblock
Deze jongen gaf begin deze week opeens aan 4 reallocs te hebben. Daarom heb ik gisteravond/vannacht een extended SMART laten draaien via het WD Dashboard, en het zijn er nu 14. Kan dat zijn omdat de extended SMART wat slechte waarden heeft gevonden, of is deze schijf toch het einde aan het naderen?
and thanks for all the fish.
Ja, sorry dat lijkt me een beetje kort door de bocht allemaal.In vrijwel alle gevallen gaat het niet om fysieke schade maar om te weinig errorcorrectie; de ECC kan het niet meer corrigeren. Dat wordt ook wel Bit Error Rate (BER) genoemd en bij consumentenschijven met hoge dichtheid is dit supernormaal. Juist daarom wil je ZFS omdat deze prima om kan gaan met af en toe een onleesbare sector.
Nee dat is het niet. ECC is zodanig 'ontworpen' voor de specifieke situatie waarbij wel afweging wordt gemaakt tussen te verwachten fouten en de 'cost', dat het in principe altijd kan corrigeren en op het moment dat dit niet het geval is, is er een probleem. Dus ja, drives passen veelvuldig ECC correctie toe (net zoals SSD's trouwens) dus dat is normaal, maar dat een read 'aan de lopende band' zoveel bit errors oplevert dat ECC correctie tekortschiet is niet normaal en al helemaal niet super normaal.In vrijwel alle gevallen gaat het niet om fysieke schade maar om te weinig errorcorrectie; de ECC kan het niet meer corrigeren. Dat wordt ook wel Bit Error Rate (BER) genoemd en bij consumentenschijven met hoge dichtheid is dit supernormaal.
Met 'ontworpen' toegepast op situatie bedoel ik dat je voor een bepaald algoritme kiest als je 'burst errors' verwacht, en een ander algoritme wanneer je bijvoorbeeld meer random bitflips verwacht bijvoorbeeld. Daarbij is van belang dat sterkere detectie en correctie meer kost aan ruimte en eventueel rekenkracht, het is dus een balanceer act. Wanneer een drive aan de lopende band niet corrigeerbare bit errors oplevert koopt niemand dat ding. Dus aan de fabrikant om de optimale balans te vinden:de gemiddelde gebruiker wil een betrouwbare, maar ook een betaalbare drive.
Een sector die niet gelezen kan worden is een sector die niet gelezen kan worden. De drive zal dus een UNC rapporteren. Daar gaat ZFS wat precies aan veranderen?Juist daarom wil je ZFS omdat deze prima om kan gaan met af en toe een onleesbare sector.
Ik ben geen wiskundige o.i.d. maar dat betekent dat volgens mij dus helemaal niet. Je schrijft het op alsof er een garantie op een 'uBER' is wanneer je 12.5 TB leest en dat is natuurlijk niet zo, dat is niet wat de door de fabrikant opgegeven waarde betekent.Schijf vervangen is onzin; alle consumentenschijven hebben een gespecificeerde uBER van zo'n 10^-14. Met de huidige capaciteiten betekent dit dat je op elke consumentenschijf binnen zijn levensduur pending sectors gaat krijgen
Maar dat terzijde. MS heeft ooit een onderzoek gedaan waarbij ze 2 PB data lezen van goedkope hard drives en constateren 5 read errors. Dat zijn dus uncorrectable errors waarbij de ECC niet opgewassen is tegen aantal bit errors. Dat zouden er 112 moeten zijn geweest volgens de statistiek opgegeven door de fabrikant.
Het is natuurlijk zo dat read errors veelal geen incidenten zijn maar gevolg van een 'wrakke' schijf, een 'maandag ochtend model' waar als daar een serie fouten optreedt het gemiddelde voor een batch aan schijven die je test omhoog gaat, terwijl wanneer je een goede schijf treft je makkelijk 100 TB zonder fouten lezen kunt. MS testte ook in batches, en zo was een batch waar 756 TB gelezen werd read error vrij. Dat hadden er vlgs. de 1 per 12.5 TB formule zo'n 60 moeten zijn.
Nog zo iets: veel lezen is de schijf veel gelegenheid bieden om onbetrouwbare sectoren te vinden en op voorhand te re-mappen en het zou dus zo kunnen zijn dat op een schijf met veel cold data op den duur meer fouten kunnen optreden.
Afijn, zo zijn er allerlei bezwaren te bedenken tegen de 1 niet corrigeerbare bit error per 12.5 TB mythe.
[ Voor 10% gewijzigd door Stanton op 16-03-2023 17:27 ]
Joep
Er zijn 2 strategieën.Zalmanman schreef op woensdag 15 maart 2023 @ 19:42:
Ik heb hier een 4TB WD Blue: uitvoering: WD Blue 3,5" (CMR, 64MB cache, 5400rpm), 4TB
Deze jongen gaf begin deze week opeens aan 4 reallocs te hebben. Daarom heb ik gisteravond/vannacht een extended SMART laten draaien via het WD Dashboard, en het zijn er nu 14. Kan dat zijn omdat de extended SMART wat slechte waarden heeft gevonden, of is deze schijf toch het einde aan het naderen?
[Afbeelding]
1. Houdt het in de gaten.
2. Zero tolerance.
Ik ga meestal voor 2. De schijven gebruik ik dan slechts nog voor tests, niet voor OS of data.
Joep
Ik heb er niet veel verstand van, maar ik heb in mijn server 3x WD 4TB schijven van een paar oud, die in JBOD draaien (dus als 1 schijf van 12GB zijnde in Windows). Deze is puur voor data opslag (backups zijn aanwezig). Ik zie dat er 2 schijven zijn die een foutmelding geven. Verder merk ik er niets van. Moet ik daar (dringend) iets mee? Of gewoon lekker zo laten totdat 1 het begeeft? Volgens mij had ik deze fout een jaar geleden ook al.
:no_upscale():strip_icc():fill(white):strip_exif()/f/image/Ql7OHdy7ByxgYXlfU4zxVcgX.jpg?f=user_large)
:no_upscale():strip_icc():fill(white):strip_exif()/f/image/BFD5M47alZonnhxkspUXFo33.jpg?f=user_large)
Alvast bedankt.
Grote Enphase topic • IQ Gateway uitlezen • PVOutput
PV 10,7kWp O/W • WP Panasonic KIT-WC07K3E5 7kW • Airco ME MSZ HR50VF 5kW • Gasloos per 11-2023
Joep
Alvast bedankt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
| smartctl 7.3 2022-02-28 r5338 [x86_64-linux-5.15.102-1-MANJARO] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Western Digital Green
Device Model: WDC WD50EZRX-00MVLB1
Serial Number: WD-WX11DA40HJ3E
LU WWN Device Id: 5 0014ee 26096c8cf
Firmware Version: 80.00A80
User Capacity: 5.000.981.078.016 bytes [5,00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5700 rpm
Device is: In smartctl database 7.3/5319
ATA Version is: ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Thu Mar 23 14:32:01 2023 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (62400) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 623) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x3035) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 229 187 021 Pre-fail Always - 7508
4 Start_Stop_Count 0x0032 098 098 000 Old_age Always - 2869
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 2031
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 098 098 000 Old_age Always - 2869
192 Power-Off_Retract_Count 0x0032 198 198 000 Old_age Always - 1856
193 Load_Cycle_Count 0x0032 186 186 000 Old_age Always - 44230
194 Temperature_Celsius 0x0022 112 099 000 Old_age Always - 40
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay. |
Heb de disk vervangen ondertussen, maar was toch even nieuwsgierig:mrmrmr schreef op maandag 20 februari 2023 @ 13:53:
...
@DVX73 Aan zulke tests die niets zinnigs terugrapporteren heb je niet veel inderdaad.
Kun je Linux of BSD opdrachten uitvoeren vanaf de command line (onder root)? Probeer dan eens de smartctl tool en een complete hard disk test met F3.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
| smartctl 7.3 2022-02-28 r5338 [x86_64-linux-5.15.102-1-MANJARO] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Western Digital Red
Device Model: WDC WD60EFRX-68L0BN1
Serial Number: WD-WX11D168PEAY
LU WWN Device Id: 5 0014ee 262ef6c80
Firmware Version: 82.00A82
User Capacity: 6.001.175.126.016 bytes [6,00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5700 rpm
Device is: In smartctl database 7.3/5319
ATA Version is: ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 1.5 Gb/s)
Local Time is: Thu Mar 23 15:29:47 2023 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 249) Self-test routine in progress...
90% of test remaining.
Total time to complete Offline
data collection: ( 7604) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 729) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x303d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 81
3 Spin_Up_Time 0x0027 244 197 021 Pre-fail Always - 6791
4 Start_Stop_Count 0x0032 097 097 000 Old_age Always - 3192
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 061 061 000 Old_age Always - 28843
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 1259
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 61
193 Load_Cycle_Count 0x0032 197 197 000 Old_age Always - 10043
194 Temperature_Celsius 0x0022 120 104 000 Old_age Always - 32
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed: read failure 70% 28843 3131089377
# 2 Short offline Completed: read failure 70% 28817 3131089377
# 3 Extended offline Completed: read failure 10% 28744 3131089377
# 4 Short offline Completed: read failure 60% 28672 3131089377
# 5 Short offline Completed: read failure 70% 28302 3131089377
# 6 Short offline Completed without error 00% 27559 -
# 7 Short offline Completed without error 00% 26815 -
# 8 Short offline Completed without error 00% 26096 -
# 9 Short offline Completed without error 00% 25352 -
#10 Short offline Completed without error 00% 24652 -
#11 Short offline Completed without error 00% 24046 -
#12 Short offline Completed without error 00% 23303 -
#13 Short offline Completed without error 00% 22588 -
#14 Short offline Completed without error 00% 21845 -
#15 Short offline Completed without error 00% 21125 -
#16 Short offline Completed without error 00% 20383 -
#17 Short offline Completed without error 00% 19712 -
#18 Short offline Completed without error 00% 18998 -
#19 Short offline Completed without error 00% 18255 -
#20 Short offline Completed without error 00% 17536 -
#21 Short offline Completed without error 00% 16791 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay. |
In de SMART data zie ik niets raars, maar in de self-tests wel.
Dit geldt voor alle schijven van hoge dichtheid. Het is ook geen defect, het valt binnen de fabrieksspecificatie.
Vervangen is onnodig en onwenselijk. Iedere schijf gaat dit (statistisch gezien gemiddeld) meemaken gedurende zijn levensduur.
Pending sectoren kunnen vaak opduiken als je scans draait of tests doet, zoals inderdaad zo'n SMART self-test zoals jij hebt gedaan. Daarbij worden ook sectoren gelezen die niet in gebruik zijn en lange tijd niet zijn beschreven of misschien wel nooit (sinds die uit de fabriek is gekomen). Dan is het zeer logisch dat er een paar na lange tijd onleesbaar worden omdat de electromagnetische lading afneemt en daarme de Signal-to-Noise ratio. De errorcorrectie kan dit op een moment niet meer corrigeren en dus wordt het een onleesbare sector. Maar zonder dat er schade is aan de hardeschijf dus. Dit is volkomen normaal en wordt ook opgegeven door de specificaties van de fabrikant.
Als je het mij vraagt totale onzin deze schijf te vervangen. Je zou veel beter een test op filesystem niveau kunnen doen. Dit test alleen sectoren die daadwerkelijk beschreven en dus in gebruik zijn. De sectoren die niet in gebruik zijn worden overgeslagen. Zouden zich daar onleesbare sectoren voordoen, dan verdwijnen die direct zodra ze beschreven worden. Dat is ook gebeurd in jouw geval, want Current Pending Sector is 0, Reallocated Sector Count is 0 en toch heb je in het verleden een pending sector gehad. Dus die sector is ooit overschreven en daarmee verdwenen. Omdat de sector niet is omgewisseld is er geen fysieke schade dus de hardeschijf was prima in orde. Zonde om te vervangen IMO...
Dus je moet schijven ook gebruiken. Lege schijven gaan stuk?Funga schreef op donderdag 23 maart 2023 @ 22:13:
Daarbij worden ook sectoren gelezen die niet in gebruik zijn en lange tijd niet zijn beschreven of misschien wel nooit (sinds die uit de fabriek is gekomen). Dan is het zeer logisch dat er een paar na lange tijd onleesbaar worden omdat de electromagnetische lading afneemt en daarme de Signal-to-Noise ratio.
Interessant om te weten.
Doen HDDs ook aan wear-levelling?
Signatures zijn voor boomers.
Nee niet stuk, maar wel tijdelijk onleesbaar.Maasluip schreef op vrijdag 24 maart 2023 @ 08:12:
[...]
Dus je moet schijven ook gebruiken. Lege schijven gaan stuk?
Dit is hoe het werkt:
- Je hardeschijf komt uit de fabriek waar deze een standaardtest ondergaat; alle sectoren zijn dan al beschreven en je krijgt een hardeschijf met alle sectoren als nullen beschreven. De schijf is dan 'leeg'.
- Je gaat de schijf in gebruik nemen, dus je gaat schrijven naar de schijf. Eerst een partitietabel (MBR/GPT) dan een filesystem (NTFS) en daarna ook data (Windows, Games, Documenten, etc).
- Na een jaar of wat doe je een SMART test of een low-level test utility die alle sectoren scant. Niet alleen de sectoren die je hebt beschreven.
- Tijdens die test wordt een sector gelezen die je nog nooit hebt beschreven, want je schijf is maar 75% vol geweest en je hebt nog niet zoveel gedaan dat alle sectoren ooit zijn beschreven door jou.
- Doordat je een sector leest die nog nooit sinds de fabriek beschreven is, is door de tijd de electromagnetische lading afgenomen. Hierdoor is het moeilijker om het analoge signaal om te zetten in een digitaal signaal, dus enen en nullen. Daar zitten foutjes in, wat overigens continu gebeurt met moderne schijven die hebben echt errorcorrectie nodig anders wordt het gatenkaas en heb je overal onleesbare sectoren. Elke sector heeft naast de 'data' ook een gedeelte voor de errorcorrectie. Vroeger met 512-byte sectoren was dat 50 bytes en nu met 4096 (4K) sectoren is dat 100 bytes. Die errorcorrectie kan bitfoutjes corrigeren en er een foutloos digitaal signaal van maken. Overal gebeurt dit, in je CPU met PCI express etc.
- Sectoren met een lage Signal-to-Noise ratio zullen meer bitfouten produceren. Als het er genoeg zijn, kan de errorcorrectie deze niet meer corrigeren. Als er geen foutloze data van gemaakt kan worden, dan ziet de hardeschijf die sector als onleesbaar. De hardeschijf zal een tijdje blijven proberen maar rapporteert uiteindelijk een I/O error terug: sector onleesbaar sorry vriend!
- OS/filesystem doet dan nog een paar pogingen, waardoor de hardeschijf het weer tig keer opnieuw probeert. Maar helaas het werkt gewoon niet. En volgens de specs mag een hardeschijf absoluut geen foute data sturen, zo van nou het is ongeveer dit en doe het er maar mee. Nee of je stuurt goede data terug, of een I/O error, maar niks er tussenin.
- De hardeschijf zal daarnaast de SMART updaten: Current Pending Sectors gaat de raw value met één omhoog. Er is immers één sector die pending is: wachtende op de gebruiker die de knoop doorhakt: òf datarecovery in een cleanlab òf de gebruiker geeft de gegevens op. Dat laatste kan met een secure erase procedure waarbij de hardeschijf alle sectoren zal overschrijven, of simpelweg door die ene sector te overschrijven.
- Als de onleesbare sector wordt overschreven met nieuwe data, is de oude data niet meer nodig. Dus dan is het ook niet erg dat hij onleesbaar is, we schrijven gewoon nieuwe data. De hardeschijf doet vervolgens ook een leesoperatie op de sector die net is beschreven, want hij was pending dus toch even checken of het nu wèl werkt.
- Als na deze check de sector nog steeds onleesbaar is, dan heb je een bad sector. Er was kennelijk fysieke schade en deze sector is dus definitief onbruikbaar geworden. In dit geval zal de hardeschijf de sector omwisselen met één van de vele reservesectoren. Daar merk je als gebruiker/OS/filesystem niets van de hardeschijf doet dit intern. Het filesystem ziet LBA 589858 (een sector) en dat die zich nu ergens anders bevindt op de hardeschijf zal alleen de hardeschijf zelf weten. Wel zal de hardeschijf trager zijn want hij zal moeten seeken naar een ander gedeelte op de platter waar de reservesectoren zich bevinden. Maar dit effect is miniem en ga je zeker niet merken tenzij in een kunstmatige laboratoriumtest. De SMART wordt geupdate: Current Pending Sector gaat weer terug naar 0 (of in elk geval minus één) en de Reallocated Sector Count wordt juist met één verhoogd. Nu is er bewijs dat je hardeschijf fysieke schade heeft. Die Reallocated Sector Count gaat nooit meer weg. De schijf werkt verder prima want de reservesector neemt gewoon de plek in van de foute en onbruikbare sector die simpelweg wordt overgeslagen.
- Maar steeds meer met moderne hardeschijven was er helemaal geen fysieke schade. Het is simpelweg normaal dat er sectoren onleesbaar worden omdat we datadichtheid erg aan het pushen zijn en errorcorrectie heel vaak nodig is. Je kunt dit in de SMART vaak afleiden aan Raw Read Error Rate. Dat zegt zoveel als: voordat er errorcorrectie wordt toegepast, hoeveel bitfouten zit er in de ruwe data. Dat zegt wat over de kwaliteit van je hardeschijf. Als je hardeschijf niet zo goed meer is, is er vaker errorcorrectie nodig en als dan de sectoren die het wat minder goed doen sowieso al meer bitfouten hebben dan zakken die sectoren heel snel onder de grens waarop de fouten gecorrigeerd kunnen worden. Sommige schijven worden dan gatenkaas omdat er tienduizenden sectoren onleesbaar worden. Dan werkt de schijf nog wel qua motor en elektronica maar zijn de platters niet lekker meer en wil je de schijf vervangen. SMART gaat dan een failure of warning geven met Raw Read Error Rate en Current Pending Sector.
- Maar ook gezonde hardeschijven zullen dit meemaken. Daar is de datadichtheid gewoon te hoog voor en de fabrikanten hebben voor 100 bytes errorcorrectie gekozen en niet meer. Dat is een afweging: 2,7% van de capaciteit wordt nu voor errorcorrectie gebruikt. Vroeger met 512-byte sectoren was dat 11,3% dus grotere sectoren zijn veel efficiënter. Hetzelfde zien we met PCI express vroeger was het 2 bits per 8 bits dus 20% errorcorrectie, maar sinds PCI express 3.0 is het 2 bits per 128 bits data dus slechts 1,56% en dus veel efficiënter.
- Oke dus je hebt een onleesbare sector. Maar in dit geval geen fysieke schade. Na het overschrijven van de sector zal de hardeschijf deze lezen en in dit geval is de sector prima leesbaar nadat hij is overschreven. In dit geval wordt de sector niet omgeruild en blijft hij in gebruik. De SMART wordt geupdate: Current Pending Sector wordt met één verlaagd, richting nul. De Reallocated Sector Count blijft gelijk, bijvoorbeeld nul. In dit geval kun je niet altijd meer zien in de SMART gegevens dat je ooit een onleesbare sector hebt gehad. Het 'bewijs' kan verdwenen zijn, anders dan met omgewisselde sectoren dat bewijs gaat nooit meer weg. Alleen de fabriek kan de SMART resetten wat het ook doet met refurbished schijven.
Het punt is dus dat een onleesbare sector vrij normaal is en je zult moeten overschrijven om die te laten verdwijnen. De hardeschijf is niet beschadigd, dit is gewoon normaal. Zakelijke hardeschijven hebben lagere datadichtheid waardoor er veel meer speelruimte is en dus sterkere signal-to-noise ratio en dan heb je minder vaak errorcorrectie nodig en dat betekent dat slechte sectoren nog prima gecorrigeerd kunnen worden en dus leesbaar. De hardeschijf merkt dat sector x best veel ruwe fouten bevatte en zal preventief de sector opnieuw beschreven na het lezen. Daar merk je als gebruiker/OS/filesystem niets van. Zo worden onleesbare sectoren voorkomen.
Wat ik dus zeg is:
- Accepteer dat bij consumentenschijven de datadichtheid zo hoog is dat onleesbare sectoren min of meer erbij horen. De fabrikant geeft dit ook op met de uBER specificatie: 10^-14 is standaard voor consumentenschijven en 10^-15 en 10^-16 zie je bij enterprise schijven. Dit doen het dus tot 100 keer beter en gekoppeld met lagere capaciteit (want: lagere datadichtheid) zijn onleesbare sectoren dus veel minder groot een probleem.
- Onleesbare sectoren zijn vandaag de dag bijna altijd sectoren die niet fysiek beschadigd zijn. Het is simpelweg dat ervoor gekozen is niet genoeg capaciteit op te offeren voor errorcorrectie. De schijven zijn "gemaakt" om af en toe een foutje te krijgen, min of meer. Het valt in elk geval binnen de fabrieksspecificatie.
- Dit los je op door lang te formatteren zodat alle sectoren worden overschreven. Ook een snelle format kan helpen want dan blijft de pending sector voorlopig bestaan maar is hij niet in gebruik. Zodra je data gaat schrijven die die ene sector tegenkomt, wordt die overschreven en dan pas zal de pending sector verdwijnen.
- Preventief de hardeschijf te laten scannen kan helpen onleesbare sectoren te ontdekken. Maar wil je het voorkomen dan zul je periodiek zoals elke maand de hardeschijf moeten verversen. Onder UNIX/Linux kan dit met: dd if=/dev/sda of=/dev/sda bs=1M conv=sync - dit commando zal elke sector lezen en vervolgens op precies dezelfde locatie schrijven op de hardeschijf. Er verandert dus niets aan de data behalve dat deze vers beschreven is. De electromagnetische lading is zo weer sterk en dus minder bitfouten en dus minder errorcorrectie nodig dus als na verloop van tijd het signaal afneemt heb je meer marge om fouten te corrigeren.
- RAID-engines vooral de oudere kunnen niet lekker met onleesbare sectoren omgaan. De hardeschijf is namelijk tot 120 seconden bezig zo'n onleesbare sector te scannen voordat er uiteindelijk een I/O error wordt teruggestuurd. Maar de RAID-engine zal een schijf die 10+ seconden niet reageert beschouwen als failed en hem uit de RAID-array knikkeren. Dan draai je degraded of zelfs FAILED. Dat is flink schrikken, maar valt meestal te herstellen mits je weet wat je doet. Om deze reden kies je voor dergelijke RAID arrays speciale "TLER" schijven zoals WD Red of "RAID edition" (RE). Tegenwoordig worden die als "NAS" schijven verkocht geloof ik. TLER staat voor: Time-Limited Error Recovery. Dit betekent dat de hardeschijf al na 7 seconden ipv 120 seconden zal opgeven en een I/O error zal genereren. Vaak wordt 10 seconden als grens gehanteerd waarbij de schijf uit de RAID array wordt geknikkerd. Maar ook met TLER schijven ben je er nog niet. Afhankelijk van de RAID engine zal evengoed na een I/O error de schijf uit de array geknikkerd worden. Dus daar schiet je ook niet veel mee op.
- De èchte oplossing is natuurlijk: slimme software. Dat is ook de route die Google heeft genomen. In plaats van peperdure hardeschijven (dure hardware) maken ze slimme software die goed kan omgaan met af en toe een onleesbare sector. We passen redundancy toe op filesystem-niveau. Alle moderne filesystems van de 3e generatie hebben dit: ReFS (Microsoft), Btrfs (Linux) en ZFS (Solaris, BSD, Linux, Mac OSX, Windows) doen dit voor je. Wanneer een sector onleesbaar is, kan het filesystem terugvallen op een andere sector en zo de data alsnog leveren aan de applicatie. Door het copy-on-write mechanisme van deze filesystems zal ergens anders de data opnieuw beschreven worden zodat de redundancy weer intact raakt. Op deze manier is het niet erg dat je af en toe een onleesbare sector krijgt. Wel maakt uit wat je configuratie is: ZFS kan bij RAID-Z en mirror configuraties alle data beschermen. Bij een enkele hardeschijf kan enkel de metadata worden beschermd. De metadata is de data van het filesystem zelf en dus niet de data van jouw bestanden, zoals een JPEG file. Als de metadata beschadigd raakt kan je hele filesystem onbruikbaar/ontoegankelijk worden of hele directories verdwijnen. Dus beschermt ZFS die belangrijke metadata sowieso al met zogenaamde ditto blocks ook wel bekend als copies=2. Voor de meest belangrijke metadata worden er geloof ik 16 kopieën gebruikt dit verdeeld over de hardeschijf/partitie worden opgeslagen. Alleen de data loopt dan risico en als dat gebeurt dan kun je met zpool status -v zien welke bestanden onleesbaar zijn geworden. Dan weet je tenminste wat je mist en kun je die misschien van backup terughalen of opnieuw genereren/downloaden.
Nee, dat is iets voor NAND SSDs omdat daarbij de sectoren slijten als ze worden beschreven. NAND kwaliteit neemt dus af naarmate deze beschreven worden. Leesacties hebben geen invloed dus je kunt zoveel lezen als je wilt, maar schrijven is beperkt. SSDs zijn dus een soort verbruiksartikel. Daarom kun je de levensduur ook wel in percentage uitdrukken en dat kun je ook in de SMART terug vinden:Doen HDDs ook aan wear-levelling?
1
| Percentage Used: 0% |
Hardeschijven slijten niet doordat sectoren beschreven worden, maar door de tijd, door mechanische wear-and-tear en door fysieke schade zoals trillingen en schokken. Simpelweg schreeuwen tegen een hardeschijf zal hem doen sidderen. Daar kun je leuke filmpjes op Youtube over vinden van mensen die schreeuwen tegen hun computerkast met hardeschijven erin en dan neemt de performance voor een paar seconden flink af. Dit komt omdat het seeken dus het vinden van de juiste sector met de leeskop, niet goed werkt door de trillingen en dit vaak overnieuw moet gebeuren.
Ik zou 'even' een volledige surface scan draaien, bijvoorbeeld met iets als HDDScan of Victoria voor Windows. Je geeft dan de drive de kans om problemen te ontdekken. Met Victoria voor Windows kun je tevens probleem sectoren re-mappen.DVX73 schreef op donderdag 23 maart 2023 @ 15:34:
[...]
Heb de disk vervangen ondertussen, maar was toch even nieuwsgierig:
code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113smartctl 7.3 2022-02-28 r5338 [x86_64-linux-5.15.102-1-MANJARO] (local build) Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Model Family: Western Digital Red Device Model: WDC WD60EFRX-68L0BN1 Serial Number: WD-WX11D168PEAY LU WWN Device Id: 5 0014ee 262ef6c80 Firmware Version: 82.00A82 User Capacity: 6.001.175.126.016 bytes [6,00 TB] Sector Sizes: 512 bytes logical, 4096 bytes physical Rotation Rate: 5700 rpm Device is: In smartctl database 7.3/5319 ATA Version is: ACS-2, ACS-3 T13/2161-D revision 3b SATA Version is: SATA 3.1, 6.0 Gb/s (current: 1.5 Gb/s) Local Time is: Thu Mar 23 15:29:47 2023 CET SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x00) Offline data collection activity was never started. Auto Offline Data Collection: Disabled. Self-test execution status: ( 249) Self-test routine in progress... 90% of test remaining. Total time to complete Offline data collection: ( 7604) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: ( 729) minutes. Conveyance self-test routine recommended polling time: ( 5) minutes. SCT capabilities: (0x303d) SCT Status supported. SCT Error Recovery Control supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 81 3 Spin_Up_Time 0x0027 244 197 021 Pre-fail Always - 6791 4 Start_Stop_Count 0x0032 097 097 000 Old_age Always - 3192 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0 7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0 9 Power_On_Hours 0x0032 061 061 000 Old_age Always - 28843 10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0 11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0 12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 1259 192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 61 193 Load_Cycle_Count 0x0032 197 197 000 Old_age Always - 10043 194 Temperature_Celsius 0x0022 120 104 000 Old_age Always - 32 196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0 197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Completed: read failure 70% 28843 3131089377 # 2 Short offline Completed: read failure 70% 28817 3131089377 # 3 Extended offline Completed: read failure 10% 28744 3131089377 # 4 Short offline Completed: read failure 60% 28672 3131089377 # 5 Short offline Completed: read failure 70% 28302 3131089377 # 6 Short offline Completed without error 00% 27559 - # 7 Short offline Completed without error 00% 26815 - # 8 Short offline Completed without error 00% 26096 - # 9 Short offline Completed without error 00% 25352 - #10 Short offline Completed without error 00% 24652 - #11 Short offline Completed without error 00% 24046 - #12 Short offline Completed without error 00% 23303 - #13 Short offline Completed without error 00% 22588 - #14 Short offline Completed without error 00% 21845 - #15 Short offline Completed without error 00% 21125 - #16 Short offline Completed without error 00% 20383 - #17 Short offline Completed without error 00% 19712 - #18 Short offline Completed without error 00% 18998 - #19 Short offline Completed without error 00% 18255 - #20 Short offline Completed without error 00% 17536 - #21 Short offline Completed without error 00% 16791 - SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.
In de SMART data zie ik niets raars, maar in de self-tests wel.
Joep
Entropy, alles gaat stuk.Funga schreef op donderdag 23 maart 2023 @ 22:13:
[...]
Dus je moet schijven ook gebruiken. Lege schijven gaan stuk?
Interessant om te weten.
Doen HDDs ook aan wear-levelling?
Als een moderne schijf in gebruik is zal de schijf zelf ook niet gebruikte sectoren 're-freshen'. Dit doet de firmware zelf (mits het daar de tijd voor krijgt), je hoeft hier niets voor te doen, dit is default ingeschakeld. Een data recovery engineer kan dit uitschakelen middels vendor specific commands. Seagate drives bijvoorbeeld hebben bijvoorbeeld de BGMS_DISABLE_DATA_REFRESH parameter om 'default behavior' uit te schakelen t.b.v. data recovery.
HDD's doen niet aan wear leveling, ze kunnen dat niet en hoeven dat niet. SSD wear-leveling gebeurt uit noodzaak: een cell kan slechts een beperkt aantal program-erase cycles doorstaan. Bovendien is het zo dat de kwaliteit van een cell afneemt met het toenemen van program-erase cycles. Wanneer constant dezelfde cellen gebruikt zouden worden krijg je dus grote lokale verschillen in performance en zou een aantal cellen kapot gaan terwijl anderen nog springlevend zijn en amper gebruikt. Je ziet dit fenomeen wel op heel goedkope flashdrives, het gebied waar de FAT staat is helemaal kapot geschreven terwijl de rest van de flash drive gewoon leesbaar is.
Een SSD kan gebruikt worden als ware het een HDD, dus middels het schijven naar en lezen van LBA sector adressen. Nu is het zo dat LBA adressen vaker gebruikt worden naarmate ze dichter bij de start van die disk staan. Denk bijvoorbeeld aan een heel simpel voorbeeld, de file allocation table. Die dient continu te worden bijgewerkt en voor een SSD zou dit betekenen dat het NAND geheugen toegewezen aan de FAT veel sneller zou slijten dan andere gebieden. De oplossing is een extra laag, een layer waarin de SSD firmware dynamisch LBA adressen kan koppelen aan fysieke NAND adressen en er zo dus voor kan zorgen dat een gebied als de FAT in een fixed LBA gebied, continu op een andere plek op de NAND wordt weggeschreven.
Een klassieke CMR hard drive hoeft dit niet en kan dit niet bij gebrek een een degelijke extra laag. Iets dergelijks gebeurt natuurlijk wel bij re-mappen van bad sectors waarbij een spare wordt toegewezen aan een specifiek LBA adres. Dit is dan op veel kleinere schaal een veel statischer.
Een SMR schijf heeft wel zo'n extra laag maar niet t.b.v. wear-leveling.
Joep
E: drive deed wel een beetje vreemd, maar nergens read errors. Smart was ook niet helemaal slecht, behalve een current_pending_sector van 137.
Een andere tool vond dat de drive er echt slecht aan toe was.
Checkdisk /f /r /x gedaan. Veel errors.
Na de checkdisk:
1
2
| C:\>dir e: Data error (cyclic redundancy check). |
Smart:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
| SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x002f 197 197 051 Pre-fail Always - 29614 3 Spin_Up_Time 0x0027 136 130 021 Pre-fail Always - 4175 4 Start_Stop_Count 0x0032 093 093 000 Old_age Always - 7134 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 3 7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0 9 Power_On_Hours 0x0032 073 073 000 Old_age Always - 20040 10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0 11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 552 192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 582 193 Load_Cycle_Count 0x0032 143 143 000 Old_age Always - 171448 194 Temperature_Celsius 0x0022 119 102 000 Old_age Always - 24 196 Reallocated_Event_Count 0x0032 197 197 000 Old_age Always - 3 197 Current_Pending_Sector 0x0032 199 199 000 Old_age Always - 229 198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Extended offline Completed: read failure 90% 20027 370319 # 2 Short offline Completed: read failure 90% 20026 370319 |
Die laatste twee regels zijn van twee selftests die ik gisteravond heb gedaan.
Die gaat de prullenbak in. Ja, ik heb een backup.
Signatures zijn voor boomers.
Mijn harde schijf is niet meer benaderbaar.
Is omgezet van NTFS naar RAW.
Nu lees ik hier dat ik eerst de harde schijf moet checken. Ziet dit er goed uit of niet?
Dan kan ik daarna kijken of en hoe ik mijn bestanden kan veilig stellen.
En ja dom, maar heb niet van alles een back up...
Als data erg belangrijk is dan is het altijd wijs een gratis diagnose op te vragen bij een data recovery lab. RAW bestandssysteem is een catch-all en daarmee vrij nietszeggende fout en kan dus van alles zijn. RAW betekent zoveel als, 'ik kan niet vaststellen met welk bestandssysteem we te maken hebben'.marianne1981 schreef op donderdag 30 maart 2023 @ 11:49:
Hallo,
Mijn harde schijf is niet meer benaderbaar.
Is omgezet van NTFS naar RAW.
Nu lees ik hier dat ik eerst de harde schijf moet checken. Ziet dit er goed uit of niet?
Dan kan ik daarna kijken of en hoe ik mijn bestanden kan veilig stellen.
En ja dom, maar heb niet van alles een back up...
In het gunstigste geval is het een fout die zelfs in-place te repareren is, in het ergste geval ligt er een hardwarematige fout aan ten grondslag (zelfs als SMART er zoals in jouw geval geen aanleiding toe geeft dit te vermoeden). Maar om de werkelijke fout te bepalen is er dus verdere diagnose noodzakelijk.
Als je zelf aan de slag wilt gaan clone je de schijf eerst zodat je een vangnet hebt in het geval de schijf de geest geeft of je zelf fouten maakt. Als de schijf gezond is kan dat meestal prima vanuit Windows met een goede data recovery tool (voorbeeld: YouTube: Creating a disk image (cloning) using DMDE).
Als je een clone hebt, kun je verder onderzoeken wat er aan de hand is of simpelweg de data redden vanuit het image bestand (de clone). Aangezien dit is een 'rauw' image bestand is kun je dit openen in elk kwalitatief goede data recovery tool.
Als eerst stap voor verder onderzoek zou je een screenshot kunnen invoegen van de partitions TAB van het tooltje DMDE (YouTube: DMDE partitions tab - reddit r/datarecovery). Ik vermoed dat je hiervoor het best een nieuwe topic opent.
[ Voor 4% gewijzigd door Stanton op 30-03-2023 12:20 ]
Joep
Signatures zijn voor boomers.
Hieronder screenshots van 1 schijf uit iedere NAS (de tweede schijf is in beide gevallen vergelijkbaar). Wat zijn dingen om in de gaten te houden en wat is jullie advies?
DS211, schijf is een Samsung HD204UI
:strip_exif()/f/image/7e6X0FGFTyP0cQqH3mfaxR8N.jpg?f=fotoalbum_large)
DS215j, schijf is een WDC WD40EFRX-68WT0N0
Dat is vaak een tijdelijke melding en bij sommige disks zegt het op zich weinig omdat fabrikanten het gebruiken om allerlei verschillende data als bytes achter elkaar op te slaan. Bijvoorbeeld bij HGST en Seagate zeggen grote decimale getallen die SMART uitleestools tonen niet veel.Maasluip schreef op donderdag 30 maart 2023 @ 08:54:
Okee, dit is dus niet goed
E: drive deed wel een beetje vreemd, maar nergens read errors.
Dat is wel zorgwekkend. Die sectoren hebben allemaal een probleem. Het kan tijdelijk zijn, maar met zoveel slechte plekken is de kans dat het ernstig is tamelijk groot.Smart was ook niet helemaal slecht, behalve een current_pending_sector van 137.
Ik zou niet een automatische repair (/F /R) doen bij een vermoeden van een slechte disk. Chkdsk is niet heel slim en kan dus ook dingen stuk maken. Een gewone chkdsk is veiliger. Maar: je weet al dat de disk slecht is door het hoge aantal pending sectors. Beter eerst een sector kloon (forensic clone) van de disk maken en daar mee aan de slag gaan. Zodoende maak je niet kapot wat nog te repareren zou zijn met een van de beschikbare tools. De drive zal zelf proberen de slechte plekken te "repareren" of te verplaatsen (reallocate).Een andere tool vond dat de drive er echt slecht aan toe was.
Checkdisk /f /r /x gedaan. Veel errors.
Natuurlijk is een restore van de backup op een verse disk de beste oplossing voor zover die alle data bevat.
De G-sense error rate onstaat als de schijf bijvoorbeeld ergens tegen aan gestoten is. Als de koppen de disk raken kan dat beschadigingen opleveren van zowel de koppen als het oppervlak.
Met de WD is niets aan de hand. Die kan nog wel een paar jaar door.
In de gaten houden: o.a. 197, 198, 5, ECC/CRC errors.
Ja, ik was net bezig deze data (persoonlijke data) aan het verhuizen want mijn C:-schijf begon vol te lopen. In het kader daarvan had ik al een volledige backup naar mijn server gemaakt, dus afgezien van dat het tijd kost is er verder niks aan de hand.mrmrmr schreef op donderdag 30 maart 2023 @ 15:39:
[...]
Natuurlijk is een restore van de backup een verse disk de beste oplossing voor zover die alle data bevat.
Heb de partities verwijderd, nieuw gemaakt en de disk helemaal geformatteerd. De SMART info is nu dit:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
| SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x002f 197 197 051 Pre-fail Always - 31772 3 Spin_Up_Time 0x0027 136 130 021 Pre-fail Always - 4175 4 Start_Stop_Count 0x0032 093 093 000 Old_age Always - 7134 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 3 7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0 9 Power_On_Hours 0x0032 073 073 000 Old_age Always - 20045 10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0 11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 552 192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 582 193 Load_Cycle_Count 0x0032 143 143 000 Old_age Always - 171466 194 Temperature_Celsius 0x0022 118 102 000 Old_age Always - 25 196 Reallocated_Event_Count 0x0032 197 197 000 Old_age Always - 3 197 Current_Pending_Sector 0x0032 200 199 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0 |
Nu ben ik weer een chkdisk aan het doen, kijken of dat nog wat geeft. Zoals je ziet heeft de disk nog niet eens zoveel uren gedraaid (2 jaar 105 dagen, ik heb harddisks in mijn server met meer dan 7 en 13 jaar power_on_hours) maar hij heeft in mijn gewone computer gezeten die elke dag aan en uit gaat (zie de start_stop_count en power_cycle_count), en heeft een tijdje in de kast gelegen. Weet niet of dat slecht is.
Wel jammer dat een disk met zo weinig gebruik al slecht is.
Die disk van > 13 jaar oud heeft maar 66 power_cycles en starts gehad.
Signatures zijn voor boomers.
Als eerst stap voor verder onderzoek zou je een screenshot kunnen invoegen van de partitions TAB van het tooltje DMDE (YouTube: DMDE partitions tab - reddit r/datarecovery). Ik vermoed dat je hiervoor het best een nieuwe topic opent.marianne1981 schreef op donderdag 30 maart 2023 @ 12:43:
[Afbeelding]
Dankjewel!
Wel belangrijk, maar niet zo belangrijk dat ik er honderden euro's aan uit ga geven.
Dit is wat je bedoeld met die DMDE tool?
Joep
Ja heb net nieuw topic geopend. Excuus.Stanton schreef op donderdag 30 maart 2023 @ 16:23:
[...]
Als eerst stap voor verder onderzoek zou je een screenshot kunnen invoegen van de partitions TAB van het tooltje DMDE (YouTube: DMDE partitions tab - reddit r/datarecovery). Ik vermoed dat je hiervoor het best een nieuwe topic opent.
Ik gebruikte lang HGST disks voor een jaar of 3-4 dan werden ze slechter en preventief vervangen. Maar ik heb ook een 2.5" hard disk in een laptop die al ruim 17 jaar draait. Op zo'n kleine disk met 1 platter werken veel kleinere krachten dan op een zware 3.5" disk, soms kan een mechanische disk het wel lang volhouden.
Vervallend magnetisme, temperatuurwerking, vocht en uitdroging en dergelijk zullen wel een invloed hebben ook als de disks niet lang aanstaan. Oudere disks hebben vaak ook een functioneel gaatje in de behuizing, worden dus blootgesteld aan de omgeving.
https://wiki.archlinux.or...ifying_potential_problems
Ik gebruik Majaro Gnome. BTRFS filesystem. Zeer tevreden mee.
Heb 1 nvme SSD en 3 SATA SSDs.
Ik heb de test in het conf file gezet zoals in het Arch wiki artikel.
In journalctl zie ik dan dit (+ ik ontvang de test email):
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
| Starting Self Monitoring and Reporting Technology (SMART) Daemon... smartd 7.3 2022-02-28 r5338 [x86_64-linux-5.15.102-1-MANJARO] (local build) Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org Opened configuration file /etc/smartd.conf Drive: DEVICESCAN, implied '-a' Directive on line 24 of file /etc/smartd.conf Configuration file /etc/smartd.conf was parsed, found DEVICESCAN, scanning devices Device: /dev/sda, type changed from 'scsi' to 'sat' Device: /dev/sda [SAT], opened Device: /dev/sda [SAT], Samsung SSD 870 EVO 2TB, S/N:S621NF0R301106B, WWN:5-002538-f4132622b, FW:SVT01B6Q, 2.00 TB Device: /dev/sda [SAT], found in smartd database 7.3/5319: Samsung based SSDs Device: /dev/sda [SAT], can't monitor Current_Pending_Sector count - no Attribute 197 Device: /dev/sda [SAT], can't monitor Offline_Uncorrectable count - no Attribute 198 Device: /dev/sda [SAT], is SMART capable. Adding to "monitor" list. Device: /dev/sdb, type changed from 'scsi' to 'sat' Device: /dev/sdb [SAT], opened Device: /dev/sdb [SAT], Samsung SSD 860 EVO 4TB, S/N:S4WWNE0N300100P, WWN:5-002538-e00328cc9, FW:RVT04B6Q, 4.00 TB Device: /dev/sdb [SAT], found in smartd database 7.3/5319: Samsung based SSDs Device: /dev/sdb [SAT], can't monitor Current_Pending_Sector count - no Attribute 197 Device: /dev/sdb [SAT], can't monitor Offline_Uncorrectable count - no Attribute 198 Device: /dev/sdb [SAT], is SMART capable. Adding to "monitor" list. Device: /dev/sdc, type changed from 'scsi' to 'sat' Device: /dev/sdc [SAT], opened Device: /dev/sdc [SAT], Samsung SSD 870 QVO 4TB, S/N:S5STNF0T204219W, WWN:5-002538-f4221bda4, FW:SVQ02B6Q, 4.00 TB Device: /dev/sdc [SAT], found in smartd database 7.3/5319: Samsung based SSDs Device: /dev/sdc [SAT], can't monitor Current_Pending_Sector count - no Attribute 197 Device: /dev/sdc [SAT], can't monitor Offline_Uncorrectable count - no Attribute 198 Device: /dev/sdc [SAT], is SMART capable. Adding to "monitor" list. Device: /dev/nvme0, opened Device: /dev/nvme0, SAMSUNG MZVLB512HBJQ-000L2, S/N:S4DYNX0N681874, FW:3L1QEXF7, 512 GB Device: /dev/nvme0, is SMART capable. Adding to "monitor" list. Monitoring 3 ATA/SATA, 0 SCSI/SAS and 1 NVMe devices Executing test of <mail> to rmijn email @ ..com ... |
Wat betekenen deze 2 meldingen?
1
2
| can't monitor Current_Pending_Sector count - no Attribute 197 can't monitor Offline_Uncorrectable count - no Attribute 198 |
Voorbeeld van smartctl voor 1 van deze sata drives:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
| sudo smartctl -a /dev/sdc 1 ✘
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-5.15.102-1-MANJARO] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Samsung based SSDs
Device Model: Samsung SSD 870 QVO 4TB
Serial Number: S5STNF0T204219W
LU WWN Device Id: 5 002538 f4221bda4
Firmware Version: SVQ02B6Q
User Capacity: 4.000.787.030.016 bytes [4,00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Form Factor: 2.5 inches
TRIM Command: Available, deterministic, zeroed
Device is: In smartctl database 7.3/5319
ATA Version is: ACS-4 T13/BSR INCITS 529 revision 5
SATA Version is: SATA 3.3, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Tue Apr 4 20:14:32 2023 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 0) seconds.
Offline data collection
capabilities: (0x53) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
No Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 320) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 6696
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 22
177 Wear_Leveling_Count 0x0013 100 100 000 Pre-fail Always - 0
179 Used_Rsvd_Blk_Cnt_Tot 0x0013 100 100 010 Pre-fail Always - 0
181 Program_Fail_Cnt_Total 0x0032 100 100 010 Old_age Always - 0
182 Erase_Fail_Count_Total 0x0032 100 100 010 Old_age Always - 0
183 Runtime_Bad_Block 0x0013 100 100 010 Pre-fail Always - 0
187 Uncorrectable_Error_Cnt 0x0032 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0032 074 050 000 Old_age Always - 26
195 ECC_Error_Rate 0x001a 200 200 000 Old_age Always - 0
199 CRC_Error_Count 0x003e 100 100 000 Old_age Always - 0
235 POR_Recovery_Count 0x0012 099 099 000 Old_age Always - 11
241 Total_LBAs_Written 0x0032 099 099 000 Old_age Always - 3123058096
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
256 0 65535 Read_scanning was never started
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay. |
197 en 198 staan daar dus ook niet tussen.. maar waarom niet? Samsung dingetje?
Leesfouten bij surface test in Minitool, na een wipe van de HDD niks meer van te zien, maar in Crystaldiskinfo zie ik dit:
1
2
3
4
5
6
| The following warning/error was logged by the smartd daemon: Device: /dev/sda [SAT], Self-Test Log error count increased from 0 to 1 Device info: Samsung SSD 870 EVO 2TB, S/N:S621NF0R301106B, WWN:5-002538-f4132622b, FW:SVT01B6Q, 2.00 TB For details see host's SYSLOG. |
Dus maar ff smartctl -a gedaan voor deze drive:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
| smartctl 7.3 2022-02-28 r5338 [x86_64-linux-5.15.102-1-MANJARO] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Samsung based SSDs
Device Model: Samsung SSD 870 EVO 2TB
Serial Number: S621NF0R301106B
LU WWN Device Id: 5 002538 f4132622b
Firmware Version: SVT01B6Q
User Capacity: 2.000.398.934.016 bytes [2,00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Form Factor: 2.5 inches
TRIM Command: Available, deterministic, zeroed
Device is: In smartctl database 7.3/5319
ATA Version is: ACS-4 T13/BSR INCITS 529 revision 5
SATA Version is: SATA 3.3, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Sat Apr 8 15:27:11 2023 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x80) Offline data collection activity
was never started.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 121) The previous self-test completed having
the read element of the test failed.
Total time to complete Offline
data collection: ( 0) seconds.
Offline data collection
capabilities: (0x53) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
No Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 160) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0033 046 046 010 Pre-fail Always - 1203
9 Power_On_Hours 0x0032 096 096 000 Old_age Always - 16436
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 53
177 Wear_Leveling_Count 0x0013 099 099 000 Pre-fail Always - 14
179 Used_Rsvd_Blk_Cnt_Tot 0x0013 046 046 010 Pre-fail Always - 1203
181 Program_Fail_Cnt_Total 0x0032 100 100 010 Old_age Always - 0
182 Erase_Fail_Count_Total 0x0032 100 100 010 Old_age Always - 0
183 Runtime_Bad_Block 0x0013 046 046 010 Pre-fail Always - 1203
187 Uncorrectable_Error_Cnt 0x0032 096 096 000 Old_age Always - 33044
190 Airflow_Temperature_Cel 0x0032 076 047 000 Old_age Always - 24
195 ECC_Error_Rate 0x001a 199 199 000 Old_age Always - 33044
199 CRC_Error_Count 0x003e 099 099 000 Old_age Always - 6
235 POR_Recovery_Count 0x0012 099 099 000 Old_age Always - 18
241 Total_LBAs_Written 0x0032 099 099 000 Old_age Always - 22074242184
SMART Error Log Version: 1
ATA Error Count: 33044 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 33044 occurred at disk power-on lifetime: 14229 hours (592 days + 21 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 08 68 e1 a0 e0 Error: UNC
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
2f 00 01 30 06 00 e0 0b 36d+09:53:01.142 READ LOG EXT
2f 00 01 30 00 00 e0 0b 36d+09:53:01.142 READ LOG EXT
2f 00 01 00 00 00 e0 0b 36d+09:53:01.142 READ LOG EXT
2f 00 01 30 08 00 e0 0b 36d+09:53:01.142 READ LOG EXT
2f 00 01 30 00 00 e0 0b 36d+09:53:01.142 READ LOG EXT
Error 33043 occurred at disk power-on lifetime: 14229 hours (592 days + 21 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 08 60 e1 a0 e0 Error:
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
Error 33042 occurred at disk power-on lifetime: 14229 hours (592 days + 21 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 38 a8 e0 a0 e0 Error:
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
Error 33041 occurred at disk power-on lifetime: 14229 hours (592 days + 21 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 08 30 3b 9b e0 Error: UNC
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
2f 00 01 30 06 00 e0 0b 36d+09:52:59.421 READ LOG EXT
2f 00 01 30 00 00 e0 0b 36d+09:52:59.421 READ LOG EXT
2f 00 01 00 00 00 e0 0b 36d+09:52:59.421 READ LOG EXT
2f 00 01 30 08 00 e0 0b 36d+09:52:59.421 READ LOG EXT
2f 00 01 30 00 00 e0 0b 36d+09:52:59.421 READ LOG EXT
Error 33040 occurred at disk power-on lifetime: 14229 hours (592 days + 21 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 08 28 3b 9b e0 Error: UNC
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
2f 00 01 30 06 00 e0 0b 36d+09:52:59.267 READ LOG EXT
2f 00 01 30 00 00 e0 0b 36d+09:52:59.267 READ LOG EXT
2f 00 01 00 00 00 e0 0b 36d+09:52:59.267 READ LOG EXT
2f 00 01 30 08 00 e0 0b 36d+09:52:59.267 READ LOG EXT
2f 00 01 30 00 00 e0 0b 36d+09:52:59.267 READ LOG EXT
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed: read failure 90% 16424 60818344
# 2 Short offline Completed without error 00% 16423 -
# 3 Short offline Completed without error 00% 16399 -
# 4 Short offline Completed without error 00% 16375 -
# 5 Short offline Completed without error 00% 16351 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
256 0 65535 Read_scanning was never started
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay. |
Het gaat dus om die laatste error, want volgens mij zijn de andere errors vrij oud:
1
| # 1 Extended offline Completed: read failure 90% 16424 60818344 |
Moet ik al op zoek naar een vervanger? Of hoef ik mij nog geen zorgen te maken, de SSD zorgt er wel voor dat het de foute plekken omzeild?
Niemand kan je dat vertellen. We kunnen zien dat er 90 reallocated sectors zijn, m.a.w. sectoren die opgegeven zijn door de drive.Ludwig005 schreef op vrijdag 7 april 2023 @ 18:16:
Goed of slecht? Zou het lang duren voordat deze schijf het zou kunnen begeven?
Leesfouten bij surface test in Minitool, na een wipe van de HDD niks meer van te zien, maar in Crystaldiskinfo zie ik dit:
[Afbeelding]
Nu zou dat vanaf nu een heel statische situatie kunnen zijn. M.a.w. als je nog 10x een wipe draait zou er niets aan deze waarde veranderen. Dan hangt het van je eigen gevoel af of je dat ding nog vertrouwt. Persoonlijk zou ik de drive vervangen, 90 reallocated sectoren zijn me er zo'n 90 teveel.
Het zou ook kunnen dat de waarde toeneemt met elke wipe of scan die je draait. Dan is situatie veel duidelijker: vervangen.
Joep
1
2
3
4
5
6
7
8
9
| SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Completed: read failure 10% 16447 54543440 # 2 Extended offline Completed: read failure 90% 16437 60818344 # 3 Extended offline Completed: read failure 90% 16424 60818344 # 4 Short offline Completed without error 00% 16423 - # 5 Short offline Completed without error 00% 16399 - # 6 Short offline Completed without error 00% 16375 - # 7 Short offline Completed without error 00% 16351 - |
Het systeem is 1300 dagen in gebruik en draait 24/7. De systeemschijf is een Crucial MX500 en geeft de volgende waarden.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
| smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.74-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Crucial/Micron Client SSDs
Device Model: CT500MX500SSD4
Serial Number: 1911E1F1A554
LU WWN Device Id: 5 00a075 1e1f1a554
Firmware Version: M3CR023
User Capacity: 500,107,862,016 bytes [500 GB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: Solid State Device
Form Factor: M.2
TRIM Command: Available
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-3 T13/2161-D revision 5
SATA Version is: SATA 3.3, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Mon Apr 10 09:58:22 2023 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x80) Offline data collection activity
was never started.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 0) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 30) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SCT capabilities: (0x0031) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 100 100 000 Pre-fail Always - 0
5 Reallocate_NAND_Blk_Cnt 0x0032 100 100 010 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 14476
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 23
171 Program_Fail_Count 0x0032 100 100 000 Old_age Always - 0
172 Erase_Fail_Count 0x0032 100 100 000 Old_age Always - 0
173 Ave_Block-Erase_Count 0x0032 084 084 000 Old_age Always - 248
174 Unexpect_Power_Loss_Ct 0x0032 100 100 000 Old_age Always - 2
180 Unused_Reserve_NAND_Blk 0x0033 000 000 000 Pre-fail Always - 44
183 SATA_Interfac_Downshift 0x0032 100 100 000 Old_age Always - 0
184 Error_Correction_Count 0x0032 100 100 000 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
194 Temperature_Celsius 0x0022 045 019 000 Old_age Always - 55 (Min/Max 0/81)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
197 Current_Pending_ECC_Cnt 0x0032 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 100 100 000 Old_age Always - 0
202 Percent_Lifetime_Remain 0x0030 084 084 001 Old_age Offline - 16
206 Write_Error_Rate 0x000e 100 100 000 Old_age Always - 0
210 Success_RAIN_Recov_Cnt 0x0032 100 100 000 Old_age Always - 0
246 Total_LBAs_Written 0x0032 100 100 000 Old_age Always - 43344924528
247 Host_Program_Page_Count 0x0032 100 100 000 Old_age Always - 854499554
248 FTL_Program_Page_Count 0x0032 100 100 000 Old_age Always - 1822081793
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Completed [00% left] (0-65535)
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay. |
De Percent_Lifetime_Remain staat op 16. Betekend dit dat de schijf tegen zijn einde loopt? Ik heb via de Total_LBAs_Written berekend dat er 20,18 TB geschreven is. Dat lijkt me niet uitzonderlijk veel voor zijn levensduur. Wel opvallend is dat het aantal Power_On_Hours op 14476 staat. Dat is een stuk lager dan verwacht. Kan het zijn dat de schijf alleen actieve tijd berekend en dat idle tijd hier niet in mee wordt genomen? Vergelijk dit met het aantal uren van de NVME SSD in dezelfde server. Die heeft met 27692 uren bijna het dubbele aantal draaiuren. Dit is de SSD waar de VM's op draaien.
Wat betreft de roterende schijf waar ik de waarschuwing van kreeg, die heeft de volgende SMART waarden.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
| smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.74-1-pve] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Western Digital Red
Device Model: WDC WD40EFRX-68N32N0
Serial Number: WD-WCC7K1EK9449
LU WWN Device Id: 5 0014ee 2bbdef302
Firmware Version: 82.00A82
User Capacity: 4,000,787,030,016 bytes [4.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5400 rpm
Form Factor: 3.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-3 T13/2161-D revision 5
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Mon Apr 10 10:02:22 2023 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (44040) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 467) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x303d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 24
3 Spin_Up_Time 0x0027 183 183 021 Pre-fail Always - 5833
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 24
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 058 058 000 Old_age Always - 31130
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 23
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 18
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 1152
194 Temperature_Celsius 0x0022 118 105 000 Old_age Always - 32
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 3
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay. |
De Current_Pending_Sector staat op 3. Dat is volgens mij een slechte zaak of niet?
Ik weet niet wat deze Crucial/Micron gebruikt voor het aantal uren. Ik ga er van uit dat het aantal uren niet binair "geflipt" is, dus niet over de opslagbreedte is heen gegaan. Van belang is ook de manier waarop de SSD is gebruikt. Als er heel veel kleine bestandjes worden weggeschreven, kleiner dan de blokgrootte (4kB fysiek), neemt het aantal beschreven blokken veel meer toe dan alleen de omvang van de data. De temperatuur is hoog.
Wat betreft de WD40EFRX, er is nog niets ernstigs aan de hand, maar wel in de gaten blijven houden. Kijk of 180 afneemt en 5 toeneemt. Het is goed om de hele disk te testen.
Als ik naar /var/log kijk dan zie ik geen bestanden die meerdere keren per minuut worden weggeschreven.mrmrmr schreef op vrijdag 14 april 2023 @ 17:33:
@3raser De SSD wordt kennelijk zwaar belast in jouw systeem. Kijk eens waarom dat zo is. Wordt er overmatig gelogd? Is er bijvoorbeeld een energieverbruiklog die vaker dan elke minuut cumulatief logt? Zet dat dan op 1 tot 5 minuten, in plaats van bijvoorbeeld meerdere keren per seconde. Dat scheelt enorm in de belasting. Op milli of microseconde niveau loggen helpt een SSD snel naar het einde.
Ik zal kijken wat ik kan doen aan de temperatuur. De server staat op een plek waar de gemiddelde temperatuur wel iets boven kamertemperatuur ligt.Ik weet niet wat deze Crucial/Micron gebruikt voor het aantal uren. Ik ga er van uit dat het aantal uren niet binair "geflipt" is, dus niet over de opslagbreedte is heen gegaan. Van belang is ook de manier waarop de SSD is gebruikt. Als er heel veel kleine bestandjes worden weggeschreven, kleiner dan de blokgrootte (4kB fysiek), neemt het aantal beschreven blokken veel meer toe dan alleen de omvang van de data. De temperatuur is hoog.
Welke waarde bedoel je met 180? Waarde 5 staat tot nu toe op 0 dus dat is een goed teken?Wat betreft de WD40EFRX, er is nog niets ernstigs aan de hand, maar wel in de gaten blijven houden. Kijk of 180 afneemt en 5 toeneemt. Het is goed om de hele disk te testen.
Jazco2nd in "Check je SMART"
:no_upscale():strip_icc():fill(white):strip_exif()/f/image/ogIAQdhkSeWy75GASnRXpRQJ.jpg?f=user_large)
:strip_exif()/f/image/t4qX7imZew0yHJjATzLikSvt.jpg?f=fotoalbum_large)
:strip_exif()/f/image/T8qwSMbGcWtcIjQ8YImdS3IE.jpg?f=fotoalbum_large)
/f/image/IKyo40guyoJ6wMEUniJvj8bB.png?f=fotoalbum_large)
/f/image/nmTUwg8UWVYuJ2kqxpZqdKQF.png?f=fotoalbum_large)
/f/image/lpWY2i0XGoTWFttZF0IAptvr.png?f=fotoalbum_large)
/f/image/g08tupY7ulYK20eOe7TxQSBM.png?f=fotoalbum_large)