Data raakt corrupt, probleem met dualboot?

Pagina: 1
Acties:

  • hiekikowan
  • Registratie: Februari 2011
  • Laatst online: 22-01 11:21
Goedemiddag,

Ik ben in het bezit van een Dell XPS15 (L502X) welke van origine is voorzien van een 500GB harde schijf. Ik draai op deze laptop een dualboot met gedeelde dataschijf.

Onder Windows is dit de D:-schijf en staan de libraries hier ook op. Verder zijn alle mappen voor mijn account verplaatst naar de D-schijf (volgens de standaard methode via de properties van de map). Ik heb voor deze schijf usermappings aangemaakt volgens deze handleiding.

Onder Linux heb ik de schijf gemount naar /mnt en in mijn homedir heb ik symlinks gemaakt naar de bijbehorende mappen op /mnt.

Het probleem is dat er regelmatig input/output-errors ontstaan op de schijf. Deze worden het vaakst duidelijk in Deluge, deze geeft dan een error en gaat niet verder met downloaden. Met een 'ls -laR' krijg ik ook op diverse bestanden soms errors, lang niet altijd. Windows geeft vervolgens bij de eerst volgende boot aan dat de schijf gecontroleerd moet worden vanwege fouten. 'chkdsk /f' gooit vervolgens delen van de data weg (downloads lopen terug van bijv. 50% naar 2%) waarna de errors weer even verdwijnen.

Ik open echter net een project waar ik aan werk in Komodo, blijkt meer dan de helft van de bestanden corrupt te zijn geraakt en onleesbare data te bevatten. Het zit dus niet alleen in de Downloads-map.

Smartctl geeft met een short test geen errors. Ook op andere partities zie ik geen problemen. Ik vermoed (eigenlijk meer hoop) dus dat het niet een defecte hdd is... Herkent iemand deze symptomen als iets anders?

edit:

Er draait nu een lange test met smartctl... kijken of dat wat oplevert...

Verwijderd

Begin met het posten van de SMART data? Kan zijn dat dat nu al te laat is omdat je een scan hebt laten lopen. En begrijp ik goed dat je onder Linux dus een NTFS filesystem read-write mount?

  • hiekikowan
  • Registratie: Februari 2011
  • Laatst online: 22-01 11:21
Onder Linux mount ik inderdaad een NTFS filesystem.

De lange scan geeft (helaas) wel de volgende error:
code:
1
2
3
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%      2588         164182816


De volledige output van smartctl is nu (na de scans):
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
=== START OF INFORMATION SECTION ===
Device Model:     ST9500423AS
Serial Number:    6WR0813X
LU WWN Device Id: 5 000c50 04667b0a1
Firmware Version: 0005DEM1
User Capacity:    500,107,862,016 bytes [500 GB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Thu Dec 27 16:58:06 2012 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 121) The previous self-test completed having
                    the read element of the test failed.
Total time to complete Offline 
data collection:        (    0) seconds.
Offline data collection
capabilities:            (0x73) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    No Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   2) minutes.
Extended self-test routine
recommended polling time:    ( 109) minutes.
Conveyance self-test routine
recommended polling time:    (   3) minutes.
SCT capabilities:          (0x303f) SCT Status supported.
                    SCT Error Recovery Control supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   120   099   006    Pre-fail  Always       -       237794376
  3 Spin_Up_Time            0x0003   098   098   085    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   098   098   020    Old_age   Always       -       2849
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   076   060   030    Pre-fail  Always       -       48993683
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       2591
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   020    Old_age   Always       -       1471
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       10
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   064   039   045    Old_age   Always   In_the_past 36 (0 84 48 14 0)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       397
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       349
193 Load_Cycle_Count        0x0032   071   071   000    Old_age   Always       -       59818
194 Temperature_Celsius     0x0022   036   061   000    Old_age   Always       -       36 (0 8 0 0 0)
195 Hardware_ECC_Recovered  0x001a   120   099   000    Old_age   Always       -       237794376
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       8
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       8
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       26048976652675
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       183095305
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       3379570444
254 Free_Fall_Sensor        0x0032   001   001   000    Old_age   Always       -       242

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%      2588         164182816
# 2  Extended offline    Completed: read failure       90%      2587         164182816
# 3  Short offline       Completed without error       00%      2587         -
# 4  Short offline       Completed without error       00%        49         -
# 5  Short offline       Completed without error       00%        38         -
# 6  Short offline       Completed without error       00%        18         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Verwijderd

Goed je hebt dus 8 actieve bad sectors (Current Pending Sector) en je schijf is tevens 61 graden celcius geworden eens in het verleden. Dat is te warm, of beter gezegd: dat zorgt voor sterke temperatuurfluctuaties die metaal doet uitzetten en vervolgens weer laat krimpen. Hoewel daar onvoldoende aanwijzingen voor zijn, is het mijn overtuiging dat juist dit slecht is voor mechanische hardeschijven.

Sommige laptops bieden onvoldoende koeling aan notebookschijven, dat ben ik zelf in het verleden vrij vaak tegengekomen. 61 graden vind ik in elk geval te warm; warmer dan 50 graden wil je je schijf niet laten worden; omdat hij vervolgens toch weer afkoelt naar 18-22 graden.

Je kunt nu verschillende dingen doen. Als je de gegevens niet nodig hebt, doe je een zero write over de disk en die 8 bad sectors zijn weg. Je kunt de schijf dan weer normaal gebruiken. Als je de data die er nu opstaat wilt behouden, wordt het lastiger. Je moet dan ofwel backuppen naar een andere (externe) schijf, of met speciale software zoals Spinrite (niet gratis) proberen de inhoud van bad sectors te recoveren, wat zeker niet altijd lukt.

Ik raad je in elk geval aan om Linux geen via NTFS toegang tot de schijf te geven zolang je bad sectors hebt. Als die in metadata voorkomen kan dit grote schade en corruptie toebrengen aan heel veel gegevens op de schijf. Vooral omdat Linux mogelijk anders reageert dan Windows kan dit probleem verergeren.

  • hiekikowan
  • Registratie: Februari 2011
  • Laatst online: 22-01 11:21
Ik ga deze stappen eens uitvoeren... kijken of dat helpt. Belangrijke data staat toch al in de cloud dus ik raak enkel wat installaties kwijt... en dat is in de vakantie nog wel weer te fixen...

Ik laat nu de chkdsk draaien, die is na ruim een uur pas op 28% voor de c-schijf... heb ik bij ee zero-fill niet binnen de kortste keren weer errors? Zo nee, biedt hirens bootcd een tool om deze fill uit te voeren?

Alvast bedankt...

[ Voor 100% gewijzigd door hiekikowan op 27-12-2012 19:41 ]


  • hiekikowan
  • Registratie: Februari 2011
  • Laatst online: 22-01 11:21
De chkdsk's zijn uitgedraaid... hij geeft geen unrecoverable errors... Heeft iemand nog antwoord op bovenstaande vragen... of tips over wat nu te ondernemen...?

De data op de schijven zie ik maar als verloren... ben nu toch wel blij met backups... :D

  • hiekikowan
  • Registratie: Februari 2011
  • Laatst online: 22-01 11:21
De schijf geeft in de Dell diagnostics en de Bios diagnostics ook een hoop errors en kabaal dus ik heb eens met Dell gebeld... Maandag wordt de schijf vervangen, hij lijkt gewoon echt kaput te zijn...

  • com2,1ghz
  • Registratie: Oktober 2004
  • Laatst online: 00:48
Verwijderd schreef op donderdag 27 december 2012 @ 17:35:

Sommige laptops bieden onvoldoende koeling aan notebookschijven, dat ben ik zelf in het verleden vrij vaak tegengekomen. 61 graden vind ik in elk geval te warm; warmer dan 50 graden wil je je schijf niet laten worden; omdat hij vervolgens toch weer afkoelt naar 18-22 graden.
Even een kort vraagje
En als ze bijna nooit afkoelen? Heb een home server met met 5 schijven waavan ik geen van allen langer dan 10 seconden kan aanraken. Weet niet precies hoeveel graden het is.

  • hiekikowan
  • Registratie: Februari 2011
  • Laatst online: 22-01 11:21
Draait die server Linux? Probeer het dan eens met Smartctl te bekijken... (sudo smartctl -a /dev/sd*)... Of via een livecd ofsow...

Warmte voor een HDD wordt al groot probleem gezien...

  • Apache
  • Registratie: Juli 2000
  • Laatst online: 28-01 21:43

Apache

amateur software devver

com2,1ghz schreef op vrijdag 28 december 2012 @ 11:24:
[...]

Even een kort vraagje
En als ze bijna nooit afkoelen? Heb een home server met met 5 schijven waavan ik geen van allen langer dan 10 seconden kan aanraken. Weet niet precies hoeveel graden het is.
"3.4 Temprature" in dit document: http://static.googleuserc...archive/disk_failures.pdf

1 vd beste studies hierrond uitgevoerd

If it ain't broken it doesn't have enough features


  • jan99999
  • Registratie: Augustus 2005
  • Laatst online: 19-01 16:25
Temps kun je gewoon opzoeken bij de maker van de hd, onder de 50 zou ik zeker blijven.
Steeds de hd heel kort gebruiken is ook slecht, dus warm en weer koud, zoals met externe backup schijven.

Verwijderd

Onder de 50 is echt een beetje overdreven voor een laptop. Daar zit je bij een goedkope consumentenlaptop, zoals de XPS15, al snel boven, zeker met een 7200 rpm schijfje. Maar 61 is inderdaad wel heel erg heet.

[ Voor 4% gewijzigd door Verwijderd op 03-01-2013 21:05 ]


  • Uncle Mel
  • Registratie: December 2010
  • Laatst online: 25-01 12:01
Verwijderd

[ Voor 96% gewijzigd door Uncle Mel op 30-01-2014 21:50 ]

Pagina: 1