Samsung F1 'verdwijnt' at random

dinsdag 11 juni 2013 23:04

Acties:

Moderator Harde Waren

say Baah

Moederborden

Topicstarter

Specs:

Gigabyte GA-P55M-UD2 met Core i7 860 en 8GB RAM erop
256GB Samsung 830-series SSD
1TB Samsung Spinpoint F1 HD103UJ HDD
Seasonic M12 II Bronze 520W PSU
(en nog wat andere meuk zoals GPU, kast, monitor, trackball, keyb, speakers etc)
OS: Windows 7. Windows is op de SSD geinstalleerd, maar met Users op de HDD,
Alle echt belangrijke data staat op m'n thuisserver met 2x 1.5TB WD Green in RAID 1. Kortom, als de boel instort is het hooguit een irritatie, ergste wat ik verlies is wat gedownloade game content dat ik makkelijk zat weer kan vinden (vnl mods enzo).

Wat is er aan de hand? Iets met HDD, mobo en/of OS. En het lukt me niet om uit te sluiten waar...

Eens in de zoveel tijd, vaker gelijk na boot, maar soms pas na langere tijd, 'verwijnt' de Samsung uit Windows. Dat wordt bijna altijd voorafgegaan door een periode van 100% activiteit. _{dat wijst op software} Omdat Users op de HDD staat gaat Windows dan enigszins over de zeik (foutmeldingen over dingen niet kunnen schrijven, desktop icons die verdwijnenn etc), maar het blijft mogelijk om stabiel door te werken mits de programma's in kwestie niet met de HDD proberen te doen. _{dat wijst op de drive} Bij reboot hangt m'n mobo een minuutlang (tot timeout) bij detectie van SATA drives. Hij detecteert de SSD, maar vindt uiteindelijk de HDD niet. Maar... een ESCD reset (stroom eraf, powerknop 10 sec ingedrukt houden) zorgt ervoor dat het weer gevonden wordt. _{toch mobo en niet drive of OS?}

Aanvankelijk dacht ik te maken te hebben met een fysiek probeem (losse kabel), wat aanemelijk was gezien de slechte staat van m'n vorige kast. Dus andere kast besteld (en en passant andere SATA-kabels en voeding). Heeft niets veranderd.

Vervolgens dacht ik dat het met een stuk software te maken had. Het viel me op dat het altijd leek te gebeuren terwijl ik MediaMonkey (audiospeler & database) draaide. Dat maakt zeer intensief gebruik van HDD en er zijn issues mee te vinden die daadwerkelijk zouden leiden tot vastlopers of HDD detectieproblemen. Eerst paar settings aangepast (themes uit zou moeten helpen), maar dat hielp niet. Toen geen MediaMonkey meer gedraaid. Dat hielp ook niet.
Ben in Windows Resource Monitor gaan kijken welke processen die 100% usage genereren. Bij problemen vlak na boot is dat MsMpEng.exe, een gedeeld component van Windows Defender en Microsoft Security Essentials. Waarom dat ding zonodig iedere boot 2 minuten lang de HDD volledig plat wil trekken is me een raadsel, maar stoppen van het proces in die periode voorkomt iig niet dat het vast kan lopen.
Conclusie: het lijkt niet één specifiek stuk software te zijn die de boel in de soep laat lopen, het gebeurt alleen vooral bij veel HDD usage. Dat wijst weer op hardware.

Ter info: muv SSD, PSU en GPU is het systeem ruim 3 jaar oud, dus de HDD ook.

Ik heb SMART-uitdraai gemaakt, dit is het resultaat:

code:

HD Tune: SAMSUNG HD103UJ Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         99       99       51       1491       Ok       
(03) Spin Up Time                87       87       11       4710       Ok       
(04) Start/Stop Count            98       98       0        2313       Ok       
(05) Reallocated Sector Count    100      100      10       0          Ok       
(07) Seek Error Rate             100      100      51       0          Ok       
(08) Seek Time Performance       100      100      15       10434      Ok       
(09) Power On Hours Count        98       98       0        10177      Ok       
(0A) Spin Retry Count            100      100      51       0          Ok       
(0B) Calibration Retry Count     100      100      0        0          Ok       
(0C) Power Cycle Count           98       98       0        1965       Ok       
(0D) Soft Read Error Rate        99       99       0        1491       Ok       
(B7) (unknown attribute)         100      100      0        0          Ok       
(B8) (unknown attribute)         100      100      0        0          Ok       
(BB) (unknown attribute)         100      100      0        1492       Ok       
(BC) (unknown attribute)         100      100      0        0          Ok       
(BE) Airflow Temperature         65       48       0        606273571  Ok       
(C2) Temperature                 66       47       0        606208034  Ok       
(C3) Hardware ECC Recovered      100      100      0        1266152    Ok       
(C4) Reallocated Event Count     100      100      0        0          Ok       
(C5) Current Pending Sector      100      100      0        1          Ok       
(C6) Offline Uncorrectable       100      100      0        1          Ok       
(C7) Ultra DMA CRC Error Count   100      100      0        0          Ok       
(C8) Write Error Rate            100      100      0        0          Ok       
(C9) TA Counter Detected         253      253      0        108        Ok       

Power On Time         : 10177
Health Status         : Ok

Geen hardware ECC issues, geen UDMA CRC, geen write errors - ziet er tenzij ik erg scheel kijk goed uit - wat HDTune schijnbaar ook vindt.

Aangezien ik HDTune toch aangezwengeld heb, heb ik een Error Scan gedaan. Resultaat: 0.0% damaged blocks.

Dat is allemaal mooi dus. Aangezien Samsung z'n HDD-business aan Seagate verkocht heeft, heb ik daar gezocht naar meer diagnostic meuk, en kwam ik bij SeaTools terecht. Zij doen ook een SMART-scan, maar geven erg ondoorzichtig aan dat hun pass/failcriteria proprietary en geheim zijn. Maar hoe dan ook kwam daar ook een pass uit. Bij de Short Drive Self Test kreeg ik uiteindelijk wel een error voor m'n kiezen:

6C9AC2A4. Dit betekent schijnbaar:

Serial number not detected, SeaTools did fail the drive

Eh, OK, maar waarom zie ik dit dan in de log?

code:

--------------- SeaTools for Windows v1.2.0.8 ---------------
11/06/2013 22:13:32
Model: HD103UJ
Serial Number: S13PJ90QA55809
Firmware Revision: 1AA01113
SMART - Pass 11/06/2013 22:13:32
Short DST - Started 11/06/2013 22:13:39
Short DST - FAIL 11/06/2013 22:14:41
SeaTools Test Code: 6C9AC2A4
Identify - Started 11/06/2013 22:21:30
SMART - Pass 11/06/2013 22:22:02
Identify - Started 11/06/2013 22:22:27
Identify - Started 11/06/2013 22:43:03
Short DST - Started 11/06/2013 22:49:03
Short DST - FAIL 11/06/2013 22:50:19
SeaTools Test Code: 6C9AC2A4

Ik lees daar een vrij duidelijke S/N: Serial Number: S13PJ90QA55809

Met wat gegoogle vond ik dat bij Seagate Barracuda drives die foutmelding zou wijzen op corrupte firmware - maar in die gevallen is nadrukkelijk geen S/N uit te lezen. Voorgestelde fix voor een drive die enigszins werkt is om firmware opnieuw te flashen. Lijkt me - gezien ik weinig te verliezen heb - geen slecht plan. Maar (mogelijk tgv overname door Seagate) kan ik nergens firmware vinden om te downloaden voor dit beestje. Plus dat ik gezien ambigue foutmelding en nul SMARTproblemen rekening hou met een bug in Seatools met drives van de vroegere concurrent.

Wat ik nog niet uitgesloten heb - bij gebrek aan andere So1156 mobo - is dat het aan het moederbord ligt - wat me niet zou verbazen gezien het feit dat die ESCD reset effect heeft. Daar zou ik nog het minst vrolijk van worden, want 3 jaar na pensionering van het So1156 platform zijn de borden schaars en relatief duur.

Is er iemand die bij het lezen van dit alles een geniaal idee heeft? Mijn volgende stap als dat niet zo is, is om een 500GB drive die ik nog ergens heb liggen erin te hangen en alle data over te zetten (die erop past). Veel werk, maar zou HDD definitief kunnen uitsluiten. Alleen wil ik dat pas doen als ik goede aanwijzing heb dat het echt HDD is - vooral omdat ik anders weer alles terug kan zetten als dat het niet was

Oslik blyat! Oslik!

woensdag 12 juni 2013 00:47

Acties:

Verwijderd

Ah, mister dion_b himself! Altijd een eer om jou te mogen helpen.

Wat mij gelijk opvalt:

(C5) Current Pending Sector 100 100 0 1 Ok

Dat is niet 'OK'. Dit betekent dat je een actieve bad sector hebt, die onleesbaar is en zichtbaar voor de host.

Omdat HDTune zo'n slecht programma is, krijg je dan:

Health Status : Ok

Terwijl dat eigenlijk moet zijn:

Health Status : Critical danger! Active bad sectors detected!

Het vreemde is dat je zegt dat een error scan geen fouten opleverde. Kun je de SMART nog eens controleren om te kijken of deze bad sector inmiddels is verdwenen? Zo ja dan klopt het verhaal denk ik wel, dat bad sectors debet zijn aan je problemen. Dit ene bad sector is dan nu al verdwenen. Bad sectors is conform je probleemomschrijving dat applicaties hangen en kan ook voor zorgen dat je HDD na lange tijd in de BIOS niet gevonden wordt. Kenmerkend daarbij is dat de HDD-led een tijd lang aan blijft staan. Dan bedoel ik ook echt AAN, dus volop brandend voor lange tijd (10+ seconden).

Wat je zou kunnen doen is een zero-write ofwel lange format van de hardeschijf. Sowieso is je plan om alles (tijdelijk) over te zetten op een andere schijf wel een goede. Je kunt zo de hardeschijf proberen uit te sluiten. Mocht je hardeschijf namelijk soms bad sectors maken die soms ook weer verdwijnen, dan kan dit de oorzaak zijn van je probleem.

Mijn advies: houd regelmatig de SMART in de gaten specifiek de Current Pending Sector raw value. Deze moet altijd 0 zijn.

woensdag 12 juni 2013 07:46

Acties:

Uncle Mel

Verwijderd

[ Voor 97% gewijzigd door Uncle Mel op 30-01-2014 21:34 ]

woensdag 12 juni 2013 16:22

Acties:

Twister336

Verwijderd schreef op woensdag 12 juni 2013 @ 00:47:
Dat is niet 'OK'. Dit betekent dat je een actieve bad sector hebt, die onleesbaar is en zichtbaar voor de host.

Terwijl dat eigenlijk moet zijn:

Health Status : [color=red]Critical danger![/color] Active bad sectors detected!

Een paar draden hieronder lees ik dat je vind dat je geen paniekvoetbal hoeft te spelen om één zielig kapot sectortje maar nu is opeens een enkele kapot sectortje kritiek gevaar

dion_b schreef op dinsdag 11 juni 2013 @ 23:04:
Dat is allemaal mooi dus. Aangezien Samsung z'n HDD-business aan Seagate verkocht heeft, heb ik daar gezocht naar meer diagnostic meuk, en kwam ik bij SeaTools terecht. Zij doen ook een SMART-scan, maar geven erg ondoorzichtig aan dat hun pass/failcriteria proprietary en geheim zijn. Maar hoe dan ook kwam daar ook een pass uit. Bij de Short Drive Self Test kreeg ik uiteindelijk wel een error voor m'n kiezen:

Je zou een Short Self-test van een 3rd party tooltje kunnen proberen (dit kan met HD Tune Pro, Speedfan en smartctl). Als de test daar ook faalt zul je wellicht een duidelijkere foutcode krijgen want zoals je zelf al hebt gemerkt krijg je maar weinig info van Seatools die ook aangeeft dat SMART ok is (wat dus niet zo is).

Maar ik zou eerst zorgen voor een werkende backup voor je verder begint te testen.

donderdag 13 juni 2013 01:07

Acties:

dion_b

Moderator Harde Waren

say Baah

Moederborden

Topicstarter

Verwijderd schreef op woensdag 12 juni 2013 @ 00:47:
[...]

Het vreemde is dat je zegt dat een error scan geen fouten opleverde. Kun je de SMART nog eens controleren om te kijken of deze bad sector inmiddels is verdwenen? Zo ja dan klopt het verhaal denk ik wel, dat bad sectors debet zijn aan je problemen. Dit ene bad sector is dan nu al verdwenen. Bad sectors is conform je probleemomschrijving dat applicaties hangen en kan ook voor zorgen dat je HDD na lange tijd in de BIOS niet gevonden wordt. Kenmerkend daarbij is dat de HDD-led een tijd lang aan blijft staan. Dan bedoel ik ook echt AAN, dus volop brandend voor lange tijd (10+ seconden).

Nope, SMART geeft nu exact zelfde aan. Als ik zo de symptomen die je beschrijft hoor, klinkt dit desalniettemin erg aannemelijk. Toch raar dat de error scan niets opleverde. Heb nog eentje gedaan vandaag, vier uur aan het reutelen maar niets gevonden...

Wat je zou kunnen doen is een zero-write ofwel lange format van de hardeschijf. Sowieso is je plan om alles (tijdelijk) over te zetten op een andere schijf wel een goede.

Yup. Moet ik die 500GB schijf wel nog kunnen vinden...

Je kunt zo de hardeschijf proberen uit te sluiten. Mocht je hardeschijf namelijk soms bad sectors maken die soms ook weer verdwijnen, dan kan dit de oorzaak zijn van je probleem.

Mijn advies: houd regelmatig de SMART in de gaten specifiek de Current Pending Sector raw value. Deze moet altijd 0 zijn.

Tnx.

Uncle Mel schreef op woensdag 12 juni 2013 @ 07:46:
Eens met alles wat Cypher zegt (hij is natuurlijk ook de plaatselijke SMART guru )

mbt het serienummer in Seatools, ik meen dat deze error betekend dat hij het Serienummer niet kan matchen met een Seagate serienummer, ik denk niet dat Seatools is geüpdatet met oude Samsung serials.

Precies, dat dacht ik ook al - maar kan er gek genoeg niets over vinden online. Iemand anders met een Samsung schijf die Seatools een spin wil geven? M'n Samsung SSD krijgt wel netjes een Pass.

Om usersettings, hidden files en de hele reutemeteut te behouden zou ik persoonlijk de F1 met dd in linux kopieren naar een andere 1tb disk, de samsung vervolgens zero writen en kijken wat er met de smart waardes gebeurd. vervolgens weer alles terugzetten. Et voila! je hebt het ook gelijk gebackupped vervolgens kun je je backup bijgewerkt houden met syncback welke alleen de permutaties overzet.

Pff, die hidden meuk en user settings kunnen me allemaal gestolen worden, alles wat bewaard moet worden zit al op m'n thuisserver - en ik mirror juist dingen daarvandaan op deze 1TB schijf

Wat daar niet op staat is sowieso dispensible, enige irritatie is OS reinstall - iets wat ik alleen wil doen als ik zeker weet dat het nodig is.

Twister336 schreef op woensdag 12 juni 2013 @ 16:22:
[...]

Je zou een Short Self-test van een 3rd party tooltje kunnen proberen (dit kan met HD Tune Pro, Speedfan en smartctl). Als de test daar ook faalt zul je wellicht een duidelijkere foutcode krijgen want zoals je zelf al hebt gemerkt krijg je maar weinig info van Seatools die ook aangeeft dat SMART ok is (wat dus niet zo is).

Maar ik zou eerst zorgen voor een werkende backup voor je verder begint te testen.

Backup niet nodig, alles van waarde staat al ergens anders. Enige reden dat ik terughoudend ben is zoals gezegd moeite van herinstall OS.

Heb nog met HD Tune en Speedfan short self-tests gedraaid. Die gaven 100% OK

Ondertussen denk ik - mede op basis van wat CiPHER zegt - dat de schijf sectoren heeft die de ene keer wel goed werken maar soms uitvallen en dan problemen geven. Kan me niet helemaal voorstellen hoe dat gebeurt zonder ooit op de tests naar voren te komen als het werkt, maar het zou het wel verklaren. Oftewel tijd om op zoek te gaan naar nieuwe schijf vrees ik zo.

Iig is z'n uitleg dat m'n moederbord allicht niet schuldig is een opluchting, daar had ik echt geen zin in.

Oslik blyat! Oslik!

donderdag 13 juni 2013 02:41

Acties:

Twister336

dion_b schreef op donderdag 13 juni 2013 @ 01:07:
[...]
Iemand anders met een Samsung schijf die Seatools een spin wil geven?

Ik heb er drie Samsungs mee getest. Twee ervan geven een pass bij de Short DST.
De derde blijft ongeveer halverwege hangen tijdens de test maar dat doet hij bij HD Tune Pro en smartctl ook.
Zie je de DST vooruitgaan (het blauwe progress balkje)? Een DST duurt normaal gezien 2 minuten. Volgens jouw log stopt de test al na een minuut bij jouw schijf.

donderdag 13 juni 2013 12:12

Acties:

Verwijderd

Twister336 schreef op woensdag 12 juni 2013 @ 16:22:
Een paar draden hieronder lees ik dat je vind dat je geen paniekvoetbal hoeft te spelen om één zielig kapot sectortje maar nu is opeens een enkele kapot sectortje kritiek gevaar

Ik snap je verwarring. Echter het gaat hier om twee verschillende dingen: veiligheid van je gegevens en de bruikbaarheid van de hardeschijf.

Een enkele bad sector kan genoeg zijn om alle data ontoegankelijk te maken; je partitietabel kan worden gecorrupteerd of kritieke filesystem metadata. Je zult dan de partitie als RAW te zien krijgen in Windows en als je dubbelklikt op het volume word je gevraagd of je het volume wilt formatteren. Dat zijn geen dingen die je graag wilt zien als je er belangrijke gegevens op hebt staan.

Actieve bad sectors (Current Pending Sector) zijn dan ook extreem gevaarlijk, behalve voor derde generatie filesystems die hiermee om kunnen gaan (ZFS, Btrfs, ReFS).

Echter, bad sectors zijn normaal voor moderne hardeschijven. Dat is geen teken dat de hardeschijf op instorten staat. Met name hardeschijven met hoge datadichtheid zijn extra vatbaar voor het vormen van bad sectors. Het is ook conform hun specificatie van uBER 10^-14 die vrij vertaald zegt dat een gering aantal bad sectors normaal is en binnen de normale specificaties hoort van de hardeschijf.

Kortom, we moeten data security en drive health van elkaar onderscheiden. Als je heel technisch correct wilt zijn, zou het dus moeten zijn:

Data Security status: Critical danger! Active bad sectors detected!
Drive health status: Caution! Some bad sectors, but within normal operating parameters for this drive.

Mijn opmerking over 'paniekvoetbal' ging er over dat sommige mensen gelijk hun hardeschijf gaan afschrijven zodra deze een zielig bad sectortje vormen. Dat is natuurlijk onzin, omdat het normaal is. Daar moet je gewoon mee leren leven. Het echte probleem is dat 'we' nu nog slechte ouderwetse filesystems gebruiken (NTFS en Ext4) terwijl we eigenlijk allang over hadden moeten gaan op een derde generatie filesystem die niet langer een opslagapparaat als perfect beschouwen, maar ook met bad sectors om kunnen gaan. Dat hoort er nu eenmaal bij tegenwoordig.

Leg ik het zo beter uit?

donderdag 13 juni 2013 14:16

Acties:

NeFoRcE

Hallo? Bent u daar?

Hier een soortgelijk probleem TS. Maar dan met een WD schijf. Schrijven/lezen soms réte traag. Regelmatig connected/disconnected meldingen van Intel Rapid Share. Schijf losgekoppeld (hot swappable), en Windows draait weer als een tierelier. Schijf RMA, nieuwe retour gekregen, en alles draait als een zonnetje.

Ik ga er vanuit dat het je schijf is.

Professioneel Heftruck Syndroom

donderdag 13 juni 2013 15:12

Acties:

dion_b

Moderator Harde Waren

say Baah

Moederborden

Topicstarter

Twister336 schreef op donderdag 13 juni 2013 @ 02:41:
[...]

Ik heb er drie Samsungs mee getest. Twee ervan geven een pass bij de Short DST.
De derde blijft ongeveer halverwege hangen tijdens de test maar dat doet hij bij HD Tune Pro en smartctl ook.
Zie je de DST vooruitgaan (het blauwe progress balkje)? Een DST duurt normaal gezien 2 minuten. Volgens jouw log stopt de test al na een minuut bij jouw schijf.

Yep, balkje is dan ongeveer 1/3 (niet dat dat altijd zoveel zegt).

Ondertussen weer een keer gehad, deze keer na reboot in BIOS gezien: SMART event logged. Maar exact wat wordt er niet duidelijker op:

code:

HD Tune: SAMSUNG HD103UJ Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         99       99       51       1683       Ok       
(03) Spin Up Time                82       82       11       6150       Ok       
(04) Start/Stop Count            98       98       0        2316       Ok       
(05) Reallocated Sector Count    100      100      10       0          Ok       
(07) Seek Error Rate             100      100      51       0          Ok       
(08) Seek Time Performance       100      100      15       10261      Ok       
(09) Power On Hours Count        98       98       0        10186      Ok       
(0A) Spin Retry Count            100      100      51       0          Ok       
(0B) Calibration Retry Count     100      100      0        0          Ok       
(0C) Power Cycle Count           98       98       0        1968       Ok       
(0D) Soft Read Error Rate        99       99       0        1683       Ok       
(B7) (unknown attribute)         100      100      0        0          Ok       
(B8) (unknown attribute)         100      100      0        0          Ok       
(BB) (unknown attribute)         100      100      0        1684       Ok       
(BC) (unknown attribute)         100      100      0        0          Ok       
(BE) Airflow Temperature         78       48       0        370540566  Ok       
(C2) Temperature                 73       47       0        454426651  Ok       
(C3) Hardware ECC Recovered      100      100      0        216250     Ok       
(C4) Reallocated Event Count     100      100      0        0          Ok       
(C5) Current Pending Sector      100      100      0        1          Ok       
(C6) Offline Uncorrectable       100      100      0        1          Ok       
(C7) Ultra DMA CRC Error Count   100      100      0        0          Ok       
(C8) Write Error Rate            100      100      0        0          Ok       
(C9) TA Counter Detected         253      253      0        9          Ok       

Power On Time         : 10186
Health Status         : Ok

Paar counters zijn omhoog gegaan (of klokje rond in het geval van C9), maar niets springt eruit dat noemenswaardig anders is, Current Pending Sector en Offline Uncorrectable zijn iig onveranderd.

Hoe dan ook blij dat moederbord ook vindt dat er iets met HDD aan de hand is. Dit ding gaat gewoon vervangen worden. Of ik als tussenoplossing die 500GB schijf erin hang danwel een nieuwe >=1TB moet ik nog even zien, 500GB moet ik eerst vinden en voor de nieuwe schijf moet m'n salaris eerst eens binnen komen

Oslik blyat! Oslik!

donderdag 13 juni 2013 15:23

Acties:

Verwijderd

Als je nog energie in wilt steken kun je dit proberen:
1. Backup alle gegevens van de hardeschijf (indien van toepassing)
2. Boot met een Ubuntu livecd. Start een terminal op. Word root met 'su -'
3. Controleer de naam van je hardeschijf, ik ga uit van /dev/sda maar controleer dit in Disks (linksboven op 'start' klikken). Ontkoppel alle overige schijven indien van toepassing, om vergissingen te voorkomen.
4. Voer het volgende commando uit:
dd if=/dev/sda of=/dev/null bs=1M conv=noerror,sync

Kijk nu goed of je een I/O error ziet, zo ja, dan is dat je bad sector.

5. Doe een zero write:
dd if=/dev/zero of=/dev/sda bs=1M conv=noerror,sync

Dit is een gevaarlijk commando wat alle data vernietigt op schijf /dev/sda. Zorg dat je geen fouten maakt met dit commando; alle overige schijven ontkoppelen.

6. Controleer nu nogmaals de SMART. Als deze nog steeds Current Pending Sector > 0 aangeeft, moet je de schijf RMA'en. Als de CPS nu 0 is, dan is de schijf weer foutvrij. Waarom de lange format in Windows niet lukte bij jou is mij dan onbekend.

donderdag 13 juni 2013 23:22

Acties:

Twister336

dion_b schreef op donderdag 13 juni 2013 @ 15:12:
[...]

Yep, balkje is dan ongeveer 1/3 (niet dat dat altijd zoveel zegt).

Nee, maar in dit geval wel

De voortgang wordt namelijk van de harde schijf gelezen. Logisch ook aangezien de test intern is en enkel de HDD weet wat er nog getest moet worden.

Ondertussen weer een keer gehad, deze keer na reboot in BIOS gezien: SMART event logged. Maar exact wat wordt er niet duidelijker op:

Ik zou nu toch eerder naar een geheugenprobleem kijken. Dus best eens booten met een UltimateBootCD oid. en memtest erop los laten.
Een paar jaar geleden had ik ook problemen met mijn HDD's. Ik heb toen ook uitgebreid zitten testen, kabels vervangen, andere SATA poorten gebruikt maar ik vond geen enkele fout.
Na 5 seconden memtest draaien bleek het geheugen kapot te zijn. Defect latje eruit gegooid en toen werkte alles weer prima.

Verwijderd schreef op donderdag 13 juni 2013 @ 12:12:
[...]
Echter, bad sectors zijn normaal voor moderne hardeschijven. Dat is geen teken dat de hardeschijf op instorten staat. Met name hardeschijven met hoge datadichtheid zijn extra vatbaar voor het vormen van bad sectors. Het is ook conform hun specificatie van uBER 10^-14 die vrij vertaald zegt dat een gering aantal bad sectors normaal is en binnen de normale specificaties hoort van de hardeschijf.

Volgens mij interpreteer je die uBER verkeerd.
Als een fabrikant een uBER van 1 sector per 10^14 bits opgeeft betekent dit dat je pas na het lezen van minstens 12,5 TB een onleesbare sector kunt verwachten. Of je die 12,5 TB nu van een 250 GB of 4 TB schijf leest maakt niets uit dus in dat opzicht zijn kapotte sectoren bij grote HDD's niet normaler dan bij kleine HDD's.
De schijf van dion_b heeft zelfs een uBER van 1 sector /10^15 = 125 TB.

[ Voor 33% gewijzigd door Twister336 op 14-06-2013 00:11 ]

vrijdag 14 juni 2013 00:05

Acties:

jan99999

Hang je hd eens aan een andere controller of andere poort.

vrijdag 14 juni 2013 01:07

Acties:

dion_b

Moderator Harde Waren

say Baah

Moederborden

Topicstarter

Twister336 schreef op donderdag 13 juni 2013 @ 23:22:
[...]

Ik zou nu toch eerder naar een geheugenprobleem kijken. Dus best eens booten met een UltimateBootCD oid. en memtest erop los laten.
Een paar jaar geleden had ik ook problemen met mijn HDD's. Ik heb toen ook uitgebreid zitten testen, kabels vervangen, andere SATA poorten gebruikt maar ik vond geen enkele fout.
Na 5 seconden memtest draaien bleek het geheugen kapot te zijn. Defect latje eruit gegooid en toen werkte alles weer prima.

Lijkt me sterk dat als het aan het geheugen zou liggen het meerdere tientallen keren bij de ene schijf en nooit bij de andere schijf zou gebeuren (waarbij de SSD ook nog veel meer operations voor z'n kiezen krijgt). Dat gezegd, dit is doodeenvoudig testen, ik ga zo slapen en ik laat Memtest86+ draaien

jan99999 schreef op vrijdag 14 juni 2013 @ 00:05:
Hang je hd eens aan een andere controller of andere poort.

Al gedaan, iig andere poort. De schijven hingen voor GPU upgrade van aantal maanden terug steeds op poorten 0 en 1, vervolgens paste het in de oude kast met nieuwe GPU niet meer op 0 en 1, dus overgezet op 2 en 3. Zoals ik in ts al zei heb ik de boel in nieuwe kast gestopt nadat problemen begonnen. Toen ook gelijk weer op 0 en 1 (waar ik nooit problemen mee had eerder) teruggehangen. Heeft niet mogen baten.

Andere controller niet gedaan - er zit wel een "Gigabye SATA2" controller op het moederbord, maar gezien dat in werkelijkheid een trage, buggy JMicron JMB322 betreft heb ik daar niets mee gedaan, ik zou dat allerminst als 'known good' beschouwen

Oslik blyat! Oslik!

vrijdag 14 juni 2013 01:09

Acties:

Verwijderd

Twister336 schreef op donderdag 13 juni 2013 @ 23:22:
Volgens mij interpreteer je die uBER verkeerd.
Als een fabrikant een uBER van 1 sector per 10^14 bits opgeeft betekent dit dat je pas na het lezen van minstens 12,5 TB een onleesbare sector kunt verwachten. Of je die 12,5 TB nu van een 250 GB of 4 TB schijf leest maakt niets uit dus in dat opzicht zijn kapotte sectoren bij grote HDD's niet normaler dan bij kleine HDD's.

Dat is - helaas - niet correct.

Maar je maakt een fout die heel begrijpelijk is, omdat de fabrikanten van hardeschijven bewust aansturen tot het maken van die fout. Zoals je weet is uBER een specificatie van onleesbare (of oncorrigeerbare) sectoren die per x bits gelezen data voorkomen. Dit wordt weergegeven in de uBER specificatie die meestal tussen 10^-14 en 10^-16 ligt, waar 2TB+ schijven vrijwel altijd de spec 10^-14 krijgen. Een oncorrigeerbaar bit binnen een sector van 4096 bytes betekent dat die sector niet kan worden geleverd aan de host. Kortom, we praten over uBER maar eigenlijk gaat het over niet te corrigeerbare sector-reads.

Jij zegt dan: oh... dus eens per 12,5TB (10^-14) of eens per 125TB (10^-15) kunnen we een keer een onleesbare sector verwachten. Boeie! Dat is fucking veel data voordat je een bad sector tegenkomt!

Dat klopt, maar besef wel hoe men aan dit getal komt. Men test de hardeschijven door op volle snelheid te lezen van hun oppervlakte. De hoeveelheid onleesbare sectoren wordt dan grofweg vertaald naar de uBER-specificatie. Heel belangrijk hierbij is dat de snelheid van de hardeschijf dus in directe relatie staat tot de specificatie; immers een 2x snellere hardeschijf met dezelfde frequentie aan bad sectors betekent een uBER specificatie die 2x beter is. Kortom, dit is een vorm van misleiding. Bad sectors vormen zich niet in hogere frequentie omdat de hardeschijf sneller kan lezen, maar zo wordt dus wel gemeten.

Verder wordt ook verondersteld dat de snelheid van sequential reads in relatie staat tot oncorrigeerbare sectoren. Dat lijkt mij erg onaannemelijk, zeker als men een lineair verband suggereert. Als men een hardeschijf normaal gebruikt en maar heel af en toe reads uitvoert, zal de hoeveelheid bad sectors waarschijnlijk niet zoveel verschillen versus een 100% duty cycle sequential read workload. Maar belangrijk is dat dit wel de uBER-specificatie drastisch beïnvloed. De uBER met een read-workload van 0 is dan ook automatisch oneindig als tenminste één bad sector is gevonden.

Simpel gezegd: de hardeschijffabrikanten cheaten met hun uBER specificatie omdat nieuwere hardeschijven ook sneller kunnen lezen, en dit de uBER specificatie beïnvloedt. Bovendien wordt de uBER-spec doorgaans met een factor 10 te optimistisch ingeschat, zodat deze nog veel ernstiger is dan opgegeven.

Volgens mijn berekeningen die ik een tijd geleden had gemaakt:

10^-14 = eens per dag
10^-15 = eens per 10 dagen
10^-16 = eens per 100 dagen

Fucking vaak dus.

De schijf van dion_b heeft zelfs een uBER van 1 sector /10^15 = 125 TB.

Besef wel dat verschillende fabrikanten waaronder WD de uBER specificatie van desktopschijven soms aanpassen. Zo is de WD Black series op het ene moment stilletjes aangepast van 10^-15 naar 10^-14. In denk dat hij ergens tussen 10^-13 en 10^-14 in zit, dat lijkt mij realistisch, wanneer getest over een groot aantal samples over een langere tijd.

Bedenk verder dat de testmethode helemaal niet representatief is voor normaal gebruik. Zo zal het continu uitlezen van dezelfde sectoren het probleem van retentie min of meer nullificeren, omdat weak sectoren automatisch worden herschreven. Zo worden bad sectors veroorzaakt door degradatie van de magnetische lading, min of meer uitgesloten. Normaal gebruik zal bad sectors veroorzaakt door dit fenomeen wel degelijk tot problemen leiden, dat is vrij significant zelfs. Dit komt omdat sommige regionen nauwelijks regelmatig worden aangesproken dan wel worden herschreven.

Concluderend, geloof de fabrikanten niet zo. Bad sectors ie een extreem kritiek probleem. Dat weten de hardeschijffabrikanten natuurlijk ook dondersgoed. Waarom denk je anders dat zij zo prat op gaan dat enterprise-schijven tot een factor 100 minder bad sectors genereren dan de consumentenschijven? Het is één grote coverup.

zondag 16 juni 2013 13:02

Acties:

Zorian

What the fox?

Ik heb precies hetzelfde gehad met 2 F1 schijven en 1 F3 schijf, niet veel later overleden ze alle 3...
Wees erop voorbereid dus.

[ Voor 14% gewijzigd door Zorian op 16-06-2013 13:03 ]

zondag 23 juni 2013 20:24

Acties:

dion_b

Moderator Harde Waren

say Baah

Moederborden

Topicstarter

Update: ivm hectische week pas vandaag aan toegekomen om nieuwe schijf erin te hangen. Gaat voor de goede orde om een Hitachi Travelstar 5K1000, dus idd een 2.5" 1TB schijf. dd'en van de data erheen duurde zo'n 3 uur zonder errors. Windows raakte bij eerste boot erna in de war, maar vanaf tweede is het weer als vanouds. De Samsung gaat tzt in ander systeem op de pijnbank (allemaal nullen schrijven enzo), en ik kijk voorlopig aan wat er met m'n desktop gebeurt met ander schijf erin. Tot nu toe geen problemen, maar dat zegt nog weinig. Enig aantoonbaar verschil is dat die Hitachi stukken stiller is

Oslik blyat! Oslik!

woensdag 26 juni 2013 21:29

Acties:

dion_b

Moderator Harde Waren

say Baah

Moederborden

Topicstarter

Nu snap ik er weiing van...

Nieuwe HDD heeft alle problemen verholpen in m'n hoofdsysteem, maar oude HDD gedraagt zich perfect in ander systeem. Heb nu twee keer alles overschreven (/dev/zero en /dev/urandom) en niet een fout, ook niet meer lange gereutel of wat dan ook

Ook Linux bad block scan levert niets op.

Die schijf vertrouw ik alvast voor geen meter, maar totdat ik'm weer op wangedrag betrap kan ik niet uitsluiten dat HDD zelf het probleem niet was

[ Voor 4% gewijzigd door dion_b op 27-06-2013 01:24 ]

Oslik blyat! Oslik!

Onderwerpen