freenas crash, bad block in harde schijf?

Pagina: 1
Acties:

Acties:
  • 0 Henk 'm!

  • timberleek
  • Registratie: Juli 2009
  • Laatst online: 09-07 08:24
Hallo

Vanavond kwam ik thuis naar een verdacht stille server, ja hij was uit.
Hij reageerde niet op de power knop, totdat ik de netstekker er een keer uithaalde en weer terug plaatste. Toen startte hij weer.

Dan maar gereboot, hij leek het weer te doen. Totdat hij na +/- 15 minuten crashed en reboot (in tegenstelling tot een volledige uitval dit weekend).

Met monitor eraan krijg ik deze tekst:
code:
1
2
3
4
5
6
dev = ad5p1, block = 1, fs = /mnt/downloads
panic: ffs_blkfree: freeing free block
cpuid = 1
uptime: 15m44s
cannot dump. No dump device defined
automatic reboot in 15 seconds - press a key on the console to abort


Er komt dus een kernel panic ivm een probleem met een blok op een van de schijven. Ik zou denken dat het een bad sector is, klopt dat?

daarna gaat het licht redelijk uit hier...

Google leid me naar iemand die het had na stroomuitval, maar dat is niet geweest. De server zit achter een ups samen met een router en wat ander spul. De router heeft een uptime van 8 dagen, dus die is niet uit geweest.

Ik kom wat handelingen tegen als fsck, maar aangezien ik hier totaal geen ervaring mee heb vraag ik het toch maar even na.

Wat is hier precies aan de hand, hoe erg is het en hoe los ik het op?

De betreffende schijf is een samsung HD204UI (spinpoint f4). De server draait freenas 0.7.2 Sabanda (revision 5543). Er is geen raid oid van toepassing, de data op de schijf is niet kritiek (met name films), maar als het kan natuurlijk wel graag behouden :+

verdere hardware:
code:
1
2
3
4
5
6
7
8
9
cpu: intel dual core e2160
mobo: foxconn 946g77ma-8ks2h 
ram: 2 GB kingston latje
schijven: 1x WD5000AAKS (wd caviar 500gb), 
          1x WD1002FBYS (wd re3 1TB), 
          1x samsung HD204UI
voeding: delta dps300-mb
koeling: stock cpu cooler + 4 scythe slip streams (800rpm)
freenas draait vanaf een simpele 4GB usb stick

Dat is wel alle info die ik kan bedenken :+ .

Alvast bedankt voor de hulp _/-\o_
Timberleek

Acties:
  • 0 Henk 'm!

  • FitzJac
  • Registratie: November 2010
  • Laatst online: 11:05
Welk filesystem is er in gebruik?
code:
1
df -hT

En dan in geval van bijvoorbeeld ext4 iets als dit:
code:
1
fsck.ext4 -v /dev/sdc

Wel eerst backuppen!!!!

Acties:
  • 0 Henk 'm!

  • CyBeR
  • Registratie: September 2001
  • Niet online

CyBeR

💩

ext4 op een freebsd machine lijkt me onwaarschijnlijk.


'freeing free block' betekent dat die functie (ffs_blkfree()) een block probeerde de free'en die al free (niet in gebruik) was, volgens de administratie. Iets wat nooit zo mogen voorkomen en wijst op corruptie ergens. Dat kan in het fs zijn (fsck zou dat kunnen fixen), dat kan zijn dat je disk rot aan het worden is, of het kan dat je geheugen een fout ontwikkeld heeft.

All my posts are provided as-is. They come with NO WARRANTY at all.


Acties:
  • 0 Henk 'm!

  • BoAC
  • Registratie: Februari 2003
  • Laatst online: 08:39

BoAC

Memento mori

Aanvalsplan dus:
1. Memtest draaien (Disks zou ik dan wel even loskoppelen op dat moment)
2. Proberen zoveel mogelijk van je belangrijke data backupen als je dat al niet gedaan hebt
3. smart waardes van je disks nakijken
4. fsck draaien

[ Voor 12% gewijzigd door BoAC op 25-02-2013 08:14 ]


Acties:
  • 0 Henk 'm!

  • timberleek
  • Registratie: Juli 2009
  • Laatst online: 09-07 08:24
thanks voor de reacties

het filesystem is UFS voor alle schijven (standaard). Backups zijn in dit geval niet echt belangrijk (en ivm de hoeveelheid data niet mogelijk), het gaat om een film verzameling. Ik ga nog even proberen om een lijst ervan op te slaan, maar bewaren hoeft niet.

Verder zal ik vanmiddag aan de slag gaan. Eerst vannacht dan maar memtest laten draaien

edit:
Hij is inmiddels met pass 4 bezig, nog geen errors gevonden

edit 2:
Een nachtje doorlopen heeft ook geen errors opgeleverd (14 runs), Ram lijkt me in orde dus.
Dan ga ik me vanavond maar eens storten op de schijf

[ Voor 23% gewijzigd door timberleek op 26-02-2013 09:14 ]


Acties:
  • 0 Henk 'm!

  • timberleek
  • Registratie: Juli 2009
  • Laatst online: 09-07 08:24
De tijd voordat hij reboot is nu af en toe maar 2.5 minuut ipv ca 15
Af en toe heeft hij net na opstarten een "fatal trap 12: page fault while in kernel mode"

Google leert me dat dit meestal ram of een schijf is.
Memtest heeft geen fouten laten zien, dus het zal wel komen door die schijf.


De smart waardes van de samsung zijn als volgt:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
1 Raw_Read_Error_Rate 0x002f 100 100 051 Pre-fail Always - 1
2 Throughput_Performance 0x0026 252 252 000 Old_age Always - 0
3 Spin_Up_Time 0x0023 067 066 025 Pre-fail Always - 10077
4 Start_Stop_Count 0x0032 097 097 000 Old_age Always - 3127
5 Reallocated_Sector_Ct 0x0033 252 252 010 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 252 252 051 Old_age Always - 0
8 Seek_Time_Performance 0x0024 252 252 015 Old_age Offline - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 1186
10 Spin_Retry_Count 0x0032 252 252 051 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 252 252 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 82
181 Program_Fail_Cnt_Total 0x0022 098 098 000 Old_age Always - 47519456
191 G-Sense_Error_Rate 0x0022 100 100 000 Old_age Always - 78
192 Power-Off_Retract_Count 0x0022 252 252 000 Old_age Always - 0
194 Temperature_Celsius 0x0002 064 062 000 Old_age Always - 24 (Min/Max 11/38)
195 Hardware_ECC_Recovered 0x003a 100 100 000 Old_age Always - 0
196 Reallocated_Event_Count 0x0032 252 252 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 252 252 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 252 252 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0036 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x002a 100 100 000 Old_age Always - 38
223 Load_Retry_Count 0x0032 252 252 000 Old_age Always - 0
225 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 3169


Daar vallen 2 regels op wat mij betreft:
De Raw_Read_Error_Rate is 1
De Program_Fail_Cnt_Total is enorm 47519456

Die laatste schrok ik wel van, maar op internet lees ik tegenstrijdige verhalen. Sommige zeggen dat het niks uitmaakt, andere komen met versleten flash (dat zou dan het cache moeten zijn...)

Wat denken jullie?

Ik ga vast beginnen aan fsck.
Denken jullie dat dit een falende schijf wordt, of zal het echt maar om een slechte sector gaan?

edit:

Hij is al klaar zo te zien, de hdd activity led brand niet meer. Dan alles maar weer mounten en kijken wat hij doet :X

[ Voor 4% gewijzigd door timberleek op 26-02-2013 23:08 ]


  • timberleek
  • Registratie: Juli 2009
  • Laatst online: 09-07 08:24
Nou alles lijkt weer helemaal in orde.

De afgelopen dagen geen enkel probleem, ook probleemloos series en muziek kunnen streamen.
Bedankt voor de hulp, het was dus allemaal niet zo'n ramp duidelijk.

Of is die program fail counter nog reden voor argwaan?

Acties:
  • 0 Henk 'm!

  • HollowGamer
  • Registratie: Februari 2009
  • Niet online
Daar vallen 2 regels op wat mij betreft:
De Raw_Read_Error_Rate is 1
De Program_Fail_Cnt_Total is enorm 47519456
same:
Raw Read Error Rate 22738444
Spin Up Time 0
Start Stop Count 167
Reallocated Sector Ct 0
Seek Error Rate 13119359
Hardware ECC Recovered 22738444

Raw Read Error Rate 51599680
Spin Up Time 0
Start Stop Count 166
Reallocated Sector Ct 1
Seek Error Rate 10081866
Hardware ECC Recovered 51599680

Acties:
  • 0 Henk 'm!

  • BoAC
  • Registratie: Februari 2003
  • Laatst online: 08:39

BoAC

Memento mori

De fout die je kreeg kwam misschien van:

code:
1
2
1 Raw_Read_Error_Rate 0x002f 100 100 051 Pre-fail Always - 1
195 Hardware_ECC_Recovered 0x003a 100 100 000 Old_age Always - 0


Die zijn niet gelijk.. dus een lees error misschien?
Pagina: 1