Sinds een aantal dagen heb ik problemen met mijn Ubuntu Server box.
OS: Ubuntu Server 10.04
MB: VIA EPIA 1200EN
sda: WD 250GB / en /home
sdb: WD 500GB /data
Het begon met een aantal vreemde errors. Directories die niet meer te zien waren en zeer lage throughputs op m'n sdb disk. Later op de dag was de hele schijf niet eens meer te zien en zaten m'n logs vol met errors.
Na het een en ander te hebben geprobeerd kwam ik tot de conclusie dat de schijf overleden was. De WD SMART tool zag de hele schijf niet en verschillende Live CD's gaven aan dat alle ext4 superblocks corrupt waren. Mijn conclusie: sdb is dood.
Nieuwe WD Green Caviar 1,5TB EARS gekocht en Ubuntu Server meteen maar opnieuw geinstalleerd.
Omdat er nogal wat data op m'n 500GB HD probeerde ik toch nog een keer de schijf te lezen en verrek; alle data is opeens weer te lezen! Meteen alles gekopierd naar m'n nieuwe HD. Wel vreemd overigens dat de WD SMART tool de schijf nogsteeds niet ziet.
Nieuwe setup:
sda: WD 250GB / en /home
sdb: WD 1,5TB /data
Het probleem is nu; tijdens het kopieren van data van sdb naar sda krijg ik een hele zooi errors, en wel:
Dit gebeurt dus enkel tijdens het kopieren van sdb naar sda. Elke andere combinatie geeft geen errors.
Daarnaast geeft de nieuwe 1,5TB schrijf al SMART errors met smartctl.
Wat is heb gedaan:
- Nieuwe SATA kabels
- Ubuntu Server opnieuw geinstalleerd
- Rot gezocht op Google
- Voeding gemeten
- Beide HD's gechecked met de WD SMART tool (extended tests)
Waar moet ik dit zoeken? Ik begin het vermoeden te krijgen dat het moederbord mogelijk aan het overlijden is.
Iemand?
OS: Ubuntu Server 10.04
MB: VIA EPIA 1200EN
sda: WD 250GB / en /home
sdb: WD 500GB /data
Het begon met een aantal vreemde errors. Directories die niet meer te zien waren en zeer lage throughputs op m'n sdb disk. Later op de dag was de hele schijf niet eens meer te zien en zaten m'n logs vol met errors.
Na het een en ander te hebben geprobeerd kwam ik tot de conclusie dat de schijf overleden was. De WD SMART tool zag de hele schijf niet en verschillende Live CD's gaven aan dat alle ext4 superblocks corrupt waren. Mijn conclusie: sdb is dood.
Nieuwe WD Green Caviar 1,5TB EARS gekocht en Ubuntu Server meteen maar opnieuw geinstalleerd.
Omdat er nogal wat data op m'n 500GB HD probeerde ik toch nog een keer de schijf te lezen en verrek; alle data is opeens weer te lezen! Meteen alles gekopierd naar m'n nieuwe HD. Wel vreemd overigens dat de WD SMART tool de schijf nogsteeds niet ziet.
Nieuwe setup:
sda: WD 250GB / en /home
sdb: WD 1,5TB /data
Het probleem is nu; tijdens het kopieren van data van sdb naar sda krijg ik een hele zooi errors, en wel:
code:
1
2
3
4
5
6
7
8
9
10
| Sep 5 19:44:24 EPIA kernel: [ 2555.122961] ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 Sep 5 19:44:24 EPIA kernel: [ 2555.123266] ata4.00: BMDMA stat 0x25 Sep 5 19:44:24 EPIA kernel: [ 2555.123491] ata4.00: failed command: READ DMA Sep 5 19:44:24 EPIA kernel: [ 2555.123739] ata4.00: cmd c8/00:00:c0:15:e1/00:00:00:00:00/e0 tag 0 dma 131072 in Sep 5 19:44:24 EPIA kernel: [ 2555.123744] res 51/84:5f:c0:15:e1/00:00:00:00:00/e0 Emask 0x10 (ATA bus error) Sep 5 19:44:24 EPIA kernel: [ 2555.124423] ata4.00: status: { DRDY ERR } Sep 5 19:44:24 EPIA kernel: [ 2555.124649] ata4.00: error: { ICRC ABRT } Sep 5 19:44:24 EPIA kernel: [ 2555.124895] ata4: soft resetting link Sep 5 19:44:24 EPIA kernel: [ 2555.297225] ata4.00: configured for UDMA/33 Sep 5 19:44:24 EPIA kernel: [ 2555.297225] ata4: EH complete |
Dit gebeurt dus enkel tijdens het kopieren van sdb naar sda. Elke andere combinatie geeft geen errors.
Daarnaast geeft de nieuwe 1,5TB schrijf al SMART errors met smartctl.
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
| Error 2 occurred at disk power-on lifetime: 9 hours (0 days + 9 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 04 51 01 30 4f c2 e0 Error: ABRT Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- b0 d6 01 be 4f c2 e0 02 00:04:55.204 SMART WRITE LOG b0 da 01 00 4f c2 e0 02 00:04:55.119 SMART RETURN STATUS 80 44 00 00 44 57 e0 02 00:04:55.119 [VENDOR SPECIFIC] b0 d6 01 be 4f c2 e0 02 00:04:54.643 SMART WRITE LOG 80 45 00 00 44 57 e0 02 00:04:54.643 [VENDOR SPECIFIC] Error 1 occurred at disk power-on lifetime: 9 hours (0 days + 9 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 04 51 01 30 4f c2 a0 Error: ABRT Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- b0 d6 01 be 4f c2 a0 02 00:00:50.573 SMART WRITE LOG b0 da 01 00 4f c2 a0 02 00:00:50.489 SMART RETURN STATUS 80 44 00 00 44 57 a0 02 00:00:50.489 [VENDOR SPECIFIC] b0 d6 01 be 4f c2 a0 02 00:00:50.473 SMART WRITE LOG 80 45 00 01 44 57 a0 02 00:00:50.473 [VENDOR SPECIFIC] |
Wat is heb gedaan:
- Nieuwe SATA kabels
- Ubuntu Server opnieuw geinstalleerd
- Rot gezocht op Google
- Voeding gemeten
- Beide HD's gechecked met de WD SMART tool (extended tests)
Waar moet ik dit zoeken? Ik begin het vermoeden te krijgen dat het moederbord mogelijk aan het overlijden is.
Iemand?