[gentoo] SCSI probleem

Pagina: 1
Acties:

  • trinite_t
  • Registratie: Maart 2003
  • Laatst online: 30-01 09:39
Ik heb de laatste tijd op m'n gentoo servertje een probleem. De schijf waar de homedirs op staan stop er af en toe mee. Soms door het helemaal niet meer te doen, soms door de toegang tot bepaalde files te weigeren. Het is een compaq scsi schijf op de volgende controller volgens lspci:
code:
1
00:06.0 SCSI storage controller: Adaptec AHA-2940U2/U2W / 7890/7891

Ik heb er al een andere kabel aan geprobeerd, en ook het er tussenuit halen van de HD slede helpt niet. Het is vanaf het begin van de server begonnen met het af en toe hangen van de complete server, m'n log gaf dan de volgende text:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
Aug  8 23:24:30 localhost scsi0:0:1:0: Attempting to queue an ABORT message
Aug  8 23:24:30 localhost CDB: 0x28 0x0 0x0 0x74 0x0 0x5f 0x0 0x0 0x8 0x0
Aug  8 23:24:30 localhost scsi0: At time of recovery, card was not paused
Aug  8 23:24:30 localhost >>>>>>>>>>>>>>>>>> Dump Card State Begins <<<<<<<<<<<<<<<<<
Aug  8 23:24:30 localhost scsi0: Dumping Card State while idle, at SEQADDR 0x9
Aug  8 23:24:30 localhost Card was paused
Aug  8 23:24:30 localhost ACCUM = 0x0, SINDEX = 0x23, DINDEX = 0xe4, ARG_2 = 0x0
Aug  8 23:24:30 localhost HCNT = 0x0 SCBPTR = 0x16
Aug  8 23:24:30 localhost SCSISIGI[0x0] ERROR[0x0] SCSIBUSL[0x0] LASTPHASE[0x1]:(P_BUSFREE) 
Aug  8 23:24:30 localhost SCSISEQ[0x12]:(ENAUTOATNP|ENRSELI) SBLKCTL[0xa]:(SELWIDE|SELBUSB) 
Aug  8 23:24:30 localhost SCSIRATE[0x0] SEQCTL[0x10]:(FASTMODE) SEQ_FLAGS[0xc0]:(NO_CDB_SENT|NOT_IDENTIFIED) 
Aug  8 23:24:30 localhost SSTAT0[0x0] SSTAT1[0xa]:(PHASECHG|BUSFREE) SSTAT2[0x0] 
Aug  8 23:24:30 localhost SSTAT3[0x0] SIMODE0[0x8]:(ENSWRAP) SIMODE1[0xa4]:(ENSCSIPERR|ENSCSIRST|ENSELTIMO) 
Aug  8 23:24:30 localhost SXFRCTL0[0x80]:(DFON) DFCNTRL[0x0] DFSTATUS[0x89]:(FIFOEMP|HDONE|PRELOAD_AVAIL) 
Aug  8 23:24:30 localhost STACK: 0x0 0x167 0x10d 0x3
Aug  8 23:24:30 localhost SCB count = 44
Aug  8 23:24:30 localhost Kernel NEXTQSCB = 25
Aug  8 23:24:30 localhost Card NEXTQSCB = 25
Aug  8 23:24:30 localhost QINFIFO entries: 
Aug  8 23:24:30 localhost Waiting Queue entries: 
Aug  8 23:24:30 localhost Disconnected Queue entries: 20:41 
Aug  8 23:24:30 localhost QOUTFIFO entries: 
Aug  8 23:24:30 localhost Sequencer Free SCB List: 22 16 9 11 21 26 27 0 25 24 8 2 30 7 19 18 1 14 29 6 12 4 31 28 13 15 3 23 5 10 17 
Aug  8 23:24:30 localhost Sequencer SCB Info: 
Aug  8 23:24:30 localhost 0 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 1 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 2 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x17] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 3 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 4 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 5 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 6 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 7 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x17] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 8 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 9 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 10 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 11 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 12 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 13 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 14 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 15 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 16 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 17 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 18 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 19 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x17] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 20 SCB_CONTROL[0x64]:(DISCONNECTED|TAG_ENB|DISCENB) SCB_SCSIID[0x17] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0x29] 
Aug  8 23:24:30 localhost 21 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 22 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 23 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 24 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x17] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 25 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x17] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 26 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 27 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 28 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 29 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 30 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x17] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost 31 SCB_CONTROL[0xe0]:(TAG_ENB|DISCENB|TARGET_SCB) SCB_SCSIID[0x7] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] SCB_TAG[0xff] 
Aug  8 23:24:30 localhost Pending list: 
Aug  8 23:24:30 localhost 41 SCB_CONTROL[0x60]:(TAG_ENB|DISCENB) SCB_SCSIID[0x17] 
Aug  8 23:24:30 localhost SCB_LUN[0x0] 
Aug  8 23:24:30 localhost Kernel Free SCB list: 35 37 27 2 38 18 10 40 20 17 0 6 9 36 15 33 23 13 43 7 32 11 31 42 26 12 34 14 39 24 3 28 5 22 21 16 19 1 30 4 8 29 
Aug  8 23:24:30 localhost 
Aug  8 23:24:30 localhost <<<<<<<<<<<<<<<<< Dump Card State Ends >>>>>>>>>>>>>>>>>>
Aug  8 23:24:30 localhost (scsi0:A:1:0): Device is disconnected, re-queuing SCB
Aug  8 23:24:30 localhost Recovery code sleeping
Aug  8 23:24:31 localhost Recovery SCB completes
Aug  8 23:24:31 localhost Recovery code awake
Aug  8 23:24:31 localhost aic7xxx_abort returns 0x2002
Aug  8 23:24:31 localhost scsi0:0:1:0: Attempting to queue a TARGET RESET message
Aug  8 23:24:31 localhost CDB: 0x28 0x0 0x0 0x74 0x0 0x5f 0x0 0x0 0x8 0x0
Aug  8 23:24:31 localhost scsi0:0:1:0: Command not found
Aug  8 23:24:31 localhost aic7xxx_dev_reset returns 0x2002

Verder gebruik ik de volgend low-level kernel driver:
code:
1
2
3
4
5
6
<*> Adaptec AIC7xxx Fast -> U160 support (New Driver)                                        
 (32)  Maximum number of TCQ commands per device                                      
  (15000) Initial bus reset delay in milli-seconds                                        
  [*]   Compile in Debugging Code                                                         
  (0)   Debug code enable mask (2047 for all debugging)                           
  [*]   Decode registers during diagnostics

(copy/paste uit m'n kernel instellingen)

Heeft iemand enig idee waardoor dit kan komen/hoe te verhelpen. Aangezien het nogal vervelend is als opeens je niet meer bij je homedir kunt komen :X .

The easiest way to solve a problem is just to solve it.


  • deepbass909
  • Registratie: April 2001
  • Laatst online: 11:46

deepbass909

[☼☼] [:::][:::] [☼☼]

Het lijkt erop dat je controllerkaart op weg is naar de hemel van de bitjes en bytejes...
Anders gezegt, je controller voert een soort nood-reset uit.

Is die de enige schijf aan deze controller?

Wat weleens helpt (klinkt stom, maar is waar) is alles van die kaart lostrekken, de kaart uit het pci-slot halen en terugplaatsen, eventueel op een andere plek.

Waarschuwing, opperprutser aan het werk... en als je een opmerking van mij niet snapt, klik dan hier


  • Guru Evi
  • Registratie: Januari 2003
  • Laatst online: 23-12-2025
deepbass909 schreef op dinsdag 08 augustus 2006 @ 23:58:
Het lijkt erop dat je controllerkaart op weg is naar de hemel van de bitjes en bytejes...
Anders gezegt, je controller voert een soort nood-reset uit.

Is die de enige schijf aan deze controller?

Wat weleens helpt (klinkt stom, maar is waar) is alles van die kaart lostrekken, de kaart uit het pci-slot halen en terugplaatsen, eventueel op een andere plek.
Ik denk eerder dat het de schijf zelf is die naar de hemel aan het gaan is. Ik heb ongeveer hetzelfde probleem gehad met een AHA1542. De schijf was slecht aan het gaan en de controller bleef maar een bus reset doorvoeren. Toen ik de schijven eruit nam was het allemaal weer goed.

Probeer eens je schijven eruit te halen en een ander device te gebruiken om te testen of je hetzelfde probleem hebt (scanner of cd)

Pandora FMS - Open Source Monitoring - pandorafms.org


  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

ga maar nieuwe controller halen ;)

Zaram module kopen voor je glasvezelaansluiting?


  • deepbass909
  • Registratie: April 2001
  • Laatst online: 11:46

deepbass909

[☼☼] [:::][:::] [☼☼]

Mijn ervaring met SCSI is ook dat dit eerder de controller is dan een schijf. Als een schijf aan overlijden is, staat er meestal eerst een error die gerelateerd is aan /dev/sd* waarna de kaart melding zou geven dat ze de bus probeerd te resetten.
In dit geval geeft de kaart zelf een fout, en zal dus daar ook het probleem geven.

Waarschuwing, opperprutser aan het werk... en als je een opmerking van mij niet snapt, klik dan hier


  • trinite_t
  • Registratie: Maart 2003
  • Laatst online: 30-01 09:39
Er hangen twee schijven aan dit systeem. Ik heb het probleem alleen maar (voor zover ik kan zien) met de /home schijf (is /dev/sdb). De andere schijf loopt probleemloos. En het is een onboard controller, dus de controller even los halen en weer vast zetten gaat nogal moeilijk... Ook heb ik niet zo een andere controller liggen om te testen...
Valt er uit het log niet te halen welke scsi ID het probleem veroorzaakt? of is het een algehele reset?
Zou het een goede optie zijn om die sdb eruit te halen, en kijken of het probleem dan weer optreed?

Hier nog een stukje log dat door 'het' probleem komt:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
Aug  9 12:27:23 localhost (scsi0:A:1:0): Device is disconnected, re-queuing SCB
Aug  9 12:27:23 localhost Recovery code sleeping
Aug  9 12:27:23 localhost Recovery SCB completes
Aug  9 12:27:23 localhost Recovery code awake
Aug  9 12:27:23 localhost aic7xxx_abort returns 0x2002
Aug  9 12:27:23 localhost scsi0:0:1:0: Attempting to queue a TARGET RESET message
Aug  9 12:27:23 localhost CDB: 0x2a 0x0 0x0 0x0 0xe4 0x67 0x0 0x1 0x20 0x0
Aug  9 12:27:23 localhost scsi0:0:1:0: Command not found
Aug  9 12:27:23 localhost aic7xxx_dev_reset returns 0x2002
Aug  9 12:27:34 localhost scsi: Device offlined - not ready after error recovery: host 0 channel 0 id 1 lun 0
Aug  9 12:27:34 localhost sd 0:0:1:0: SCSI error: return code = 0x10000
Aug  9 12:27:34 localhost end_request: I/O error, dev sdb, sector 58471
Aug  9 12:27:34 localhost Buffer I/O error on device sdb1, logical block 7301
Aug  9 12:27:34 localhost lost page write due to I/O error on sdb1
Aug  9 12:27:34 localhost scsi0 (1:0): rejecting I/O to offline device
Aug  9 12:27:34 localhost Buffer I/O error on device sdb1, logical block 7302
Aug  9 12:27:34 localhost lost page write due to I/O error on sdb1
Aug  9 12:27:34 localhost Buffer I/O error on device sdb1, logical block 7303
Aug  9 12:27:34 localhost lost page write due to I/O error on sdb1
Aug  9 12:27:34 localhost Buffer I/O error on device sdb1, logical block 7304
Aug  9 12:27:34 localhost lost page write due to I/O error on sdb1
Aug  9 12:27:34 localhost Buffer I/O error on device sdb1, logical block 7305
Aug  9 12:27:34 localhost lost page write due to I/O error on sdb1
Aug  9 12:27:34 localhost Buffer I/O error on device sdb1, logical block 7306
Aug  9 12:27:34 localhost lost page write due to I/O error on sdb1
Aug  9 12:27:34 localhost Buffer I/O error on device sdb1, logical block 7307
Aug  9 12:27:34 localhost lost page write due to I/O error on sdb1
Aug  9 12:27:34 localhost Buffer I/O error on device sdb1, logical block 7308
Aug  9 12:27:34 localhost lost page write due to I/O error on sdb1
Aug  9 12:27:34 localhost Buffer I/O error on device sdb1, logical block 7309
Aug  9 12:27:34 localhost lost page write due to I/O error on sdb1
Aug  9 12:27:34 localhost Buffer I/O error on device sdb1, logical block 7310
Aug  9 12:27:34 localhost lost page write due to I/O error on sdb1
Aug  9 12:27:34 localhost scsi0 (1:0): rejecting I/O to offline device
Aug  9 12:27:34 localhost REISERFS: abort (device sdb1): Journal write error in flush_commit_list
Aug  9 12:27:34 localhost REISERFS: Aborting journal for filesystem on sdb1
Aug  9 12:27:39 localhost scsi0 (1:0): rejecting I/O to offline device
Aug  9 12:27:39 localhost printk: 27 messages suppressed.
Aug  9 12:27:39 localhost Buffer I/O error on device sdb1, logical block 135808
Aug  9 12:27:39 localhost lost page write due to I/O error on sdb1
Aug  9 12:30:01 localhost cron[8104]: (root) CMD (test -x /usr/sbin/run-crons && /usr/sbin/run-crons)
Aug  9 12:32:51 localhost ReiserFS: sdb1: warning: clm-6006: writing inode 19894 on readonly FS
Aug  9 12:32:53 localhost ReiserFS: sdb1: warning: clm-6006: writing inode 19894 on readonly FS
Aug  9 12:33:24 localhost scsi0 (1:0): rejecting I/O to offline device
Aug  9 12:33:24 localhost Buffer I/O error on device sdb1, logical block 135808
Aug  9 12:33:24 localhost lost page write due to I/O error on sdb1
Aug  9 12:39:22 localhost ReiserFS: sdb1: warning: clm-6006: writing inode 19894 on readonly FS
Aug  9 12:39:23 localhost ReiserFS: sdb1: warning: clm-6006: writing inode 19894 on readonly FS
Aug  9 12:39:54 localhost scsi0 (1:0): rejecting I/O to offline device
Aug  9 12:39:54 localhost Buffer I/O error on device sdb1, logical block 135808

Deze fouten krijg ik dus als ik de schijf (of een bepaalde directory erop) niet kan benaderen/ erin schrijven/lezen
Misschien is dit iets duidelijker.

[ Voor 78% gewijzigd door trinite_t op 09-08-2006 12:50 ]

The easiest way to solve a problem is just to solve it.


  • nzyme
  • Registratie: November 2001
  • Laatst online: 28-12-2025

nzyme

terror

Aug 9 12:27:39 localhost lost page write due to I/O error on sdb1
lijkt me je disk dus :?
Aug 9 12:39:22 localhost ReiserFS: sdb1: warning: clm-6006: writing inode 19894 on readonly FS
en dit betekend :?

| Hardcore - Terror |


  • trinite_t
  • Registratie: Maart 2003
  • Laatst online: 30-01 09:39
Ok, het ziet er naar uit dat het idd de schijf was, heb er nu een nieuwe (maar wel ide) schijf in zitten (root draait nog wel vanaf andere scsi schijf) en ben tot nu toe nog geen problemen / foutmeldingen meer tegengekomen :D
Tnx!

The easiest way to solve a problem is just to solve it.

Pagina: 1