PNS lijkt me het juiste forum, vind dit wel een 'professionele beheerderskwestie'.. Als ik het verkeerd heb, I’m sorry, please move my topic..
Ikke heeft een Dell PowerEdge 2600 in beheer, met daarop VSS 6.0d, en MSSQL2000 (ontwikkeldatabase), waarop een man of 15 zit te developen..
Specs
Dual Xeon 2.4GHz, 1024MB ECC RAM, Dell Perc 4/Di met 3x36GB 10k schijven (RAID5), Windows Server 2003 Standard Edition.
Diskindeling
VOLUME1 (3x36GB in RAID5) > C: (10GB) - D: (58GB)
VOLUME2 (3x72GB in RAID5) > E: (132GB)
Situatie
Die server heeft na de oplevering een uptime van zelfs 3 maanden ofzo gehad onder 'normale/zware' load. Later zijn er nog eens 3x72GB 10k schijven bij geplaatst (RAID5).
Probleem
Nu is het zo dat ie sinds een maand of 2 af en toe eens vastloopt. (eens per 2 weken ofzo) Helemaal vast, niets meer aan te doen. Er hangt niet altijd een keyboard en muis aan, en een van collega's trekt dan gewoon de stekker eruit en erin.. Ze zijn altijd een uur eerder dan ik, en willen gewoon werken..
Nu doet ie het de afgelopen weken steeds vaker, en het blijkt dat ie een bluescreen geeft, met een KERNEL_STACK_INPAGE_ERROR melding. (En nu zelfs 2x per dag, dus nu heeft het mijn 1e prioriteit) (http://support.microsoft....aspx?scid=kb;en-us;228753). Uit deze pagina maak ik het volgende op:
Stop error: 0x00000077: KERNEL_STACK_INPAGE_ERROR
De andere 4 codes van de BSOD laten zich als volgt uitleggen:
0xC0000185 STATUS CODE
0xC0000185 I/O STATUS CODE
0x00000000 PAGE FILE NUMBER
0x004FF000 OFFSET INTO PAGE FILE
En als ik die I/O STATUS CODE opzoek, komt deze melding naar voren: 0xC0000185, or STATUS_IO_DEVICE_ERROR: improper termination or defective cabling of SCSI-based devices, or two devices attempting to use the same IRQ.
Als ik het dus zelf samenvat
Het lijkt me dus erop neerkomen dat Windows een page uit de pagefile wil lezen om in het geheugen te zetten, maar dat ie hier niet in slaagt. Meest logische oorzaak is een diskprobleem lijkt me.
Wat heb ik geprobeerd
Sowieso natuurlijk veel googlen, maar lijkt niet echt een bekend probleem te zijn bij deze PE's.
Chkdsk /f op alle logische schijven (de 2 RAID5 volumes): geen problemen.
Windows event viewer: niets relevants te zien.
Dell OpenManage logs: niets relevants te zien.
Virusscan: volgens bovenstaand document kan een virus in het MBR voor deze melding zorgen. Kan me niet voorstellen dat die machine geïnfecteerd is, dus eens uitgebreid scannen met Symantec Antivirus Corporate Edition 9.0. Niets gevonden.
Memtest86: Een hele cyclus met tests door laten lopen (met ECC enabled), om te kijken of het geheugen defect was. Geen enkele fout. Ik kan hem ook niet te lang laten lopen overdag, er zitten 15 programmeurs te wachten.
Dell Utility Diagnostics: Alle schijven en de RAID controller aan een diagnose onderworpen, geen probleem. Hij heeft de PERC controller getest, en van elke schijf wat data aan het begin, het eind, en random wat uit het midden gelezen, en daarnaast de SMART status van de schijven uitgelezen. Geen problemen.
Dell Utility Diagnostics: All devices test. Hij checkt alle devices. APCI, L1 en L2 cache, seriële poorten, VGA kaart en geheugen, USB controller, noem maar op. Geen problemen.
Uiteindelijk?
Als laatste dacht ik dat er misschien toch een fout zou zitten in de pagefile (die niet door CHKDSK te vinden is). Ik heb een nieuwe pagefile op E: aangemaakt, en die op C: verwijderd. Enne, nu maar afwachten of ie straks nog steeds BSOD’s blijft geven.
Als ie dat doet, dan ga ik eens nieuwe drivers en firmware installeren van de RAID controller, kijken of dat wat oplost. Maar daar ben ik nogal voorzichtig mee.
Iemand anders nog suggesties?
Ikke heeft een Dell PowerEdge 2600 in beheer, met daarop VSS 6.0d, en MSSQL2000 (ontwikkeldatabase), waarop een man of 15 zit te developen..
Specs
Dual Xeon 2.4GHz, 1024MB ECC RAM, Dell Perc 4/Di met 3x36GB 10k schijven (RAID5), Windows Server 2003 Standard Edition.
Diskindeling
VOLUME1 (3x36GB in RAID5) > C: (10GB) - D: (58GB)
VOLUME2 (3x72GB in RAID5) > E: (132GB)
Situatie
Die server heeft na de oplevering een uptime van zelfs 3 maanden ofzo gehad onder 'normale/zware' load. Later zijn er nog eens 3x72GB 10k schijven bij geplaatst (RAID5).
Probleem
Nu is het zo dat ie sinds een maand of 2 af en toe eens vastloopt. (eens per 2 weken ofzo) Helemaal vast, niets meer aan te doen. Er hangt niet altijd een keyboard en muis aan, en een van collega's trekt dan gewoon de stekker eruit en erin.. Ze zijn altijd een uur eerder dan ik, en willen gewoon werken..
Nu doet ie het de afgelopen weken steeds vaker, en het blijkt dat ie een bluescreen geeft, met een KERNEL_STACK_INPAGE_ERROR melding. (En nu zelfs 2x per dag, dus nu heeft het mijn 1e prioriteit) (http://support.microsoft....aspx?scid=kb;en-us;228753). Uit deze pagina maak ik het volgende op:
Stop error: 0x00000077: KERNEL_STACK_INPAGE_ERROR
De andere 4 codes van de BSOD laten zich als volgt uitleggen:
0xC0000185 STATUS CODE
0xC0000185 I/O STATUS CODE
0x00000000 PAGE FILE NUMBER
0x004FF000 OFFSET INTO PAGE FILE
En als ik die I/O STATUS CODE opzoek, komt deze melding naar voren: 0xC0000185, or STATUS_IO_DEVICE_ERROR: improper termination or defective cabling of SCSI-based devices, or two devices attempting to use the same IRQ.
Als ik het dus zelf samenvat
Het lijkt me dus erop neerkomen dat Windows een page uit de pagefile wil lezen om in het geheugen te zetten, maar dat ie hier niet in slaagt. Meest logische oorzaak is een diskprobleem lijkt me.
Wat heb ik geprobeerd
Sowieso natuurlijk veel googlen, maar lijkt niet echt een bekend probleem te zijn bij deze PE's.
Chkdsk /f op alle logische schijven (de 2 RAID5 volumes): geen problemen.
Windows event viewer: niets relevants te zien.
Dell OpenManage logs: niets relevants te zien.
Virusscan: volgens bovenstaand document kan een virus in het MBR voor deze melding zorgen. Kan me niet voorstellen dat die machine geïnfecteerd is, dus eens uitgebreid scannen met Symantec Antivirus Corporate Edition 9.0. Niets gevonden.
Memtest86: Een hele cyclus met tests door laten lopen (met ECC enabled), om te kijken of het geheugen defect was. Geen enkele fout. Ik kan hem ook niet te lang laten lopen overdag, er zitten 15 programmeurs te wachten.
Dell Utility Diagnostics: Alle schijven en de RAID controller aan een diagnose onderworpen, geen probleem. Hij heeft de PERC controller getest, en van elke schijf wat data aan het begin, het eind, en random wat uit het midden gelezen, en daarnaast de SMART status van de schijven uitgelezen. Geen problemen.
Dell Utility Diagnostics: All devices test. Hij checkt alle devices. APCI, L1 en L2 cache, seriële poorten, VGA kaart en geheugen, USB controller, noem maar op. Geen problemen.
Uiteindelijk?
Als laatste dacht ik dat er misschien toch een fout zou zitten in de pagefile (die niet door CHKDSK te vinden is). Ik heb een nieuwe pagefile op E: aangemaakt, en die op C: verwijderd. Enne, nu maar afwachten of ie straks nog steeds BSOD’s blijft geven.
Als ie dat doet, dan ga ik eens nieuwe drivers en firmware installeren van de RAID controller, kijken of dat wat oplost. Maar daar ben ik nogal voorzichtig mee.
Iemand anders nog suggesties?
Two advices for network troubleshooting.. learn to draw diagrams in Visio, and THINK IN LAYERS!