Dell PE2600 BSOD's

Pagina: 1
Acties:

  • axis
  • Registratie: Juni 2000
  • Laatst online: 26-01-2023
PNS lijkt me het juiste forum, vind dit wel een 'professionele beheerderskwestie'.. Als ik het verkeerd heb, I’m sorry, please move my topic..

Ikke heeft een Dell PowerEdge 2600 in beheer, met daarop VSS 6.0d, en MSSQL2000 (ontwikkeldatabase), waarop een man of 15 zit te developen..

Specs

Dual Xeon 2.4GHz, 1024MB ECC RAM, Dell Perc 4/Di met 3x36GB 10k schijven (RAID5), Windows Server 2003 Standard Edition.

Diskindeling

VOLUME1 (3x36GB in RAID5) > C: (10GB) - D: (58GB)
VOLUME2 (3x72GB in RAID5) > E: (132GB)

Situatie

Die server heeft na de oplevering een uptime van zelfs 3 maanden ofzo gehad onder 'normale/zware' load. Later zijn er nog eens 3x72GB 10k schijven bij geplaatst (RAID5).

Probleem

Nu is het zo dat ie sinds een maand of 2 af en toe eens vastloopt. (eens per 2 weken ofzo) Helemaal vast, niets meer aan te doen. Er hangt niet altijd een keyboard en muis aan, en een van collega's trekt dan gewoon de stekker eruit en erin.. Ze zijn altijd een uur eerder dan ik, en willen gewoon werken..

Nu doet ie het de afgelopen weken steeds vaker, en het blijkt dat ie een bluescreen geeft, met een KERNEL_STACK_INPAGE_ERROR melding. (En nu zelfs 2x per dag, dus nu heeft het mijn 1e prioriteit) (http://support.microsoft....aspx?scid=kb;en-us;228753). Uit deze pagina maak ik het volgende op:

Stop error: 0x00000077: KERNEL_STACK_INPAGE_ERROR

De andere 4 codes van de BSOD laten zich als volgt uitleggen:

0xC0000185 STATUS CODE
0xC0000185 I/O STATUS CODE
0x00000000 PAGE FILE NUMBER
0x004FF000 OFFSET INTO PAGE FILE

En als ik die I/O STATUS CODE opzoek, komt deze melding naar voren: 0xC0000185, or STATUS_IO_DEVICE_ERROR: improper termination or defective cabling of SCSI-based devices, or two devices attempting to use the same IRQ.

Als ik het dus zelf samenvat

Het lijkt me dus erop neerkomen dat Windows een page uit de pagefile wil lezen om in het geheugen te zetten, maar dat ie hier niet in slaagt. Meest logische oorzaak is een diskprobleem lijkt me.

Wat heb ik geprobeerd

Sowieso natuurlijk veel googlen, maar lijkt niet echt een bekend probleem te zijn bij deze PE's.

Chkdsk /f op alle logische schijven (de 2 RAID5 volumes): geen problemen.
Windows event viewer: niets relevants te zien.

Dell OpenManage logs: niets relevants te zien.

Virusscan: volgens bovenstaand document kan een virus in het MBR voor deze melding zorgen. Kan me niet voorstellen dat die machine geïnfecteerd is, dus eens uitgebreid scannen met Symantec Antivirus Corporate Edition 9.0. Niets gevonden.

Memtest86: Een hele cyclus met tests door laten lopen (met ECC enabled), om te kijken of het geheugen defect was. Geen enkele fout. Ik kan hem ook niet te lang laten lopen overdag, er zitten 15 programmeurs te wachten.

Dell Utility Diagnostics: Alle schijven en de RAID controller aan een diagnose onderworpen, geen probleem. Hij heeft de PERC controller getest, en van elke schijf wat data aan het begin, het eind, en random wat uit het midden gelezen, en daarnaast de SMART status van de schijven uitgelezen. Geen problemen.

Dell Utility Diagnostics: All devices test. Hij checkt alle devices. APCI, L1 en L2 cache, seriële poorten, VGA kaart en geheugen, USB controller, noem maar op. Geen problemen.

Uiteindelijk?

Als laatste dacht ik dat er misschien toch een fout zou zitten in de pagefile (die niet door CHKDSK te vinden is). Ik heb een nieuwe pagefile op E: aangemaakt, en die op C: verwijderd. Enne, nu maar afwachten of ie straks nog steeds BSOD’s blijft geven.

Als ie dat doet, dan ga ik eens nieuwe drivers en firmware installeren van de RAID controller, kijken of dat wat oplost. Maar daar ben ik nogal voorzichtig mee.

Iemand anders nog suggesties?

Two advices for network troubleshooting.. learn to draw diagrams in Visio, and THINK IN LAYERS!


  • cablepokerface
  • Registratie: Januari 2001
  • Laatst online: 29-01 16:53
En ik ben een van de developers die gebruik maakt van die server en ik vind dat Axis eens op moet schieten met dit probleem. >:)

Just kidding Angelo ... ;) ... je bent een goeie sysbeheerder ... _/-\o_

  • MoBi
  • Registratie: Oktober 1999
  • Laatst online: 17-02 15:09
Geheugen als eens gecontroleerd? Met memtest86???

[ Voor 21% gewijzigd door MoBi op 09-08-2004 13:31 ]

Volgens mij zit je te lullen, want ik voel nattigheid....


  • Brahiewahiewa
  • Registratie: Oktober 2001
  • Laatst online: 30-09-2022

Brahiewahiewa

boelkloedig

axis schreef op 09 augustus 2004 @ 12:30:
...improper termination or defective cabling of SCSI-based devices...
En je hebt dit gecontroleerd? Eventueel de terminators vervangen en/of effe sjekke of de termination niet toevallig op meerdere schijven aanstaat. Of hangt er misschien extern ook nog een device aan (tape o.i.d.)?

QnJhaGlld2FoaWV3YQ==


  • axis
  • Registratie: Juni 2000
  • Laatst online: 26-01-2023
MoBi schreef op 09 augustus 2004 @ 13:31:
Geheugen als eens gecontroleerd? Met memtest86???
Memtest86: Een hele cyclus met tests door laten lopen (met ECC enabled), om te kijken of het geheugen defect was. Geen enkele fout. Ik kan hem ook niet te lang laten lopen overdag, er zitten 15 programmeurs te wachten.
ja dus :)

Two advices for network troubleshooting.. learn to draw diagrams in Visio, and THINK IN LAYERS!


  • axis
  • Registratie: Juni 2000
  • Laatst online: 26-01-2023
Brahiewahiewa schreef op 09 augustus 2004 @ 13:42:
[...]
En je hebt dit gecontroleerd? Eventueel de terminators vervangen en/of effe sjekke of de termination niet toevallig op meerdere schijven aanstaat. Of hangt er misschien extern ook nog een device aan (tape o.i.d.)?
Die disks zijn default out of the box door Dell geinstalleerd geleverd, en uitvoerig gestresstest. En er valt ook niet veel aan te zien, als je die schijven erin prikt (zoals die 3 72GB's) prikken ze meteen op het backplane. Verder niet veel aan te zien.

Die Array manager regelt de rest verder zo te zien. Vrij weinig in te stellen qua termination, en die disks zijn gewone SCA hotplug disks.. Out of the box erin prikken.. En die array manager geeft ook aan dat alles perfect is..

Er hangen geen andere devices aan..

Two advices for network troubleshooting.. learn to draw diagrams in Visio, and THINK IN LAYERS!


  • Ralphie
  • Registratie: Oktober 2000
  • Laatst online: 12:03
Ik weet niet of het mogelijk is er een andere voeding in de testen, maar ik heb ook wel eens zulke vage problemen gehad met de HD`s, terwijl de voeding de oorzaak was.

HODL


  • axis
  • Registratie: Juni 2000
  • Laatst online: 26-01-2023
hmm.. heb zo geen Dell 750W voeding bij de hand.. volgens OpenManage zijn de voltages optimaal.. maar goed, het zou kunnen..

Two advices for network troubleshooting.. learn to draw diagrams in Visio, and THINK IN LAYERS!


  • Aceton
  • Registratie: Februari 2001
  • Laatst online: 28-11-2021
axis schreef op 09 augustus 2004 @ 16:37:
volgens OpenManage zijn de voltages optimaal.. maar goed, het zou kunnen..
Ik heb de ervaring dat OpenManage wel eens vaker zegt dat alles okee is, maar in de praktijk bleken er toch 2 disken kapot te zijn uit een diskcabinet. En volgens OpenManage was alles 'groen' en dus okee :'( .

  • axis
  • Registratie: Juni 2000
  • Laatst online: 26-01-2023
yup, maar als je boot, kun je met F10 naar de utility mode (geen openmanage), en daar kun je ook de onafhankelijke schijven testen.. daar is niets te zien..

hij is trouwens niet meer vastgelopen, maar goed.. iemand wel eens een 'corrupte' pagefile meegemaakt?

Two advices for network troubleshooting.. learn to draw diagrams in Visio, and THINK IN LAYERS!


  • Sjoq
  • Registratie: Februari 2001
  • Laatst online: 26-07-2023
makkelijk en snel easy as dell? :P

Linux is zo cool dat ik het koud heb


  • axis
  • Registratie: Juni 2000
  • Laatst online: 26-01-2023
Sjoq schreef op 09 augustus 2004 @ 19:30:
makkelijk en snel easy as dell? :P
Verder heb ik niets te klagen.. de leveringen zijn te lang onderweg, en ze vergeten telkens wel een ander onderdeel, maar over de producten klaag ik niet.. dat doen we wel in een ander topic, ik wil het hier een beetje ontopic en op PNS-niveau houden. ;)

Two advices for network troubleshooting.. learn to draw diagrams in Visio, and THINK IN LAYERS!


  • Sjoq
  • Registratie: Februari 2001
  • Laatst online: 26-07-2023
is goed :D

Ben zelf nog te weinig thuis in de serverafdeling.
Kom het vaak genoeg tegen op de dimension systemen en inspiron notebooks. Die ondersteun ik. Af en toe wel vaag hoor bsod's.


Server krijgt wel genoeg koeling neem ik aan?

Linux is zo cool dat ik het koud heb


Verwijderd

Mijn 2 gokken zijn in eerste instantie (vooral met dit weer):

-de voeding
-temperaturen

Hoe heet wordt die kast atm vanbinnen wanneer hij goed belast wordt?

  • axis
  • Registratie: Juni 2000
  • Laatst online: 26-01-2023
hmm.. nu ligt m'n VPN er weer uit. Ik zag iig dat de 5 fans allemaal rond de 2500rpm maken, en de temps (die kon ik nog net copy-pasten vanuit OpenManage):

BP Bottom Temp 32.0 C
BP Top Temp 35.0 C
CPU 1 41.0 C
CPU 2 42.0 C
CPU Planar 48.0 C

ziet er niet echt schokkend uit toch? En als ik achter de kast voel, komt er wel warme lucht uit, maar niet eens in de buurt van heet..

Two advices for network troubleshooting.. learn to draw diagrams in Visio, and THINK IN LAYERS!


  • igmar
  • Registratie: April 2000
  • Laatst online: 31-01 23:50

igmar

ISO20022

Hmm.. ziet d'r op het eerste gezicht uit als een diskfailure.

Is dit probleem reproduceerbaar, bv als de machine eens flink gestressed wordt ? Een aantal parallele compiles van een groot project doet vaak wonderen als het om stresstesten gaat. Als ie dan weer een BSOD geeft moet je eens naar geheugentimings en slecht geheugen gaan kijken. memtest moet je wel een behoorlijke tijd laten draaien, even een uurtje is over het algemeen genomen niet genoem. Weekends zijn daar erg handig voor :)

  • axis
  • Registratie: Juni 2000
  • Laatst online: 26-01-2023
Disk defrag, shrinken van db's en dat soort intensieve taken, geen probleem.. Heb er nu op aanraden van een collega een mobiele airco bovenop gezet, eens kijken wat dat doet met de stabiliteit.

En anders inderdaad een weekend lang memtesten..

Two advices for network troubleshooting.. learn to draw diagrams in Visio, and THINK IN LAYERS!


  • Firefox
  • Registratie: Juni 1999
  • Laatst online: 08-09-2024

Firefox

Een Vurig Vosje

Zelfde gehad hier bij een PE4600

Heel veel overleg gehad met Dell Tech. Uiteindelijk de oorzaak niet gevonden, maar wel verholpen.

- Bios Mobo
- Firmware PERC controller (let op de aangegeven volgorde van updaten!)
- Firmware Backplane
- Firmware Disks (Heel belangrijk, is een rotte firmware serie geweest)

- Drivers PERC controller (zie ook firmware)
- Drivers Broadcom NIC's (don't ask, leek me ook onzin, maar er zitten toch serieuze problemen in sommige versies. Laatste versie is goed.)

En natuurlijk voor het geval je Dell OM Managed System er op hebt staan... eveneens de aller laatste versie...

Verwacht een aantal re-boots ;-)

[ Voor 15% gewijzigd door Firefox op 11-08-2004 11:38 ]

Better to have loved and lost then never loved at all... yeah right.


  • FastBunny
  • Registratie: Januari 2001
  • Laatst online: 20-02 22:27

FastBunny

Give it the Works !

Heb persoonlijk 3 PE2600's onder mijn houde en nog geen enkel probleem gehad ermee. Koeling is goed. Beter als de 4600 :+
* FastBunny mompelt iets over een airco die uitgegaan was en dat de PE4600 al in de error was en de PE2600's geen problemen hadden :X

Ik zou iig gaan voor wat Firefox zegt, download alle recente drivers etc. Heeft op die server altijd al Windows 2003 gedraait?

edit:

........................ Huidige .. min... max alerts (dus nog geen error)
BP Bottom Temp 23.0 C 10.0 C 60.0 C
BP Top Temp 23.0 C 10.0 C 60.0 C
CPU 1 29.0 C 10.0 C 75.0 C
CPU 2 30.0 C 10.0 C 75.0 C
CPU Planar 34.0 C 10.0 C 55.0 C

Dat is van een van de 2600's die ik hier heb staan. Jouw CPU Planer is dichtbij de alert, maar dan nog is het maar een alert.

[ Voor 37% gewijzigd door FastBunny op 11-08-2004 11:49 ]

Server: Dell PowerEdge R610, 48GB DDR3 1333MHz, 3 x 4TB IronWolf RAID5, Dell H700, VMware ESXi 6.0
Laptop: Dell Latitude E6510, Intel i5-560m, 8GB RAM, 128GB Samsung SSD, 250GB 7200rpm, 15.4" WUXGA FHD
PSN: FastBunny_NL


  • axis
  • Registratie: Juni 2000
  • Laatst online: 26-01-2023
na drie dagen onder de airco te hebben gestaan nog steeds dezelfde problemen, dus ik gaat eens (net zoals firefox zei) alle drivers en firmwares updaten. Buiten kantooruren, that is..

Two advices for network troubleshooting.. learn to draw diagrams in Visio, and THINK IN LAYERS!


  • LeNNy
  • Registratie: Maart 2000
  • Laatst online: 15-02 16:45
Laat iig even weten hoe het verder gaat. Ben ik wel benieuwd naar.

Verwijderd

cablepokerface schreef op 09 augustus 2004 @ 13:14:
En ik ben een van de developers die gebruik maakt van die server en ik vind dat Axis eens op moet schieten met dit probleem. >:)

Just kidding Angelo ... ;) ... je bent een goeie sysbeheerder ... _/-\o_
Ik vind dat Axis ongestoord op moet kunnen schieten met dit probleem.

Dat betekent dus dat er niet off-topic geouwehoerd wordt door bijv. de heren cablepokerface en Sjoq.

Dank u.

Verwijderd

Zijn de problemen ontstaan, na het toevoegen van de 2e raidset?
Welke data is van de eerste naar de 2e set verhuisd?
Pagina: 1