Toon posts:

[.NET] BSOD probleem icm Windows Server 2003 + SP2

Pagina: 1
Acties:

Verwijderd

Topicstarter
Hallo,

Momenteel zitten we in een probleem isolatie fase waarbij proberen het probleem te tackelen welke het systeem in 30min-4 uur leidt naar een BSOD. Het probleem is wel dat we de oorzaak vermoeden in een combinatie van factoren in software onderdelen waar we geen controle over hebben. Dit zijn: Windows Server 2003 service pack 2 met .Net en een 3rd party product). Met SP1 hebben we geen probleem.
Wellicht gaat er bij een van jullie een lichtje branden na het lezen van de laatste regels onderaan.

Korte beschrijving omgeving:
We hebben twee smaken van een applicatie met web-clients welke gebruik maakt van 3rd party HMP voor zijn media. De ene heeft nogal wat .Net modules met remote .Net clients (C#) en het andere gebruikt helemaal geen .Net. De genoemde "HMP" (link) is een op Dialogic gebaseerde omgeving/engine voor VoIP media handling (voice, play/record files en DTMF). HMP omvat een aantal services en is een 3rd party product van Intel / Eicon.
Beide product varianten gebruiken dezelfde module welke de API implementeerd richting HMP.

Probleem
We hebben steeds na een tijd een BSOD. Soms treedt dit gedurende de test op (altijd tussen 30 min - 4uur), maar soms lijken iets niet lekker te lopen en dan op het moment van bewegen van muis of toetsenbord: BSOD.
Dit treedt op met verschillende CPU-platformen (Xeon en Pentium 4).

Constateringen met systemen onder Windows Server 2003
Test 1: met SP1
Applicatie, gebaseerd rondom .NET + HMP ==> OK
Test 2: met SP2
Applicatie, gebaseerd rondom .NET + HMP ==> BSOD
Test 3: met SP2
Applicatie, niet gebaseerd rondom .NET + HMP ==> OK
Test 4: met SP2
Applicatie, gebaseerd rondom .NET, HMP-module is bypassing HMP API, HMP niet geinstalleerd ==> OK
Test 5: met SP2
Applicatie, gebaseerd rondom .NET, HMP-module is bypassing HMP API, HMP geinstalleed en actief ==> BSOD

Mijn vraag nu is:
Is jullie iets bekend met problemen rondon .NET in combinatie met Windows Server 2003 SP2 welke resulteren in een BSOD. Het blijft vreemd dat met SP1 alles als een zonnetje blijft draaien.

Alvast bedankt en ik spit ondertussen verder...

Update (lees hieronder)
We waren vergeten om een BSOD overzicht mee te geven, plus dat we nu ons zoek bereik iets hebben kunnen verfijnen...

We hebben nu het vermoeden dat we het moeten zoeken rondom de kernel-module (van HMP) dat als een bride tussen NIC en stack zit. In Service Pack 2 zitten nogal wat aanpassingen in WinSock, APIC en NIC onderdelen van OS, en er staat inderdaad een redelijk stevige netwerk load op de machine.
Onze vraag zoals hierboven gesteld blijft nog steeds staan... iemand bekend met BSOD's na installatie van SP2 icm .NET en/of stevig netwerk verkeer?

BSOD analyse dump
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
kd> !analyze -v
*******************************************************************************
*                                                                             *
*                        Bugcheck Analysis                                    *
*                                                                             *
*******************************************************************************

KERNEL_MODE_EXCEPTION_NOT_HANDLED (8e)
This is a very common bugcheck.  Usually the exception address pinpoints
the driver/function that caused the problem.  Always note this address
as well as the link date of the driver/image that contains this address.
Some common problems are exception code 0x80000003.  This means a hard
coded breakpoint or assertion was hit, but this system was booted
/NODEBUG.  This is not supposed to happen as developers should never have
hardcoded breakpoints in retail code, but ...
If this happens, make sure a debugger gets connected, and the
system is booted /DEBUG.  This will let us see why this breakpoint is
happening.

Arguments:
Arg1: c0000005, The exception code that was not handled
Arg2: 80833de3, The address that the exception occurred at
Arg3: f54e7cf0, Trap Frame
Arg4: 00000000
 
Debugging Details:
------------------
EXCEPTION_CODE: (NTSTATUS) 0xc0000005 - The instruction at "0x%08lx" referenced 
memory at "0x%08lx". The memory could not be "%s".

FAULTING_IP: 
nt!KiServiceExit2+0
80833de3 fa              cli

TRAP_FRAME:  f54e7cf0 -- (.trap 0xfffffffff54e7cf0)
ErrCode = 00000000
eax=01140000 ebx=f54e7d9c ecx=00000001 edx=00000000 esi=0000320c edi=00001f04
eip=80833de3 esp=f54e7d64 ebp=f54e7d64 iopl=0         nv up ei pl zr na pe nc
cs=0008  ss=0010  ds=0023  es=0023  fs=0030  gs=0000             efl=00010246
nt!KiServiceExit2:
80833de3 fa              cli

Resetting default scope

DEFAULT_BUCKET_ID:  DRIVER_FAULT

BUGCHECK_STR:  0x8E

PROCESS_NAME:  ---> een van ons .NET modules (geen unmanaged code)

CURRENT_IRQL:  0

CLI_FAULT_INSTR: 
nt!KiServiceExit2+0
80833de3 fa              cli

MANAGED_STACK: !dumpstack -EE
Thread 0
Current frame: 
  ChildEBP RetAddr    Caller,Callee

LAST_CONTROL_TRANSFER:  from 8085bba7 to 8087c480

STACK_TEXT:  
f54e78bc 8085bba7 0000008e c0000005 80833de3 nt!KeBugCheckEx+0x1b
f54e7c80 808346b4 f54e7c9c 00000000 f54e7cf0 nt!KiDispatchException+0x3a2
f54e7ce8 80834668 f67b0114 00000000 badb0d00 nt!CommonDispatchException+0x4a
f54e7cfc 80a803d9 f7727a01 00000000 0001039e nt!Kei386EoiHelper+0x186
f67b0114 001ee900 25ff0000 f67b0000 000425ff hal!HalpCheckForSoftwareInterrupt+0x81
WARNING: Frame IP not in any known module. Following frames may be wrong.
f67b0118 25ff0000 f67b0000 000425ff 25fff67b 0x1ee900
f67b011c f67b0000 000425ff 25fff67b f67b0008 0x25ff0000
f67b0120 000425ff 25fff67b f67b0008 001025ff smtkstub+0x1000
f67b0124 25fff67b f67b0008 001025ff 25fff67b 0x425ff
f67b0128 f67b0008 001025ff 25fff67b f67b0014 0x25fff67b
f67b012c 001025ff 25fff67b f67b0014 002025ff smtkstub+0x1008
f67b0130 25fff67b f67b0014 002025ff 25fff67b 0x1025ff
f67b0134 f67b0014 002025ff 25fff67b f67b0024 0x25fff67b
f67b0138 002025ff 25fff67b f67b0024 002825ff smtkstub+0x1014
f67b013c 25fff67b f67b0024 002825ff ccccf67b 0x2025ff
f67b0140 f67b0024 002825ff ccccf67b 00001178 0x25fff67b
f67b0144 002825ff ccccf67b 00001178 00000000 smtkstub+0x1024
f67b0148 ccccf67b 00001178 00000000 00000000 0x2825ff
f67b014c 00000000 00000000 00000000 000012b2 0xccccf67b

STACK_COMMAND:  kb

FOLLOWUP_IP: 
smtkstub+1000
f67b0000 d8cc            fmul    st,st(4)

SYMBOL_STACK_INDEX:  7

SYMBOL_NAME:  smtkstub+1000

FOLLOWUP_NAME:  MachineOwner

MODULE_NAME: hardware

IMAGE_NAME:  hardware

DEBUG_FLR_IMAGE_TIMESTAMP:  0

FAILURE_BUCKET_ID:  CLI_FAULT

BUCKET_ID:  CLI_FAULT

Followup: MachineOwner

[ Voor 50% gewijzigd door Verwijderd op 13-07-2007 14:15 . Reden: BSOD info added ]


  • whoami
  • Registratie: December 2000
  • Laatst online: 20:35
Ik zie hier niet direct een link met een programmeer-probleem; aangezien het op bepaalde configuratie's wel, en op andere niet werkt.
Vandaar dat een schopje richting WSS gerechtvaardigd is.

PRG -> WSS

https://fgheysels.github.io/


  • sanfranjake
  • Registratie: April 2003
  • Niet online

sanfranjake

Computers can do that?

(overleden)
Hardstikke vervelend natuurlijk zo'n bsod en je verhaal is erg duidelijk. Op een ding na: welke van de tienduizenden verschillende bsod's krijg je? En kan je door de dump te debuggen iets wijzer worden waar het fout gaat? En in de eventlogs? Crash reason enz...

Mijn spoorwegfotografie
Somda - Voor en door treinenspotters


Verwijderd

Topicstarter
sanfranjake schreef op donderdag 05 juli 2007 @ 12:29:
Hardstikke vervelend natuurlijk zo'n bsod en je verhaal is erg duidelijk. Op een ding na: welke van de tienduizenden verschillende bsod's krijg je? En kan je door de dump te debuggen iets wijzer worden waar het fout gaat? En in de eventlogs? Crash reason enz...
Mijn excuses...
Bij dezen + extra info... (zie 1e posting)

  • alt-92
  • Registratie: Maart 2000
  • Niet online

alt-92

ye olde farte

code:
1
2
EXCEPTION_CODE: (NTSTATUS) 0xc0000005 - - The instruction at "0x%08lx" referenced 
memory at "0x%08lx". The memory could not be read".


"Hey, ik wil een stuk geheugen uitlezen maar daar mag ik helemaal niet bij.".

Gokje: App is niet getest met SP2?
Je zou eens kunnen kijken of het vaker voorkomende probleem met RSS hier ook een rol speelt, en ik ben ook erg benieuwd naar de NICdrivers die je gebruikt.
Broadcom NICs hebben een slechte reputatie met SP2.

ik heb een 864 GB floppydrive! - certified prutser - the social skills of a thermonuclear device


Verwijderd

Topicstarter
alt-92 schreef op vrijdag 13 juli 2007 @ 16:58:
code:
1
2
EXCEPTION_CODE: (NTSTATUS) 0xc0000005 - - The instruction at "0x%08lx" referenced 
memory at "0x%08lx". The memory could not be read".


"Hey, ik wil een stuk geheugen uitlezen maar daar mag ik helemaal niet bij.".

Gokje: App is niet getest met SP2?
Je zou eens kunnen kijken of het vaker voorkomende probleem met RSS hier ook een rol speelt, en ik ben ook erg benieuwd naar de NICdrivers die je gebruikt.
Broadcom NICs hebben een slechte reputatie met SP2.
Dat gokje is natuurlijk wel de meest generieke gok. Uiteraard hebben we hier te maken met een loophole ergens.
Alle 3rd party componenten die gebruikt zijn, zijn gereleased met SP2 support. Ons eigen applicatie (zonder HMP) draait ook wekenlang op SP2 zonder issue.
Ook iets anders met HMP draait wekenlang zonder probleem.
Zodra ze gecombineerd worden gaat het mis.

Voor wat betreft NIC-drivers:
Het zijn echte servers en deze hebben allen Intel NICs aan boord.

Verwijderd

Wat is smtkstub? Als ik daarop google vind ik 2 hits (eentje is dit topic :) )
In je debugger, type: lmv msmtkstub en kijk eens wat je dan terugkrijgt.
Pagina: 1