Beste Tweakers,
Gisteren stootte ik op een probleem waar ik vannacht niet goed heb van kunnen slapen. Is ondertussen wel opgelost maar de kern van het probleem is er nog en ik ben er zeker van dat het terug zal komen.
Kleine achtergrond: internationaal MPLS netwerk dat zich uitstrekt over 5 landen. In elk land staan 2 identieke, fysieke servers die productie doen draaien.(HP WS 2K8 R2) Op server 1 draait de actieve productie database & op server 2 een mirror. Op server 2 draaien ook nog enkele Hyper-V VM's waaronder lokale printserver en domain controller. (DC) Alles monitoring software gebruiken wij PRTG.
Gisterenmiddag werd site B getroffen door een stroompanne van een tiental minuten. Gedurende deze periode vlogen ook de routers uit die deze site verbinden met MPLS netwerk. De 2 fysieke servers bleven draaien op UPS maar waren dus netwerkmatig even niet bereikbaar. Nadat stroom terug was, kwamen alle devices mooi terug online wat werd bevestigd door monitoring software.
Alleen RDP-sensor op server 1 gaf aan dat deze in error was. Iets wat op het eerste zicht zeer vreemd is gezien de fysieke server niet heeft uitgelegen tijdens de panne. (heb dit ook gecheckt nogmaals op server zelf via uptime) Netwerkmatig was alles wel in orde en ook de servers konden gepingd worden op IP/Hostname. No biggie dacht ik, RDP service herstarten en klaar. Via iLO nam ik console over en herstartte RDP service wat geen verschil uitmaakte. Hierop heb ik de server manueel gereboot maar ook dit bracht niets op.
Server 2 leek echter wel perfect te draaien en daarop kon nog steeds rechtstreeks naar RDP'en. Iets wat ik ook niet kon begrijpen want server1 & server2 zijn zelfde model en 99% hetzelfde opgezet. Als test werd server 2 ook nogmaals herstart en na een reboot verstoonde deze dezelfde problemen als server 1. (geen RDP modelijk)
Bijkomend probleem is dat niet alleen RDP niet meer werkte, ook de databases konden remote niet meer geraadpleegd worden waardoor in principe de hele fabriek stil lag.
Opmerkelijk, als ik op server 1 de logonserver opvroeg (set l), verwees deze naar de logonserver van site C. Wat niet zou mogen gezien hij de lokale DC als logonserver zou moeten gebruiken. Een ping naar "<domain>.group" resulteerde ook in een reply van de DC van site C. Waarom deze DC geselecteerd werd als logonserver is mij een raadel en kan ik niet verklaren. Op een gegeven moment verloor ook server 1 zijn statisch ingesteld IP adres en verkreeg een 169-adres, wat ik ook niet kan verklaren. Bij het checken via de GUI werd bevestigd dat IP op statisch stond ingesteld maar alle instellingen waren blanco.
Hierop vulde ik terug de correcte IP-instellingen in voor deze server. Achteraf voerde ik opnieuw ping uit naar "<domain>.group" en kreeg nu wel reply van de lokale DC. Nadien lukte het terug om te RDP'en in de server en werkte alles terug. Op server 2 werd dan ongeveer hetzelfde uitgevoerd. Aangezien deze server wel nog zijn statisch IP had, werd deze tijdelijk op DHCP gezet & nadien terug op statisch met juiste IP. Nadien kon ook hier terug in geRDP'd worden.
Iemand die een logische verklaring heeft voor bovenstaand verhaal? Heb mij al gek gezocht via google. Windows updates zijn ook uitgesloten. Ik vind wel gelijkaardige topics op fora maar deze zijn allemaal niet beantwoord.
Enkele "interessante" events op server 1:
* Event 1067, TerminalServices RemoteConnectionManager --> The terminal server cannot register 'TERMSRV' Service Principal Name to be used for server authentication. The following error occured: The specified domain either does not exist or could not be contacted.
* Event 5719 NETLOGON -->This computer was not able to set up a secure session with a domain controller in domain <domain> due to the following:
There are currently no logon servers available to service the logon request.
This may lead to authentication problems. Make sure that this computer is connected to the network. If the problem persists, please contact your domain administrator.
* Event 461 --> CPQTeamMP PROBLEM: 802.3ad link aggregation (LACP) has failed. ACTION: Ensure all ports are connected to LACP-aware devices.
Gisteren stootte ik op een probleem waar ik vannacht niet goed heb van kunnen slapen. Is ondertussen wel opgelost maar de kern van het probleem is er nog en ik ben er zeker van dat het terug zal komen.
Kleine achtergrond: internationaal MPLS netwerk dat zich uitstrekt over 5 landen. In elk land staan 2 identieke, fysieke servers die productie doen draaien.(HP WS 2K8 R2) Op server 1 draait de actieve productie database & op server 2 een mirror. Op server 2 draaien ook nog enkele Hyper-V VM's waaronder lokale printserver en domain controller. (DC) Alles monitoring software gebruiken wij PRTG.
Gisterenmiddag werd site B getroffen door een stroompanne van een tiental minuten. Gedurende deze periode vlogen ook de routers uit die deze site verbinden met MPLS netwerk. De 2 fysieke servers bleven draaien op UPS maar waren dus netwerkmatig even niet bereikbaar. Nadat stroom terug was, kwamen alle devices mooi terug online wat werd bevestigd door monitoring software.
Alleen RDP-sensor op server 1 gaf aan dat deze in error was. Iets wat op het eerste zicht zeer vreemd is gezien de fysieke server niet heeft uitgelegen tijdens de panne. (heb dit ook gecheckt nogmaals op server zelf via uptime) Netwerkmatig was alles wel in orde en ook de servers konden gepingd worden op IP/Hostname. No biggie dacht ik, RDP service herstarten en klaar. Via iLO nam ik console over en herstartte RDP service wat geen verschil uitmaakte. Hierop heb ik de server manueel gereboot maar ook dit bracht niets op.
Server 2 leek echter wel perfect te draaien en daarop kon nog steeds rechtstreeks naar RDP'en. Iets wat ik ook niet kon begrijpen want server1 & server2 zijn zelfde model en 99% hetzelfde opgezet. Als test werd server 2 ook nogmaals herstart en na een reboot verstoonde deze dezelfde problemen als server 1. (geen RDP modelijk)
Bijkomend probleem is dat niet alleen RDP niet meer werkte, ook de databases konden remote niet meer geraadpleegd worden waardoor in principe de hele fabriek stil lag.
Opmerkelijk, als ik op server 1 de logonserver opvroeg (set l), verwees deze naar de logonserver van site C. Wat niet zou mogen gezien hij de lokale DC als logonserver zou moeten gebruiken. Een ping naar "<domain>.group" resulteerde ook in een reply van de DC van site C. Waarom deze DC geselecteerd werd als logonserver is mij een raadel en kan ik niet verklaren. Op een gegeven moment verloor ook server 1 zijn statisch ingesteld IP adres en verkreeg een 169-adres, wat ik ook niet kan verklaren. Bij het checken via de GUI werd bevestigd dat IP op statisch stond ingesteld maar alle instellingen waren blanco.
Hierop vulde ik terug de correcte IP-instellingen in voor deze server. Achteraf voerde ik opnieuw ping uit naar "<domain>.group" en kreeg nu wel reply van de lokale DC. Nadien lukte het terug om te RDP'en in de server en werkte alles terug. Op server 2 werd dan ongeveer hetzelfde uitgevoerd. Aangezien deze server wel nog zijn statisch IP had, werd deze tijdelijk op DHCP gezet & nadien terug op statisch met juiste IP. Nadien kon ook hier terug in geRDP'd worden.
Iemand die een logische verklaring heeft voor bovenstaand verhaal? Heb mij al gek gezocht via google. Windows updates zijn ook uitgesloten. Ik vind wel gelijkaardige topics op fora maar deze zijn allemaal niet beantwoord.
Enkele "interessante" events op server 1:
* Event 1067, TerminalServices RemoteConnectionManager --> The terminal server cannot register 'TERMSRV' Service Principal Name to be used for server authentication. The following error occured: The specified domain either does not exist or could not be contacted.
* Event 5719 NETLOGON -->This computer was not able to set up a secure session with a domain controller in domain <domain> due to the following:
There are currently no logon servers available to service the logon request.
This may lead to authentication problems. Make sure that this computer is connected to the network. If the problem persists, please contact your domain administrator.
* Event 461 --> CPQTeamMP PROBLEM: 802.3ad link aggregation (LACP) has failed. ACTION: Ensure all ports are connected to LACP-aware devices.