Toon posts:

[CentOS] Complete systemhang op server

Pagina: 1
Acties:

Acties:
  • 0 Henk 'm!

Verwijderd

Topicstarter
Ik zit hier met een heel vreemd serverprobleem, waar ik eigenlijk niet echt meer zo snel uitkom.
Het gaat om een SuperMicro server met een x8sil-f moederbord. CPU is een Core i3 530, en er is 8 GB RAM geïnstalleerd
Om de zoveel tijd (soms een week, soms twee weken) hangt de server volledig. Console (zowel via aangesloten monitor als SSH) is niet bereikbaar, server is volledig onbereikbaar in het netwerk, en enkel een harde reboot werkt dan nog om de server terug te krijgen. De IPMI (remote management) interface is wel gewoon bereikbaar, maar daar kan ik ook niet meer dan een harde reboot uitvoeren omdat ook daar de console totaal onbereikbaar is.
Het meest vreemde is dat er totaal niets in de logging terug te vinden is over een eventueel probleem. Het laatste wat gemiddeld genomen gelogd wordt is bijvoorbeeld een FTP verbinding die een uur daarvoor afgesloten is, mail die opgehaald wordt, etc. Geen spoor van iets dat een probleem zou kunnen veroorzaken, laat staan een spoor van bijvoorbeeld een kernel panic of zoiets.

Ik heb hierover ook contact gehad met de leverancier van de server. Zij gaven aan dat het een bekend probleem was: de NIC zou in een soort van slaapstand gaan en er niet meer uit kunnen komen. Oplossing zou zijn een nieuwe driver voor de NIC te installeren. Dit uiteraard gedaan, echter heeft het niet mogen helpen. In de messagelog is te zien dat deze driver ook daadwerkelijk ingeladen wordt.
In de FAQ van SuperMicro kwam ik nog een ander iets tegen i.c.m. dit moederbord dat een zelfde soort probleem (system hang) zou kunnen veroorzaken. Dat was echter een BIOS setting, welke al correct ingesteld stond.
Vreemde is dat een identieke server het probleem ook heeft gehad, maar dat bij die server de driverupdate wel heeft geholpen: die draait alweer een aantal maanden stabiel.
Op het internet heb ik diverse topics gevonden met een zelfde soort probleem, maar daar wordt telkens verwezen naar de NIC driver, welke ik dus al vernieuwd heb, en wat dus inderdaad het probleem bij een identieke server verholpen heeft.

Omdat de nieuwe NIC driver ook daadwerkelijk ingeladen wordt en de oude heeft vervangen, heb ik het idee dat het totaal ergens anders moet worden gezocht. Echter heb ik werkelijk geen idee meer waar ik het zou kunnen zoeken.
Iemand eerder zoiets gezien? Of heeft iemand enig idee wat ik nog zou kunnen controleren, kunnen proberen om dit probleem te verhelpen?

Acties:
  • 0 Henk 'm!

  • igmar
  • Registratie: April 2000
  • Laatst online: 29-09 20:15

igmar

ISO20022

Heb je sysrq aanstaan, en zo ja, werkt dat nog wel ?

Acties:
  • 0 Henk 'm!

Verwijderd

Topicstarter
Dat is niet iets wat ik geprobeerd heb, echter is het lastig om dat ook even te proberen aangezien het maar eens in de x weken gebeurd dus het ook niet even zo te checken is natuurlijk.

[ Voor 3% gewijzigd door Verwijderd op 14-03-2011 11:39 ]


Acties:
  • 0 Henk 'm!

  • MrHarry
  • Registratie: Oktober 2006
  • Laatst online: 02-10 16:07
heb eerder wel eens zo'n probleem gezien en toen kwam het door de raid controler die de server hard deed hangen wellicht dat het bij jou ook in die richting zit. en vandaar dat er dus geen logs etc.. van bekend zijn op je server.

Acties:
  • 0 Henk 'm!

Verwijderd

Topicstarter
Dat is inderdaad ook nog een interessante optie om eens te bekijken. Bedankt voor de suggestie, ga ik eens bekijken!

Acties:
  • 0 Henk 'm!

  • lamko
  • Registratie: December 2001
  • Laatst online: 20-10-2024
Geheugen eens testen ?

And this !! Is to go even further beyond!!!


Acties:
  • 0 Henk 'm!

Verwijderd

Topicstarter
Geheugen is uiteraard getest (vergeten te melden in startpost, sorry), geen problemen gevonden. Dus daar lijkt het ook niet in te zitten helaas.

Acties:
  • 0 Henk 'm!

Verwijderd

En een andere NIC?

Acties:
  • 0 Henk 'm!

  • remco_k
  • Registratie: April 2002
  • Laatst online: 07:44

remco_k

een cassettebandje was genoeg

Gezien je een i3 erin hebt zitten verwacht ik niet dat het moederbord cq voeding een paar jaar oud zijn, maar toch, here goes:

Ik heb (helaas) al een paar keer te vaak gezien, gehad en gehoord dat 'vergane' elco's op het moederbord of in de voeding dergelijke problemen veroorzaken (niet alleen in computers overigens). Van een harde lock (periodiek, onregelmatig) tot vage foutmeldingen zonder er een aanwijsbare reden voor te kunnen vinden.
Op moederborden, meestal vanaf een jaar of 3 oud, wil het dus nog weleens voorkomen dat er elco's opzitten die niet meer goed zijn. Doorgaans staan ze dan ook bol.
Een blik erover werpen kost je 10 seconden (als de kast een keer open ligt). :)
Maar zoals gezegd; ik verwacht niet dat dat bij jouw het probleem is. Maar ik moest er wel aan denken.
Daar komt overigens bij dat in echte servers vaak een elco wordt gebruikt die betere specs heeft qua temperatuur en daardoor meestal langer meegaat.
/einde longshot.

Alles kan stuk.


Acties:
  • 0 Henk 'm!

  • magistus
  • Registratie: December 2001
  • Laatst online: 28-09 11:57
Aangezien je ogenschijnlijk nog geen zekerheid over de oorzaak hebt en er een serial port op het moederbord zit, zorg dat je console output daar (ook) naar toe gaat. Hiermee kan je de output, welke door de crash niet meer naar de logfiles geflushed kan worden (evt. magic sysreq opties daargelaten), af. Zelf een vergelijkbaar issue gehad, bleek inderdaad dat de nic-driver (binary blob, ugh) na een zeker aantal gigabytes aan traffic over de zeik ging en de hele boel de nek om wist te draaien. Andere nic er in gedrukt en nooit meer problemen gehad :)
Pagina: 1