Ik zit hier met een heel vreemd serverprobleem, waar ik eigenlijk niet echt meer zo snel uitkom.
Het gaat om een SuperMicro server met een x8sil-f moederbord. CPU is een Core i3 530, en er is 8 GB RAM geïnstalleerd
Om de zoveel tijd (soms een week, soms twee weken) hangt de server volledig. Console (zowel via aangesloten monitor als SSH) is niet bereikbaar, server is volledig onbereikbaar in het netwerk, en enkel een harde reboot werkt dan nog om de server terug te krijgen. De IPMI (remote management) interface is wel gewoon bereikbaar, maar daar kan ik ook niet meer dan een harde reboot uitvoeren omdat ook daar de console totaal onbereikbaar is.
Het meest vreemde is dat er totaal niets in de logging terug te vinden is over een eventueel probleem. Het laatste wat gemiddeld genomen gelogd wordt is bijvoorbeeld een FTP verbinding die een uur daarvoor afgesloten is, mail die opgehaald wordt, etc. Geen spoor van iets dat een probleem zou kunnen veroorzaken, laat staan een spoor van bijvoorbeeld een kernel panic of zoiets.
Ik heb hierover ook contact gehad met de leverancier van de server. Zij gaven aan dat het een bekend probleem was: de NIC zou in een soort van slaapstand gaan en er niet meer uit kunnen komen. Oplossing zou zijn een nieuwe driver voor de NIC te installeren. Dit uiteraard gedaan, echter heeft het niet mogen helpen. In de messagelog is te zien dat deze driver ook daadwerkelijk ingeladen wordt.
In de FAQ van SuperMicro kwam ik nog een ander iets tegen i.c.m. dit moederbord dat een zelfde soort probleem (system hang) zou kunnen veroorzaken. Dat was echter een BIOS setting, welke al correct ingesteld stond.
Vreemde is dat een identieke server het probleem ook heeft gehad, maar dat bij die server de driverupdate wel heeft geholpen: die draait alweer een aantal maanden stabiel.
Op het internet heb ik diverse topics gevonden met een zelfde soort probleem, maar daar wordt telkens verwezen naar de NIC driver, welke ik dus al vernieuwd heb, en wat dus inderdaad het probleem bij een identieke server verholpen heeft.
Omdat de nieuwe NIC driver ook daadwerkelijk ingeladen wordt en de oude heeft vervangen, heb ik het idee dat het totaal ergens anders moet worden gezocht. Echter heb ik werkelijk geen idee meer waar ik het zou kunnen zoeken.
Iemand eerder zoiets gezien? Of heeft iemand enig idee wat ik nog zou kunnen controleren, kunnen proberen om dit probleem te verhelpen?
Het gaat om een SuperMicro server met een x8sil-f moederbord. CPU is een Core i3 530, en er is 8 GB RAM geïnstalleerd
Om de zoveel tijd (soms een week, soms twee weken) hangt de server volledig. Console (zowel via aangesloten monitor als SSH) is niet bereikbaar, server is volledig onbereikbaar in het netwerk, en enkel een harde reboot werkt dan nog om de server terug te krijgen. De IPMI (remote management) interface is wel gewoon bereikbaar, maar daar kan ik ook niet meer dan een harde reboot uitvoeren omdat ook daar de console totaal onbereikbaar is.
Het meest vreemde is dat er totaal niets in de logging terug te vinden is over een eventueel probleem. Het laatste wat gemiddeld genomen gelogd wordt is bijvoorbeeld een FTP verbinding die een uur daarvoor afgesloten is, mail die opgehaald wordt, etc. Geen spoor van iets dat een probleem zou kunnen veroorzaken, laat staan een spoor van bijvoorbeeld een kernel panic of zoiets.
Ik heb hierover ook contact gehad met de leverancier van de server. Zij gaven aan dat het een bekend probleem was: de NIC zou in een soort van slaapstand gaan en er niet meer uit kunnen komen. Oplossing zou zijn een nieuwe driver voor de NIC te installeren. Dit uiteraard gedaan, echter heeft het niet mogen helpen. In de messagelog is te zien dat deze driver ook daadwerkelijk ingeladen wordt.
In de FAQ van SuperMicro kwam ik nog een ander iets tegen i.c.m. dit moederbord dat een zelfde soort probleem (system hang) zou kunnen veroorzaken. Dat was echter een BIOS setting, welke al correct ingesteld stond.
Vreemde is dat een identieke server het probleem ook heeft gehad, maar dat bij die server de driverupdate wel heeft geholpen: die draait alweer een aantal maanden stabiel.
Op het internet heb ik diverse topics gevonden met een zelfde soort probleem, maar daar wordt telkens verwezen naar de NIC driver, welke ik dus al vernieuwd heb, en wat dus inderdaad het probleem bij een identieke server verholpen heeft.
Omdat de nieuwe NIC driver ook daadwerkelijk ingeladen wordt en de oude heeft vervangen, heb ik het idee dat het totaal ergens anders moet worden gezocht. Echter heb ik werkelijk geen idee meer waar ik het zou kunnen zoeken.
Iemand eerder zoiets gezien? Of heeft iemand enig idee wat ik nog zou kunnen controleren, kunnen proberen om dit probleem te verhelpen?