Onverklaarbare problemen met SUSE Linux server

vrijdag 27 maart 2009 11:53

Acties:

Topicstarter

Deze week hebben we voor de tweede keer meegemaakt dat een van onze servers er zo maar mee ophoudt. Het gaat om een HP Proliant DL380 G4 waarop Suse Linux Enterprise Server draait. Er zit verder een Compaq Smart Array 64xx controller in. Er zijn 2 72,8GB en 4 146,8GB Ultra320 SCSI harde schijven aanwezig. De 2 72,8GB HD's draaien in RAID1 en de 4 146,8GB HD's in RAID5. Toen de server er mee ophield waren er de volgende symptomen:
- server was onbereikbaar via het netwerk (kon bijvoorbeeld ook niet gepinged worden)
- rechtsstreeks op de server werken via onze KVM-switch was ook niet mogelijk (de KVM-switch werkt via een monitor, toetsenbord, muis-kabel, niet via het netwerk!
- wat opviel was dat de 2 72,8GB HD's het heel erg druk hadden (althans volgens de aanwezige LED-tjes)

Iemand enig idee wat er aan de hand is? In de logverslagen van Suse Linux is er niks over de storing terug te vinden?

vrijdag 27 maart 2009 12:15

Acties:

LuckY

Performance monitoring bekeken ?

vrijdag 27 maart 2009 12:57

Acties:

brederodekater

Was de machine misschien net bezig een core-dump voor te bereiden? Heb je de machine onderbroken toen het gebeurde, of heb je hem uit laten ratelen? Misschien kun je even kijken of er een dump aanwezig is.

vrijdag 27 maart 2009 13:46

Acties:

be3a18

Topicstarter

Volgens mij staat de Perfomance monitoring niet aan. En als dat wel het geval is, weet ik niet waar de logverslagen staan. Misschien kun je dat even aangeven.
Een core file heb ik niet gevonden, maar ik ben er net achter gekomen dat bij Suse Linux standaard geen core files aangemaakt worden. Ik heb nu het commando ulimit -c unlimited uitgevoerd. Als het weer misgaat is er misschien nu wel een coredump.

Zou het ook aan de RAID-configuratie kunnen liggen? Hoe kan ik dit onderzoeken? Volgens mij niet vanuit Suse Linux, die ziet alleen maar de 2 logische drives die we aangemaakt hebben.

vrijdag 27 maart 2009 19:50

Acties:

Verwijderd

Suse doet vast ook wel dmesg, als zoiets nog een keer gebeurd ff inkloppen in een terminal en kijken er wat nuttigs in staat, zelfde voor syslog

zaterdag 28 maart 2009 12:26

Acties:

Koffie

Koffiebierbrouwer

Braaimeneer

Move PNS > NOS

Braaikamer - Smoke&BBQ

zaterdag 28 maart 2009 14:50

Acties:

Verwijderd

Je weet er dus eigenlijk helemaal niets vanaf? Misschien iemand huren of aannemen die bekend is met UNIX/Linux beheer? Je hebt natuurlijk wel een tail draaien in een screen op die logs? Ik kan me niet voorstellen dat er geen nuttige info te vinden is in de logs? Ga eens lopen catten/greppen/lessen whatever op een aantal files in /var/log.

maandag 30 maart 2009 01:59

Acties:

Rainmaker

RHCDS

Dus, het enige waar je op af kunt gaan is een drukke disk?

Wat doet het ding dan? Wordt je applicatie I/O naar de interne disken gestuurd of naar die RAID5 array / SAN disk / andere storage?
Logt de applicatie erop per ongeluk naar /var/... en is dit een mountpoint op 1 van de lokale disken?

Er zal vast niet alleen Suse op dat ding draaien toch?

We are pentium of borg. Division is futile. You will be approximated.

woensdag 1 april 2009 09:48

Acties:

be3a18

Topicstarter

N.a.v. onderstaande opmerkingen het volgende:
- mijn kennisniveau van SUSE Linux is inderdaad beperkt
- in bijvoorbeeld het logbestand /var/log/messages is niks terug te vinden over het probleem
- omdat in messages niks staat weet ik niet waar ik wel iets zou kunnen vinden; heeft een van jullie een idee?
- op de machine draait als OS alleen SUSE Linux Enterprise Server. Daar boven op draait nog OES Linux van Novell. Als daar het probleem zou liggen, verklaart het niet waarom we server helemaal niet meer kunnen benaderen. Wat we in het verleden wel hebben meegemaakt is dat eDirectory niet meer werkte. De NSS-volumes waren dan niet meer beschikbaar, maar de machine was nog wel te pingen en te managen met Putty.
- wat de "diagnose" over de wel/niet knipperende LED-tjes betreft, dit is het enige waar we nog op af kunnen gaan als de server weer onderuit gaat.
- ik kan met de SmartStart CD/DVD een diagnose gaan draaien, maar dat kan alleen buiten werktijden.

woensdag 1 april 2009 20:56

Acties:

Verwijderd

Is de firmware van de hardware in de Proliant up to date ? Ik heb smart arrays met bepaalde firmware versies wel eens rare dingen zien doen....

Hier kan je de update CD downloaden voor de DL380 G4:

http://h20000.www2.hp.com...Id=135&swEnvOID=2078#2913

Branden, booten, updaten en klaar

donderdag 2 april 2009 20:37

Acties:

wzzrd

The guy with the Red Hat

Installeer eens sysstat of hoe dat ook heet bij SUSE. Dan kun je de volgende keer tenminste wat meer zien. Bijvoorbeeld wanneer het begonnen is, of het alleen IO is of ook memory, of er misschien extreem geswapt werd, hoe hoog je cpu load was en zo.

Hebben jullie geen Suse Linux goeroe in huis?

donderdag 9 april 2009 23:15

Acties:

Verwijderd

- in bijvoorbeeld het logbestand /var/log/messages is niks terug te vinden over het probleem
- omdat in messages niks staat weet ik niet waar ik wel iets zou kunnen vinden; heeft een van jullie een idee?

In /var/log/messages staat altijd info, als je een "tail -f -n 100 messages" doet moet er gewoonweg info voorbij komen. Als er problemen zijn met bijvoorbeeld je RAID kom je hier ook vage meldingen over tegen. Wij gebruiken helaas zelf veel Dell servers met SuSE, maar je problemen komen me wel een beetje bekend voor.

Installeer ook management software van HP, die software genereerd ook weer extra meldingen in je messages file.

Succes.

Ps. Linux is niet zo moeilijk als mensen denken. Onthoud dat Google je grootste vriend is.

Onderwerpen