Hoofdcategorieën
Topicacties

[Nagios] Ervaringen, scripts en tips

Pagina: 1 2 3 last

Reageer Nieuw Topic
ondertitels zijn voor mietjes

Het is een veel terugkerend onderwerp op GoT: Hoe zorg je als systeem- of netwerkbeheerder ervoor, dat je op de hoogte bent van alles wat er gebeurt op je netwerk? Monitoringsystemen zorgen ervoor dat er geen probleem meer aan je aandacht ontsnapt. Eén probleem: welk systeem kies je? Er is een groot aantal van zulke systemen, zowel open-source als betaald. Eén van de meest populaire systemen is Nagios.

Wat is Nagios :?
Nagios is géén monitoringsysteem. Nagios is een 'scheduling and notifications framework'. Dit houdt in dat Nagios van zichzelf geen enkele controle kan uitvoeren. Wel kan Nagios scripts met controles plannen, en een notificatie versturen als de uitkomst van een script wel of niet aan een vooropgestelde waarde voldoet.

Wat zijn de voor- en nadelen :?
De voordelen van de benadering van de makers van Nagios, zijn legio. Door de modulaire opzet is alles mogelijk, zolang het is te scripten. Nagios zorgt vervolgens voor het plannen van de scripts, en het notificeren als dat nodig is. Dit is ook gelijk een nadeel: out-of-the-box kan Nagios vrij weinig, er moet eerst in de configs gedoken worden en eventueel wat gescript worden voor het systeem daadwerkelijk gebruikt kan worden. Hierdoor is de leercurve vrij steil. Als je echter eenmaal in de materie zit, zijn de mogelijkheden eindeloos: je kunt allerlei verschillende systemen controleren, zowel via SNMP als door middel van remote checks. Zo kan er gecontroleerd worden op vrije schijfruimte, processorload, netwerkload, lopende services of processen, etc. Alarmeren kan, door de modulaire opzet, ook op alle denkbare manieren. Via een mail, SMS, semafoon, net send commando, RSS berichten, IM-berichten, etc.

Waar vind ik meer info :?
Begin eens met het lezen van de documentatie op http://www.nagios.org. Eventueel kun je een kant-en-klare VMWare Image downloaden om mee te spelen. Ook op 'ouderwets' papier is genoeg te vinden: Bol.com biedt ondere andere dit boek, waar ik veel informatie uit heb kunnen halen.
Als je op zoek bent naar scripts voor het monitoren van bepaalde zaken, kun je terecht op http://www.nagiosexchange.org. Hier worden scripts voor allerhande systemen uitgewisseld. Ook imagepacks voor het opleuken van de grafische interface vindt je hier.

Waarom dit topic :?
Er is op GoT weinig te vinden over Nagios. Zoeken op Nagios levert een hoop topics op waarin het pakket wordt aanbevolen, maar echte hands-on ervaringen ontbreken. Daarnaast bleek ondere andere uit Systeembeheerders en hun problemen - deel 21 dat er behoefte was aan de mogelijkheid om scripts uit te wisselen en ervaringen te delen. Vandaar dit topic: laat weten of en hoe je Nagios gebruikt, waarom en wat voor checks je uitvoert. Geef tips met betrekking tot de configuratie, of geef feedback op wat anderen in te brengen hebben.

Eos 30D - Tamron 17-50/2,8 - Canon 50/1,8 - Canon 90-300 - Speedlite 430EX - Minitracker Classic

ondertitels zijn voor mietjes

TS Trapt af :)

Ik ben Nagios in gaan zetten als eerste échte monitoringsysteem binnen ons bedrijf. Wij zijn een middelgroot automatiseringsbedrijf, die de volledige IT voor onze klanten in het MKB verzorgen.
Op dit moment monitort mijn Nagios zo'n 126 services op een stuk of 27 hosts, aangezien ik eerst 'klein' aan het testen ben. Op de hosts, momenteel met name windows-servers, controleer ik op dit moment op vrije schijfruimte, processorload, geheugengebruik, etc. Daarnaast controleer ik de status van Exchange Services, of een Information Store ook daadwerklijk gemount is, controleer ik of de processen van de Virusscanner (on access scanner etc.) aktief zijn, en bij een enkele klant of de blackberry services nog draaien. Alarmeren gebeurt op dit moment nog uitlsuitend per mail, maar ik ga binnenkort testen met alarmering via SMS via Mollie. Hier is een script voor te vinden op nagiosexchange, die via een HTTP-Api de SMS kan versturen. Daarnaast ga ik deze week nog SNMP implementeren om onze Cisco routers in de gaten te houden.
Volgende stap is monitoren van onze backend (aantallen mails in de queue, bereikbaarheid van webservices). Als alles naar wens draait, ga ik het spul verhuizen van de testbak waar het nu opstaat, naar een virtuele installatie op onze ESX doos.

ralpje wijzigde dit bericht 19-07-2008 23:17 (97%)

Eos 30D - Tamron 17-50/2,8 - Canon 50/1,8 - Canon 90-300 - Speedlite 430EX - Minitracker Classic

nani?
Berichten: 2.564
Reg. datum: 29 mei 2002

ik ben op de zaak nu ook aan het testen met nagios, we gebruiken nu HPSIM en Open-audit.

- hpsim vanwege de mail-als-er-iets-down-gaat functie (welke veels te veel false positives geeft waardoor we meldingen al beginnen te negeren)
- openaudit omdat deze 2maaldaags alle workstations controleert op schijfruimte, ingelogde user en geinstalleerde applicaties

we hebben nu behoefte aan meer informatie van onze 25 servers, het is wat moeilijk om elke ochtend van alle machines met de hand de schijfruimte te checken, logs te controleren etc. in de praktijk gebeurt dit dus niet of een server per dag.

ik heb er nu (naast de localhost) 1 server (onze testmachine, win2k3) en een workstation instaan (mijn eigen workstation) de scripts monitoren op dit moment:

host alive (ping)
cpu (max 80)
mem (max 80)
hdd (max 90%)
process: (explorer.exe)

ik wil het deze week uit gaan breiden naar een 10tal niet-prio servers (aantal spares etc) en dan wil ik gaan experimenteren met andere scripts (exchange store, status van onze mailmarshal server etc)

wat ik me nog afvraag, moet ik echt voor elke server elke service aangeven? of kan ik bij een service check meerdere hostnames opgeven?

dus moet het zo:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
define service{
    use            generic-service
    host_name            winserver
    service_description    CPU Load
    check_command        check_nt!CPULOAD!-l 5,80,90
    }

define service{
    use            generic-service
    host_name            winserver1
    service_description    CPU Load
    check_command        check_nt!CPULOAD!-l 5,80,90
    }

of kan ik wegkomen met:
code:
1
2
3
4
5
6
define service{
    use            generic-service
    host_name            winserver, winserver1
    service_description    CPU Load
    check_command        check_nt!CPULOAD!-l 5,80,90
    }

asus P5B Deluxe, Q6600, 4x 2GB g-skill pc6400, scythe infinity+ fan, silverstone 560W voeding

Berichten: 241
Reg. datum: 22 september 2004

http://www.nl.bol.com/is-...84521&Section=BOOK_EN

bij deze de link voor versie 3 van Nagios.
Ik wil deze tool ook gaan opzetten als eerste voor onze grootste klant +- 100 computers in totaal met Cisco apparatuur. Vervolgens als dit lekker draait wil ik het gaan uitrollen als tool waarmee we onze klanten koppelen aan 1 centrale Nagios server op deze manier kunnen we ineens Proactief gaan werken ipv plijsters plakken!

Bedankt voor dit topic ik ga dit zeker kunnen gebruiken en zal het braaf volgen.
 
nani?
Berichten: 2.564
Reg. datum: 29 mei 2002

quote:
Robbels schreef op maandag 21 juli 2008 @ 09:03:
http://www.nl.bol.com/is-...84521&Section=BOOK_EN

bij deze de link voor versie 3 van Nagios.
Ik wil deze tool ook gaan opzetten als eerste voor onze grootste klant +- 100 computers in totaal met Cisco apparatuur. Vervolgens als dit lekker draait wil ik het gaan uitrollen als tool waarmee we onze klanten koppelen aan 1 centrale Nagios server op deze manier kunnen we ineens Proactief gaan werken ipv plijsters plakken!

Bedankt voor dit topic ik ga dit zeker kunnen gebruiken en zal het braaf volgen.
bij comcol is de versie 3 een euro goedkoper zag ik :+ zat er net naar te kijken inderdaad :)

asus P5B Deluxe, Q6600, 4x 2GB g-skill pc6400, scythe infinity+ fan, silverstone 560W voeding

ondertitels zijn voor mietjes

quote:
rimpeldinky schreef op maandag 21 juli 2008 @ 08:53:
of kan ik wegkomen met:
code:
1
2
3
4
5
6
define service{
    use            generic-service
    host_name            winserver, winserver1
    service_description    CPU Load
    check_command        check_nt!CPULOAD!-l 5,80,90
    }

Dit kan.
Ik maak per klant een folder, met daarin een windows.cfg, switch.cfg en linux.cfg.
In de windows.cfg specificeer ik verschillende servers (hostnames), en vervolgens geef ik per service aan welke host daarin meegenomen wordt.

Eos 30D - Tamron 17-50/2,8 - Canon 50/1,8 - Canon 90-300 - Speedlite 430EX - Minitracker Classic

nani?
Berichten: 2.564
Reg. datum: 29 mei 2002

Dat is mooi meegenomen, wij willen het hier intern gaan gebruiken, 1 klant dus maar. (misschien toch dat boek maar bestellen, kan goed van pas komen)

asus P5B Deluxe, Q6600, 4x 2GB g-skill pc6400, scythe infinity+ fan, silverstone 560W voeding

ondertitels zijn voor mietjes

Alleen moet je er even om denken dat je hostnames scheidt met een komma zonder spatie, bedenk ik me net. Ging ik de eerste keer ook mee in de fout, waarna ik tien minuten aan het zoeken ben geweest wat het probleem was :)

Eos 30D - Tamron 17-50/2,8 - Canon 50/1,8 - Canon 90-300 - Speedlite 430EX - Minitracker Classic

nani?
Berichten: 2.564
Reg. datum: 29 mei 2002

wat is volgens iedereen hier de beste manier om het op multiple servers "tegelijk" te deployen (en dan bedoel ik de algemene services welke standaard in check_nt zitten)

ik pak de zip uit, vervang de ini door een door mij aangepaste (alles zit er in alleen is uitgecomment) uncomment het nodige en pas uiteindelijk de cfg op de nagios bak aan, dit lijkt mij de beste manier?

asus P5B Deluxe, Q6600, 4x 2GB g-skill pc6400, scythe infinity+ fan, silverstone 560W voeding

ondertitels zijn voor mietjes

Ik heb één standaard INI, die ik overal inzet. Dus ik kopiëer die map naar de betreffende server, doe ff de service installeren en starten, ga vervolgens de config op de nagios bak zelf aanpassen. That's it.

Eos 30D - Tamron 17-50/2,8 - Canon 50/1,8 - Canon 90-300 - Speedlite 430EX - Minitracker Classic

een cassette bandje was genoeg

Hier nog een tevreden Nagios gebruiker, zowel op 't werk als de hobbyplek.
Op het werk heb ik er zelf weinig mee te maken, maar weet dat het draait voor monitoring op verschillende bij klanten.
Op de hobbyplek heb ik het zelf van scratch geinstalleerd en geconfigureerd, had het nog nooit zelf gebruikt of gezien en de 'steile leercurve' in de topicstart kan ik dan ook beamen.
Zeker omdat ik ook niet zo'n sterke Linux gebruiker ben/was.
In het begin zoek je jezelf het schompes naar wat je waar hoe ergens in moet zetten om iets voor elkaar te krijgen. Maar na eenmaal overal de vinger op gelegd te hebben, begint het mooi te worden en ga je extra wensen krijgen.

Momenteel check ik 9 Hosts waarvan 3 Virtueel (VMWare), in totaal 74 services.
2 Hosts zijn linux servers, waarvan 1 de VMWare server is.
1 Host staat op een andere lokatie en word via internet gechecked, is de tekst-tv server (kabelkrant).
En 1 van de hosts is onze website, waar ik standaard dingen als ping, dns en e-mail op check.
Alle windows hosts worden met NSClient++ gechecked.
Standaard dingen als CPU load, mem en diskspace uiteraard.
Maar omdat de hobbyplek in dit geval een lokale omroep betreft een paar specifieke dingen gemaakt:

1. Stilte detectie
Via check_tcp word aan een windows applicatie die elders aktief is gevraagd of de audio (aangeboden op de line-in van de geluidskaart) nog naar wens is.
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
//template:
define service{
        name                            priority-service
        use                             generic-service
        max_check_attempts              2 
        normal_check_interval           1
        retry_check_interval            1
        register                        0
        contact_groups                  admins,admins-sms
        notification_interval           120
        }

//real service:
define service{
        use                             priority-service
        host_name                       vm-apps01
        servicegroups                   diversen
        service_description             Stiltedetectie
        check_command                   check_tcp!192.168.0.20!4749!"Audio status OK"!crit
        notifications_enabled           0
        }

Ik heb hier een priority-service gemaakt die na 2 checks (met 1 minuut pauze ertussen) al naar de hard critical state gaat, ik krijg dus een notificatie (per mail en SMS (zie hieronder) als het 2 minuten of langer stil is.
De betreffende windows app die de werkelijke controle uitvoerd, kan ik helaas niet met jullie delen.

2. SMS notificatie
Voor sommige checks wil ik direct op de hoogte worden gebracht, zoals stilte detectie. Stilte op de radio is fataal, dus moet er meteen actie worden ondernomen en dat mag niet afhankelijk zijn van het feit of ik toevallig m'n mailbox open heb staan of toevallig op hetzelfde moment ook een internet/e-mail storing is.
Ik stuur niet via Mollie aangezien daar een internet verbinding voor nodig is, is single point of faillure.
Met een Dynalink ISDN modem word de SMS gestuurd, met behulp van sms_client rechtstreeks naar de SMS Centrale van KPN. Hier is de single point of faillure de ISDN lijn, maar aangezien er ook altijd een e-mail word gestuurd, moeten er 2 dingen uitvallen wil deze melding helemaal niet bij mij aankomen.
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
// commands:
define command{
        command_name    notify-service-by-sms
        command_line    /usr/bin/sms_client -q $CONTACTPAGER$ '[$NOTIFICATIONTYPE$]: $SERVICEDESC$ is $SERVICESTATE$ $NOTIFICATIONCOMMENT$'
        }

define command{
        command_name    notify-host-by-sms
        command_line    /usr/bin/sms_client -q $CONTACTPAGER$ '[$NOTIFICATIONTYPE$]: $HOSTNAME$ is $HOSTSTATE$ $NOTIFICATIONCOMMENT$'
        }

// contact:
define contact{
        contact_name                    remco-sms
        use                             generic-contact
        alias                           Remco_k (sms)
        service_notification_period     24x7
        host_notification_period        24x7
        service_notification_options    u,c,r,f ; Warning Unknown Critical Recovered Flapping
        host_notification_options       d,u,r,f ; Down Recovered
        service_notification_commands   notify-service-by-sms
        host_notification_commands      notify-host-by-sms
        pager                           0612345678
        }

3. File checks
Ik doe diverse checks op file age en size, o.a. op de nieuws file (die elk uur word gedownload) en diverse herhaling bestanden.
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
//command:
define command{
        command_name    check_file_age
        command_line    $USER1$/check_file_age -w $ARG1$ -c $ARG2$ -W $ARG3$ -C $ARG4$ -f $ARG5$
        }
//service:
define service{
        use                             local-service
        host_name                       playout
        service_description             Nieuws mp3
        servicegroups                   filechecks
        check_command                   check_file_age!4000!7200!2700000!2000000!/<path>/NovumNieuws/nieuws.mp3
       }

define service{
        use                             local-service
        host_name                       playout
        servicegroups                   filechecks
        service_description             H Woensdag-13
        check_command                   check_file_age!691200!777600!40000000!30000000!/<path>/herhaling/Woensdag-13.mp3
       }

Zo word ik op de hoogte gebracht mocht het download script van het nieuws of het copy script van de herhalingen onverhoopt falen.
Eveneens check ik hiermee backup scripts die de database van de website, tekst-tv en playout backuppen.

4. Check e-mail
Omdat binnenkomde e-mail (nieuws) voor onze redactie belangrijk is en onze webhoster een paar keer ernstige mail storingen heeft gehad, controleer ik met check_email_loop of de e-mail bezorging naar wens is.
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
// command:
define command{
        command_name    check_email_loop
        command_line    $USER1$/check_email_loop.pl -from=nagios@vulmaarin.nl -to=check_mail@vulmaarin.nl -pophost=pop3.vulmaarin.nl -popuser=check_mail -passwd=***** -smtphost=localhost -lostwarn=3 -lostcrit=5 -pendwarn=5 -pendcrit=10 -maxmsg=20 -statfile=/<path>/check_email_loop.stat
        }

// service:
define service{
       use                     generic-service
       host_name               www.vulmaarin.nl
       servicegroups           diversen
       service_description     E-Mail loop
       check_command           check_email_loop
       retry_check_interval    10
       contact_groups          admins,admins-sms
       }

Notificatie per e-mail en sms, omdat e-mail wellicht helemaal niet werkt als er een storing is. :+
Werkt als volgt: Nagios start deze check elke 10 minuten, check_email_loop stuurt elke keer 1 e-mail naar de alleen daarvoor bestemde pop3 box, en onthoud de unieke code die hij mee heeft gegeven. Gelijkertijd kijkt hij in de pop3 box om te kijken of de vorige e-mail aan is gekomen, zo ja, dan is het goed, zo nee, dan is er nog een e-mail pending. Boven de 5 pending komt er een warning, boven de 10 een critical. Komt een later verstuurde e-mail eerder aan dan een eerder verstuurde e-mail, dan word de eerder verstuurde e-mail als lost aangemerkt, totdat deze alsnog binnenkomt. Bij 3 lost warning, bij 5 lost critical.
Maar omdat dit een geisoleerde mailbox betreft en we nu alleen maar weten dat de email wel werkt,maar nog steeds niet weten of de nieuws pop3 box het doet, doe ik ook hetvolgende:

5. Nieuws popbox check
Ik laat al het nieuws doorsturen naar een 2e geisolerde mailbox. Met check_pop3_minlimit controleer ik of er elke X uur minimaal een e-mail binnen is gekomen. (En dit is het enige punt waarop spam z'n toegevoegde waarde laat zien).
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
//command:
define command{
        command_name    check_pop3_minlimit
        command_line    $USER1$/check_pop3_minlimit.pl -u $ARG1$ -p $ARG2$ -h $ARG3$ -w $ARG4$ -c $ARG5$ $ARG6$
        }
//template:
define service{
        name                            mailbox-service
        use                             generic-service
        check_period                    24x7
        max_check_attempts              4
        normal_check_interval           360
        retry_check_interval            2
        contact_groups                  admins
        notification_options            w,u,c,r,f
        notification_interval           120        
        register                        0
        }

//service:
define service{
       use                     mailbox-service
       host_name               www.vulmaarin.nl
       servicegroups           diversen
       service_description     nieuws@vulmaarin.nl
       check_command           check_pop3_minlimit!nieuwsusername!password!www.vulmaarin.nl!0!0!-d
       }

Komt er nu 4 uur lang niets binnen, dan is dat reden voor een critical state.

6. Webcam check
Met check_http_result roep ik een PHP scriptje op wat de status terug geeft van de size en leeftijd van de webcam JPG. Normaal geeft hij 'Webcam status [OK]' en indien te oud of te klein, 'Webcam status [FAIL]'
code:
1
2
3
4
5
6
7
define service{
        use                     generic-service
       host_name               www.vulmaarin.nl
       servicegroups           onlinemediachecks
       service_description     Webcam jpg
       check_command           check_http_result!www.vulmaarin.nl!http://www.vulmaarin.nl/pathto/nagioswebcamcheck.php!"Webcam status [OK]"
        }

7. Netcast check
Programmamakers willen hun live gepresenteerde programma's ook weleens thuis luisteren en aangezien wij ze toch allemaal automatisch opnemen, kunnen we ze net zo goed publiceren naar een besloten gedeelte van onze website. Dat publiceren kan echter foutgaan en ook dat word gecontroleerd middels een soortgelijke contructie als de webcam check.
code:
1
2
3
4
5
6
7
define service{
        use                     generic-service
       host_name               www.vulmaarin.nl
       servicegroups           onlinemediachecks
       service_description     Netcast status
       check_command           check_http_result!www.vulmaarin.nl!http://www.vulmaarin.nl/pathtonetcast/nagiosnetcastcheck.php!"Netcast file status [OK]"
        }

nagiosnetcastcheck.php controleerd of meerdere bestanden bestaan in een bepaalde map, met een bepaalde size.

Ik had ook een check gemaakt die de shoutcast stream checked op 'up' state, maar die kan ik effe niet meer vinden... Kennelijk een keer verprutst ergens tijdens de leercurve. :P
Mocht ik die nog terugvinden of opnieuw maken, dan post ik 'm hier.
Is in ieder geval eveneens iets met check_http.
Edit: Inmiddels gedaan, zie: remco_k in "[Nagios] Ervaringen, scripts en tips"

Edit:
En as we speak gaat de check e-mail loop naar warning en straks richting error:
"WARNING: 0 mails on POP3, 0 mail(s) came back, 7 pending, 0 lost."

En de oorzaak is ook bekend:
bverwijs in "KPN ADSL email problemen"

remco_k wijzigde dit bericht 01-08-2008 21:17 (3%)

Het laatste nieuws van Montfoort vind je op de website van Radio Stad Montfoort: http://www.radiostadmontfoort.nl

Berichten: 3.434
Reg. datum: 04 juni 2001

Ik gebruik het ook, met alle checks hier al genoemd, maar zag hier nog niet de SSL-certificaat verloop-check genoemd.

paella wijzigde dit bericht 21-07-2008 14:40 (8%)

No production networks were harmed during this posting

Just a Byte
Berichten: 665
Reg. datum: 10 oktober 1999

ben er eens mee begonnen nagios is nieuw voor mij, het is inderdaad aardig (uit)zoekwerk.
Zabbix heb ik ook geinstalleerd, dat is wel makkelijker lijkt het.

Life is to short to mess with it... - MacBook 2 GHz White 2 GB / 160 GB - MacBook Pro 15" 2.5 GHz 4 GB / 250 GB My Fileserver - My MediaCenter

Berichten: 241
Reg. datum: 22 september 2004

Nagios geinstalleerd nu mag het uitzoekwerk beginnen.
Ubuntu server met Nagios en 1 plugin zoals de manual beschrijft. Kortom hij monitort zichzelf nu al.

nu verder naar de windows machines.
 
Berichten: 1.367
Reg. datum: 10 augustus 2001

Hier nog een nagios gebruiker. Ik gebruik het nu ongeveer een maand.
Alleerst heb ik nagios geinstalleerd in combinatie met centreon.
Een soort schil om nagios heen zodat je de hardware en de services kunt toevoegen.
Alleen qua forum support viel dat mij erg tegen. En wat ik tegen kwam was vooral Frans. En als het Engels was, dan was het niet wat ik zocht.

Nu werk ik met nagios in combinatie met nagvis.
Met nagvis kun je een map, achtergrond omgeving tonen waardoor je snel kunt zien welke server waar er uit ligt. Deze gegevens haalt hij uit een sql database waar nagios de gegevens inzet aan de hand met een NDOUtils plugin.
quote:
NDOUtils allows you to export current and historical data from one or more Nagios instances to a MySQL database. Several community addons use this as one of their data sources.
Tevens is het me gelukt om een old skool nokio 6310i via een datakabel te connecten met nagios in combinatie met gnokii. Deze is alleen actief ingesteld na 18:00.
Maar dit is alleen voor de belangrijkste webservers.

De rest van de meldingen krijgen we overdag en savonds op de mail.

Om de webservers te monitoren gebruik ik het tooltje NSClient++. Deze heb ik als service geinstalleerd en de port open gezet en alleen voor een bepaald ip adres. Tevens voor de communicatie tussen Nagios en NSClient kun je een password instellen.

Wat mij nu nog leuk lijkt om er aan toe te voegen is PNP.
Daarmee kun je performance data omzetten naar grafieken.


Centreon
http://www.centreon.com/
Screenshots Nagvis
http://www.nagvis.org/screenshots
NSClient++
http://trac.nakednuns.org/nscp/
PNP Screenshots
http://www.pnp4nagios.org/pnp/screenshots

Meer plugin info.
http://www.nagios.org/download/addons/

Alleen wat mij nu nog dwars zit zijn de vele false meldingen. Dat er niet gecommuniceerd kan worden met de NSClient, en dat er timeouts zijn etc. Terwijl er in werkelijkheid niks aan de hand is. Ik heb al met de time checks zitte te spelen maar het heeft nog niet geholpen.
Iemand daar meer ervaring mee?
 
Ik monitor dmv check_snmp_win.pl een aantal services.

We gebruiken het om een 55 (klanten)servers en 95 services te controleren. Een hoop servers alleen dmv pingen, een hoop anderen door algemene SBS-services, Exchange, Backup Exec, SQL server etc te controleren.

Een van de servers heeft (o.a.) check_command check_win!"MSSQL$BKUPEXEC", maar daar plakt Nagios om een of andere reden een extra $ achter? 'Status Information: "MSSQL$BKUPEXEC$" not active : CRITICAL'

Andere services met een $-teken erin gaan wel goed (nadat ik het command aangepast heb met -r erbij zodat hij geen regexp gebruikt maar gewoon letterlijk de servicenaam controleert). Iemand enig idee?

Edit: Ok, het ligt niet zozeer aan de $ in de naam, het is de laatste van de services in die check. Zet ik er iets anders neer (Met alleen AZ, az of spatie in de naam) dan gaat het ook fout 8)7
Edit2: :| Er moet dus een even aantal services met een $ in de naam gecontroleerd worden, anders zet hij er zelf nog een $ achteraan :| Hoe gaan we dat nu weer oplossen :P

Edit3: 1 item dubbel controleren en het aantal processen met 1 verlagen dmv -N did the trick...

Verder nog iets: hoe zorg ik dat ik niet overspoeld wordt door mail als onze internetverbinding eruit ligt waardoor hij de servers niet kan benaderen? Ik heb al ingesteld dat er pas mail komt als het na een 2e check (een minuut later) nog steeds niet werkt, maar er blijven een heleboel false negatives komen als er een keer onderhoud is aan de internetlijn (zoals gisterenavond).

Paul Nieuwkamp wijzigde dit bericht 24-07-2008 17:14 (17%)

"Your life is yours alone. Rise up and live it." - Richard Rahl

ondertitels zijn voor mietjes

Heb je parents ingesteld? Je zou een ping naar je public ip kunnen doen, en vervolgens voor alle klantlocaties die host als parent opgeven. Als je parent dan eruit ligt, zijn de andere services niet 'down' maar 'unavailable', en krijg je ook geen alarm.

Eos 30D - Tamron 17-50/2,8 - Canon 50/1,8 - Canon 90-300 - Speedlite 430EX - Minitracker Classic

Did you try chmod 777 *.* ?

Als je nou met nagios wil beginnen maar niet precies waar, kijk dan eens naar groundwork.
http://www.groundworkopensource.com/

Het is in de core nagios met een door hun gebouwde web interface eromheen.
Er zitten ook allerlei voor geschreven checks in enzo voor bij NRPE, WMI, SSH enz...

Werkt heel goed moet ik zeggen...

Nikon D80 | Nikkor AF-S DX 18-55MM F/3.5-5.6G VR | You definately rate a 10 on my weird shit -o- meter...

quote:
Wat is Nagios :?
Nagios is géén monitoringsysteem. Nagios is een 'scheduling and notifications framework'. Dit houdt in dat Nagios van zichzelf geen enkele controle kan uitvoeren. Wel kan Nagios scripts met controles plannen, en een notificatie versturen als de uitkomst van een script wel of niet aan een vooropgestelde waarde voldoet.
Tja dit is ongeveer de definitie van elk monitoring systeem. Niets kan default iets, maar moet geconfigureerd worden.

Ik heb intussen ook met alle grote pakketten (hpov, tivoli, hardware tools: ibm director, dell open manage it, hpsim) en diverse kleinere (bijv. nagios/netsaint, gensys, hostmonitor) gewerkt en geef mij maar mom, juist omdat ik niet hoef te bedenken wat er allemaal geconfigureerd moet worden, maar wel de mogelijkheid heb om dat te doen.
overigens hoeft de ene tool de andere niet uit te sluiten. Zo draai ik nu mom, alle hardware tools (vnl voor inventory, mom geeft de hardware alerts wel) en hostmonitor (specifieke testen op bijv. oracle databases) samen.

ik heb intussen al 2 grote nagios omgevingen overgezet naar mom met opzienbarende resultaten. Veel relatief makkelijk te verhelpen problemen komen naar boven, waardoor de algehele stabiliteit van de omgeving omhoog gaat.

Heb je echter veel niet windows systemen, dan is mom/opsmgr misschien nog niet het beste idee, maar daar gaat ook verandering in komen.

iis5_rulez wijzigde dit bericht 24-07-2008 17:33 (25%)

No trees were killed in the posting of this message, however a large number of electrons were terribly inconvenienced! AWS2K3VBGF

Berichten: 28
Reg. datum: 11 september 2007

Ik heb Nagios ook draaiende sinds een week of 2/3 op Fedora 9. Op zich draait het allemaal prima en ik ben er nog volop mee aan het testen en puzzelen hoe alles werkt.

Nu loop ik bijvoorbeeld tegen het probleem aan dat ik een simpele website zoals bijvoorbeeld www.nu.nl wil checken. Wat voor script gebruik je hiervoor?

Ik heb in /usr/local/nagios/etc/objects/ een nieuw bestand aangemaakt, genaamd http.cfg. In nagios.cfg heb ik hier ook een verwijzing naar gemaakt. In dit bestand (http.cfg) heb ik het volgende gedefinieerd:

(niet letten op verkeerde uitlijning e.d.)
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
define host{
                  use                     http-host
                  host_name          NUsite
                  address              62.69.179.208
                  }

define hostgroup{
                  hostgroup_name     http-hosts
                  alias                      Http Hosts
                  }

define service{
                  use                        generic-service
                  hostgroup_name     http-hosts
                  service_description  HTTP
                  check_command    check_http -w 5 -c 10 -h http://www.nu.nl
                  }

Ik krijg echter bij het controleren van de cfg files (command: /usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg) 1 error, namelijk:
Error: Service check command 'check_http -w 5 -c 10 -h http://www.nu.nl' specified in service 'HTTP' for host "NUsite' not defined anywhere!

Waar doe ik iets verkeerd? heeft iemand anders misschien een werkend voorbeeld?

bij voorbaat dank!
 
-=PLACEBO=-
Berichten: 7.496
Reg. datum: 03 mei 2004

quote:
Fastex schreef op donderdag 24 juli 2008 @ 17:09:
Als je nou met nagios wil beginnen maar niet precies waar, kijk dan eens naar groundwork.
http://www.groundworkopensource.com/

Het is in de core nagios met een door hun gebouwde web interface eromheen.
Er zitten ook allerlei voor geschreven checks in enzo voor bij NRPE, WMI, SSH enz...

Werkt heel goed moet ik zeggen...
Die gebruiken wij ook, en dan de kant-en-klare VM: http://www.groundworkopen...ity/downloads/vmware.html

Nog druk in de opstartfase overigens, maar we komen er wel. :)

Dookie Fundamentalist

een cassette bandje was genoeg

quote:
DVRIES schreef op vrijdag 01 augustus 2008 @ 10:45:
Waar doe ik iets verkeerd? heeft iemand anders misschien een werkend voorbeeld?
De foutmelding:
quote:
Error: Service check command 'check_http -w 5 -c 10 -h http://www.nu.nl' specified in service 'HTTP' for host "NUsite' not defined anywhere!
Zegt precies waar het op staat.
Je vergeet om een command te definen in commands.cfg (of waar dan ook):
code:
1
2
3
4
5
# 'check_http' command definition
define command{
        command_name    check_http
        command_line    $USER1$/check_http -I $HOSTADDRESS$ $ARG1$
}

Daarna is dit genoeg:
code:
1
2
3
4
5
define service{
        ...
        check_command                   check_http
        ...
}

remco_k wijzigde dit bericht 01-08-2008 13:49 (18%)

Het laatste nieuws van Montfoort vind je op de website van Radio Stad Montfoort: http://www.radiostadmontfoort.nl

Berichten: 28
Reg. datum: 11 september 2007

remco_k, bedankt voor je input.

Ik heb het een en ander inderdaad gewijzigd en volgens mij controleert hij de url nu ook inderdaad maar ik loop tegen het probleem aan dat ik de server achter een proxy en diverse firewalls heb staan die best wel goed zijn afgesloten. Ik heb proxy gegevens, zou je dit ergens mee kunnen geven bij de check?


Het is namelijk zo dat er hier gebruik wordt gemaakt van een applicatie die zijn gegevens van en naar een externe url stuurt. Ik wilde dus die website monitoren wanneer deze down gaat, vandaar deze check.

DVRIES wijzigde dit bericht 01-08-2008 15:09 (23%)

 
ondertitels zijn voor mietjes

Hmpz. Ik heb ff een vaag probleempje.

Ik probeer nagios via Mollie een SMS te laten versturen bij een alert.
Ik heb het standaard script voor mollie gepakt, en in de /libexec dir gezet.
Als ik vervolgens vanuit die dir
code:
1
./notify_sms -n NUMMER -m MELDING -s BEDRIJF -u USER -p PASS

Doe, waarbij nummer, melding, bedrijf, user en pass onze gegevens zijn, krijg ik netjes een SMS-je binnen. So far so good.

Vervolgens maak in commands.cfg een command definition:
code:
1
2
3
4
5
# 'notify-host-by-mollie' command definition
define command{
        command_name    notify-host-by-mollie
        command_line    $USER1$/notify_sms -n $CONTACTPAGER$ - m "$NOTIFCATIONTYPE$: $HOSTALIAS$/$SERVICEDESC$ is $SERVICESTATE$" -s BEDRIJF -u USER -p PASS
}

Vervolgens vul ik bij de templates.cfg in het template van de generic_contact de net aangemaakte command toe:
code:
1
host_notification_commands      notify-host-by-email,notify-host-by-mollie      ; send host notifications via email

In templates.cfg geef ik mijn contact, die generic_contact gebruitk als template, een 'pager' nummer.

Ik herstart nagios, en krijg geen foutmelding. Toch krijg ik geen alert via SMS bij een host-notification...
Kort gezegd: het script werk, want als ik hem handmatig uitvoer (met dezelfde paramaters als in de commands.cfg) gaat het goed.

Het ljikt er dus op dat ik iets fout doe in het aanmaken van de command. Ik zie in de logfiles wel dat de notificatie verstuurd wordt, maar ik kan geen logfiles vinden hierover. Waar moet ik zoeken?

Eos 30D - Tamron 17-50/2,8 - Canon 50/1,8 - Canon 90-300 - Speedlite 430EX - Minitracker Classic

een cassette bandje was genoeg

quote:
DVRIES schreef op vrijdag 01 augustus 2008 @ 15:07:
Ik heb proxy gegevens, zou je dit ergens mee kunnen geven bij de check?
Check de help van check_http, in de libexec dir:
code:
1
2
3
4
5
6
7
./check_http -?
Usage: check_http -H <vhost> | -I <IP-address> [-u <uri>] [-p <port>]
       [-w <warn time>] [-c <critical time>] [-t <timeout>] [-L]
       [-a auth] [-f <ok | warn | critcal | follow>] [-e <expect>]
       [-s string] [-l] [-r <regex> | -R <case-insensitive regex>] [-P string]
       [-m <min_pg_size>:<max_pg_size>] [-4|-6] [-N] [-M <age>] [-A string]
       [-k string] [-S] [-C <age>] [-T <content-type>]

Of kijk hier even: http://nagiosplugins.org/man/check_http
Zo te zien geen specifieke proxy ondersteuning. Effe zoeken naar een check_http achtige plugin die dat wel heeft op nagiosexchange.org?
Edit:
Of beter nog, google, eerste hit: http://osdir.com/ml/netwo...ser/2003-01/msg00224.html
Toch wel proxy ondersteuning als ik het zo snel even zie.
quote:
ralpje schreef op vrijdag 01 augustus 2008 @ 16:53:
Ik probeer nagios via Mollie een SMS te laten versturen bij een alert.
Ik heb het standaard script voor mollie gepakt, en in de /libexec dir gezet.
Als ik vervolgens vanuit die dir
code:
1
./notify_sms -n NUMMER -m MELDING -s BEDRIJF -u USER -p PASS

Doe, waarbij nummer, melding, bedrijf, user en pass onze gegevens zijn, krijg ik netjes een SMS-je binnen. So far so good.
...
Ik herstart nagios, en krijg geen foutmelding. Toch krijg ik geen alert via SMS bij een host-notification...
Kort gezegd: het script werk, want als ik hem handmatig uitvoer (met dezelfde paramaters als in de commands.cfg) gaat het goed.
Ik gok op de bijna klassieke fout: als welke user voer je als test ./notify_sms uit?
Vast en zeker niet als de user nagios gok ik? ;)
doe 's:
code:
1
2
su nagios
./notify_sms -n NUMMER -m MELDING -s BEDRIJF -u USER -p PASS

Ik gok dat het dan niet werkt omdat de user nagios (te) beperkte rechten heeft.
In je /var/log messages vind je misschien meer info over het probleem.

Dergelijke user problemen ben ik ook vaak tegenaan gelopen. Onlangs nog toen ik SMART van de HD* en SD* devices wilde checken met nagios. (nadat mijn VMWare server op mysterieuze wijze down was gegaan, inmiddels meer dan een week geleden en toch geen enkel probleem vertoond nu.)

remco_k wijzigde dit bericht 01-08-2008 21:06 (12%)

Het laatste nieuws van Montfoort vind je op de website van Radio Stad Montfoort: http://www.radiostadmontfoort.nl

Pagina: 1 2 3 last



VNU Media logo Powered by True

© 1998 - 2008 Tweakers.net - Alle rechten voorbehouden

Uitgever van: