[Thema Topic] Monitoring - Serversoftware en clouddiensten

maandag 12 november 2007 19:34

Acties:

Officieel moto fan :)

Topicstarter

Thema topics

Introductie

In de fora die behoren tot dit gedeelte van het forum hebben we het met regelmaat over clients, servers en de software die er bij hoort, maar dit alles is maar een gedeelte van wat een (professionele) ICT omgeving omvat.

Naast de standaard software problemen en ervaringen die we van producten uitwisselen zouden we het in deze thematopics wat breder willen gaan bespreken - namelijk naast de door jou gekozen software en hardware oplossingen willen we graag wat ervaringen en kennis uitwisselen over het 'hoe' en het 'waarom'.

Oftewel wat meer een discussie starten van de keuzes die jij of je organisatie bewust (of onbewust

) maken en de redenen hiervan, om op die manier ervaringen en kennis uit te wisselen.

Om dit enigszins in banen te leiden gaan wij als crew een en ander aan onderwerpen aanhalen wat we voor langere tijd (bijvoorbeeld een maand) als 'thema' aanduiden, dat topic blijft dan bovenaan de forum lijst staan.

Zoals je ziet staat dit topic gelinked vanuit meerdere fora in de Softe Goederen Category - het is dus geen foutje

Thema: Monitoring

We gaan beginnen met het thema 'Monitoring' - we hebben hieronder ook al vast het volgende onderwerp vermeld maar laten we hier maar eens mee beginnen.

Monitoring - iets wat elke ICT afdeling zou zijn systemen moeten monitoren zowel wat betreft trends (hoe hard slinkt de vrije ruimte op mijn fileservers eigenlijk) als wat betreft beschikbaarheid (Hmm, onze IIS ligt zeker twee keer per week uit)

Doe jij dat in jouw omgeving ook? Wat monitor je zoal - alleen incidenten ("Grmph, de database is weer down!") of bekijk je ook trends ("Hmm.. we groeien al vijf jaar lang met 10%, maar nu dit jaar groeien we met 30%!")?

Welke diensten monitor je zoal en wat monitor je dan? Controleer je van die ene webserver alleen of port 80 op is, of controleer je ook of er nog iets zinnigs terug komt? Hoe lang houd je deze gegevens bij en wat doe je als je monitoring systeem een 'alert' signaleert? Worden er beslissingen genomen aan de hand van je monitoring?

Wat doe je met je trend gegevens? Hoe lang houd je die bij en voor wie zijn deze rapportages inzichtelijk? Hoe zien ze er uit (als je bv. met eigen tools werkt)?

Vertel eens hoe jullie dit aanpakken, met welke middelen en wat de impact daarvan is

Het volgende thema topic...

Zal gaan over rechten toekennen gaan. Wat is je procedure, hoe heb je dit ingericht (moeten ze een formulier invullen, gaat het via mail, of komt de gebruiker zelf langs je lopen?).

Hoe ken je rechten toe? Is dat met groepen of per individuele users? Heb je profielen? Wanneer weiger je rechten toe te kennen of doe je dat nooit?

maandag 12 november 2007 20:18

Acties:

alt-92

ye olde farte

Om alvast een aftrap te geven:

File server monitoring - diskspace, autorisaties en rapportage

Zoals overal is ook bij ons een flinke hoeveelheid servers in gebruik om afdelings data en project gerelateerde data aan te bieden.

Onze Server omgeving is opgebouwd volgens een gestandaardiseerd systeem.
Er wordt een strikte scheiding gemaakt tussen applicatie servers, file servers en andere taken.

De file servers bestaan uit Windows 2003 Server Clusters (2 nodes) met ieder drie 500GiB Disk Cabinets in een SAN voor een totaal van 3TB aan opslagruimte per Cluster.
Bij de inrichting van het filesystem wordt rekening gehouden met drie verschillende datatypen met elk eigen rootfolders per disk:
• Groepsdata (afdelings specifiek, team specifiek)
• Projectdata (voor - je raadt het al - project data, met een bepaalde looptijd).
• Userdata (Home drives van users, doorgaans op een aparte servercluster).

Voor groepsdata en project data wordt bovendien gebruik gemaakt van DFS.
Elk data gebied krijgt zijn eigen folder in de desbetreffende rootfolder, en twee bijbehorende security groepen: Read en Read/Write.
Nesting van groepen is niet toegestaan, er zijn dus maar twee lagen.

Dat is niet altijd zo duidelijk gestructureerd geweest natuurlijk

Vóór de invoering van de huidige AD structuur werd bij de diverse bedrijfsonderdelen gebruik gemaakt van eigen NT domains, AD (2000) domains, en Novell Domains.
Het beheer daarvan viel aan de lokale systeembeheer afdelingen, die ook ieder hun eigen manier van monitoring gebruikten binnen elke divisie.
Vaak is die scheiding ook nog eens een bedrijfs politieke aangelegenheid, zeker in grote ondernemingen.

Om alle data te consolideren is er een migratie traject in het leven geroepen waarbij de data
wordt geanalyseerd, en in overleg met de afdeling de autorisaties worden ingedeeld.
In de gekozen structuur betekent dat concreet dat elke afwijkende access groep een eigen datagebied met een eigen security groep krijgt (een platte structuur, geen nesting meer $_/-\o_$ )

Tot zover het achtergrondverhaal.

Wat monitoren we?
• Diskspace.

Elke cluster wordt dagelijks door middel van een VBscript uitgelezen op de totaal beschikbare ruimte per schijf.
Daarnaast wordt door een Treesize export (tot op het niveau van de specifieke groepsfolder) de ruimte per groepsfolder uitgelezen.
Dit wordt geimporteerd in een MSSQL database, zodat je een historisch overzicht hebt van de groei van de gebruikte ruimte.

Ook de oude legacy omgeving wordt uitgelezen met VBscript, maar alleen de disks zelf.
Dit komt omdat de legacy omgeving teveel verschillende standaarden kent (wel clusters, geen clusters, SAN disken, RAID sets, losse disken, noem maar op).

• Gemigreerde data

Data die naar het nieuwe platform wordt gemigreerd wordt overgezet door middel van robocopy.
Zodra je bepaald hebt welke folders je wil verhuizen kan je met de volgende opdracht een scan doen om de hoeveelheid vast te stellen:

robocopy "\\source\share" "\\target\share" __>
 /NFL /NDL /MIR /L /LOG:.\logfile.txt /R:1 /W:5

_{command op één regel, __> geeft regelafbreking aan}

De logfiles daarvan parsen we uit en worden eveneens in de database gezet, zodat je een overzicht krijgt van de hoeveelheid data die per afdeling of projectgroep daadwerkelijk gemigreerd moet worden.

• Rechten op data in de legacy omgeving

Omdat je natuurlijk moet weten wie er nu bij de data kunnen, wordt door middel van DUMPACL een log gegenereerd van de file ACLs op de legacy omgeving.
Ook deze worden geimporteerd in de database.
Samen met een export van de NT domains (useraccounts en groups) en de AD users en groups kan je dan vastleggen wie waarbij kan in een autorisatiematrix.

Wat doen we met de gegevens?
• Operationeel:

Nu de Diskspace en Foldergrootte van de nieuwe omgeving bekend is, kunnen we met de gegevens uit de robocopy scan ook bepalen naar welke server en schijf we gaan verhuizen
(Je kijkt waar je de 55GB van je gescande gebied in kan passen).

We gebruiken SQL query's om de groepen en users die op de "oude" folders staan te exporteren naar lijsten, zodat je inzichtelijk kunt maken wie bij welke data kunnen.
Je kan nu dus ook (laten) beoordelen of er afwijkingen tussen zitten:
- Zijn er ACLs door elkaar gegooid door verplaatsingsacties?
- Hebben alleen de juiste personen toegang, of staat er per abuis een ACL entry met Everyone Full Control tussen?
Na een schoningssslag kan je dan de juiste personen toegang verlenen tot de verhuisde afdelingsdata, en ook dat leg je vast in de database.

• Strategisch/Trendanalyse:

Voor de langere termijn heb je nu de beschikking over een dagelijkse readout van de beschikbare schijfruimte en foldergrootte per afdeling (Datagebied).
Door gebruik te maken van staafdiagrammen bijvoorbeeld kan je de groei inzichtelijk maken in je rapportages, en op basis daarvan tijdig ingrijpen.
Dat kan een schoningoproep zijn, of het aanrukken van verse storage.

Die rapportage geldt ook voor de autorisaties: in de financiële sector moet je namelijk rekening houden met Compliance en SOX regelgeving.
Door de platte structuur kan je per afdelingsfolder (die heeft immers z'n eigen security groep) met een query op gezette tijden deze gegevens aanleveren, en vergelijken met de audit lijsten die je security auditors in je bedrijf gebruiken.

Wie maken er gebruik van?

- Wijzelf

- Server beheer (diskspace)
- Security beheer (autorisatie en audits)

Welke tools of software is er voor gebruikt?

MSSQL2000 database.
Access frontend voor het bewerken van de data (imports, analyse, export naar Excel)
Excel voor rapportage en exports van lijsten.
IIS als webbased frontend (dashboard) voor diskspace.
VBscripting.
TreeSize Pro.
DUMPACL.

Waarom geen MOM/SystemCenter/SMS/Andere tools?
Omdat dat uitgebreide aanbestedings- en acceptatie/test/uitroltrajecten zijn met een doorlooptijd van al gauw een jaar.
En dan moet je ze nog aanpassen aan jouw specifieke eisen...
Bovenstaande tooling is direct inzetbaar en is een goede intermediate oplossing, en is toegesneden op de eisen van de onderneming.

ik heb een 864 GB floppydrive! - certified prutser - the social skills of a thermonuclear device

dinsdag 13 november 2007 22:21

Acties:

Tomsworld

officieel ele fan :*

Ik zal maar aftrappen zeker, een nieuw initiatief verdient altijd een kans :-).

Vooreerst is het onderwerp hier aangedragen zeer breed, je hebt een hoop facetten die samengaan met het onderwerp Monitoring. Ik ga even proberen te schetsen hoe het bij ons gebeurd, ik werk bij een heel groot it bedrijf met meerdere eigen datacenters en 100en applicaties.

Vooreerst heb je puur je infrastructuur monitoring, hiervoor gebruiken wij het open source pakket Nagios (hiervoor heeft een collega ook een handig open source webgebaseerde beheer applicatie gemaakt), dat laat ons toe met behulp van de nodige scripts de infrastructuur te monitoring. Denk hieraan netwerkinfrastructuur, servers van alle ossen.
We spreken hierover het monitoren puur ping, met ook parameters als gebruik van cpu, memory, disk, het monitoren van kritische processen enz, dit voor alle ossen.
Tevens monitoring we ook de netwerk componenten.
Dit combineren we met perfparse om de data te kunnen gebruiken als capaciteit monitoring en beschikbaarheidsmonitoring.

Aangezien ze bij ons sinds een paar jaar een visie ontwikkelen op monitoring, vooral proactief gericht. Enerzijds doen we aan infrastructuur monitoring waarvan het belangrijkste stuk hierboven beschreven is.

Anderzijds doen we aan applicatieve monitoring op een vrij aparte manier, we doen aan end to end monitoring. Voor webapplicaties doen we aan end 2 end monitoring vanuit het standpunt van een gebruiker, hiervoor gebruiken we een opensource framework dat door collega's ontwikkeld wordt namelijk asnmtap.

Monitoring is bij ons wel nog een stuk dat dag in dag uit evolueert en belangrijker wordt, vooral omdat er nog altijd meer niet gemonitored is dan wel.

Tevens streven we naar een zo redundant mogelijke omgeving om een zo hoog mogelijke beschikbaarheid te garanderen, dus proactieve monitoring is belangrijk om te kunnen anticiperen op mogelijke incidenten.

En hoe langer en meer ik nadenk kan ik nog 100en tools en kleineren stukken opnoemen die we gebruiken om bepaalde stukken infrastructuur te monitoren. Mom, cacti, systeemeigenconsoles, ..

Ik denk dat een van de grootste uitdagingen er vandaag de dag in bestaat alle informatie te consolideren en het te gebruiken ipv slaaf te worden van alle mogelijke warnings en false criticals.

"De kans dat een snee brood op een nieuw tapijt valt met de beboterde zijde onderaan, is recht evenredig met de prijs van het tapijt"

woensdag 14 november 2007 13:14

Acties:

WHiZZi

Museumdirecteurtje

Wat monitoren we?
Van alle servers de status. Bijvoorbeeld bij Windows servers of deze online zijn, diskspace, geheugen gebruik, CPU gebruik, Remote Desktop, Aantal users online en in geval van een webserver uiteraard (+FTP) of deze werkt en bij de SQL server of deze ook draait

Voor de Linux apparaten eigenlijk hetzelfde, MySQL, Apache, diskspace, processen, zombie processen, geheugengebruik, SSH, FTP en aantal users.

Daarnaast ook items als printers zitten daar in verwerkt en zelfs onze telefooncentrales zitten gekoppeld. Zodra er iets mis is, krijgt de desbetreffende afdeling ook gewoon een SMS en Email van de server.

Naast deze controle controleren we diverse websites op content om te bepalen of die website nog actief is en online.

Dit op puur hardware gebied. Daarnaast kijken we via ons helpdesk systeem ook de druk op de helpdesk.

Wat doen we met de gegevens?
Servers monitoren is vrij logisch. De druk op de helpdesk kijken we naar of de helpdesk verbeterd moet worden of bijv bij een bepaalde systematische fout er wellicht iets aan de servers is.

Wie maken er gebruik van?
Systeembeheer, Helpdesk en directie.

Welke tools of software is er voor gebruikt?
Nagios voor de servermonitoring/website monitoring en een eigen geschreven pakket voor de helpdesk calls.

Waarom geen MOM/SystemCenter/SMS/Andere tools
Stukje kosten en ervaring vanuit het verleden. Bovendien werkt dit goed en zijn er voldoende mensen met kennis hiervan.

Leuk topic btw

HomeComputerMuseum - Interactief computermuseum waar wij de geschiedenis van de thuiscomputer preserveren. Centraal gelegen in de Benelux.

woensdag 14 november 2007 13:45

Acties:

alt-92

ye olde farte

Oh, bij de weg: je hoeft natuurlijk niet exact dezelfde layout aan te houden hoor

ik heb een 864 GB floppydrive! - certified prutser - the social skills of a thermonuclear device

woensdag 14 november 2007 13:59

Acties:

killercow

eth0

Zeg, licht het aan mij of staat dit topic ook in NOS? en waarom dan, want de dingen die zo'n topic zo leuk maken (de scriptjes) zin natuurlijk platform afhankelijk.

openkat.nl al gezien?

woensdag 14 november 2007 15:00

Acties:

alt-92

ye olde farte

De startpost legt de reden al uit, evenals Nieuw: Thema topics in WSS/NOS/WOS

Dus het licht ligt niet aan jou, nee. Bovendien: scrippies zijn leuk, maar vertel er liever eens bij wat ze doen, waarom je ze gebruikt, en wat je met die output doet (of niet, en in dat geval: waarom bijvoorbeeld niet)

ik heb een 864 GB floppydrive! - certified prutser - the social skills of a thermonuclear device

woensdag 14 november 2007 15:21

Acties:

djluc

Op dit moment zijn we bezig met het ontwikkelen van een soort management dashboard voor één van onze IT projecten. Middels sntp gaan alle routers binnen een groot wan zichzelf melden bij een centrale server. Middels een rij schermen is constant te zien of alle verbindingen en systemen in orde zijn of dat er problemen zijn.

Het doel is om hiermee het de helpdesk overzicht te geven over een redelijk complex netwerk. Door echt te visualiseren willen we dit bereiken.

Daarnaast kijken we naar mom maar om kostentechnische redenen is dat nog een twijfelpunt wat wellicht in de toekomst pas kan.

donderdag 15 november 2007 10:04

Acties:

elevator

Officieel moto fan :)

Topicstarter

Om ook maar eens geen utopisch plaatje te schetsen: Wij monitoren eigenlijk niet of nauwelijks en zeker niet op een manier die we graag zouden doen.

Voor 'beschikbaarheids monitoring' gebruiken we een zeer oude versie van het pakket "NetIQ AppManager" welke nooit fatsoenlijk ingericht is vanwege een tal van redenen, waaronder het standaard tijdgebrek, maar ook bijvoorbeeld het feit dat de "client" tool die NetIQ gebruikte conflicteerde met onze productiedatabase server. Om het nog erger te maken - de tool is bizar traag en ongebruiksvriendelijk waardoor het gebruik ook niet aantrekkelijk is.

We gebruiken die AppManager dan dus alleen maar om onze UPS te monitoren (via SNMP) en de temperaturen van diverse servers / switches te monitoren (ook via SNMP), maar praktisch gezien zijn daar uiteraard vele betere tools voor te vinden dan deze logge applicatie.

Trend monitoring doen wij nog totaal niet geautomatiseerd - we houden van onze belangrijkste database server wel bepaalde informatie bij (specifieke backup report logfiles) waardoor we weten hoe hard de database groeit maar om dat uit te rekenen kost erg veel werk, we moeten namelijk manueel honderden log files door.

Van al onze andere 'trend cijfers' weten we eigenlijk niets - en dat is erg vaak lastig een planning te maken, het is dus ook iets dat we zeker willen aanpakken.

We zijn bezig om analoog aan wat bijvoorbeeld Tomsworld en alt-92 aan het doen zijn met scripts in ieder geval diskspace te gaan monitoren, maar dat staat pas enkele weken in test en is ook nog lang niet af

donderdag 15 november 2007 10:35

Acties:

djluc

Dat tijdsgebrek, komt dat eigenlijk die juist door die belabberde monitoring? Ik kan me voorstellen dat je als je goed monitored je minder incidenten krijgt waardoor de staff dus meer tijd overhoudt voor degelijke oplossingen?!

Het lijkt er op dat we toch MOM kunnen gaan gebruiken. De kosten blijken erg mee te vallen onder SPLA, dat is een mooi voordeeltje, scheelt weer aardig wat uurtjes scriptjes maken en onderhouden.

donderdag 15 november 2007 11:56

Acties:

alt-92

ye olde farte

djluc schreef op donderdag 15 november 2007 @ 10:35:
Ik kan me voorstellen dat je als je goed monitored je minder incidenten krijgt waardoor de staff dus meer tijd overhoudt voor degelijke oplossingen?!

Nou, stel je daar ook weer niet teveel van voor

Soms moet je wel eens voorzichtig zijn met zaken die je tijd kunnen schelen, want je zal maar net een management hebben die jouw besparing aan FTE's hierdoor aangrijpt om de conclusie te trekken dat "het dus ook wel met 2 man minder kan".

ik heb een 864 GB floppydrive! - certified prutser - the social skills of a thermonuclear device

donderdag 15 november 2007 17:43

Acties:

rimpeldinky

nani?

hmm Specifieke monitoring hebben we niet, maar het (web)pakket open-audit waarschuwt standaard bij systemen met minder dan 1 GB vrije schijfruimte en dit gebruiken we dagelijks dus dan zien we wel als de schijfruimte terugloopt (ook op de servers). We zijn bezig geweest met webmin maar hier is helaas (zoals voor zoveel) geen tijd voor om dit precies uit te zoeken. Daarom hebben we open-audit gebruikt, dit draait op een oude afgeschreven PC met XP prof en XAMPP.

*burp*

donderdag 15 november 2007 19:11

Acties:

elevator

Officieel moto fan :)

Topicstarter

djluc schreef op donderdag 15 november 2007 @ 10:35:
Dat tijdsgebrek, komt dat eigenlijk die juist door die belabberde monitoring? Ik kan me voorstellen dat je als je goed monitored je minder incidenten krijgt waardoor de staff dus meer tijd overhoudt voor degelijke oplossingen?!

Nee eigenlijk niet - we zijn namelijk geen 'brandjes blus' ICT afdeling ondanks dat we niet monitoren.

Wel zouden we veel beter kunnen (proberen) te plannen als we meer 'historische' informatie hadden en zouden we op die manier beter kunnen inspelen op de eisen waardoor we wel wat tijd zouden winnen, dat is dan wel weer waar - het is dus ook zeker iets dat we willen doen (met name trend monitoring).

Het lijkt er op dat we toch MOM kunnen gaan gebruiken. De kosten blijken erg mee te vallen onder SPLA, dat is een mooi voordeeltje, scheelt weer aardig wat uurtjes scriptjes maken en onderhouden.

MOM lijkt me voor ons ook interessant maar zie eerder. Heb je al enig idee wat je gaat monitoren en met welk doel?

donderdag 15 november 2007 19:31

Acties:

MADG0BLIN

Interessant topic.

Wij zijn er net op de zaak ook weer wat meer mee bezig aangezien ons server park aardig aan het groeien is. Daarnaast beheren we ook een aantal servers van klanten waarop we op bepaalde dingen "monitoren".

Mijn college heeft in delphi een tool geschreven die bepaalde dingen uitleest op de servers en elke ochtend om 7 uur mailt naar ons. Hierin staan oa eventlogs errors en warnings, schijfruimte, services die gestopt zijn die horen te draaien, backup logs, virusscanner update datum en nog wat kleine dingen.
Werkt in de praktijk best prettig, het enigste nadeel is dat je geen realtime monitoring hebt.
Hiervoor zijn we aan het kijken naar een aantal dingen waaronder MOM en opmanager. Al zien de versies van MOM er erg interessant uit.

Maar ga zeker dit topic in de gaten houden voor tips en verhalen.

vrijdag 16 november 2007 10:00

Acties:

KLK

Ik ben vaak read-only gebruiker hier op GoT, maar ik zal ook eens wat posten.

Zelf ben ik ook vrij veel met monitoring bezig.

Bedrijf 1 :
Dit bedrijf maakt gebruik van Microsoft Operations Manager 2005, en gebruikt dit om (windows) servers bij klanten te monitoren. Hier is ook een koppeling gemaakt tussen MOM en de servicedesk applicatie. Hierdoor kan er met enkele muisklikken een incident aangemaakt worden in de servicedesk applicatie.

Bedrijf 2:
Dit bedrijf krijgt elke morgen een mailtje van elke server. In dit mailtje staat een rapport, en het wordt steeds meer werk om al die mailtjes door te lezen voor meldingen.

Het bedrijf wilde dus een monitoring applicatie. In eerste instantie naar opManager gekeken, omdat dit in hun situatie voordelig was en aan de eisen voldeed. Ook is er gekeken naar OPS2007 (Operations Manager 2007, opvolger van MOM2005), en naar Nagios, maar besloten daar op moment vanaf te zien.

Situatie 3:
Zelf organiseren wij vaak LAN-Party's, van ongeveer 100 bezoekers. Natuurlijk willen Gamers het beste van alles (eigen PC, snel netwerk, snelle servers, snel bestanden binnen halen). Hierdoor monitoren wij het hele netwerk, dus alle servers, switches en overige apparatuur. Hierdoor kunnen wij zien waar de bottleneck's zich bevinden, en kunnen we dit aanpassen, op de Party zelf, of kunnen we de volgende lan party rekening mee houden. Het is natuurlijk ook leuk om op de beamer wat real-time metertjes en grafiekjes te laten zien, ook al weten de meeste gamers toch niet wat het betekend

.

vrijdag 16 november 2007 10:25

Acties:

Dafjedavid

Ook ik zal dan mar een bijdrage leveren:

Wat monitoren we?

Van alle servers de status. Bijvoorbeeld bij Windows servers of deze online zijn, diskspace, geheugen gebruik, CPU gebruik, HTTP, FTP en overige services die voor ons belangrijk zijn, zoals de service voor het backupprogramma.
Voor de Linux apparaten eigenlijk hetzelfde, MySQL, Apache, diskspace, processen, zombie processen, geheugengebruik, SSH, FTP.

Daarnaast ook items als printers, ip-camera's en een aantal externe servers.

Ook loggen we alle event-logs van zowel de Windows als Linux machines in onze omgeving door middel van een syslog-server.

Wat doen we met de gegevens?
Het actief beheren van de serveromgeving. Door de statusmeldingen in de gaten te houden, kunnen we op de minuut ingrijpen als er een server uitligt of een service omvalt.
Met syslogging houden we in de gaten wat er zoal gaande is op de servers, printers, ipcamera's. Ook houden we de inloggegevens bij van al onze gebruikers wie waar wanneer inlogd. Dit om bij misbruik te kunnen achterhalen wie er verantwoordelijk is.

Wie maken er gebruik van?
Systeembeheer.

Welke tools of software is er voor gebruikt?
Hobbit (voorheen Big Brother) en syslog-ng. Dit alles draaiende op een Debian server.
Voor de clients een Hobbit-client en een syslog client.

Waarom geen MOM/SystemCenter/SMS/Andere tools
Kosten en implementatie te langdurig en te weinig kennis van betreffende paketten.

[ Voor 3% gewijzigd door Dafjedavid op 16-11-2007 10:26 ]

Who Needs Windows...

vrijdag 16 november 2007 11:05

Acties:

TrailBlazer

Karnemelk FTW

Wat algemene tips mbt netwerkmonitoring van mijn kant.

Vertrouw niet op syslog meldingen voor je beheer. Syslog is onbetrouwbaar en je krijgt maar een keer een melding van een event. Een interface gaat down de router stuurt een melding maar omdat de routing nog aan het convergen is komt die melding nooit aan.
Doe aan actieve monitoring. Vraag met SNMP uit wat de status is van interfaces en genereer melding aan de hand hiervan.
Train de operators niet op kleur van het alarm of severity van het alarm. Ik heb zeer vaak gezien dat operators een alarm wegklikken van een up melding van een interface onder het moto dat is toch goed. Nee want hij was dus down.
Houd bij welke software er op welk device staat zodat je weet waar je vulnerable bent voor eventuele bugs.
Houd de software consistent
Check op belangrijke security kenemerken van je routers en werk volgens templates.

vrijdag 16 november 2007 11:28

Acties:

Dafjedavid

TrailBlazer schreef op vrijdag 16 november 2007 @ 11:05:
Wat algemene tips mbt netwerkmonitoring van mijn kant.
Vertrouw niet op syslog meldingen voor je beheer. Syslog is onbetrouwbaar en je krijgt maar een keer een melding van een event. Een interface gaat down de router stuurt een melding maar omdat de routing nog aan het convergen is komt die melding nooit aan.
Doe aan actieve monitoring. Vraag met SNMP uit wat de status is van interfaces en genereer melding aan de hand hiervan.
Train de operators niet op kleur van het alarm of severity van het alarm. Ik heb zeer vaak gezien dat operators een alarm wegklikken van een up melding van een interface onder het moto dat is toch goed. Nee want hij was dus down.
Houd bij welke software er op welk device staat zodat je weet waar je vulnerable bent voor eventuele bugs.
Houd de software consistent
Check op belangrijke security kenemerken van je routers en werk volgens templates.

Apart van syslog-meldingen hebben we een tweede monitoringsysteem die bijhoud wat de servers doen. Is er een NIC down, krijg ik inderdaad geen syslogmeldingen, maar begint Hobbit (mn 2e systeem) te gillen, te mailen en te sms-en dat er een server niet meer bereikbaar is of een service niet draait.
Ik vertrouw dus absoluut niet alleen op syslog

Routers monitor ik niet, valt niet in mijn hokje

dat doet iemand anders....

Who Needs Windows...

zondag 18 november 2007 19:48

Acties:

Cis

Binnen onze organisatie beheren we zo'n 30 servers, waarvan 20 virtueel en 10 fysiek.

Wat monitoren we
We monitoren op elke server de CPU, MEM en Diskspace (op partitieniveau).
Per server wordt ook IIS / SQL / MySQL gemonitord, indien aanwezig. En voor nog 's een paar servers worden specifieke services gecheckt of ze nog running zijn.
De fysieke staat van onze servers monitoren wij ook. Elke 5 minuten wordt gekeken of de machine reageert op een ping. Daarnaast wordt ook de hardware gecontroleerd.

Hoe monitoren we
Bovenstaande checks gebeuren elke 5 a 10 minuten (afhankelijk van de urgentie) met behulp van SNMP/WMI. CPU wordt vaker gecheckt dan disk space, belangrijke databases worden nog vaker gecheckt).

Waarmee monitoren we
OpManager gebruiken we om de resources te monitoren, alsmede services e.d.
HP Insight Manager gebruiken we om de fysieke issues te monitoren

Wat doen we met de informatie
Zodra een onderdeel een vastgestelde threshold overschrijdt, wordt naar de afdeling systeembeheer een mail gestuurd. Dit kan bijvoorbeeld gebeuren als de CPU 5 minuten lang boven de 90% zit.
Voor recources houden we een jaar lang gegevens bij, zodat we trends kunnen bekijken.

Geschiedenis herhaalt zich nooit. Maar rijmt altijd wel een keer.

maandag 19 november 2007 09:52

Acties:

kevlar

2 vragen:
Wij zijn ook bezig met het kijken naar een monitoring pakket. En ik vind het erg lastig om een keuze te maken.
Uiteraard kan ik de normale routine: eisen opstellen en kijken wat daar aan voldoet. Maar helaas is de praktijk wat weerbarstiger. De bulk van je vragen kan je gewoon geen antwoord op krijgen tenzij je zelf het pakket uit gaat proberen, en daar moet je dan ook maar net de tijd voor hebben.

Waar ik erg benieuwd naar ben zijn de ervaringen van Nagios gebruikers. Bij mijn vorige baan heeft een collega dit pakket geprobeerd, en dat is hopeloos mislukt. De reden? veels te veel geklooi met al die textfiletjes. Kortom, geen fatsoenlijke beheersinterface.
Ik zou graag horen, van mensen die echt met nagios werken/hebben gewerkt, wat hun ervaringen zijn. Dus voornamelijk op het gebied van beheer, want ik geloof wel dat Nagios goed monitord.

Ook ben ik heel benieuwd naar ervaringen met MOM, en dan vooral op het gebied van het monitoren van Linux.

Om ook nog wat input te geven aan deze thread:
Het monitoring pakket wat ik heb gedraaid is opmanager. Dit pakket werkt prima! Het enige waar wij tegen aan liepen is de CPU usage als je heel veel snmp stats uit gaat lezen. Wij lazen ca 2500 switchpoorten uit via snmp (ca 50 switches) en dit eisde heel veel cpu power. Als je echt op grote schaal counters uit wil gaan lezen en opslaan, moet je echt rekening houden met een heftige aanslag op de capaciteit van je systeem. Voor echt grote omgevingen zal je niet afkunnen met één server verwacht ik. Testen dus!

I wish I had a cool signature like everybody else

maandag 19 november 2007 19:35

Acties:

Guru Evi

Ik gebruik momenteel Pandora FMS. Het is een open source pakket en werkt op zowat alle platformen. Het kan remote en lokaal monitoren en alles dat enigszins een output geeft kan gemonitord worden.

Het is een leuk pakket, gratis met veel uitbreidingen en nog veel dingen die gepland staan (zoals automatisch netwerkoverzichten maken (nu nog manueel)). Je kunt load balancen en HA clusters maken van elk stuk van de 4-delige software (vooral als je heel veel data moet uitlezen) en ze werken allemaal samen. Ook de database structuur is open dus als je het wilt integreren in een bestaand beheerspakket kun je dat ook doen.

Het is redelijk eenvoudig, je moet gewoon wat weten scripten op het platform dat je beheert.

[ Voor 34% gewijzigd door Guru Evi op 19-11-2007 19:38 ]

Pandora FMS - Open Source Monitoring - pandorafms.org

vrijdag 14 december 2007 23:42

Acties:

Saab

Sinds kort draaien wij pilot met HP insightmanager. Ik heb dat op een testserver geinstalleerd, Pentium III met 512Mb en een Raid 1 systeem. Puur voor tijdens de test, als het bevalt verhuist het naar een zwaardere machine.

In de weken dat ik er mee gewerkt heb, geinstalleerd, geconfigureert, testen, finetunen enz ben ik echt onder de indruk van dit product. Het is best snel ondanks het krappe hardwareplatform. Het laat zich makkelijk configureren en geeft relevante, goed leesbare informatie.

Op dit moment monitor ik een 20 servers, fysiek en paar virueel op VMware, 130 werkstations op 21 subnetten, iets van 30 printers, HP procurve switches en +/- 20 Cisco routers.

Basale zaken als system down worden keurig via email doorgegeven maar ook hardeschijven die kapot gaan, routers down, netwerkprinters down enz komen prima door. Alles gebeurt tot nu toe op basis van SNMP.

Wij zijn/waren op zoek naar een goede audit/management oplossing. Tot nu toe een paar oplossingen gezien, Centennial discovery, Solarwinds en nog wat andere, maar die of te ingewikkeld waren of net niet dat boodde wat ik zocht. Bovendien heb ik de indruk dat veel oplossingen nodeloos zwaar zijn.

Groot voordeel van HP insight is de prima integratie met uiteraard HP servers, maar ook HP UX en eventueel Linux.

https://www.discogs.com/user/jurgen1973/collection

donderdag 10 januari 2008 23:09

Acties:

Yalopa

Less is more!

Wat monitorren we:

1 WAN
De trafiek op de wan interfaces van elke site (5 in totaal)
Verschillende protocollen die over die wan gaan (Voip, Videocon, DFS...)
Latency naar elke site

2 LAN
Backbones door de fabriek + Internet verbinding

3 Applicaties (SNMP)
Groupwise POA, GWIA, aantal messages

4 Hardware (SNMP)
UPS temperatuur, Power, en run time

5 Servers (Win 2003)
Citrix: TS Sessies, CPU use, Mem use, Page File etc
File servers: Diskspace, disk access times

We gebruiken hiervoor:
PRTG.
Een niet erg dure tool die zeer makkelijk werkt. We hebben gewoon 3 TFT monitoren die constant de info tonen. In sommige gevallen stuurt PRTG een alert mail.

MOM:
loopt in test, maar heb momenteel geen tijd om me verder bezig te houden met die testen. Weet niet als ik er hoegenaamt nog wat mee ga doen, de tool is niet goedkoop...

Wat wil ik nog:
Een tool om traps op te vangen, het liefst een windows tool die niet te duur is, maar simpel werkt. Een tool om VMWare ESX te monitorren, zodat ik weet welke VM zonder resources geraak. Voor mezelf een standaard vastleggen zodat alle software die alert mails kan sturen dat op dezelfde manier doet, dit moet dan door een rule processing in groupwise door de juiste collega verwerkt worden.

You don't need eyes to see, you need vision

woensdag 16 januari 2008 10:35

Acties:

Consequator

Ik heb een dedicated linux machine die niks anders doet dan het netwerk in de gaten houden op zo'n beetje alles wat SNMP toe staat.
Niet op alles zit een alarm trigger maar het wordt wel bijgehouden, voor de aardigheid heb ik zoveel mogelijk de triggers er ook bij gezet.

Wat wordt er bij gehouden met grafieken..

Netware servers:

CPU
Netwerk verkeer - Met baselining, ongebruikelijke hoeveelheid verkeer = mailtje.
ingelogde gebruikers - gebruikers = 0 = alarm
IO activiteit
open bestanden
vrije ruimte - Baselining + minimale vrije ruimte alarm, ongewoon snelle vulling = mailtje.
latency - standaard up/down check, mailtje bij geen response.
Groupwise POA - minder dan 10 connecties = mailtje

Windows servers:

CPU
Netwerk verkeer
Vrije disk ruimte - Baselining + minimale vrije ruimte alarm, ongewoon snelle vulling = mailtje.
Hoeveelheid processen
Aantal ingelogde gebruikers
latency - idem als bij netware.

Linux servers:

CPU
Load - mailtje bij hoge load. (load is afzonderlijk van cpu)
Memory
Netwerk verkeer
Vrije ruimte - Baselining + minimale vrije ruimte alarm, ongewoon snelle vulling = mailtje.
Postfix e-mail/sec + greylisting statestieken waar van toepassing.

Cisco routers + switches

CPU waar dat wil.
Backbone interface poorten. Baselining op verkeer hoeveelheid
Server poorten. Baselining op verkeer hoeveelheid

Alle wan poorten vallen onder Cisco en linux, er wordt nog wel actief gekeken naar de eerst volgende hop buiten de deur, hier zit ook een alarm op.
Verder wordt er actief gekeken naar NTP / DNS / DHCP / Telnet / SSH / SMTP services.
GroupWise is met SNMP ook nog een keer extra gecontroleerd door 2e programma op up/down en foutmeldingen.

Wat gebruiken we hier voor:

Voor de grafieken gebruiken we Cacti inclusief een aantal plugins. Weathermap, ThresHold en Monitor. Monitor en treshold verzorgen de eventuele e-mails.
Voor het actief monitoren van services en up/down meldingen gebruiken we Nagios. Deze triggert mailtjes en een alarm op een webpagina (die geluid geeft en als windows achtergrond is ingesteld) op vreemde responses van b.v. webservers of een hoge ntp drift.
Beide gebruiken mysql voor instellingen en gegevens.

Het hele zwikje is dus open source en, behalve mijn tijd(wat niet zo heel veel was) en een server, helemaal gratis. Het werkt ook nog eens prima en meestal hebben wij storingen al in de gaten voor er iemand belt.

vrijdag 18 januari 2008 00:06

Acties:

megamuch

Tring Tring!

omgeving
15 Voice response systemen (VRS) met 480 lijnen het stuk.
5 webservers
4 mysql servers + 4x replication
25 clients
1 exchange
1 fileserver
1 backup machine

netwerk
8 vlans
3 firewalls
5 subnetten

Qua MySQL monitoren we eigenlijk alles via het Mysql monitoring syteem en daarbij hebben we wat
Custom scripts dat oa checkt of de Mysql replication link nog up is.

VRS machines zijn win2k3 machines zonder AD, maar met een flink aantal custom services. Die services gaan naar ons eigen FatSister (de zus van BigBrother) systeem waar allemaal relevante info naar toe gaat. CPU, MEM, HDD, temps etc etc etc.

Clients: Geen monitoring
SBS2003/ exchange: Daily eventlog check en monitoring van sbs2k3 stuurt mij mail
Fileserver: krijgt een daily eventlog check.

Application servers hangen aan fatsister
Webservers ook.

SNMP voor de switches
SNMP voor de UPS
SNMP voor video conf machines

En dat komt allemaal weer samen in Fatsister dat de hele bende weer in het in house ontwikkelde CRM/ ERP / Monitoring platform brengt.

Goed? Ja. Goed genoeg? Nog niet

- Ik wil nog een disk space monitoring tool hebben met history. (Moet ik nog maken)
- Active usage reports van de VOIP lijnen en directe alerts bij failures
- het mag allemaal wat mooier

Verstand van Voip? Ik heb een leuke baan voor je!

maandag 28 april 2008 00:41

Acties:

Saab

Ik weet niet zeker of dit nog een actief topic is maar wij hebben Insight manager nu in productie.

Draait op een applicatie server tezamen met ankele andere applicaties op een Xeon 2 ghz meen ik met genoeg geheugen. Database draait op SQL.

Het monitort het volgende:

Servers, diskspace, down, powerfailures etc etc.
alle netwerkapparatuur, collisons, down etc
printers, toner level, automatisch mailtje naar cusomer services om toner te bestellen, maar ook fuser, maintenance kit
werkstations, inlogtijd, uitlogtijd.

Bij de eerste audit worden alle herkende componenten al gecatoriseerd naar type; dus servers, printers, werkstations, maar bij voorbeeld ook Ilo kaarten netjes bij elkaar.

Ik vind de intarface er goed uit zien, het is makkelijk in te stellen, er zijn diverse plugins beschikbaar zolas bijvoorbeeld naar Webjetadmin en powertools.

Tot nu toe heeft het me 1 keer keurig geattendeert op een disk failure in een Raid set en krijg ik keurig mailtjes als diskspace over een limiet zit. Voor de diskspace heb je 2 levels, critic and warning.

Warning staat op 80%, critic op 90%.

Gezien het volledig met SNMP werkt is er geen merkbare toename in netwerkverkeer.

Ik ben er dan ook bijzonder content mee.

[ Voor 7% gewijzigd door Saab op 28-04-2008 00:43 ]

https://www.discogs.com/user/jurgen1973/collection

maandag 16 maart 2009 20:45

Acties:

Turdie

alt-92 schreef op maandag 12 november 2007 @ 20:18:
Om alvast een aftrap te geven:

File server monitoring - diskspace, autorisaties en rapportage

Zoals overal is ook bij ons een flinke hoeveelheid servers in gebruik om afdelings data en project gerelateerde data aan te bieden.

Onze Server omgeving is opgebouwd volgens een gestandaardiseerd systeem.
Er wordt een strikte scheiding gemaakt tussen applicatie servers, file servers en andere taken.

De file servers bestaan uit Windows 2003 Server Clusters (2 nodes) met ieder drie 500GiB Disk Cabinets in een SAN voor een totaal van 3TB aan opslagruimte per Cluster.
Bij de inrichting van het filesystem wordt rekening gehouden met drie verschillende datatypen met elk eigen rootfolders per disk:
• Groepsdata (afdelings specifiek, team specifiek)
• Projectdata (voor - je raadt het al - project data, met een bepaalde looptijd).
• Userdata (Home drives van users, doorgaans op een aparte servercluster).

Voor groepsdata en project data wordt bovendien gebruik gemaakt van DFS.
Elk data gebied krijgt zijn eigen folder in de desbetreffende rootfolder, en twee bijbehorende security groepen: Read en Read/Write.
Nesting van groepen is niet toegestaan, er zijn dus maar twee lagen.

Dat is niet altijd zo duidelijk gestructureerd geweest natuurlijk

Vóór de invoering van de huidige AD structuur werd bij de diverse bedrijfsonderdelen gebruik gemaakt van eigen NT domains, AD (2000) domains, en Novell Domains.
Het beheer daarvan viel aan de lokale systeembeheer afdelingen, die ook ieder hun eigen manier van monitoring gebruikten binnen elke divisie.
Vaak is die scheiding ook nog eens een bedrijfs politieke aangelegenheid, zeker in grote ondernemingen.

Om alle data te consolideren is er een migratie traject in het leven geroepen waarbij de data
wordt geanalyseerd, en in overleg met de afdeling de autorisaties worden ingedeeld.
In de gekozen structuur betekent dat concreet dat elke afwijkende access groep een eigen datagebied met een eigen security groep krijgt (een platte structuur, geen nesting meer )

Tot zover het achtergrondverhaal.

Wat monitoren we?
• Diskspace.

Elke cluster wordt dagelijks door middel van een VBscript uitgelezen op de totaal beschikbare ruimte per schijf.
Daarnaast wordt door een Treesize export (tot op het niveau van de specifieke groepsfolder) de ruimte per groepsfolder uitgelezen.
Dit wordt geimporteerd in een MSSQL database, zodat je een historisch overzicht hebt van de groei van de gebruikte ruimte.

Ook de oude legacy omgeving wordt uitgelezen met VBscript, maar alleen de disks zelf.
Dit komt omdat de legacy omgeving teveel verschillende standaarden kent (wel clusters, geen clusters, SAN disken, RAID sets, losse disken, noem maar op).

• Gemigreerde data

Data die naar het nieuwe platform wordt gemigreerd wordt overgezet door middel van robocopy.
Zodra je bepaald hebt welke folders je wil verhuizen kan je met de volgende opdracht een scan doen om de hoeveelheid vast te stellen:
robocopy "\\source\share" "\\target\share" __>
 /NFL /NDL /MIR /L /LOG:.\logfile.txt /R:1 /W:5
_{command op één regel, __> geeft regelafbreking aan}

De logfiles daarvan parsen we uit en worden eveneens in de database gezet, zodat je een overzicht krijgt van de hoeveelheid data die per afdeling of projectgroep daadwerkelijk gemigreerd moet worden.

• Rechten op data in de legacy omgeving

Omdat je natuurlijk moet weten wie er nu bij de data kunnen, wordt door middel van DUMPACL een log gegenereerd van de file ACLs op de legacy omgeving.
Ook deze worden geimporteerd in de database.
Samen met een export van de NT domains (useraccounts en groups) en de AD users en groups kan je dan vastleggen wie waarbij kan in een autorisatiematrix.

Wat doen we met de gegevens?
• Operationeel:

Nu de Diskspace en Foldergrootte van de nieuwe omgeving bekend is, kunnen we met de gegevens uit de robocopy scan ook bepalen naar welke server en schijf we gaan verhuizen
(Je kijkt waar je de 55GB van je gescande gebied in kan passen).

We gebruiken SQL query's om de groepen en users die op de "oude" folders staan te exporteren naar lijsten, zodat je inzichtelijk kunt maken wie bij welke data kunnen.
Je kan nu dus ook (laten) beoordelen of er afwijkingen tussen zitten:
- Zijn er ACLs door elkaar gegooid door verplaatsingsacties?
- Hebben alleen de juiste personen toegang, of staat er per abuis een ACL entry met Everyone Full Control tussen?
Na een schoningssslag kan je dan de juiste personen toegang verlenen tot de verhuisde afdelingsdata, en ook dat leg je vast in de database.

• Strategisch/Trendanalyse:

Voor de langere termijn heb je nu de beschikking over een dagelijkse readout van de beschikbare schijfruimte en foldergrootte per afdeling (Datagebied).
Door gebruik te maken van staafdiagrammen bijvoorbeeld kan je de groei inzichtelijk maken in je rapportages, en op basis daarvan tijdig ingrijpen.
Dat kan een schoningoproep zijn, of het aanrukken van verse storage.

Die rapportage geldt ook voor de autorisaties: in de financiële sector moet je namelijk rekening houden met Compliance en SOX regelgeving.
Door de platte structuur kan je per afdelingsfolder (die heeft immers z'n eigen security groep) met een query op gezette tijden deze gegevens aanleveren, en vergelijken met de audit lijsten die je security auditors in je bedrijf gebruiken.

Wie maken er gebruik van?

- Wijzelf
- Server beheer (diskspace)
- Security beheer (autorisatie en audits)

Welke tools of software is er voor gebruikt?

MSSQL2000 database.
Access frontend voor het bewerken van de data (imports, analyse, export naar Excel)
Excel voor rapportage en exports van lijsten.
IIS als webbased frontend (dashboard) voor diskspace.
VBscripting.
TreeSize Pro.
DUMPACL.

Waarom geen MOM/SystemCenter/SMS/Andere tools?
Omdat dat uitgebreide aanbestedings- en acceptatie/test/uitroltrajecten zijn met een doorlooptijd van al gauw een jaar.
En dan moet je ze nog aanpassen aan jouw specifieke eisen...
Bovenstaande tooling is direct inzetbaar en is een goede intermediate oplossing, en is toegesneden op de eisen van de onderneming.

Wat klinkt dit me bekend in de oren

. Owh ja, we werken nog bij hetzelfde bedrijf.:D

dinsdag 14 september 2010 09:43

Acties:

MrJames

-/

Leuke topic! Even naar boven schoppen.

Wat monitoren wij?

Niks. Hoe gek het ook klinkt maar hier word gewoon niks gemonitord waar ik zelf niet zo blij mee ben. Ik werk hier sinds kort. Is een kenniscentrum waar bedrijven lid van zijn en informatie kunnen aanvragen over branches. Maar ga dit wel aankaarten ook al hebben we niet zoveel servers hier hangen. Het is prettig om alles op één scherm te zien of het nou werk of niet en niet achteraf door iemand te horen krijg van "Ik kom niet in mijn netwerk map" of "de mail werk niet"..

dinsdag 14 september 2010 10:05

Acties:

tc982

Monitoring : Server Hardware en diskspace, en dit allemaal met de standaard meegeleverde HP Tools ( HP Proliant Support Pack ).

Op de SBS server maken wij een monitoring group en zetten we ons in kopie. Zo krijgen we meestal van onze klanten alle info. ( Server Hardware en Windows Software ). Alle andere monitors gebeuren manueel bij een nazicht eens om de drie maanden ( maximum ) er word dan een checklist uitgevoerd en afgegeven aan de klant ( Backup, Windows Updates, Exchnage, BPA, AntiSpam, Antivirus enz. )

Computers make very fast, very accurate mistakes.

dinsdag 14 september 2010 11:41

Acties:

DrFlash

Bij ons wordt een hoop gemonitord (kan nog meer). De omgeving

46 servers (Windows/Linux)
17 switch(stacks)
2 routers
4 firewalls
Metro Netapp cluster
VMware blabla..

De monitoring gebeurt via:
nagios (up/down meldingen van poorten en services. alsmede bereikbaarheid)
Cacti met thold (bandbreedte gebruik, disk ruimte, temperatuur sensors in elke server en patch ruimte, UPS)
Logwatch (dagelijks voor het mailen van de logs van alle Linux machines)
en een soort van Logwatch wat intern ontwikkeld is voor de windows machines, die de eventviewers uitleest en eventueel andere logs en die via de mail verstuurd.

Daarbuiten nog wat tools van producenten, bijv xerox voor het monitoren van supplies, mcafee epo voor het monitoren van virus scanners op alle pcs/servers. En WCS (Cisco) voor het monitoren van zo'n 180 access points.

Wowhead profiel