Hoe kan je zorgen voor extra betroubaarheid van je OS?
Je zou elke nacht md5sums van alle bestanden kunnen maken, en die dan vergelijken met de md5sums van de vorige dag....dan kan je dus bijhouden of een bestand ook echt gewijzigd is en op welke dag. (soort van debsums?)
Je kan van elke bestand meerdere versies op schijf houden (zoals OpenVMS) dit is een beetje CVS achtig (waar is CVSfs ?
) Als er dan iets fout is dan restore je gewoon de vorige revisie.
Je kan een crontab scrijven die het een en ander test en kijkt of de test van de dag ervoor hetzelfde deed. (b.v. de totale grote van de hardeschijf, ip van de dns en meer dingen die niet zouden mogen veranderen)
Programma's zoals mon of nagios installeren?
Hoe (proberen) jullie er voor te zorgen dat er op tijd bekend is dat b.v. je hdd onbetroubaar wordt (smartsuite?), er problemen zijn met je nic, libs kapot zijn, files corupt raken/zijn geraakt (stroomstoring e.d.), er een rootkit aanwezig is (chkrootkit?)
Ik heb vaak genoeg meegemaakt dat een kapotte cd of cdromdrive er voor zorgde dat een hele server plat ging enkel door een cd in de drive te stoppen (NT4) of dat een heel IDE kanaal met alles wat er aan hing opeens niet meer werkte. Hoe voorkom je dat soort problemen.
En natuurlijk de classics: Backups, UPS, RAID, ...
En als een process opeens veel CPU tijd slurpt of je MEM/HDD probeert vol te gooien? (ik heb vaak genoeg meegemaakt dat je als normale user GNOME niet meer kon starten omdat er niet genoeg bytes vrij waren voor tmp/lock files)
Met programma's als mon moet je eigenlijk een p2p systeem hebben.... hoe wilde je een alert ontvangen als je mailserver, switch, inet of stroom eruit liggen? Of je moet met een aantal mensen samen over inet elkaars systemen monitoren.
En in een artikel over RedHat AS dat er bij een HA setup ook vaak problemen optreden. Dit is vooral zo als het systeem deels faalt:
) Die is soms handig bij locks, maar soms is een hoge load al genoeg om 'm te triggeren....(voor de SMP mensen is dit misschien handig in het geval van een spinlock?)
Wat voor hw gebruiken jullie verder nog om de availability te verhogen?
En backupsystemen....wanneer waren die voor het laatst getest? (Bij m'n moeder op haar werk hebben ze maanden backups van 0 byte gemaakt...
)
En wat als b.v. de SCSI of IDE controller opeens besluit om al je hdd's de vernieling in te helpen? Backup server? Opnieuw installeren? Image terugzetten?
En OS'en Zoals OpenBSD, Trusted Solaris, SELinux en consorten.....geven die door die extra security ook extra betrouwbaarheid? Ervaring met dat soort systemen?
Je zou elke nacht md5sums van alle bestanden kunnen maken, en die dan vergelijken met de md5sums van de vorige dag....dan kan je dus bijhouden of een bestand ook echt gewijzigd is en op welke dag. (soort van debsums?)
Je kan van elke bestand meerdere versies op schijf houden (zoals OpenVMS) dit is een beetje CVS achtig (waar is CVSfs ?
Je kan een crontab scrijven die het een en ander test en kijkt of de test van de dag ervoor hetzelfde deed. (b.v. de totale grote van de hardeschijf, ip van de dns en meer dingen die niet zouden mogen veranderen)
Programma's zoals mon of nagios installeren?
Hoe (proberen) jullie er voor te zorgen dat er op tijd bekend is dat b.v. je hdd onbetroubaar wordt (smartsuite?), er problemen zijn met je nic, libs kapot zijn, files corupt raken/zijn geraakt (stroomstoring e.d.), er een rootkit aanwezig is (chkrootkit?)
Ik heb vaak genoeg meegemaakt dat een kapotte cd of cdromdrive er voor zorgde dat een hele server plat ging enkel door een cd in de drive te stoppen (NT4) of dat een heel IDE kanaal met alles wat er aan hing opeens niet meer werkte. Hoe voorkom je dat soort problemen.
En natuurlijk de classics: Backups, UPS, RAID, ...
En als een process opeens veel CPU tijd slurpt of je MEM/HDD probeert vol te gooien? (ik heb vaak genoeg meegemaakt dat je als normale user GNOME niet meer kon starten omdat er niet genoeg bytes vrij waren voor tmp/lock files)
Met programma's als mon moet je eigenlijk een p2p systeem hebben.... hoe wilde je een alert ontvangen als je mailserver, switch, inet of stroom eruit liggen? Of je moet met een aantal mensen samen over inet elkaars systemen monitoren.
En in een artikel over RedHat AS dat er bij een HA setup ook vaak problemen optreden. Dit is vooral zo als het systeem deels faalt:
En ik heb in m'n kernel die software watchdog zitten (in m'n ander systeem zit een hardware matige watchdogAll we need is someone to watch the machine and blast it with a shotgun if something goes wrong.
Wat voor hw gebruiken jullie verder nog om de availability te verhogen?
En backupsystemen....wanneer waren die voor het laatst getest? (Bij m'n moeder op haar werk hebben ze maanden backups van 0 byte gemaakt...
En wat als b.v. de SCSI of IDE controller opeens besluit om al je hdd's de vernieling in te helpen? Backup server? Opnieuw installeren? Image terugzetten?
En OS'en Zoals OpenBSD, Trusted Solaris, SELinux en consorten.....geven die door die extra security ook extra betrouwbaarheid? Ervaring met dat soort systemen?
[ Voor 9% gewijzigd door Verwijderd op 09-04-2003 20:14 ]