Wat er gebeurd is ( 30/31 Mei 2001 )

Pagina: 1
Acties:
  • 153 views sinds 30-01-2008

  • Diadem
  • Registratie: Maart 2000
  • Laatst online: 31-05-2023
Wegens ernstige problemen met de RAID van de database server (een Seagate Cheetah is overleden aan een headcrash), die gisteren zijn ontstaan tijdens onderhoud bij Vuurwerk, zijn Tweakers.net, Fokzine.net en bijbehorende forums een tijd lang down geweest.

Inmiddels is GoT weer online, maar moest er helaas een backup worden teruggezet, waardoor veel gegevens verloren zijn geweest.

De backup dateert van 2 april 2001. Alles wat na die datum gepost of veranderd is is dus verdwenen.

We doen wat we kunnen om de forumstructuur en de FAQ's in ieder geval zo snel mogelijk te herstellen.

Build a man a fire, and he'll be warm for a day. Set a man on fire, and he'll be warm for the rest of his life - Terry Pratchett


  • Bulldog
  • Registratie: Maart 2000
  • Niet online
Zie ook: http://www.fokzine.net/news.fok?id=7555
Ongetwijfeld is het iedereen opgevallen dat Tweakers, Fok!Zine en RealGamer de afgelopen twee dagen niet op de gebruikelijke manier functioneerden zoals jullie dat van ons gewend waren. Op beide sites was al te lezen dat door de crash van één van de Seagate Cheetah-schijven de sites en de forums voor onbepaalde tijd off-line waren.

Om precies te zijn trad tijdens de werkzaamheden die op 30 mei zouden plaatsvinden en waarbij Apollo en Appie teruggeplaatst werden bij onderhoud aan Artemis de bewuste crash van de harde schijf op. De schijf was in een RAID array geplaatst die helaas door een communicatiefout niet als mirroring was geconfigureerd. De andere schijven in de array die dus normaal voor extra back-ups zouden zorgen bevatte dus geen back-up en daardoor moesten we teruggrijpen naar de back-ups die op Athena gemaakt waren.

Door de problemen die met Artemis optraden moest er gisteren door tijdsgebrek de verdere installatie van Apollo en de geplande ontkoppeling van Athena gestaakt worden. Op dat moment was het niet duidelijk waarom Artemis niet meer wilde booten en werd Artemis door Kees naar huis meegenomen om alsnog te achterhalen wat het probleem was. Nadat vannacht duidelijk was geworden dat het probleem bij de harde schijf lag, zijn Kees, Floris en Daniel vanmiddag richting Vuurwerk vertrokken om Apollo online te brengen en de backups over te brengen van Athena naar Apollo. Apollo zal dus tijdelijk de taken van Artemis waarnemen.

De back-ups zijn helaas alleen van een oudere datum en zijn van 2 april jl en concreet betekent dit dus dat alle acties (posts, registraties, reacties, etc.) van na 2 april niet in de database staan en dus ook niet meer te benaderen zijn. Een zure les, maar wel eentje waar we lering uit getrokken hebben.

Namens de gehele Fok!, Tweakers en RealGamer-crew willen we dan ook bij deze alle users onze excuses aanbieden voor ruim 24 uur downtime en de verdwenen posts.

  • Bulldog
  • Registratie: Maart 2000
  • Niet online
Zie ook: http://www.tweakers.net/plan/99
Tweakers.net is de afgelopen 36 uur down geweest in verband met een ernstige probleem met de RAID in de database server. Zoals je twee dagen in deze .plan hebt kunnen lezen, was het woensdag de bedoeling om Aphrodite en Apollo (de tweede database server) bij in de serverruimte van Vuurwerk te plaatsen. Tegelijkertijd zou Artemis een geheugen upgrade van 1,5GB naar 2GB krijgen. De geheugen upgrade verliep volgens plan, maar na het vervangen van de SCSI kabel (waarvan een connector defect was) rapporteerde de RAID controller dat de tweede harddisk offline was. Normaal gesproken zou dit geen fataal probleem moeten zijn, ware het dat de de vier schijven niet juist als RAID0+1 geconfigureerd bleken te zijn.



Gedurende de anderhalf uur dat we toegang hadden tot de serverruimte van Vuurwerk is het ons niet gelukt om de RAID werkend te krijgen. Daarop is besloten om Artemis mee te nemen en de herconfiguratie van Athena uit te stellen. Kees Hoekzema, de nieuwe serverbeheerder die sinds vandaag de taken van Rick overneemt, is tot diep in de nacht bezig geweest om de data te herstellen. Wat in eerste instantie leek op een simpel probleem met de SCSI kabel, bleek uiteindelijk een volledig gecrashde harddisk te zijn. Hierdoor is alle (belangrijke) data op Artemis verloren gegaan.



Alsof dit geen ramp op zich was, bleek ook nog eens dat het scriptje dat dagelijks een backup maakt van alle databases niet meer functioneerde. Hierdoor moesten we terugvallen op een oude backup van 27 april.

Door de problematische en gehaaste situatie bij Vuurwerk zijn we er woensdag niet aan toegekomen om de installatie van Apollo te voltooien. Daniel, Floris en Kees hebben dit gisteren bij Vuurwerk hersteld. Apollo draait nu alle databases voor Tweakers.net en Fok!. De geheugen upgrade van Apollo is gelukkig wel gelukt, hij heeft nu evenals Artemis 2GB PC133 SDRAM (klein klein lichtpuntje).

Gelukkig zijn we er met de hulp van een aantal fanatieke tweakers (met name Burat en msturm10 hebben veel werk geleverd) in geslaagd om donderdag middag en vannacht veel nieuwspostings en .plans terug te zetten. Dankzij msturm10 hebben we zelfs alle data van de verloren nieuwspostings teruggekregen! De reacties, moderaties, pricewatch prijzen, karmapuntjes, user registraties en heel veel forumpostings zijn helaas wel in een diep gat verdwenen.

Uiteraard zijn we er ons van bewust dat er een aantal ernstige fouten zijn gemaakt wat betreft het beheer van de servers. In de eerste plaats had het backup scriptje moeten werken en in de tweede plaats had Artemis RAID0+1 moeten gebruiken. Vanzelfsprekend gaan we er voor zorgen dat dergelijke fouten in de toekomst niet meer zullen voorkomen. Samen met Kees zijn we al ongeveer een maand bezig met de ontwikkeling van een nieuw server plan, met als doelstelling een hogere redundancy, betere failover, hogere performance, betere beveiliging, betere schaalbaarheid en een hogere betrouwbaarheid van onze internet verbinding. Alle bestaande servers zullen onder uitvoering van dit plan opnieuw geconfigureerd worden door Kees. De plaatsing van Aphrodite en Apollo was de eerste stap in dit plan. Helaas heeft het daarvoor al mis moeten lopen...

Onze excuses voor de verdwenen postings, de bedorven tweakotine en de gestolen karmapuntjes . Voor ons rest niets meer dan vrolijk verder gaan waar we mee bezig waren, én lering trekken uit de gemaakte fouten.

Dit topic is gesloten.