Op algemeen verzoek, wat meer info over de problemen bij Rosetta van afgelopen week.
Eerst even een situatieschets:
De client van Rosetta is geen fixed client die voor enkele jaren meegaat. De client wordt regelmatig geupdate met de laatste nieuwe ontwikkelingen. Met andere woorden: De resultaten die uit de vorige jobs komen worden gebruikt om de client te finetunen. Hierdoor gebeurt het dat de client dus regelmatig een upgrade zal krijgen.
Doordat de client regelmatig geupdate wordt, heb je enkele voor- en nadelen:
* De client is up-to-date. De resultaten die door de client berekend worden, zijn steeds beter en beter.
* Door het regelmatig updaten van de client, is het logisch dat er al eens een bug in kruipt. Net zoals geen enkel programma perfect is, is Rosetta dat ook niet.
Om dit laatste op te vangen, is er enige tijd geleden een klein nevenproject, RALPH, gestart. Nieuwe versies van de client, nieuwe jobs, etc worden eerst op kleine schaal in dit alpha systeem getest, vooraleer ze in productie (de echte rosetta-client) gaan.
Wat is er nu gebeurd?
Na testen in Ralph, is er op vrijdag 7 april een nieuwe versie van de client uitgekomen, én nieuwe jobs gesubmit. Hetgeen niet te voorzien was, doken er massaal errors op met deze nieuwe client.
De projectleiding heeft er zeer netjes en snel op gereageerd, en onmiddellijk terug de vorige versie van de client teruggezet, en de nieuwe jobs gedisabled.
Echter het kwaad was geschied. De slechte jobs waren reeds naar iedereen zijn queues gesubmit.
Het gevolg was dat deze jobs bij veel mensen:
* Ofwel op een gegeven punt bleven hangen
* Ofwel een error gaven bij het crunchen
met als gevolg aardig wat puntenverlies.
Vandaag (vrijdag 13 april) hebben ze een querie gedraaid zodat de mensen met jobs die in error zijn gegaan, toch punten hebben gekregen voor hun werk.
Daarna hebben ze volgend bericht op het forum gepost:
Als je toegang hebt tot je koetjes, kijk dan best je queue eens na.
Jobs die je best kan aborten zijn:
1/ Alle jobs, waarbij er in de kolom 'application' Rosetta 4.97 staat.
2/ Alle jobs die de naam hebben van 1 van volgende 4 queries:
* TRUNCATE_TERMINI_FULLRELAX_1enh__433
* TRUNCATE_TERMINI_FULLRELAX_1b3aA_433
* TRUNCATE_TERMINI_FULLRELAX_1ptq__433
* TRUNCATE_TERMINI_FULLRELAX_2tif__433
Als je merkt dat je een job hebt, die al zeer lang aan het draaien is, en op hetzelfde percentage blijft steken, kan je kijken of hij nog bezig is.
Klik op de job, en vraag de graphics ervan op. Zie je nog beweging, dan draait de job. Zie je hier geen vordering, dan kan je de job het best aborten.
Ik hoop hiermee wat meer en duidelijke info gegeven te hebben.
Moesten er nog bijkomende vragen zijn, stel ze gerust hier, en ik zal proberen dit topic aan te vullen.
Gelieve wel enkel on-topic berichten hier te plaatsen. De overige vragen/opmerkingen kunnen in de gewone Rosetta- en Stampede-DPCH's.
Eerst even een situatieschets:
De client van Rosetta is geen fixed client die voor enkele jaren meegaat. De client wordt regelmatig geupdate met de laatste nieuwe ontwikkelingen. Met andere woorden: De resultaten die uit de vorige jobs komen worden gebruikt om de client te finetunen. Hierdoor gebeurt het dat de client dus regelmatig een upgrade zal krijgen.
Doordat de client regelmatig geupdate wordt, heb je enkele voor- en nadelen:
* De client is up-to-date. De resultaten die door de client berekend worden, zijn steeds beter en beter.
* Door het regelmatig updaten van de client, is het logisch dat er al eens een bug in kruipt. Net zoals geen enkel programma perfect is, is Rosetta dat ook niet.
Om dit laatste op te vangen, is er enige tijd geleden een klein nevenproject, RALPH, gestart. Nieuwe versies van de client, nieuwe jobs, etc worden eerst op kleine schaal in dit alpha systeem getest, vooraleer ze in productie (de echte rosetta-client) gaan.
Wat is er nu gebeurd?
Na testen in Ralph, is er op vrijdag 7 april een nieuwe versie van de client uitgekomen, én nieuwe jobs gesubmit. Hetgeen niet te voorzien was, doken er massaal errors op met deze nieuwe client.
De projectleiding heeft er zeer netjes en snel op gereageerd, en onmiddellijk terug de vorige versie van de client teruggezet, en de nieuwe jobs gedisabled.
Echter het kwaad was geschied. De slechte jobs waren reeds naar iedereen zijn queues gesubmit.
Het gevolg was dat deze jobs bij veel mensen:
* Ofwel op een gegeven punt bleven hangen
* Ofwel een error gaven bij het crunchen
met als gevolg aardig wat puntenverlies.
Vandaag (vrijdag 13 april) hebben ze een querie gedraaid zodat de mensen met jobs die in error zijn gegaan, toch punten hebben gekregen voor hun werk.
Daarna hebben ze volgend bericht op het forum gepost:
Zoals gezegd is er dus een kans dat je van die slechte WU's in je queue hebt gekregen.Good news today:
first, Rhiju and I found the bug in the rosetta code that caused several of his jobs to get stuck. I'd describe it to you, but it is pretty arcane, and only affected proteins of exactly 44 amino acids so it had not been seen before. Rhiju met up with this bug as he has been following up recent observations that cutting the ends off protein sequences can signfiicantly improve prediction results for the core of the sequence. Rhiju has cancelled the offending jobs, and corrected the problem in the code, so this will not happen again.
second, David Kim has awarded credits to those who lost valuable time during the problems last weekend.
Als je toegang hebt tot je koetjes, kijk dan best je queue eens na.
Jobs die je best kan aborten zijn:
1/ Alle jobs, waarbij er in de kolom 'application' Rosetta 4.97 staat.
2/ Alle jobs die de naam hebben van 1 van volgende 4 queries:
* TRUNCATE_TERMINI_FULLRELAX_1enh__433
* TRUNCATE_TERMINI_FULLRELAX_1b3aA_433
* TRUNCATE_TERMINI_FULLRELAX_1ptq__433
* TRUNCATE_TERMINI_FULLRELAX_2tif__433
Als je merkt dat je een job hebt, die al zeer lang aan het draaien is, en op hetzelfde percentage blijft steken, kan je kijken of hij nog bezig is.
Klik op de job, en vraag de graphics ervan op. Zie je nog beweging, dan draait de job. Zie je hier geen vordering, dan kan je de job het best aborten.
Ik hoop hiermee wat meer en duidelijke info gegeven te hebben.
Moesten er nog bijkomende vragen zijn, stel ze gerust hier, en ik zal proberen dit topic aan te vullen.
Gelieve wel enkel on-topic berichten hier te plaatsen. De overige vragen/opmerkingen kunnen in de gewone Rosetta- en Stampede-DPCH's.
[ Voor 4% gewijzigd door Kristof op 13-04-2006 15:13 . Reden: teipvauten ]
"You can get more with a kind word and a gun than you can with a kind word alone." - Al Capone