[Rosetta] Informatie ivm Problemen

Pagina: 1
Acties:

  • Kristof
  • Registratie: Januari 2002
  • Laatst online: 30-01 11:26

Kristof

is een Belgisch product

Topicstarter
Op algemeen verzoek, wat meer info over de problemen bij Rosetta van afgelopen week.


Eerst even een situatieschets:
De client van Rosetta is geen fixed client die voor enkele jaren meegaat. De client wordt regelmatig geupdate met de laatste nieuwe ontwikkelingen. Met andere woorden: De resultaten die uit de vorige jobs komen worden gebruikt om de client te finetunen. Hierdoor gebeurt het dat de client dus regelmatig een upgrade zal krijgen.

Doordat de client regelmatig geupdate wordt, heb je enkele voor- en nadelen:
* De client is up-to-date. De resultaten die door de client berekend worden, zijn steeds beter en beter.
* Door het regelmatig updaten van de client, is het logisch dat er al eens een bug in kruipt. Net zoals geen enkel programma perfect is, is Rosetta dat ook niet.

Om dit laatste op te vangen, is er enige tijd geleden een klein nevenproject, RALPH, gestart. Nieuwe versies van de client, nieuwe jobs, etc worden eerst op kleine schaal in dit alpha systeem getest, vooraleer ze in productie (de echte rosetta-client) gaan.

Wat is er nu gebeurd?
Na testen in Ralph, is er op vrijdag 7 april een nieuwe versie van de client uitgekomen, én nieuwe jobs gesubmit. Hetgeen niet te voorzien was, doken er massaal errors op met deze nieuwe client.
De projectleiding heeft er zeer netjes en snel op gereageerd, en onmiddellijk terug de vorige versie van de client teruggezet, en de nieuwe jobs gedisabled.
Echter het kwaad was geschied. De slechte jobs waren reeds naar iedereen zijn queues gesubmit.

Het gevolg was dat deze jobs bij veel mensen:
* Ofwel op een gegeven punt bleven hangen
* Ofwel een error gaven bij het crunchen
met als gevolg aardig wat puntenverlies.

Vandaag (vrijdag 13 april) hebben ze een querie gedraaid zodat de mensen met jobs die in error zijn gegaan, toch punten hebben gekregen voor hun werk.
Daarna hebben ze volgend bericht op het forum gepost:
Good news today:
first, Rhiju and I found the bug in the rosetta code that caused several of his jobs to get stuck. I'd describe it to you, but it is pretty arcane, and only affected proteins of exactly 44 amino acids so it had not been seen before. Rhiju met up with this bug as he has been following up recent observations that cutting the ends off protein sequences can signfiicantly improve prediction results for the core of the sequence. Rhiju has cancelled the offending jobs, and corrected the problem in the code, so this will not happen again.

second, David Kim has awarded credits to those who lost valuable time during the problems last weekend.
Zoals gezegd is er dus een kans dat je van die slechte WU's in je queue hebt gekregen.
Als je toegang hebt tot je koetjes, kijk dan best je queue eens na.
Jobs die je best kan aborten zijn:
1/ Alle jobs, waarbij er in de kolom 'application' Rosetta 4.97 staat.
2/ Alle jobs die de naam hebben van 1 van volgende 4 queries:
* TRUNCATE_TERMINI_FULLRELAX_1enh__433
* TRUNCATE_TERMINI_FULLRELAX_1b3aA_433
* TRUNCATE_TERMINI_FULLRELAX_1ptq__433
* TRUNCATE_TERMINI_FULLRELAX_2tif__433

Als je merkt dat je een job hebt, die al zeer lang aan het draaien is, en op hetzelfde percentage blijft steken, kan je kijken of hij nog bezig is.
Klik op de job, en vraag de graphics ervan op. Zie je nog beweging, dan draait de job. Zie je hier geen vordering, dan kan je de job het best aborten.


Ik hoop hiermee wat meer en duidelijke info gegeven te hebben.
Moesten er nog bijkomende vragen zijn, stel ze gerust hier, en ik zal proberen dit topic aan te vullen.
Gelieve wel enkel on-topic berichten hier te plaatsen. De overige vragen/opmerkingen kunnen in de gewone Rosetta- en Stampede-DPCH's.

[ Voor 4% gewijzigd door Kristof op 13-04-2006 15:13 . Reden: teipvauten ]

"You can get more with a kind word and a gun than you can with a kind word alone." - Al Capone


  • iH8
  • Registratie: December 2001
  • Laatst online: 17-06-2024

iH8

Aunt bunny is coming to get me!


  • APClll
  • Registratie: Januari 2002
  • Laatst online: 02-02 22:17

APClll

FP ProMod

[DPC] Team Grazzie

offtopic:
Psst, Kristof... Morgen is het vrijdag, en vandaag is het de 13e


Goed dat dit nu duidelijk apart evenv vermeld wordt. Dat is later een stuk beter terug te vinden!

Ouwe troep? Wat is dat?.......Alles is leuk, zelfs modelracing..........BOINC ook mee met DPC!
......Team Grazzie~Power....!! Mooooooeeeee......


  • BasieP
  • Registratie: Oktober 2000
  • Laatst online: 19-10-2025
Vandaag (vrijdag 13 april)
vandaag is het DONDERDAG 13 april ;)
edit:
spuit11


en nu maar hopen dat we alsnog punten krijgen...

[ Voor 35% gewijzigd door BasieP op 13-04-2006 17:27 ]

This message was sent on 100% recyclable electrons.


Verwijderd

Even voor de duidelijkheid ik heb div. bakken(pc's uitgekleed) draaien, en heb nu 3x7uur WU geflushed. Oke denkje, neen niks oke geen zijn meer te vinden. Totaal 21uur weg. Hmm 4.98 WU's
8)7

Ja. ik heb alles staan op 2uur en ja, normaal deed ik over een WU 1 uur 50 gemiddeld. Nu gemiddeld 3.uur 45. Verwerk 20 tot 22 WU per dag nu. Dus ben wat gewend.

Sorry, dit is een oproep wie heeft dit ook gehad vandaag of gisteren. Het zijn nieuwe WU's.

[ Voor 49% gewijzigd door Verwijderd op 13-04-2006 19:01 . Reden: Hmmm ]


  • Spacebull01
  • Registratie: Juni 2004
  • Laatst online: 21-10-2024

Spacebull01

La Petite Cows

Ik had er ook 1 van 4.98. Was al ruim 9 uur bezig en stond nog steeds op 1,(een beetje)%. Die ook dus maar gekilled :'(

Proud member of La Petite Cows Now graazing for Rosetta.


  • Megaflix
  • Registratie: Oktober 2003
  • Laatst online: 07-11-2025
LPC_Spacebull01 schreef op donderdag 13 april 2006 @ 22:21:
Ik had er ook 1 van 4.98. Was al ruim 9 uur bezig en stond nog steeds op 1,(een beetje)%. Die ook dus maar gekilled :'(
Wel eerst kijken naar het grafische gedeelte of hij echt hangt. Bij mij schieten ze na enkele uren op 1,xx procent te hebben gestaan regelmatig ineens naar boven de 80%.

  • naftebakje
  • Registratie: Februari 2002
  • Laatst online: 15:08
Die grafische mode wil niet werken, maar alles draait hier nog naar behoren (al 12 dagen), en het gemiddelde gaat lekker omhoog :)

Als de boer zijn koeien kust, zijn ze jarig wees gerust. Varkens op een landingsbaan, leiden nooit een lang bestaan. Als de boer zich met stront wast, zijn zijn hersens aangetast. Als het hooi is in de schuur, zit het wijf bij den gebuur.


  • iH8
  • Registratie: December 2001
  • Laatst online: 17-06-2024

iH8

naftebakje schreef op donderdag 13 april 2006 @ 23:12:
Die grafische mode wil niet werken, maar alles draait hier nog naar behoren (al 12 dagen), en het gemiddelde gaat lekker omhoog :)
als de GFX van je unit niet meer werken wil, gewoon wegkieperen. kort en krachtig. volgende punten. ik wil echt een betere client. ik heb er zelfs die staan knipperen op "connecting to localhost" ?!? hebben we daar een oplossing voor?

[ Voor 17% gewijzigd door iH8 op 14-04-2006 05:56 ]

Aunt bunny is coming to get me!


  • puchelaar
  • Registratie: Juli 2003
  • Laatst online: 02-02 15:42
Gisteravond laat is er nog een TRUNCATE_TERMINI_FULLRELAX_1ptq__433 job binnengekomen. Die pc stond vannacht uit, en vanochtend heb ik 'm na het opstarten even in de gaten gehouden. Gelukkig maar, want na zo'n 20~25 minuten bleef de grafische weergave stil staan. Na een minuutje of wat daarnaar gestaard te hebben toch maar afgebroken :|

Ik dacht eigenlijk dat ze nu uit de lijst gehaald waren, maar blijkbaar toch niet. Goed dat ik 'm op tijd door had...

Verwijderd

Na één zow een brakke TRUNCATE_ = VUILNISBAK_ loopt de client weer in de pas, ff Apeldoorn bellen? ;)

  • Sybr_E-N
  • Registratie: December 2001
  • Laatst online: 02-02 19:36
iH8 schreef op vrijdag 14 april 2006 @ 05:42:
[...]
als de GFX van je unit niet meer werken wil, gewoon wegkieperen. kort en krachtig. volgende punten. ik wil echt een betere client. ik heb er zelfs die staan knipperen op "connecting to localhost" ?!? hebben we daar een oplossing voor?
Dat is geen Rosetta probleem, maar een Boinc probleem.

Ik heb het zo nu en dan ook. Meestal helpt alleen een reboot. Daar heb ik geen zin in, dus klik ik even handmatig op boinc.exe. Dat krijg je een console app, en dan draait het wel goed.

  • naftebakje
  • Registratie: Februari 2002
  • Laatst online: 15:08
Handmatig wil die grafische dinges ook niet opstarten, foert, ik laat het maar zijn, het draait toch allemaal op de achtergrond.

Als de boer zijn koeien kust, zijn ze jarig wees gerust. Varkens op een landingsbaan, leiden nooit een lang bestaan. Als de boer zich met stront wast, zijn zijn hersens aangetast. Als het hooi is in de schuur, zit het wijf bij den gebuur.


  • Kristof
  • Registratie: Januari 2002
  • Laatst online: 30-01 11:26

Kristof

is een Belgisch product

Topicstarter
@naftbakje: Ik neem aan dat je boinc als service geïnstalleerd hebt?
Dan werken de graphics niet

Er is wel een work-around voor ;)
Ga naar je services, vraag de instellingen voor de BOINC-service op.
Daar verander je op het tabblad LogOn, de login naar "LocalSystemAccount" en zet je een vinkje bij 'Interact with Desktop'
Na een restart van de BOINC service (of van je pc), moet het wel gaan

"You can get more with a kind word and a gun than you can with a kind word alone." - Al Capone


Verwijderd

kan het zijn dat van roseta uit wu's worden stop gezet, mijn pc's staan al een halve dag op activiteiten opgeschort en heel even (6min) deden ze het en toen was het weer gedaan met de pret.

  • DigiK-oz
  • Registratie: December 2001
  • Laatst online: 13:07
Dan heb je waarschijnlijk "do work while computer is in use" op NO staan in je preferences?

Whatever


  • DigiK-oz
  • Registratie: December 2001
  • Laatst online: 13:07
De huidige "largescale" WUs blijven vaak erg lang in step 0. Ze hangen dan niet, MAAR er wordt ook geen checkpoint gemaakt. Dat wil zeggen dat als je je PC uitzet, hij bij opnieuw opstarten weer aan het begin (van dat model) begint, en je dus soms uren cputijd verspilt. :(

Volgens een admin op het forum van Rosetta zijn de largescale WUs uit de queue van de server gehaald. Heeft iemand al weer andere WUs binnen? Dan is het misschien handig om de largescale WUs uit je queue te mikken als je niet 24/7 draait. En als je wel 24/7 draait, de optie "leave in memory while pre-empted" aan te zetten, want ook bij een (automatische) benchmark bijvoorbeeld geldt dit verhaal als de WU uit memory verdwijnt.

Whatever


  • AES
  • Registratie: Juni 2005
  • Laatst online: 05-11-2025

AES

Ik zit tot aan mijn nek toe vol met die dec-relaxers. En heb er vandaag verse bij gekregen, evenals een paar FACONTACT-eitjes. Over die in mijn ogen ongeloofwaardige voortgangsweergave van Rosetta-jobs: ik begrijp er geen snars van. :+

member of Lucky Angel: Stampede Chicken FORUM


  • Sybr_E-N
  • Registratie: December 2001
  • Laatst online: 02-02 19:36
Wat dat betreft lijkt het me wel handig om van te voren te weten hoe lang bepaalde type wu's er over gaan doen. Dat kunnen ze toch makkelijk testen met Ralph?

Nu komen we er via de "try and error" methode erachter dat die large-schale dingen er enorm veel uren over doen om iig 1 model af te krijgen. (Niet leuk voor de niet 24/7 mensen, en daar zijn er veel van.)

  • Megaflix
  • Registratie: Oktober 2003
  • Laatst online: 07-11-2025
Geen try and error methode, want het was al aangekondigd van te voren dat ze er aan zaten te komen. En testen over de lengte heeft weinig nut, want dan kun je voor elke CPU apart aangeven hoe lang ze gaan duren. Een P3 500 zal er een heel stuk langer over doen dan een dual xeon. Ten tweede hebben mensen met een ingestelde wu-duur van 4 uur of langer er geen last van, omdat ze dan wel precies goed lopen. Ik heb de wu's ingesteld staan op 4 of 8 uur op sommige pc's en dat klopt goed, binnen 15 seconden van de ingestelde tijd soms. Alleen als je normaal 1 of 2 uur durende wu's hebt, dan klopt het niet op dit moment.

  • DigiK-oz
  • Registratie: December 2001
  • Laatst online: 13:07
Leuk allemaal, maar het probleem is dat er in fase 0 geen checkpoints plaatsvinden, en als je dus tijdens die fase je PC uitzet, het zaakje opnieuw begint. Iemand die zijn PC dus maar 3 uurtjes per dag aan 1 stuk aan heeft staan, kan op die manier in een soort oneindige loep komen, als er ook maar 1 WU binnenkomt die 4 uur in fase 0 denkt te moeten doorbrengen. Die PC is dan over 5 jaar nog steeds aan het proberen die ene WU af te krijgen. Dus vantevoren waarschuwen is onzin.

En O ja, ik heb 4 uur ingesteld als default, en heb nu een WU die al bijna 6 uur draait (zit nu al 3 uur in fase 0 van model 3)

EDIt : En ja, de graphics geven aan dat het ding niet hangt.

[ Voor 6% gewijzigd door DigiK-oz op 16-04-2006 13:17 ]

Whatever


  • DigiK-oz
  • Registratie: December 2001
  • Laatst online: 13:07
Van het Rosetta-forum :
It is not acceptable to have a job running for hours without a checkpoint. We realized that this is a mistake and have had those largescale jobs canceled from the boinc server. If your computer still has the largescale jobs running or queued please abort them - the new short jobs are waiting to be sent!

In the future we will be extremely cautious to not let this happen again - we are coding and testing some solutions to make the program checkpoint more often. It is of our highest priority at this moment to make sure that ever minute of your precious computer-on time spent on the Rosetta@home project can contribute to the scientific goals we are trying to achieve together.

I should add that for users who crunch Rosetta 24/7 or have "leave in memory" on, you can choose to let the largescale jobs currently in your computers keep running. These results are still of great interest to us!
Oftewel, als je last hebt van steeds opnieuw beginnende "largescale" WUs, aborten die dingen. Als je 24/7 draait en "leave in memory while pre-empted" aan hebt staan, gewoon laten draaien.

Whatever


  • Loose Ends
  • Registratie: November 2005
  • Laatst online: 13-08-2024
Sloompie schreef op zondag 16 april 2006 @ 22:14:

Oftewel, als je last hebt van steeds opnieuw beginnende "largescale" WUs, aborten die dingen. Als je 24/7 draait en "leave in memory while pre-empted" aan hebt staan, gewoon laten draaien.
Bewegende graphics of niet, alles wat na ruim 2 uur cpu tijd nog altijd op 1.04% gaat er sinds die 'largescale' checkpoint ellende bij mij af. Heb sinds vanochtend FACONTACT_NOFILTERS en die zijn vrij snel klaar, maar ik had er 2 tussen zitten die al ruim drie uur bezig waren en toen nog op 1.04 stonden. Ik ga mezelf niet meer afvragen 'doet ie het niet of doet ie het wel.' Ik mieter ze, als ik het in de gaten heb er gelijk af.
Pagina: 1