Rosetta is "zwaar" voor de systemen, dat wil zeggen een hele goede stabiliteitstest. De meeste Rosetta issues die ondervonden worden, zijn wel terug te voeren op de combinatie van de hardware en settings.
De nadruk is dat vrijwel de overgrote meerderheid van de WU's gewoon goed afgerond kunnen worden.
De problemen met de enkele WU's die maar door blijven gaan, lijkt te liggen aan het niet aanmaken van een checkpoint.
Daardoor kan de Rosetta watchdog ook niet ingrijpen, want er is geen cpu tijd sinds het laatste checkpoint!
Waardoor het checkpoint niet aangemaakt wordt, is nog even de vraag. Herstart van dezelfde WU heeft bij een andere user geen verschil opgeleverd in de uitkomst.
Nu is bij Rosetta besloten om de watchdog op te hogen van 4 naar 10 uur, maar de meningen hierover verschillen. Want als op een "snel" systeem na 24 uur nog geen checkpoint aangemaakt is, zal een totale default looptijd van 8+4(wd)=12 naar 8+(10wd)=18 uur ook niet helpen.
Ik kijk het nog even aan met een "oneindige WU" die op 2 verschillende systemen draait , waarbij de systemen "bewezen" prime stabiel zijn getest. Misschien dat de Rosetta developers er binnenkort achter kunnen komen waardoor sporadisch een WU het genoemde gedrag vertoond.
De nadruk is dat vrijwel de overgrote meerderheid van de WU's gewoon goed afgerond kunnen worden.
De problemen met de enkele WU's die maar door blijven gaan, lijkt te liggen aan het niet aanmaken van een checkpoint.
Daardoor kan de Rosetta watchdog ook niet ingrijpen, want er is geen cpu tijd sinds het laatste checkpoint!
Waardoor het checkpoint niet aangemaakt wordt, is nog even de vraag. Herstart van dezelfde WU heeft bij een andere user geen verschil opgeleverd in de uitkomst.
Nu is bij Rosetta besloten om de watchdog op te hogen van 4 naar 10 uur, maar de meningen hierover verschillen. Want als op een "snel" systeem na 24 uur nog geen checkpoint aangemaakt is, zal een totale default looptijd van 8+4(wd)=12 naar 8+(10wd)=18 uur ook niet helpen.
Ik kijk het nog even aan met een "oneindige WU" die op 2 verschillende systemen draait , waarbij de systemen "bewezen" prime stabiel zijn getest. Misschien dat de Rosetta developers er binnenkort achter kunnen komen waardoor sporadisch een WU het genoemde gedrag vertoond.