hoge load maar geen top processen?

Pagina: 1
Acties:

Onderwerpen


Acties:
  • 0 Henk 'm!

  • Red devil
  • Registratie: December 1999
  • Laatst online: 16:40
Beste tweakerts,

Volgende probleem. Jobs die draaien onder Linux, afgeschoten vanuit een SGE cluster. Op een node met bijv 64 cores zie ik een load van rond de 64 dus zou je verwachten dat netjes alle cores belast worden.
Echter, met top zie ik maar een paar processen die rond de 100% zitten. Ik kan wel andere processen zien die draaien, alleen hebben die maar paar procent cpu gebruik. Hoe kom ik er nu achter waar alle resources heen gaan? Ik zie ook geen hoge wait%, wat een onderliggend IO probleem zou kunnen aangeven.
Hieronder een de bovenkant van top:

code:
1
2
3
4
5
top - 12:07:36 up 62 days, 11:03,  1 user,  load average: 60.68, 60.51, 60.63
Tasks: 1468 total,   3 running, 1465 sleeping,   0 stopped,   0 zombie
Cpu(s):  0.1%us,  0.2%sy,  3.1%ni, 96.6%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:  198288720k total, 31010176k used, 167278544k free,   239472k buffers
Swap: 16383992k total,    20072k used, 16363920k free, 27889052k cached


Zo te zien 3% idle en 97% idle?

Acties:
  • 0 Henk 'm!

  • Hero of Time
  • Registratie: Oktober 2004
  • Nu online

Hero of Time

Moderator LNX

There is only one Legend

Load wordt niet alleen bepaald door draaiende processen die resources gebruiken. Als je een proces hebt dat hangt wordt de load verhoogt met 1. Zo heb ik deze week op kantoor een machine gehad met een load van over de 440. CPU, geheugen en I/O waren niet abnormaal en omdat 't een VM was, kon 't met geen mogelijkheid de rest van 't platform platgooien door daadwerkelijk zoveel systeemresources te nemen, zeker omdat 't maar 2 vCPUs had. Er was gewoon een proces dat hing. Een forkbomb kan ook zoiets veroorzaken, maar daarmee krijg je eerder andere symptomen (als in, je kan niets anders meer starten ivm process handle starvation) en gaat best snel om 't systeem onbenaderbaar te maken.

Ga dus eens na welke processen worden afgetrapt, hoe vaak dat gebeurt en of er al een aantal klaar hadden moeten zijn die toch nog draaien.

Commandline FTW | Tweakt met mate


Acties:
  • 0 Henk 'm!

  • Red devil
  • Registratie: December 1999
  • Laatst online: 16:40
Hero of Time schreef op zondag 29 maart 2015 @ 12:22:
Ga dus eens na welke processen worden afgetrapt, hoe vaak dat gebeurt en of er al een aantal klaar hadden moeten zijn die toch nog draaien.
Ik heb redelijk goed beeld om welk processen het gaat. Het betreft een set commando's in een bash script wat wordt gedraaid. Als ik met top mijn user name selecteer, zie ik het vaak hetzelfde commando staan die vanuit bash script is aangezet. Echter, hoe ik vervolgens verder moet is mij nog een beetje een raadsel. Met lsof zie ik welke files openstaan met een job, alleen hoe je er dan achter komt dat een process stalled vanwege bijv een io probleem, dat is nog even een bridge too far :)

Acties:
  • 0 Henk 'm!

  • Hero of Time
  • Registratie: Oktober 2004
  • Nu online

Hero of Time

Moderator LNX

There is only one Legend

Even zoeken hoe je moet inhaken bij een proces. Dat is makkelijker als 't bash als parent heeft, want dan zie je de output die 't zou genereren. Sowieso is het verstandig om logging te hebben van alles wat je uitvoert. Als er dan iets mis gaat, weet je meer dan wanneer je geen logging hebt.

Commandline FTW | Tweakt met mate


Acties:
  • 0 Henk 'm!

  • CyBeR
  • Registratie: September 2001
  • Niet online

CyBeR

💩

Heeft die doos een NFS share gemount ergens? Dan is die ws. stuk namelijk.

All my posts are provided as-is. They come with NO WARRANTY at all.


Acties:
  • 0 Henk 'm!

  • Red devil
  • Registratie: December 1999
  • Laatst online: 16:40
CyBeR schreef op zondag 29 maart 2015 @ 16:09:
Heeft die doos een NFS share gemount ergens? Dan is die ws. stuk namelijk.
Ja, ik schrijf naar een NFS mount. Op de SGE master zie ik niet echt dat hij het zwaar heeft mbt NFS (gebeurt soms wel eens met heel veel jobs die heel veel kleine files wegschrijven). Maar ik zal de beheerder eens vragen daar naar de kijken.

Acties:
  • 0 Henk 'm!

  • Hero of Time
  • Registratie: Oktober 2004
  • Nu online

Hero of Time

Moderator LNX

There is only one Legend

Als je NFS mount wegvalt en je schrijft er naartoe loopt je load ook op. Dat heeft dan niet altijd te maken met het wel of niet druk bezig zijn van de NFS server, maar een netwerkverstoring of andere reden waardoor je opeens je NFS verliest.

Commandline FTW | Tweakt met mate

Pagina: 1