[Linux Kernel 2.6.x] Cons. meldt continue CPU temp. probleem

Pagina: 1
Acties:

  • superbikkel
  • Registratie: Juli 2001
  • Laatst online: 29-01 15:49
Om een ander probleempje op te lossen heb ik de kernel op mijn server geupgrade van 2.4.x naar 2.6.8-2. Het andere probleem is opgelost, en een nieuwe dient zich aan.

Bij de minste belasting (bv een bezoeker van de site bekijkt een paar dynamisch gegenereerde pagina's na elkaar) komen er in de console continue de volgende meldingen:

Message from syslogd@server at <datum>
server kernel: CPUx: Temperature above threshold

Message from syslogd@server at <datum>
server kernel: CPUx: Running in modulated clock mode

Waarbij CPUx zowel CPU1 als CPU2 kan zijn.

Om een vage voor mezelf nu onbegrijpelijke reden heb ik destijds gekozen voor een Prescott 3,4GHz processor, dus ik geloof best dat ie warm wordt. Echter gaf kernel 2.4 geen meldingen. Bij de stresstesten voor de server in productie ging kwam de temperatuur niet boven de 65 graden (voor Prescott best goed). Van de week heb ik de server nog van binnen gezien en de CPU fan zit op z'n plaats en werkt.

Al met al denk ik dat de tool die deze melding geeft te strak staat afgesteld. Ik heb hier en met Google gezocht naar een manier om dit in te stellen maar kan het niet vinden.

Iemand enig ID waar ik de threshold kan instellen, of anders waar ik de meldingen kan uitzetten. Voor dit laastste heb ik enkele oplossingen gezien (met name syslog.conf aanpassen) maar de meldingen blijven komen.

Ik vraag me ook af of de software er van uitgaat dat de CPU throttled of dat dat ook daadwerkelijk zo is.

OS is overigens Debian Sarge met een naar 2.6.8-2 geupdate kernel.

  • Wolfboy
  • Registratie: Januari 2001
  • Niet online

Wolfboy

ubi dubium ibi libertas

Kijk bij menuconfig eventjes onder Processor type and features, heb je daar Machine Check Exception aan staan?
CONFIG_X86_MCE:

Machine Check Exception support allows the processor to notify the
kernel if it detects a problem (e.g. overheating, component failure).
The action the kernel takes depends on the severity of the problem,
ranging from a warning message on the console, to halting the machine.
Your processor must be a Pentium or newer to support this - check the
flags in /proc/cpuinfo for mce.  Note that some older Pentium systems
have a design flaw which leads to false MCE events - hence MCE is
disabled on all P5 processors, unless explicitly enabled with "mce"
as a boot argument.  Similarly, if MCE is built in and creates a
problem on some new non-standard machine, you can boot with "nomce"
to disable it.  MCE support simply ignores non-MCE processors like
the 386 and 486, so nearly everyone can say Y here.


Ik weet niet of dat verantwoordelijk is voor de meldingen maar de kans is aanwezig.

Blog [Stackoverflow] [LinkedIn]


  • superbikkel
  • Registratie: Juli 2001
  • Laatst online: 29-01 15:49
Dat staat iig aan.

Ik heb via apt-get install een standaard kernel update gedaan zonder aanpassingen. Ik ga ook liever niet zelf een kernel compileren.

Verwijderd

Deze foutmelding heb ik hier ook onlangs gezien op mijn PC (3.4 GHz Northwood)
maar dan wel alleen onder zware belasting. Google laat zien dat het meestal een koelingsprobleem is.
De kernel meld simpelweg dat je CPU te warm dreigt te worden en daarom terugklokt.
Hieraan is verder niets afgesteld, dit is namelijk hardware-matig ingesteld in de CPU.

Ik moest mijn koelblok schoonmaken.....daar zat na zo'n vier maanden uptijd simpelweg teveel stof in om nog efficient te kunnen koelen. Misschien dat dit bij jou ook het geval is. Dat is niet echt makkelijk te zien, zeker niet bij een draaiend systeem.

ps) je kunt deze melding trouwens makkelijk uitzetten tijdens het compileren van de kernel. Echter dan blijft je CPU wel terugklokken, alleen zie je het niet. Ik zou je aanraden om je hardware van stof te ontdoen.

edit) als je niet wil compileren, ik heb destijds gezocht met google. Er zwerven in ieder geval wel scriptjes rond die de meldingen op de console onderdrukken. Gewoon even zoeken op de specifieke foutmelding, dan komen ze wel boven volgens mij.

[ Voor 19% gewijzigd door Verwijderd op 27-04-2005 23:41 ]


  • superbikkel
  • Registratie: Juli 2001
  • Laatst online: 29-01 15:49
ik heb even de hele tekst doorgelezen. Kan ik in grub de op de regel kernel er gewoon 'nomce' bijzetten?

Nu:
code:
1
kernel     /boot/vmlinuz-2.6.8-2-686-smp root=/dev/sda1 ro

Wijziging:
code:
1
kernel     /boot/vmlinuz-2.6.8-2-686-smp root=/dev/sda1 ro nomce


Sorry, ben klein beetje n00b wat dit betreft.

  • superbikkel
  • Registratie: Juli 2001
  • Laatst online: 29-01 15:49
Verwijderd schreef op woensdag 27 april 2005 @ 23:36:
Ik moest mijn koelblok schoonmaken.....daar zat na zo'n vier maanden uptijd simpelweg teveel stof in om nog efficient te kunnen koelen. Misschien dat dit bij jou ook het geval is. Dat is niet echt makkelijk te zien, zeker niet bij een draaiend systeem.
Heb vandaag geheugen bijgeplaatst in de server (reden voor de kernel update). Koeler is helemaal stofvrij.

[ Voor 44% gewijzigd door superbikkel op 27-04-2005 23:40 ]


  • WHiZZi
  • Registratie: Januari 2001
  • Laatst online: 08-02 14:07

WHiZZi

Museumdirecteurtje

Ondanks dat dit topic zo oud is, schop ik het omhoog..

Ik heb hier een servers staan met dezelfde melding als de TS. Alleen ik heb hier een P4 Hyperthreading CPU op 3 GHz. Kernel 2.4.xx heeft altijd goed gewerkt en er is ook nooit sprake geweest van een vermoeden van hitte. Sinds ik kernel 2.6 (2.6.12-1-686-smp) heb geïnstalleerd krijg ik continue deze meldingen. Erg frustrerend.

Nou ben ik gisteren naar de colo geweest en heb de server uit het rack getrokken (het is een 1U-server). De koeler was geheel stofvrij en alle andere koelers draaide op volle toeren. Nou hebben we wel een behoorlijk aantal servers in het rack hangen en de temparuur loopt op tot 65 graden in de kast (onder hoge load).

Kan ik deze check uitzetten door, zoals de TS vermeldt, nomce bij de bootoptions mee te geven? De CPU wordt nml niet te heet, maar de kernel vindt het wel nodig om op 50% te gaan werken. Dat vind ik een beetje zonde....

HomeComputerMuseum - Interactief computermuseum waar wij de geschiedenis van de thuiscomputer preserveren. Centraal gelegen in de Benelux.


  • Wolfboy
  • Registratie: Januari 2001
  • Niet online

Wolfboy

ubi dubium ibi libertas

Zolang de CPU niet oververhit raakt kan het prima, sowieso hebben P4 en hogere processoren allemaal beveiliging ingebouwd dat ze niet te warm kunnen worden.

En aangezien die 1U servers flinke fans hebben en goede koeling zou ik me er niet zoveel zorgen om maken.

Blog [Stackoverflow] [LinkedIn]

Pagina: 1