[Debian] vastloper

Pagina: 1
Acties:

  • ge-flopt
  • Registratie: Februari 2001
  • Laatst online: 10:49
Hoi allen,

het volgende probleem heb ik al geruime tijd, maar kan maar niet de vinger op de zere plek krijgen. Wat is het probleem: Mijn pc (server) loopt op onregelmatige tijden vast, en met vast bedoel ik ook muur vast.
Wat het ik tot nu toe al gedaan:
- Opnieuw geinstalleerd (o.a. van 2.4 kernel naar 2.6.5 kernel)
- Beide netwerk kaarten vervangen
- harddisk vervangen (1 maal 200 GB, maar na vervanging liep hij weer vast)
- bepaalde dingen niet gestart (dnet, perproxy, mldonkey)
- Promise ultra 133 TX2 eruit gehaald.

Ik heb de log files al helemaal doorlopen maar kan daar niets vreemds in vinden. Het probleem leek erg op deze: http://bugzilla.kernel.org/show_bug.cgi?id=2494
Helaas na terug gaan naar kernel 2.4.26 heb ik vanmiddag weer een hangende pc gehad.

Ik kan helaas niet op het scherm kijken omdat als ik mijn beeldscherm over prik (na de crash) ik geen beeld krijg. 1 keer heb ik wel beeld gehad en toe kreeg ik de melding zoals hij op bugzilla staat:
hde: timeout waiting for DMA
hde: dma_timer_expiry: dma status == 0x61
hde: DMA timeout error

Ik denk persoonlijk dat het hardware is, maar helaas heb ik geen idee welk onderdeel.

Ik vergeet bijna te vermelden dat het lijkt te maken te hebben met schrijf acties die er gedaan moeten worden. B.V. als Squid iets weg schrijft, dnetc of perproxy, of mldonkey iets weg schrijft. Het kan gebeuren als ik net een pagina open, maar het kan ook lang duren, b.v. als ik eea (ettelijke Gig's) aan het uploaden ben naar deze pc.

[ Voor 13% gewijzigd door ge-flopt op 01-06-2004 19:37 ]


Verwijderd

Heb je MemTest86 al geprobeerd?

  • ge-flopt
  • Registratie: Februari 2001
  • Laatst online: 10:49
Getest en 0 errors.

Het vreemde (nou ja vreemd) is dat ik b.v. halflife (Day of Defeat) zonder problemen online kan spelen. Dan klapt mijn server er dus niet uit. Maar probeer ik via mijn proxy iets te bekijken dan is de kans groter dat mijn pc het begeeft.

  • vanderwal
  • Registratie: Oktober 2000
  • Laatst online: 12-02 20:25

vanderwal

mathafackuh!!!

Aan het bug report te zien zou je denken dat je schijf niet correct werkt, maar als ik dan weer van die proxy lees zou je neigen dat het iets met je netwerk kaart is. Als het systeem klem loopt is moet het haast wel hardware zijn. Misschien is het je mainboard als die de boel al niet goed aanstuurt.

[ Voor 14% gewijzigd door vanderwal op 01-06-2004 22:55 ]

The difference between stupidity and genius is that genius has its limits


  • ge-flopt
  • Registratie: Februari 2001
  • Laatst online: 10:49
Dat denk ik dus ook... Maar wat, zoals je boven iet heb ik bijna alles vervangen wat er is: Netwerk kaarten, hdd's. Mem is getest en dus waarschijnlijk goed... Echt fijn werkt het zo niet als ik 1 keer per dag mijn server moet (laten) reseten. :(

  • vanderwal
  • Registratie: Oktober 2000
  • Laatst online: 12-02 20:25

vanderwal

mathafackuh!!!

Heb je je moederboard al getest ??

Kan dit topic niet beter moven naar een hardware forum??

The difference between stupidity and genius is that genius has its limits


  • ge-flopt
  • Registratie: Februari 2001
  • Laatst online: 10:49
Het kan wel gemoved worden, maar ik denk dat het hier meer op zijn plaats is, omdat ik toch het meeste aan test werk onder Linux/Debian moet/zal doen.

Hoe zou ik het moederbord het beste kunnen testen? Ik heb hier niet een bordje liggen wat ik er zo in kan doen.

  • Arnout
  • Registratie: December 2000
  • Laatst online: 17-02 21:41
In deze discussie wordt ook gesproken over DMA timeouts en er is ook sprake van een Promise Ultra controller, misschien dat het toch daarmee te maken heeft?

  • ge-flopt
  • Registratie: Februari 2001
  • Laatst online: 10:49
Er is sprake geweest van een promise ultra tx2, maar die heb ik eruit gehaald omdat ik dacht dat dat wel eens het probleem zou kunnen zijn. Misschien dat er nog een driver gestart wordt, maar dat kan ik op dit moment niet terug vinden.

Is er op 1 of andere manier de schijven te testen op bad sectors? dan weet ik in ieder geval zeker dat het de schijven wel of niet zijn.

  • Niek
  • Registratie: Februari 2001
  • Laatst online: 11-02 12:26

Niek

f.k.a. The_Surfer

Ik heb exact hetzelfde probleem gehad: servertje liep telkens muur- en muurvast om onverklaarbare redenen en op onregelmatige tijden. Soms bleef hij 10 minuten up, soms 2 dagen, maar langer dan dat lukte niet. Er was ook niks merkwaardigs in de logs te vinden. Memtest86 geprobeert, maar geen fouten gevonden in het geheugen. Voor de zekerheid nieuw geheugen ingezet: geen verschil. Nieuwe HDD: ook geen resultaat. Uiteindelijk heb ik een grotere koeler erin gezet en dat verhielp het probleem :) De server werdt gewoon simpelweg te warm waardoor hij vastliep. Ik zou zeggen: probeer ook eens een grotere/betere koeler of haal voor een keer de kappen van de tower af, kijken of het verschil maakt.

edit:
Kleine toevoeging:
Persoonlijk denk ik niet dat het iets met je schijven is. Linux kan ontzettend veel hebben qua verotte HDD's. Ik heb ooit Debian op een enorm brakke schijf vol met bad sectors gedraaid, maar nog nooit een crash gehad. En zeker niet dat je pc muurvast loopt. Ook een leuk experiment: haal de HDD uit je Linux systeem en je zult zien dat de meeste services gewoon door blijven draaien :)

[ Voor 24% gewijzigd door Niek op 02-06-2004 08:50 ]

À vaincre sans péril, on triomphe sans gloire - Pierre Corneille


  • ge-flopt
  • Registratie: Februari 2001
  • Laatst online: 10:49
Kap is er reeds af, maar ik zal eens op zoek gaan naar een andere koeler.

  • it0
  • Registratie: April 2000
  • Laatst online: 27-12-2025

it0

Mijn mening is een feit.

Als overhitting het probleem is dan kan je met 2.6.x een optie aanzetten "kernel machine exception messages" oid. Als je dan een zware job draait bv de kernel compileren. dan gaat hij non fatal messages geven waarop je gcc crashed. Allemaal het geval van oververhitting.

  • ge-flopt
  • Registratie: Februari 2001
  • Laatst online: 10:49
it0: is dat aan te zetten als ik reeds een kernel heb draaien? of moet ik mijn kernel compleet opnieuw compileren?

  • ST10©DE
  • Registratie: Maart 2001
  • Laatst online: 08:18

ST10©DE

Dus.............

Ik heb ook ziets gehad. En opgelost door het aantal toegestane processen te verhogen, misschien dat het bij jou ook helpt?

"Ik heb een hekel aan thuiswerken". Hendrik, 36 jaar, brandweerman.


  • ge-flopt
  • Registratie: Februari 2001
  • Laatst online: 10:49
Paulusje, hoe pas ik die aan?

  • DeMoN
  • Registratie: Maart 2001
  • Laatst online: 17-02 18:05

DeMoN

Pastafari

Kan met ulimit als het goed is.
Google er maar even op :)

btw:

offtopic:
Forbidden
You don't have permission to access /~mvgorkom/videobanden.txt on this server.

Apache/1.3.29 Server at cp179739-b.tilbu1.nb.home.nl Port 80


edit:

http://howtos.linux.com/g...-Edition-v1.3/x4733.shtml

Hier staat het wel ongeveer

[ Voor 23% gewijzigd door DeMoN op 02-06-2004 12:44 ]

Gamertag: Cosmicv0id
"Het woord Gods is voor mij niets meer dan een expressie en het product van menselijke zwakheid. De Bijbel is een verzamelwerk van legendes die achtenswaardig zijn maar ook primitief en kinderachtig.'' - Albert Einstein


  • it0
  • Registratie: April 2000
  • Laatst online: 27-12-2025

it0

Mijn mening is een feit.

ge-flopt: het is een kernel optie, ik weet niet of je die hebt geconfigureerd. Staat bij cpu opties als je make menuconfig doet.

  • ge-flopt
  • Registratie: Februari 2001
  • Laatst online: 10:49
ok mogelijkheden die ik tot nu toe gekregen heb (tussen haakjes staan mijn acties tot nu toe) :
- Nieuwe fan (ben al aan het kijken naar een nieuwe)
- ulimit (aangepast zoals aangeven op de pagina)
- kernel machine exception messages aanpassen

offtopic:
Die banden moet ik nog ff terug zetten :D


Hoe kan ik eigenlijk zien hoeveel processen ik in gebruik heb?

[ Voor 22% gewijzigd door ge-flopt op 02-06-2004 14:27 ]


  • ge-flopt
  • Registratie: Februari 2001
  • Laatst online: 10:49
Helaas heeft de ulimit niet gewerkt. Zit nu bij de schoonfamilie, en hij is niet te benaderen. Morgen maar eens een nieuwe cooler halen.

  • ge-flopt
  • Registratie: Februari 2001
  • Laatst online: 10:49
Heb een andere cooler geplaatst: Collermaster Jet 7 Ben nu 4 dingen aan het doen waarmee ik a. veel schrijf acties doen en b. veel CPU vreet.....
voor degenen die willen weten:
link: http://www.coolermaster.c...er_title=+ACB-V83+JET%207
en plaatje:
Afbeeldingslocatie: http://www.coolermaster.com/product_common_images/2d3451a130df64859c6f9bb09cf12dca.jpg

Verwijderd

Als het idd komt door dat DMA timeout gebeuren, kan het afaik ook nog aan de chipset liggen, die dus de hdd aanstuurt. Het vastlopen lijkt me ook eerder daaraan liggen dan aan de harde schijf :)
Maar ik hoop voor je dat het idd aan de hitte lag en dat de probs nu al voorbij zijn ;)

Verwijderd

De hitte zou natuurlijk altijd een oorzaak kunnen zijn, maar de dma timeout naar /dev/hde wijst toch wel erg sterk in de richting van het disk subsysteem.
Je hebt nu iig koelere dagen, dus zet een raam open, richt een fan in je open kast en ga hem eens stress testen.... ;)

Begrijp ik je goed als ik zeg dat je zowel de een andere harde schijf als andere controller hebt gebruikt? Dus ook al de nieuwe schijf op je ide-controller op je moederboard? Met andere woorden alle verschillende combinaties dus.

(En misschien een hele stomme, maar ik heb hem ook wel eens gehad... heb je al een andere ide kabel geprobeerd?)

BTW: over bad sectors e.d. daar kan linux wel goed mee omgaan, maar als het de firmware van de schijf is die ergens onherstelbaar vast loopt staat linux ook machteloos. Je kan alleen om bad sectors heenmappen als de aansturing binnenin je schijf nog wel probleemloos werkt. Maar goed, aangezien er twee verschillende schijven idem problemen geven is dat hier niet het geval. (Zou nogsteeds de controller kunnen zijn....)

  • ge-flopt
  • Registratie: Februari 2001
  • Laatst online: 10:49
Krewl je hebt het allemaal goed begrepen :D
Het vreemde is dat ik ook dacht dat het aan mijn schijven/controller/kabels lag. Maar ik draai vandaag (en afgelopen nacht) al een dodelijke compbinatie (Dnetc, Perproxy en mldonkey) en hij blijft draaien, dus ik denk dat het wel de CPU was.
Pagina: 1