Beste mede-linux-gebruikers, ik loop tegen een luxe probleem aan. Ik draai een aantal niet al te zware sites al een jaar of twee op een wat oude(re) server, die geregeld van het ene op het andere moment heel erg traag wordt.
Het is een luxeprobleem, omdat ik net een mooie nieuwe PowerEdge 2950 met een stel 15k SAS schijven en 2 mooie quadcores in het rack heb gehangen, met een niet te schamele 8GB geheugen.
Die server lost de performance issues waar ik nu tegenaanloop op, no doubt about it.
Maar. Er is altijd een maar
Ik draai al jaren op linux, heb van alles gedaan en keer aardig wat ins & outs, ik kan het performance probleem in dit geval echter niet duidelijk achterhalen.
Op dit moment is het beestje weer erg traag, wat zich uit in een paar seconden wachten op het openen van een (van de) site(s) die erop draaien. Ik zie de load nooit boven de 20% gaan, iostat meld een zeer lage schijfbelasting, ik zie ook geen hoge % cpu wait (nooit boven de 5%), en er wordt niet geswapt. Kortom: ik zie geen reden waarom het systeem traag zou zijn/is.
Wat specs (niet alles is up to date, dat is een andere discussie):
- P4 2.8 GHz
- 1024 MB geheugen
- 2.6.8.1 SMP kernel
- 80GB sata schijf (of nog gewoon pata, weet ik niet)
Het duurt op momenten zoals dit ook een seconde of 5 voordat ik een command prompt krijg (shell) als ik via ssh inlog. Dit doet me vermoeden dat de schijf het druk heeft (er wordt immers wat gelezen en geschreven naar de schijf bij inloggen), maar de schijf staat uit zijn neus te eten:
Op dit moment laat "top" dit zien:
Ook daar niets geks volgens mij.
Er treed ook geen packetloss op, en er zijn op dit moment (volgens netstat) erg weinig verbindingen actief (25?).
Toch is de server dus traaaag. Althans: ik merk het aan de webserver, en aan de snelheid waarmee de command prompt verschijnt als ik via ssh inlog.
Kan dit bijvoorbeeld een etterende schijf zijn? De performance degradation lijkt zich volledig random voor te doen. Er draaien geen intensieve cronjobs, dus ook dat is de oorzaak niet.
Wat kan ik nog doen om hier meer inzicht te krijgen over een mogelijk oorzaak?
Bij voorbaat dank, zou het interessant vinden om hier wat meer duidelijkheid over te hebben.
Het is een luxeprobleem, omdat ik net een mooie nieuwe PowerEdge 2950 met een stel 15k SAS schijven en 2 mooie quadcores in het rack heb gehangen, met een niet te schamele 8GB geheugen.
Die server lost de performance issues waar ik nu tegenaanloop op, no doubt about it.
Maar. Er is altijd een maar
Op dit moment is het beestje weer erg traag, wat zich uit in een paar seconden wachten op het openen van een (van de) site(s) die erop draaien. Ik zie de load nooit boven de 20% gaan, iostat meld een zeer lage schijfbelasting, ik zie ook geen hoge % cpu wait (nooit boven de 5%), en er wordt niet geswapt. Kortom: ik zie geen reden waarom het systeem traag zou zijn/is.
Wat specs (niet alles is up to date, dat is een andere discussie):
- P4 2.8 GHz
- 1024 MB geheugen
- 2.6.8.1 SMP kernel
- 80GB sata schijf (of nog gewoon pata, weet ik niet)
Het duurt op momenten zoals dit ook een seconde of 5 voordat ik een command prompt krijg (shell) als ik via ssh inlog. Dit doet me vermoeden dat de schijf het druk heeft (er wordt immers wat gelezen en geschreven naar de schijf bij inloggen), maar de schijf staat uit zijn neus te eten:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
| root@/usr/src> iostat -x 5
Linux 2.6.8.1-040909 (p15172918) 02/01/08
avg-cpu: %user %nice %system %iowait %steal %idle
4.99 0.00 0.83 0.08 0.00 94.10
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
hda 0.01 4.50 0.17 4.78 10.63 93.69 21.05 0.07 14.32 0.90 0.44
avg-cpu: %user %nice %system %iowait %steal %idle
5.81 0.00 1.00 0.00 0.00 93.19
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
hda 0.00 2.00 0.00 6.41 0.00 100.20 15.62 0.01 1.72 0.19 0.12
avg-cpu: %user %nice %system %iowait %steal %idle
2.19 0.00 0.80 0.00 0.00 97.01
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
hda 0.00 17.33 0.00 6.97 0.00 205.18 29.43 0.01 0.94 0.34 0.24 |
Op dit moment laat "top" dit zien:
code:
1
2
3
4
5
| top - 00:49:32 up 71 days, 10:55, 3 users, load average: 0.00, 0.01, 0.01 Tasks: 67 total, 2 running, 65 sleeping, 0 stopped, 0 zombie Cpu(s): 3.3% us, 1.0% sy, 0.0% ni, 95.7% id, 0.0% wa, 0.0% hi, 0.0% si Mem: 1027936k total, 1012524k used, 15412k free, 23648k buffers Swap: 2048276k total, 3736k used, 2044540k free, 677988k cached |
Ook daar niets geks volgens mij.
Er treed ook geen packetloss op, en er zijn op dit moment (volgens netstat) erg weinig verbindingen actief (25?).
Toch is de server dus traaaag. Althans: ik merk het aan de webserver, en aan de snelheid waarmee de command prompt verschijnt als ik via ssh inlog.
Kan dit bijvoorbeeld een etterende schijf zijn? De performance degradation lijkt zich volledig random voor te doen. Er draaien geen intensieve cronjobs, dus ook dat is de oorzaak niet.
Wat kan ik nog doen om hier meer inzicht te krijgen over een mogelijk oorzaak?
Bij voorbaat dank, zou het interessant vinden om hier wat meer duidelijkheid over te hebben.