debian: brakke IO performance op snelle server

Pagina: 1
Acties:

Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Hoihoi

Ik ben weer wat aan het pielen met wat productie-machines, naar aanleiding van de erg brakke performance.
Situatie:

2 machines, met elk:

Xeon 5506
Onboard nic van een Supermicro x8dtn+: intel 82576
8x 1tb 7200RPM @ raid6.
areca 1120 met BBU en write back instelling
Indeling:
server 1 heeft een volume van 100gb voor het OS, en +- 5900GB voor data-opslag. Beide ext3
server 2 heeft een volume van 100gb voor het OS, en 3x 2000GB (bij benadering) voor dataopslag. Alles ext4.
Server 1 heeft 18gb mem, server 2 6gb


Deze discrepantie is ontstaan doordat ik machine2 heb gereinstalled afgelopen week en wilde kijken of die kleinere volumes de performance verbeteren. Ook heb ik meteen voor ext4 gekozen omdat dat nu in Squeeze zit :).
Dit 'even veranderen' gaat niet gebeuren op server1; die draait productie.


Op een van beide machines draait (nu nog) vmware server met wat VM's. De load is vrij laag : 2 tot 5.
De andere machine staat momenteel niets te doen behalve NFS server. Hij deelt een van die 2000g volumes als /data.

Beide machines hangen met een interne crosscable aan elkaar waar dus NFS overheen zal gaan om die bestanden te backuppen.
NFS is hier prima voor , omdat het een crosscable is boeit encryptie of authenticatie me toch niet. Op beide machines heeft niemand shell xs op het beheer na.

De gare performance lijkt sterk aan server1 te liggen: als ik daar bonnie draai heb ik zo een load van 25 erbij... Ik heb net bonnie op server1 aan gehad met een rsync naar de gemounte /data van server2 ... en vmware die draait. Gevolg is een load van +-120.
Dit heb ik net dus afgeschoten.


Punt is wel dat een rsync van de vm's (op server1, die server2 gemount heeft) nu al een uur of 22 duurt... voor 600GB. Netwerk is niet het issue, host1 ook niet.


NFS llijkt ook niet het probleem te zijn:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
Server rpc stats:
calls      badcalls   badauth    badclnt    xdrcall
656268     0          0          0          0       

Server nfs v3:
null         getattr      setattr      lookup       access       readlink     
15        0% 121       0% 663       0% 692       0% 312       0% 0         0% 
read         write        create       mkdir        symlink      mknod        
0         0% 586743   89% 120       0% 100       0% 0         0% 0         0% 
remove       rmdir        rename       link         readdir      readdirplus  
1         0% 0         0% 117       0% 0         0% 0         0% 6         0% 
fsstat       fsinfo       pathconf     commit       
11471     1% 16        0% 7         0% 55809     8%


Wat kan ik hieraan veranderen?

- Machine1 naar ext4 omzetten. Ja dat gaat dus voorlopig niet gebeuren.
- 32K blocks voor NFS gebruiken. Goed plan. (http://nfs.sourceforge.net/nfs-howto/ar01s05.html). Leuk maar het lijkt geen NFS related issue te zijn.


En waar kan ik het beste beginnen met debuggen? Het lijkt mij dus een serieus performance issue met host1, maar ook vmware doet niet zo gek veel IO. Alleen kan ik hem niet met goed fatsoen platleggen momenteel omdat allemaal vm's dan plat zullen gaan.

Ik zie dat server1 ook een forse iowait heeft, 166% (4 cpu's dus zeg maar 1/3).

Nu is het zo dat ik destijds een beetje vies ben geweest op server 1.
code:
1
2
3
4
5
6
Disk /dev/sdc: 5899.4 GB, 5899498291200 bytes
64 heads, 32 sectors/track, 703275 cylinders
Units = cylinders of 2048 * 4096 = 8388608 bytes
Disk identifier: 0x00000000

Disk /dev/sdc doesn't contain a valid partition table

Ik heb hier gewoon direct een FS opgeknald zonder partitie tabel. Nu heb ik helaas geen andere raidsetup van 6TB die ik hiervoor kan misbruiken... maar heeft dit ook impact op die performance?

Momenteel heeft die unit een load van +-30 waarbij iotop maximaal 15megabyte lezen+schrijven meet... en vaak veel minder. Dat kan gewoon niet goed zijn. rsync + vmware draait.

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Daarnet zonder rsync een bonnie++ gedraaid met 32GB op mijn /tmp (wat gewoon rootfs is...): load van >70.
Halverwege maar afgekapt, vmware ging onderuit.

Gewoon met de default nice-waarden gedaan, dus niets raar. Imo is dit niet echt de gewenste performance.

Een vrind met een redelijk vergelijkbare setup in zijn desktop (areca 1120, bbu, write back, en 6x 7200rpm @ raid6) heeft een load van 5 a 6 als hij het voornoemde bonnie++ commando draait. Dit op een dik gebeefte E6600 (3.3GHz) met 8gb ddr2.

Maw: mijn machine is een stuk lomper (meer mem, meer disks, meer CPU) en toch heb ik een *veel* hogere load.


De stripe size van de raid array staat momenteel op 128k, dus dat zou ook prima moeten zijn.

[ Voor 47% gewijzigd door Boudewijn op 12-02-2011 19:45 ]

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • JeroenE
  • Registratie: Januari 2001
  • Niet online
Een hoge iowait is soms een teken aan de wand dat er wat met je array aan de hand is. Kan het zijn dat een disk storing heeft gehad en de array op server1 nu aan het rebuilden is of juiste met 1 disk te weinig draait?

Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Nop de array is prima, hij is gerebuild nadat er maandag een disk overleden is. Dit soort dingen doen tijdens een rebuild is ook vragen om gedoe... nee zo dom ben ik niet :).
Verder geen warnings of iets van die areca.

[ Voor 78% gewijzigd door Boudewijn op 13-02-2011 02:52 ]

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • mace
  • Registratie: Juni 2003
  • Laatst online: 05-10 15:53

mace

Sapere Aude

Had je er al last van vóór die rebuild dan of weet je dat niet?

Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Toen werd ik ook al niet blij van de performance nee.

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Bumpje, iemand nog ideeen in welke richting ik dit moet zoeken? :)

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

Verwijderd

wat krijg je als je "iostat"erin miept?

Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Verwijderd schreef op dinsdag 15 februari 2011 @ 20:44:
Het nut van bonnie is volgens mij dat het juist je hele machine probeert te gebruiken. Ik snap niet waarom je dan verbaasd bent als je load dan omhoog haat.
Omdat het een disk-benchmark is?
Bonnie++ is a benchmark suite that is aimed at performing a number of simple tests of hard drive and file system performance. Then you can decide which test is important and decide how to compare different systems after running it. I have no plans to ever have it produce a single number, because I don't think that a single number can be useful when comparing such things.
Naar: http://www.coker.com.au/bonnie++/

Buiten dat: op een identieke machine stijgt die load veel minder extreem.


iostat is allemaal niet schokkend, daarom had ik deze aanvankelijk niet vermeld:
code:
1
2
3
4
5
6
7
8
9
10
blackbox:/home/boudewijn# iostat  -md
Linux 2.6.30-bpo.1-amd64 (blackbox)   02/15/2011      _x86_64_

Device:            tps    MB_read/s    MB_wrtn/s    MB_read    MB_wrtn
sdb              18.85         0.03         0.29      15292     135290
sdb1             18.83         0.03         0.29      15222     135138
sdb2              0.02         0.00         0.00         69        151
sdc             104.26         2.20         0.62    1019557     286342
sda               0.01         0.00         0.00         32          0
sda1              0.01         0.00         0.00         32          0

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

Verwijderd

Zo.... En nu weer on-topic!!

Boudewijn: Wil een iostat en top doen op het drukste moment van de dag?
Dan kunnen we beter bekijken wat er eventueel het probleem is. Dit geeft een vertekend beeld allemaal.

Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Nou het gekke is dat de load gewoon gelijkmatig verdeeld is over de middag en avond; die iostat van 22.00... toen was het niet significant rustiger dan om 1500 ofzo.

Ik wil best bonnie even aanzetten en tegelijkertijd iostat doen, maar dat doe ik liever als het zo 'echt laat' is. Dan hebben we er een stuk minder last van.
Dat geeft ook meteen goed aan waarom ik weinig ermee heb 'getest'; alleen mijn productieomgeving lijkt dit probleem te hebben.

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • iisschots
  • Registratie: November 2002
  • Laatst online: 04:53
Ik heb opruiming gehouden. Graag nu ontopic houden en niet op de man spelen.

[ Voor 84% gewijzigd door iisschots op 15-02-2011 22:59 ]

Hackerspace in Friesland | www.frack.nl | Bezig met opzetten, help mee!


Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Ik heb net even een bonnie++ run aangezet en ed load was binnen een paar minuten +-30. Idle is de load tussen de 1 en de 5. Idle --> met alleen vmware-server draaiend.

Ik loop als root 32GB op /dev/sdc te schrijven....
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
# iostat  -md
Linux 2.6.30-bpo.1-amd64 (blackbox)   02/16/2011      _x86_64_

Device:            tps    MB_read/s    MB_wrtn/s    MB_read    MB_wrtn
sdb              18.35         0.03         0.28      15298     136912
sdb1             18.34         0.03         0.28      15228     136754
sdb2              0.02         0.00         0.00         70        157
sdc             102.81         2.12         0.62    1021202     297426
sda               0.01         0.00         0.00         32          0
sda1              0.01         0.00         0.00         32          0



avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           3.11    0.00    8.27   16.27    0.00   72.36

Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn
sdb              20.00        64.72       595.00   31339384  288133744
sdb1             19.99        64.42       594.34   31195393  287810768
sdb2              0.02         0.30         0.67     143639     322976
sdc             103.03      4320.29      1294.03 2092119864  626641912
sda               0.01         0.14         0.00      67484        164
sda1              0.01         0.14         0.00      67140        164

Soms zie je dat er 2 soms 2.2 megabyte per seconde wordt gelezen. Die 0.62 megabyte/sec schrijven... tsja daar kan ik ook niet blij van worden. Dit dus tijdens het bonnie++ draaien.
Wawt ik wel zie is dat er redelijk wat blokken geschreven/gelezen worden, kennelijk zit er niet bijster veel data in zo'n blok.

Na een kwartiertje zie ik dat de load +- 35 is. Na 20 mins zitten we op +- 45 met als iostat:
code:
1
sdc             103.01         2.11         0.63    1021491     305360

Ik draai voor de gein hetzelfde op mijn 'lege' testserver, server2:

code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
root@whitebox:/home/boudewijn# iostat -md
Linux 2.6.32-5-amd64 (whitebox)         02/16/2011      _x86_64_        (4 CPU)

Device:            tps    MB_read/s    MB_wrtn/s    MB_read    MB_wrtn
sda               2.82         0.15         0.23      67162     100691
sdb              12.95         0.00         1.91          4     846949
sdd               0.44         0.00         0.06          1      28449
sdc               0.00         0.00         0.00          0          0

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.00    0.00    0.24    0.24    0.00   99.51

Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn
sda               4.25       565.97       590.39  251806330  262670504
sdb              12.94         0.02      3898.68       8746 1734552112
sdd               0.44         0.01       130.96       2736   58264768
sdc               0.00         0.00         0.00       1600          8

Dit ziet er ook niet veel beter uit, waardoor ik begin te twijfelen aan mijn benchmark.

edit: na een half uur zitten we rond de load van 50.
Dit tijdens de fase van het "writing intelligently".
Nog even een iostat:
Linux 2.6.30-bpo.1-amd64 (blackbox)   02/16/2011      _x86_64_

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           3.10    0.00    8.26   16.39    0.00   72.25

Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn
sdb              21.16        64.62       604.56   31346192  293267832
sdb1             21.14        64.32       603.89   31202137  292944856
sdb2              0.02         0.30         0.67     143703     322976
sdc             103.15      4314.40      1306.50 2092894760  633775704
sda               0.01         0.14         0.00      67484        164
sda1              0.01         0.14         0.00      67140        164

blackbox:/home/boudewijn# iostat  -md
Linux 2.6.30-bpo.1-amd64 (blackbox.   02/16/2011      _x86_64_

Device:            tps    MB_read/s    MB_wrtn/s    MB_read    MB_wrtn
sdb              21.16         0.03         0.30      15305     143204
sdb1             21.15         0.03         0.29      15235     143047
sdb2              0.02         0.00         0.00         70        157
sdc             103.15         2.11         0.64    1021922     309462
sda               0.01         0.00         0.00         32          0
sda1              0.01         0.00         0.00         32          0


Ik ga nu bonnie de nek omdraaien, VMs beginnen unresponsive te worden.

Wat doe ik ongeveer fout? :)

[ Voor 19% gewijzigd door Boudewijn op 16-02-2011 02:55 ]

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • Joepho
  • Registratie: April 2002
  • Laatst online: 02-01-2023

Joepho

Le mec de la pomme (Newton)

Weet niet of dit hier iets mee te maken kan hebben ... maar sommige bios'en hebben een "emulate" ide optie ... en hier kan debian helemaal niet mee overweg ... ? iets in die richting?

Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Maar de disks hangen niet aan het moederbord, maar aan mijn areca raid kaart. Dat ding hoeft alleen sata+raid te doen dus hij zal dat dan ook wel goed doen.

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • Joepho
  • Registratie: April 2002
  • Laatst online: 02-01-2023

Joepho

Le mec de la pomme (Newton)

hmm ok inderdaad ...

Acties:
  • 0 Henk 'm!

  • mace
  • Registratie: Juni 2003
  • Laatst online: 05-10 15:53

mace

Sapere Aude

Longshot maar je zou de areca in een ander slot kunnen doen, eentje die zijn interrupt niet deelt met wat anders.

Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Nee het is productie. Zal zo de manpage van het mobo eens bekijken, maar dat lijkt me echt niet de bedoeling.

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • Rainmaker
  • Registratie: Augustus 2000
  • Laatst online: 14-07-2024

Rainmaker

RHCDS

Kijk eens in /proc/interrupts en check of irqbalance draait. Zou geen extreme vertraging moeten geven als het niet zo is, maar kan wel.

Doet de server nog andere dingen? Zo ja, wat voor applicatie draait erop?

iostat heeft ook een hele mooie -x optie, waarmee je wat meer kunt zien.

Kijk ook eens of een andere I/O scheduler wat uitmaakt. Als die nu op, bijvoorbeeld anticipatory staat met een hoge read / write_expire, kan dit verklaren waarom je "bursts" van throughput krijgt in plaats van mooie, constatnte I/O.

Wissel anders eens naar noop. Is sowieso goed om te doen, want die HW raid controller kan ook goed schedulen.

We are pentium of borg. Division is futile. You will be approximated.


  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Hoi Rainmaker, Bedankt voor de tips!

irqbalance draait niet.

Mijn interrupts:
boudewijn@blackbox:~$ cat /proc/interrupts
            CPU0       CPU1       CPU2       CPU3
   0:       1910          0          0          0   IO-APIC-edge      timer
   1:          2          0          0          0   IO-APIC-edge      i8042
   3:         13          0          0          0   IO-APIC-edge
   4:         12          0          0          0   IO-APIC-edge
   8:  384522793          0          0          0   IO-APIC-edge      rtc0
   9:          0          0          0          0   IO-APIC-fasteoi   acpi
  12:          4          0          0          0   IO-APIC-edge      i8042
  16:          0          0          0          0   IO-APIC-fasteoi   uhci_hcd:usb1, pata_jmicron
  18:        153          0          0          0   IO-APIC-fasteoi   uhci_hcd:usb6, ehci_hcd:usb7
  19:          0          0          0          0   IO-APIC-fasteoi   uhci_hcd:usb3, uhci_hcd:usb5, ata_piix, ata_piix
  21:          0          0          0          0   IO-APIC-fasteoi   uhci_hcd:usb2
  23:          0          0          0          0   IO-APIC-fasteoi   uhci_hcd:usb4, ehci_hcd:usb8
  30:   62852320          0          0          0   IO-APIC-fasteoi   arcmsr
  79:    5411414          0          0          0   PCI-MSI-edge      eth0-tx-0
  80:     158632          0          0          0   PCI-MSI-edge      eth0-tx-1
  81:     550038          0          0          0   PCI-MSI-edge      eth0-tx-2
  82:     978687          0          0          0   PCI-MSI-edge      eth0-tx-3
  83:    4923785          0          0          0   PCI-MSI-edge      eth0-rx-0
  84:    5140223          0          0          0   PCI-MSI-edge      eth0-rx-1
  85:    5411364          0          0          0   PCI-MSI-edge      eth0-rx-2
  86:    3213026          0          0          0   PCI-MSI-edge      eth0-rx-3
  87:          1          0          0          0   PCI-MSI-edge      eth0
  88:        121          0          0          0   PCI-MSI-edge      eth1-tx-0
  89:   29576549          0          0          0   PCI-MSI-edge      eth1-tx-1
  90:         35          0          0          0   PCI-MSI-edge      eth1-tx-2
  91:         33          0          0          0   PCI-MSI-edge      eth1-tx-3
  92:     275247          0          0          0   PCI-MSI-edge      eth1-rx-0
  93:     275250          0          0          0   PCI-MSI-edge      eth1-rx-1
  94:     275232          0          0          0   PCI-MSI-edge      eth1-rx-2
  95:   47303240          0          0          0   PCI-MSI-edge      eth1-rx-3
  96:          7          0          0          0   PCI-MSI-edge      eth1
 NMI:          0          0          0          0   Non-maskable interrupts
 LOC:  615653085  665652847  643098966  620677486   Local timer interrupts
 SPU:          0          0          0          0   Spurious interrupts
 RES:    1760765    2543367    2386386    2261375   Rescheduling interrupts
 CAL:    3123849   13743192   13820350   13902808   Function call interrupts
 TLB:    2537476    3049464    3027208    2917872   TLB shootdowns
 TRM:          0          0          0          0   Thermal event interrupts
 THR:          0          0          0          0   Threshold APIC interrupts
 ERR:          0
 MIS:          0

We zien hier dat die arcmsr (de areca kaart) zijn eigen interrupt heeft en netjes interrupts genereert op CPU0. De rest van de CPUs heeft trouwens bijna geen hardware interrupts.

De server doet mometneel alleen vmware-server met wat vm's.

Doie machine loopt aardig wat sectors te lezen per secodne:
avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           2.82    0.00    7.97   14.90    0.00   74.31

Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util
sdb               0.75    48.61    0.44   19.63    56.15   554.27    30.41     2.51  124.62   3.04   6.11
sdb1              0.72    48.54    0.43   19.62    55.87   553.62    30.39     2.50  124.56   3.03   6.09
sdb2              0.03     0.07    0.01    0.01     0.27     0.65    59.52     0.00  203.78  92.96   0.14
sdc              44.25    95.36   31.68   67.80  3785.92  1306.95    51.19     0.22   79.33   2.94  29.23
sda               0.11     0.00    0.00    0.00     0.12     0.00    26.67     0.00   21.01   8.74   0.00
sda1              0.11     0.00    0.00    0.00     0.12     0.00    26.76     0.00   21.14   8.77   0.00

Qua schedulur:
blackbox:/sys/block/sdc/queue# cat scheduler
noop anticipatory deadline [cfq]
als ik http://dom.as/2008/02/05/linux-io-schedulers/ mag geloven is cfq voor dit soort setups niet bijster goed (eigenlijk gewoon compleet ruk).

Ik heb hem op noop gezet, omdat idd die areca het prima zelf kan schedulen. We gaan zo eens kijken of het wat wordt met bonnie.


Bonnie blijft gewoon ruk presteren:

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           2.82    0.00    7.96   14.88    0.00   74.35

Device:         rrqm/s   wrqm/s     r/s     w/s    rMB/s    wMB/s avgrq-sz avgqu-sz   await  svctm  %util
sdb               0.75    48.50    0.44   19.59     0.03     0.27    30.40     2.53  126.09   3.06   6.12
sdb1              0.72    48.42    0.43   19.58     0.03     0.27    30.38     2.52  125.79   3.05   6.10
sdb2              0.03     0.08    0.01    0.01     0.00     0.00    60.72     0.01  514.37 107.66   0.17
sdc              44.10    95.98   31.58   67.82     1.84     0.64    51.16     0.28   79.64   2.94  29.18
sda               0.11     0.00    0.00    0.00     0.00     0.00    26.67     0.00   21.01   8.74   0.00
sda1              0.11     0.00    0.00    0.00     0.00     0.00    26.76     0.00   21.14   8.77   0.00


Grmbl. De load is daarentegen maar 60-70 ipv de >100 die het eerst was. Wow :P.

[ Voor 8% gewijzigd door Boudewijn op 17-02-2011 00:41 ]

i3 + moederbord + geheugen kopen?


  • deepbass909
  • Registratie: April 2001
  • Laatst online: 10:21

deepbass909

[☼☼] [:::][:::] [☼☼]

Boudewijn schreef op woensdag 16 februari 2011 @ 02:42:
[...]
Linux 2.6.30-bpo.1-amd64 (blackbox)   02/16/2011      _x86_64_

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           3.10    0.00    8.26   16.39    0.00   72.25

Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn
sdb              21.16        64.62       604.56   31346192  293267832
sdb1             21.14        64.32       603.89   31202137  292944856
sdb2              0.02         0.30         0.67     143703     322976
sdc             103.15      4314.40      1306.50 2092894760  633775704
sda               0.01         0.14         0.00      67484        164
sda1              0.01         0.14         0.00      67140        164

blackbox:/home/boudewijn# iostat  -md
Linux 2.6.30-bpo.1-amd64 (blackbox.   02/16/2011      _x86_64_

Device:            tps    MB_read/s    MB_wrtn/s    MB_read    MB_wrtn
sdb              21.16         0.03         0.30      15305     143204
sdb1             21.15         0.03         0.29      15235     143047
sdb2              0.02         0.00         0.00         70        157
sdc             103.15         2.11         0.64    1021922     309462
sda               0.01         0.00         0.00         32          0
sda1              0.01         0.00         0.00         32          0


[...]
Long-shot, maar een amd64-kernel op een Xeon? Moet dat niet ia64 zijn? Debian heeft voor zowel de amd64 als ia64 een aparte release (en kernel) en eigen optimalisaties die nogal wat impact op snelheid en load hebben.

Waarschuwing, opperprutser aan het werk... en als je een opmerking van mij niet snapt, klik dan hier


  • mace
  • Registratie: Juni 2003
  • Laatst online: 05-10 15:53

mace

Sapere Aude

Xeon is niet ia64, ia64 is itanium.

  • deepbass909
  • Registratie: April 2001
  • Laatst online: 10:21

deepbass909

[☼☼] [:::][:::] [☼☼]

Ok, ik ben zelf niet bekend met de 64bit intel systemen.

Maar dit viel mij wel op bij de debian faq over de kernels:
 The Debian Kernel Team maintains 64bit kernel packages for both i386 and amd64, featuring different kernel flavours for AMD64 and EM64T systems as well as UP and SMP flavours.

    * amd64-generic - this is the installer kernel, running on all amd64 compatible architectures known.
    * amd64-k8 - the uniprocessor AMD Athlon64, AthlonFX, Opteron 1xx and Turion64 flavour. If your CPU vendor is AMD and you have a single processor in your box, this is what you want.
    * amd64-k8-smp - the Multiprocessor/Multicore AMD Athlon64 X2 and Opteron 2xx/8xx flavour, with NUMA support.
    * em64t-p4 - this flavour is intended for single processor Intel Pentium4 systems, with HT disabled.
    * em64t-p4-smp - if you have an Intel "Nocona" Xeon, a Pentium D or want to run Pentium4 in HT mode.


Dus nogmaals, draait de juiste kernel? (als ik deze lijst goed heb, dan moet het dus em64t-p4-smp zijn)

Waarschuwing, opperprutser aan het werk... en als je een opmerking van mij niet snapt, klik dan hier


  • leuk_he
  • Registratie: Augustus 2000
  • Laatst online: 15-07 15:35

leuk_he

1. Controleer de kabel!

Het vmware gedeelte is me niet duidelijk, Je beschrijft hier de hosts, en je voert alle testen ook uit op de hosts? Of wordt een gedeelte op de Guest OS uitgevoerd? Want aangezien je het over hoge CPU load hebt bij netwerk verkeer , dan denk ik meteeen aan een guest die veel netwerkverkeer loopt af te snoepen. Al het netwerk verkeer gaat immers door de vmware netwerk filters (hoe heet dat in linux ? ) als je op een network adpter de guest en de host een ip adress laat toewijzen. Dat kan wellicht tot de hoge cpu usage leiden bij netwerkverkeer.

Of blijft vmware helemaal van de die crosscable adapters af? dan kun je dit verhaal negeren.

Need more data. We want your specs. Ik ben ook maar dom. anders: forum, ff reggen, ff topic maken
En als je een oplossing hebt gevonden laat het ook ujb ff in dit topic horen.


  • mace
  • Registratie: Juni 2003
  • Laatst online: 05-10 15:53

mace

Sapere Aude

deepbass909 schreef op donderdag 17 februari 2011 @ 11:48:
Ok, ik ben zelf niet bekend met de 64bit intel systemen.

Maar dit viel mij wel op bij de debian faq over de kernels:
 The Debian Kernel Team maintains 64bit kernel packages for both i386 and amd64, featuring different kernel flavours for AMD64 and EM64T systems as well as UP and SMP flavours.

    * amd64-generic - this is the installer kernel, running on all amd64 compatible architectures known.
    * amd64-k8 - the uniprocessor AMD Athlon64, AthlonFX, Opteron 1xx and Turion64 flavour. If your CPU vendor is AMD and you have a single processor in your box, this is what you want.
    * amd64-k8-smp - the Multiprocessor/Multicore AMD Athlon64 X2 and Opteron 2xx/8xx flavour, with NUMA support.
    * em64t-p4 - this flavour is intended for single processor Intel Pentium4 systems, with HT disabled.
    * em64t-p4-smp - if you have an Intel "Nocona" Xeon, a Pentium D or want to run Pentium4 in HT mode.


Dus nogmaals, draait de juiste kernel? (als ik deze lijst goed heb, dan moet het dus em64t-p4-smp zijn)
Ja hij zou _eigenlijk_ em64t-p4-smp moeten draaien, maar amd64 is universeel (laat je niet afleiden door de "amd" in de naam) en het zorgt zeker niet voor zulke dramatische performanceproblemen.

  • Seth4Chaos
  • Registratie: Maart 2001
  • Niet online

Seth4Chaos

that's me...

Boudewijn schreef op donderdag 17 februari 2011 @ 00:14:
Hoi Rainmaker, Bedankt voor de tips!

irqbalance draait niet.

Mijn interrupts:
boudewijn@blackbox:~$ cat /proc/interrupts
            CPU0       CPU1       CPU2       CPU3
   0:       1910          0          0          0   IO-APIC-edge      timer
   1:          2          0          0          0   IO-APIC-edge      i8042
   3:         13          0          0          0   IO-APIC-edge
   4:         12          0          0          0   IO-APIC-edge
   8:  384522793          0          0          0   IO-APIC-edge      rtc0
   9:          0          0          0          0   IO-APIC-fasteoi   acpi
  12:          4          0          0          0   IO-APIC-edge      i8042
  16:          0          0          0          0   IO-APIC-fasteoi   uhci_hcd:usb1, pata_jmicron
  18:        153          0          0          0   IO-APIC-fasteoi   uhci_hcd:usb6, ehci_hcd:usb7
  19:          0          0          0          0   IO-APIC-fasteoi   uhci_hcd:usb3, uhci_hcd:usb5, ata_piix, ata_piix
  21:          0          0          0          0   IO-APIC-fasteoi   uhci_hcd:usb2
  23:          0          0          0          0   IO-APIC-fasteoi   uhci_hcd:usb4, ehci_hcd:usb8
  30:   62852320          0          0          0   IO-APIC-fasteoi   arcmsr
  79:    5411414          0          0          0   PCI-MSI-edge      eth0-tx-0
  80:     158632          0          0          0   PCI-MSI-edge      eth0-tx-1
  81:     550038          0          0          0   PCI-MSI-edge      eth0-tx-2
  82:     978687          0          0          0   PCI-MSI-edge      eth0-tx-3
  83:    4923785          0          0          0   PCI-MSI-edge      eth0-rx-0
  84:    5140223          0          0          0   PCI-MSI-edge      eth0-rx-1
  85:    5411364          0          0          0   PCI-MSI-edge      eth0-rx-2
  86:    3213026          0          0          0   PCI-MSI-edge      eth0-rx-3
  87:          1          0          0          0   PCI-MSI-edge      eth0
  88:        121          0          0          0   PCI-MSI-edge      eth1-tx-0
  89:   29576549          0          0          0   PCI-MSI-edge      eth1-tx-1
  90:         35          0          0          0   PCI-MSI-edge      eth1-tx-2
  91:         33          0          0          0   PCI-MSI-edge      eth1-tx-3
  92:     275247          0          0          0   PCI-MSI-edge      eth1-rx-0
  93:     275250          0          0          0   PCI-MSI-edge      eth1-rx-1
  94:     275232          0          0          0   PCI-MSI-edge      eth1-rx-2
  95:   47303240          0          0          0   PCI-MSI-edge      eth1-rx-3
  96:          7          0          0          0   PCI-MSI-edge      eth1
 NMI:          0          0          0          0   Non-maskable interrupts
 LOC:  615653085  665652847  643098966  620677486   Local timer interrupts
 SPU:          0          0          0          0   Spurious interrupts
 RES:    1760765    2543367    2386386    2261375   Rescheduling interrupts
 CAL:    3123849   13743192   13820350   13902808   Function call interrupts
 TLB:    2537476    3049464    3027208    2917872   TLB shootdowns
 TRM:          0          0          0          0   Thermal event interrupts
 THR:          0          0          0          0   Threshold APIC interrupts
 ERR:          0
 MIS:          0

We zien hier dat die arcmsr (de areca kaart) zijn eigen interrupt heeft en netjes interrupts genereert op CPU0. De rest van de CPUs heeft trouwens bijna geen hardware interrupts.
Alle interupts worden afgehandeld door 1 core (cpu0), dit is niet heel efficient. Ik zou beginnen met irqbalance aan te zetten zodat netwerk en disk-io door aparte cores worden afgehandeld.

Mistakes are proof that you are trying...


  • deepbass909
  • Registratie: April 2001
  • Laatst online: 10:21

deepbass909

[☼☼] [:::][:::] [☼☼]

mace schreef op donderdag 17 februari 2011 @ 11:53:
[...]


Ja hij zou _eigenlijk_ em64t-p4-smp moeten draaien, maar amd64 is universeel (laat je niet afleiden door de "amd" in de naam) en het zorgt zeker niet voor zulke dramatische performanceproblemen.
offtopic:
Ik weet dat AMD64 "slechts" staat voor 64bit support voor alle cpu's, behalve die onder IA64 vallen. Ik weet niet in hoeverre aansturing van de extensies helemaal goed gaat als je niet de juist sub-architectuur hebt. Ik moet ook toegeven dat ik totaal niet weet wat precies het verschil tussen de kernels bij Debian is, ik draai al jaren Gentoo en bouw daarom ook m'n eigen kernels op maat voor de gebruikte proc.

Waarschuwing, opperprutser aan het werk... en als je een opmerking van mij niet snapt, klik dan hier


  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
ia64 is itanium, dat kan ik niet betalen :+.


Wbt irqbalance: jep dat draait nu. Mijn andere SMP bakken hadden dit effect ook dus ik dacht dat het normaal was. Woops :+.

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • Rainmaker
  • Registratie: Augustus 2000
  • Laatst online: 14-07-2024

Rainmaker

RHCDS

Eigenlijk is alle IRQ's af laten handelen door 1 CPU heel efficient.

Als er een hardware interrupt binnenkomt, wordt een draaiend proces van de CPU afgegooid, zonder garantie dat die terug komt op dezelfde core. Hierdoor is het proces zijn L1 / L2 (soms) caches kwijt, en komt er een nieuwe cache fill.

Je OS en alle interrupt netjes op 1 CPU laten draaien en de applicatie op "de andere" cores, is dus juist redelijk efficient. De kernel doet dit zelf voor een groot deel, maar op NMI heavy loads kan irqbalance nog een beetje helpen.

code:
1
2
Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util
sdc              44.10    95.98   31.58   67.82     1.84     0.64    51.16     0.28   79.64   2.94  29.18


Je had het zelf al gezien; de disk wordt maar voor ~30% gebruikt. Dit wat tijdens bonnie++ als ik je post goed begreep?

Als ik zo naar die output kijk, valt het me vooral op dat /dev/sdb langzaam is; een hoge service time, en een hoge wait time. Maar ook weinig gebruik, dus waarschijnlijk wat random I/O.

Heb je er rekening mee gehouden dat de 1e iostat altijd van het systeem sinds boot is? Kun je eens een iostat -x 1 mee laten draaien en kijken of bij bonnie++ (of een andere intensieve schrijfactie) de %util wel echt omhoog gaat?

Als ik puur op dit ding afga, zeg ik; het is niet de disk (svctm) die de zooi vertraagd, het is de await (totale tijd inclusief de queing). Maar waarschijnlijk is de ouput die nu gepost is niet helemaal representatief (grootendeels gemaakt met een andere I/O scheduler) :P

We are pentium of borg. Division is futile. You will be approximated.


Acties:
  • 0 Henk 'm!

  • deadinspace
  • Registratie: Juni 2001
  • Laatst online: 13:38

deadinspace

The what goes where now?

Ik ben om eerlijk te zijn wel benieuwd wat voor performance er direct van dat array komt, buiten het FS om. Ik betwijfel namelijk nogal of het FS de boosdoener is hier.

Een eenvoudige linear read-benchmark is in ieder geval:
hdparm -tT /dev/sd[abc]

(bij voorkeur als de machine zo idle mogelijk is)
Boudewijn schreef op zaterdag 12 februari 2011 @ 01:21:
Ik heb hier gewoon direct een FS opgeknald zonder partitie tabel. Nu heb ik helaas geen andere raidsetup van 6TB die ik hiervoor kan misbruiken... maar heeft dit ook impact op die performance?
Nee, ik verwacht absoluut niet dat dat invloed heeft op de performance.
Boudewijn schreef op dinsdag 15 februari 2011 @ 20:50:
[Het nut van bonnie is volgens mij dat het juist je hele machine probeert te gebruiken. Ik snap niet waarom je dan verbaasd bent als je load dan omhoog haat.]

Omdat het een disk-benchmark is?
Dus? Alsof I/O geen load kan veroorzaken ;)
deepbass909 schreef op donderdag 17 februari 2011 @ 11:12:
Long-shot, maar een amd64-kernel op een Xeon? Moet dat niet ia64 zijn?
Nee, ia64 (tegenwoordig gerenamed naar "titanium") is een compleet andere architectuur, waar i386/amd64 binaries sowieso niet op draaien.

Amd64 is voor de 64-bit uitbreiding op x86, bij AMD bekend onder de namen "x86-64" en "amd64" en bij Intel als "EM64T" en "Intel64". Deze twee zijn compatible met elkaar en backwards compatible met x86/i386. Debian heeft één port en één kernel voor beiden.

Debians port heet "amd64" omdat architectuur-namen in Debian geen - kunnen bevatten, dus x86-64 was niet mogelijk. Een tikje verwarrend, maar die port is dus ook voor Intels 64-bit x86 processoren. ;)
deepbass909 schreef op donderdag 17 februari 2011 @ 11:48:
Maar dit viel mij wel op bij de debian faq over de kernels:
[...]
Dus nogmaals, draait de juiste kernel? (als ik deze lijst goed heb, dan moet het dus em64t-p4-smp zijn)
Hmm, waar heb je dat vandaan? Die informatie lijkt me op zijn best sterk verouderd, Debian heeft geen verschillende kernels voor AMDs en Intels x86-64 processors.
deepbass909 schreef op donderdag 17 februari 2011 @ 15:19:
Ik weet dat AMD64 "slechts" staat voor 64bit support voor alle cpu's, behalve die onder IA64 vallen.
Nou, dat sowieso niet. De amd64 port werkt echt niet op Alpha CPUs, of UltraSparc, of PowerPC, of mips64, of hppa64 :P

64-bit is al een stuk ouder dan Intels en AMDs aanbod ;)

Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Rainmaker schreef op zondag 20 februari 2011 @ 09:28:
Eigenlijk is alle IRQ's af laten handelen door 1 CPU heel efficient.

Als er een hardware interrupt binnenkomt, wordt een draaiend proces van de CPU afgegooid, zonder garantie dat die terug komt op dezelfde core. Hierdoor is het proces zijn L1 / L2 (soms) caches kwijt, en komt er een nieuwe cache fill.

Je OS en alle interrupt netjes op 1 CPU laten draaien en de applicatie op "de andere" cores, is dus juist redelijk efficient. De kernel doet dit zelf voor een groot deel, maar op NMI heavy loads kan irqbalance nog een beetje helpen.
Okay ik merk weinig performance verschil tussen beide indelingen, wellicht interessant om later naar te kijken.
code:
1
2
Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util
sdc              44.10    95.98   31.58   67.82     1.84     0.64    51.16     0.28   79.64   2.94  29.18


Je had het zelf al gezien; de disk wordt maar voor ~30% gebruikt. Dit wat tijdens bonnie++ als ik je post goed begreep?
Correct.
Als ik zo naar die output kijk, valt het me vooral op dat /dev/sdb langzaam is; een hoge service time, en een hoge wait time. Maar ook weinig gebruik, dus waarschijnlijk wat random I/O.
Inderdaad. sdb is echter het rootfs en die doet gewoon weinig. Wat logging, ssh en that's about it.
De VMs staan op een aparte partitie (sdc). Vmware wordt vanaf sdb geladen maar ik vermoed dat het meeste daarvan gewoon in RAM zit nu.
Heb je er rekening mee gehouden dat de 1e iostat altijd van het systeem sinds boot is? Kun je eens een iostat -x 1 mee laten draaien en kijken of bij bonnie++ (of een andere intensieve schrijfactie) de %util wel echt omhoog gaat?
neen maar ik zie wel dat de load compleet over de kop gaat. Ik zal vanavond iostat -x 1 even mee laten draaien, maar die iostats -x's van hierboven zijn wel gewoon van tijdens bonnie. Ik neem aan dat die 1 dan ook de historie van het systeem niet meeneemt.
Als ik puur op dit ding afga, zeg ik; het is niet de disk (svctm) die de zooi vertraagd, het is de await (totale tijd inclusief de queing). Maar waarschijnlijk is de ouput die nu gepost is niet helemaal representatief (grootendeels gemaakt met een andere I/O scheduler) :P
Inderdaad,maar ik ga liever niet die bakken rebooten. Echt liever niet.
deadinspace schreef op zondag 20 februari 2011 @ 17:29:
Ik ben om eerlijk te zijn wel benieuwd wat voor performance er direct van dat array komt, buiten het FS om. Ik betwijfel namelijk nogal of het FS de boosdoener is hier.
Ja inderdaad. Iemand op een borrel van de week suggereerde om eens een andere driver te gebruiken. Afaik zijn die er niet , maar dat kan ik even uitzoeken.
Een eenvoudige linear read-benchmark is in ieder geval:
hdparm -tT /dev/sd[abc]

(bij voorkeur als de machine zo idle mogelijk is)
Ook die gaat vanavond gedraaid worden :).
Dus? Alsof I/O geen load kan veroorzaken ;)
Uiteraard wel, maar een giga load voor een trage nfs copie.... of bonnie die je load >100 maakt... dat is niet wat je verwacht gezien mijn storage controllers.


Heren, bedankt voor het meedenken, we gaan vanavond testen :).

[ Voor 3% gewijzigd door Boudewijn op 20-02-2011 21:14 ]

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Ik heb net bonnie even laten draaien en hier de laatste 3 iostat -x 1 's :

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.74    0.00   31.11   66.17    0.00    1.98

Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util
sdb               0.00     0.00    0.00    0.00     0.00     0.00     0.00    76.00    0.00   0.00 100.00
sdb1              0.00     0.00    0.00    0.00     0.00     0.00     0.00    76.00    0.00   0.00 100.00
sdb2              0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00
sdc               0.00  1401.00    1.00  117.00     8.00  7432.00    63.05   143.97 2343.39   8.47 100.00
sda               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00
sda1              0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.98    0.00   28.85   45.72    0.00   24.45

Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util
sdb               0.00     0.00    0.00    0.00     0.00     0.00     0.00    76.00    0.00   0.00 100.00
sdb1              0.00     0.00    0.00    0.00     0.00     0.00     0.00    76.00    0.00   0.00 100.00
sdb2              0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00
sdc               0.00     2.00    1.00   14.00     8.00  2304.00   154.13   151.90 2894.67  66.67 100.00
sda               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00
sda1              0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.49    0.00   27.14   56.23    0.00   16.14

Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util
sdb               0.00     0.00    0.00    0.00     0.00     0.00     0.00    76.00    0.00   0.00 100.00
sdb1              0.00     0.00    0.00    0.00     0.00     0.00     0.00    76.00    0.00   0.00 100.00
sdb2              0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00
sdc               0.00  3039.00    0.00  202.00     0.00 16440.00    81.39   163.16 1432.48   4.95 100.00
sda               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00
sda1              0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00
De load was ook weer fors hoog.


Bij
blackbox:/home/boudewijn# hdparm -Tt /dev/sdb

/dev/sdb:
 Timing cached reads:   6238 MB in  2.00 seconds = 3120.49 MB/sec
 Timing buffered disk reads:  16 MB in  3.08 seconds =   5.19 MB/sec

Wordt de load iets van +- 25.

Hmmz die 5 meg per seconde is nou niet echt tof.

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • Rainmaker
  • Registratie: Augustus 2000
  • Laatst online: 14-07-2024

Rainmaker

RHCDS

code:
1
2
3
4
5
6
7
8
9
10
avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.74    0.00   31.11   66.17    0.00    1.98

Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util
sdb               0.00     0.00    0.00    0.00     0.00     0.00     0.00    76.00    0.00   0.00 100.00
sdb1              0.00     0.00    0.00    0.00     0.00     0.00     0.00    76.00    0.00   0.00 100.00
sdb2              0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00
sdc               0.00  1401.00    1.00  117.00     8.00  7432.00    63.05   143.97 2343.39   8.47 100.00
sda               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00
sda1              0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00


Dat was inderdaad de output die ik verwachtte (een flinke %util).

De svctm van je disken is zeer OK (echt behoorlijk snel, als ik dit even vergelijk met een server hier), maar die await is wel behoorlijk hoog (en vandaar je %iowait).

code:
1
2
3
              await
                     The average time (in milliseconds) for I/O requests issued to the device to be served. This includes the time spent by the requests in queue and the time  spent
                     servicing them.


Aangezien je de scheduler al op noop hebt gegooid (en dus queuing zoveel mogelijk verminderd hebt), zit ik te denken aan trage communicatie van OS -> RAID controller. Kijk bijvoorbeeld eens naar de firmware van de controller, de manier waarop de controller in het systeem zit (PCI-e op X1 staan?) en, zoals hierboven al gemeld, de perfomance buiten het OS om. Dan denk ik eerder aan booten met een livecd o.i.d. en daarmee de performance te meten. hdparm is volgens mij niet zo betrouwbaar, want maakt nog steeds gebruik van dezelfde drivers / connecties als een request via de VFS.

[ Voor 6% gewijzigd door Rainmaker op 21-02-2011 17:43 ]

We are pentium of borg. Division is futile. You will be approximated.


Acties:
  • 0 Henk 'm!

  • deadinspace
  • Registratie: Juni 2001
  • Laatst online: 13:38

deadinspace

The what goes where now?

Boudewijn schreef op maandag 21 februari 2011 @ 02:12:
Bij
blackbox:/home/boudewijn# hdparm -Tt /dev/sdb

/dev/sdb:
 Timing cached reads:   6238 MB in  2.00 seconds = 3120.49 MB/sec
 Timing buffered disk reads:  16 MB in  3.08 seconds =   5.19 MB/sec

Wordt de load iets van +- 25.

Hmmz die 5 meg per seconde is nou niet echt tof.
Nou, daar zit dus een groot probleem ja, en het filesystem lijkt me hiermee niet de boosdoener. 5 MB/sec linear read direct vanaf het block device is natuurlijk compleet waardeloos. Ik heb sterk het vermoeden dat er wat mis is met je array of controller. Andere mogelijke oorzaken zijn de driver, of dingen als niet-werkende DMA of IRQ-problemen.

Kun je die controller iets van een online self-test laten runnen?

Acties:
  • 0 Henk 'm!

  • igmar
  • Registratie: April 2000
  • Laatst online: 29-09 20:15

igmar

ISO20022

Draai je een recente versie van de arcmsr firmware ? De (vage) problemen die ik had verdwenen als sneeuw voor de zon nadat ik de firmware had geupgrade.

Ik kan eventueel als dat gewenst is wel wat benchmarks geven van de 2TB setup die ik hier heb draaien.

Acties:
  • 0 Henk 'm!

  • deepbass909
  • Registratie: April 2001
  • Laatst online: 10:21

deepbass909

[☼☼] [:::][:::] [☼☼]

Die hdparm-waarde is wel absurd laag... zelfs over uDMA-133 haal je nog 30MB/s, laat staan als je een dedicated raid-controller gebruikt, zoals in jouw systeem... Met 5MB/s is een hoge IOload niet zo gek, je server staat meer op data te wachten dan het kan verwerken...
deadinspace schreef op zondag 20 februari 2011 @ 17:29:
Ik ben om eerlijk te zijn wel benieuwd wat voor performance er direct van dat array komt, buiten het FS om. Ik betwijfel namelijk nogal of het FS de boosdoener is hier.

Een eenvoudige linear read-benchmark is in ieder geval:
hdparm -tT /dev/sd[abc]

(bij voorkeur als de machine zo idle mogelijk is)

[...]

Nee, ik verwacht absoluut niet dat dat invloed heeft op de performance.

[...]

Dus? Alsof I/O geen load kan veroorzaken ;)

[...]

Nee, ia64 (tegenwoordig gerenamed naar "titanium") is een compleet andere architectuur, waar i386/amd64 binaries sowieso niet op draaien.

Amd64 is voor de 64-bit uitbreiding op x86, bij AMD bekend onder de namen "x86-64" en "amd64" en bij Intel als "EM64T" en "Intel64". Deze twee zijn compatible met elkaar en backwards compatible met x86/i386. Debian heeft één port en één kernel voor beiden.

Debians port heet "amd64" omdat architectuur-namen in Debian geen - kunnen bevatten, dus x86-64 was niet mogelijk. Een tikje verwarrend, maar die port is dus ook voor Intels 64-bit x86 processoren. ;)
Komt de naam "amd64" niet simpelweg omdat AMD eerder een 64bit consumenten cpu op de markt had die backward compatible was met 32bit (en 16 bit) OS-en dan Intel? Het is vrij gebruikelijk om namelijk de naam aan te houden van de eerste fabrikant (zoals IA32 voor Intel Archictecture 32bit staat)
[...]

Hmm, waar heb je dat vandaan? Die informatie lijkt me op zijn best sterk verouderd, Debian heeft geen verschillende kernels voor AMDs en Intels x86-64 processors.

[...]

Nou, dat sowieso niet. De amd64 port werkt echt niet op Alpha CPUs, of UltraSparc, of PowerPC, of mips64, of hppa64 :P

64-bit is al een stuk ouder dan Intels en AMDs aanbod ;)
Weer wat geleerd ;) Maar zoals ik al zei, ik bak m'n kernels zelf en draai een AMD64, dus heb me er eigenlijk nooit echt in verdiept hoe het voor Intels zit.

En tot zover de les: Leer DeepBass909 over de 64bit kernels B)

Waarschuwing, opperprutser aan het werk... en als je een opmerking van mij niet snapt, klik dan hier


Acties:
  • 0 Henk 'm!

  • mace
  • Registratie: Juni 2003
  • Laatst online: 05-10 15:53

mace

Sapere Aude

Boudewijn schreef op maandag 21 februari 2011 @ 02:12:
Bij
blackbox:/home/boudewijn# hdparm -Tt /dev/sdb

/dev/sdb:
 Timing cached reads:   6238 MB in  2.00 seconds = 3120.49 MB/sec
 Timing buffered disk reads:  16 MB in  3.08 seconds =   5.19 MB/sec

Wordt de load iets van +- 25.

Hmmz die 5 meg per seconde is nou niet echt tof.
Dat is echt ronduit droevig. :X

Acties:
  • 0 Henk 'm!

  • deepbass909
  • Registratie: April 2001
  • Laatst online: 10:21

deepbass909

[☼☼] [:::][:::] [☼☼]

Ik denk dat er of een schijf compleet brak is, of een kabel of je controller doet niet wat hij moet doen (aka, driver/firmware probleem of defect).

Waarschuwing, opperprutser aan het werk... en als je een opmerking van mij niet snapt, klik dan hier


Acties:
  • 0 Henk 'm!

  • mace
  • Registratie: Juni 2003
  • Laatst online: 05-10 15:53

mace

Sapere Aude

Dus hij moet tòch down. ;)

Acties:
  • 0 Henk 'm!

  • Wolfboy
  • Registratie: Januari 2001
  • Niet online

Wolfboy

ubi dubium ibi libertas

mace schreef op maandag 21 februari 2011 @ 17:20:
[...]

Dat is echt ronduit droevig. :X
Inderdaad :X

Ik dacht eerst nog dat het misschien iets van een Queue lengte kan zijn, maar dit duid wel op een kapotte schijf/kabel/raid kaart.

Of een incompatibele schijf... wat voor schijven heb je? Ik heb dit soort dingen weleens bij de non-raid edities van WD zien gebeuren :P
Kijk ook eens bij je areca kaart of er misschien errors zijn bij 1 van de schijven. Ik gok dat je er veel gaat zien ;)

Blog [Stackoverflow] [LinkedIn]


Acties:
  • 0 Henk 'm!

  • Wolfboy
  • Registratie: Januari 2001
  • Niet online

Wolfboy

ubi dubium ibi libertas

Helemaal niet nodig :P

Tenzij de kaart brak is/firmware update nodig hebt kan je alles zonder downtime uitvoeren. We hebben het hier over een Areca, geen Intel Matrix RAID setje ;)

Blog [Stackoverflow] [LinkedIn]


Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Rainmaker schreef op maandag 21 februari 2011 @ 12:01:

De svctm van je disken is zeer OK (echt behoorlijk snel, als ik dit even vergelijk met een server hier), maar die await is wel behoorlijk hoog (en vandaar je %iowait).
Inderdaad ja.
Aangezien je de scheduler al op noop hebt gegooid (en dus queuing zoveel mogelijk verminderd hebt), zit ik te denken aan trage communicatie van OS -> RAID controller. Kijk bijvoorbeeld eens naar de firmware van de controller, de manier waarop de controller in het systeem zit (PCI-e op X1 staan?) en, zoals hierboven al gemeld, de perfomance buiten het OS om.
Hoe buiten het OS om?

De controller zit in een PCI-X slot... en op die bus zit verder niets aangesloten.
Wellicht die twee NICs.
Dan denk ik eerder aan booten met een livecd o.i.d. en daarmee de performance te meten. hdparm is volgens mij niet zo betrouwbaar, want maakt nog steeds gebruik van dezelfde drivers / connecties als een request via de VFS.
Tis productie. Dat platleggen is niet grappig. Iig is het echt een last resort.
deadinspace schreef op maandag 21 februari 2011 @ 14:02:
Andere mogelijke oorzaken zijn de driver, of dingen als niet-werkende DMA of IRQ-problemen.

Kun je die controller iets van een online self-test laten runnen?
IRQ is geelimineerd.
Hoe kan ik eventuele DMA shit vinden?

Selftest kan alleen offline :(.
igmar schreef op maandag 21 februari 2011 @ 14:27:
Draai je een recente versie van de arcmsr firmware ? De (vage) problemen die ik had verdwenen als sneeuw voor de zon nadat ik de firmware had geupgrade.

Ik kan eventueel als dat gewenst is wel wat benchmarks geven van de 2TB setup die ik hier heb draaien.
CLI> sys info
The System Information
===========================================
Main Processor : 500MHz
CPU ICache Size : 32KB
CPU DCache Size : 32KB
CPU SCache Size : 0KB
System Memory : 256MB/333MHz/ECC
Firmware Version : V1.46 2009-01-06
BOOT ROM Version : V1.46 2009-01-06
Serial Number : Y918CAABAR200345
Controller Name : ARC-1120
===========================================
GuiErrMsg<0x00>: Success.
deepbass909 schreef op maandag 21 februari 2011 @ 17:05:
Die hdparm-waarde is wel absurd laag... zelfs over uDMA-133 haal je nog 30MB/s, laat staan als je een dedicated raid-controller gebruikt, zoals in jouw systeem... Met 5MB/s is een hoge IOload niet zo gek, je server staat meer op data te wachten dan het kan verwerken...
Jep. Belachelijk. Daar heb je geen raid voor :+.

Zou er wat mis kunnen zijn met mijn battery of mem op die kaart?
Komt de naam "amd64" niet simpelweg omdat AMD eerder een 64bit consumenten cpu op de markt had die backward compatible was met 32bit (en 16 bit) OS-en dan Intel? Het is vrij gebruikelijk om namelijk de naam aan te houden van de eerste fabrikant (zoals IA32 voor Intel Archictecture 32bit staat)
offtopic:
Vermoedelijk wel ja.
mace schreef op maandag 21 februari 2011 @ 17:20:
[...]

Dat is echt ronduit droevig. :X
Moeilijk langzaam ja.
deepbass909 schreef op maandag 21 februari 2011 @ 17:22:
Ik denk dat er of een schijf compleet brak is, of een kabel of je controller doet niet wat hij moet doen (aka, driver/firmware probleem of defect).
De controller vindt nu en dan een dode disk, maar atm is alles prima de bima.
Wolfboy schreef op maandag 21 februari 2011 @ 18:02:
[...]
Inderdaad :X

Ik dacht eerst nog dat het misschien iets van een Queue lengte kan zijn, maar dit duid wel op een kapotte schijf/kabel/raid kaart.
Ik heb er spinpoint F1s in gehad en dat werkte prima, tot die pauper-spinpoints de raid-pleuris kregen. Bam, array dood. bam, klantdata weg.
Of een incompatibele schijf... wat voor schijven heb je? Ik heb dit soort dingen weleens bij de non-raid edities van WD zien gebeuren :P
WD greens. ernaast staat een doos met seagates. heb nu 1 seagate in de wd array zitten wegens dode disk (die seagate is de reserve bak dus een diskje minder is ok). Daarvoor was de performance ook al ronduit pauper.
Kijk ook eens bij je areca kaart of er misschien errors zijn bij 1 van de schijven. Ik gok dat je er veel gaat zien ;)
Wordt dagelijks gecheckt. Geen enkel issue.
Wolfboy schreef op maandag 21 februari 2011 @ 18:03:
[...]
Helemaal niet nodig :P

Tenzij de kaart brak is/firmware update nodig hebt kan je alles zonder downtime uitvoeren. We hebben het hier over een Areca, geen Intel Matrix RAID setje ;)
Mja qua performance is het anders net een intel ding :').

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • mace
  • Registratie: Juni 2003
  • Laatst online: 05-10 15:53

mace

Sapere Aude

Doe mij maar liever intel dan dit hoor. :>

Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Ik schedule voor 0:00 een firmware upgrade in. Daarna zal ik weer testen.
Omdat ik dan reboot is iostat ook meteen schoon.

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • mace
  • Registratie: Juni 2003
  • Laatst online: 05-10 15:53

mace

Sapere Aude

areca eruit slopen en apt-get install dmraid doen. :+

e:
offtopic:
VV Ejjjjj. d:)b VV

[ Voor 23% gewijzigd door mace op 21-02-2011 23:13 ]


Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
offtopic:
Mace, probeer even te doen alsof je de leeftijd van 8 reeds bent gepasseerd.
Nu een grote mond hebben, en vrijdag niet mee doen met kaal worden? Soepeltjes.

[ Voor 32% gewijzigd door Boudewijn op 21-02-2011 23:02 ]

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Ik heb op de testmachine (die ernaast staat) de raid array tegest met hdparm -Tt

/dev/sdd:
 Timing cached reads:   9446 MB in  2.00 seconds = 4726.10 MB/sec
 Timing buffered disk reads: 964 MB in  3.01 seconds = 320.79 MB/sec



Na de reboot van de productiebak:

blackbox:/home/boudewijn# iostat -x
Linux 2.6.30-bpo.1-amd64 (blackbox)   02/22/2011      _x86_64_

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           2.71    0.00   20.57   49.21    0.00   27.51

Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util
sda               1.73     0.00    0.16    0.00     3.38     0.01    20.77     0.00    2.38   2.38   0.04
sda1              1.70     0.00    0.13    0.00     2.92     0.01    21.67     0.00    2.14   2.14   0.03
sdb              38.12    49.82   20.75   16.78   859.73   535.13    37.17    14.50  386.29   9.20  34.51
sdb1             37.67    49.82   20.67   16.78   857.27   535.13    37.18    14.50  387.02   9.21  34.50
sdb2              0.32     0.00    0.04    0.00     1.12     0.00    29.62     0.00    4.50   4.33   0.02
sdc               3.58   950.76  166.32  157.95 10026.40  8870.04    58.27    51.03  157.37   2.69  87.39


Na reboot hebben we wel een heel veel betere performance. Maar liefst 5 maal de vorige performance :P.


blackbox:/home/boudewijn# hdparm -Tt /dev/sdc

/dev/sdc:
 Timing cached reads:   8534 MB in  2.00 seconds = 4270.26 MB/sec
 Timing buffered disk reads: 140 MB in  5.54 seconds =  25.27 MB/sec

Alhoewel er wellicht nu nog wat VMs worden geladen. Zal het over 15 mins nog eens draaien.


it just got better:
/dev/sdc:
 Timing cached reads:   8612 MB in  2.00 seconds = 4309.05 MB/sec
 Timing buffered disk reads: 798 MB in  3.00 seconds = 265.89 MB/sec
blackbox:/home/boudewijn#



Hmmzz tijdens een rsync naar die nfs share:


avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           3.95    0.00   10.32   25.38    0.00   60.34

Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn
sda               0.05         1.12         0.00       2156          4
sda1              0.04         0.96         0.00       1860          4
sdb              23.62       293.27       369.53     565416     712448
sdb1             23.43       289.67       344.79     558473     664752
sdb2              0.19         3.16        24.74       6087      47696
sdc             184.84      7917.03      4110.67   15263872    7925280

blackbox:/home/boudewijn# iostat  -m
Linux 2.6.30-bpo.1-amd64 (blackbox)   02/22/2011      _x86_64_

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           4.04    0.00   10.30   25.28    0.00   60.38

Device:            tps    MB_read/s    MB_wrtn/s    MB_read    MB_wrtn
sda               0.05         0.00         0.00          1          0
sda1              0.04         0.00         0.00          0          0
sdb              23.58         0.14         0.18        276        350
sdb1             23.37         0.14         0.17        272        325
sdb2              0.20         0.00         0.01          3         25
sdc             185.01         3.91         2.00       7566       3877

[ Voor 32% gewijzigd door Boudewijn op 22-02-2011 00:26 ]

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
fsck, te vroeg gejuigd.

Ik copieer van server1 naar server2 via nfs.

op server2 draait nfs, en die doet verder niets.
Ik zie nu in iptraf telkens een burst van 10-30 meg voorbijkomen, en dan is het weer een tijdje stil. Bizar fenomeen.

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • Wolfboy
  • Registratie: Januari 2001
  • Niet online

Wolfboy

ubi dubium ibi libertas

Boudewijn schreef op maandag 21 februari 2011 @ 22:52:
Jep. Belachelijk. Daar heb je geen raid voor :+.

Zou er wat mis kunnen zijn met mijn battery of mem op die kaart?
Dat kan iig problemen opleveren ja. Als je battery niet goed is schakelt de write cache direct uit. Maar aangezien je reads ook traag zijn... niet je primaire zorg lijkt me ;)
WD greens. ernaast staat een doos met seagates. heb nu 1 seagate in de wd array zitten wegens dode disk (die seagate is de reserve bak dus een diskje minder is ok). Daarvoor was de performance ook al ronduit pauper.
Probleem mogelijk gevonden... WD greens met Areca wil (uit mijn ervaring iig) nog weleens problemen opleveren.

Volgens mij stuurt de Areca niet altijd de "goede" commando's naar die WD schijven waardoor ze soms in powersave mode blijven draaien.


Probeer ook te controleren of deze schijven TLER aan hebben staan (Googlen op typenummer moet werken). Zo niet, dan is dat waarschijnlijk je probleem. Sinds een paar jaar heeft WD alleen bij de raid edition schijven TLER support en zonder werken ze bijzonder beroerd in raid arrays.


Kan je trouwens eens de output geven van Arccli?
disk info drv=1

(1..N uiteraard)

Normale waarden:
Device Type                        : SATA(5001B4D400B0D010)
Device Location                    : Enclosure#1 Slot#1
Model Name                         : WDC WD5000AAKS-00A7B0                   
Serial Number                      : WD-WMASY0322740
Firmware Rev.                      : 01.03B01
Disk Capacity                      : 500.1GB
Device State                       : NORMAL
Timeout Count                      : 0
Media Error Count                  : 0
Device Temperature                 : 33 C
SMART Read Error Rate              : 200(51)
SMART Spinup Time                  : 156(21)
SMART Reallocation Count           : 200(140)
SMART Seek Error Rate              : 200(51)
SMART Spinup Retries               : 100(51)
SMART Calibration Retries          : 100(51)

[ Voor 28% gewijzigd door Wolfboy op 22-02-2011 01:48 ]

Blog [Stackoverflow] [LinkedIn]


Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Wolfboy schreef op dinsdag 22 februari 2011 @ 01:40:
[...]
Dat kan iig problemen opleveren ja. Als je battery niet goed is schakelt de write cache direct uit. Maar aangezien je reads ook traag zijn... niet je primaire zorg lijkt me ;)
Inderdaad. Wat ik zelf wel raar vind is dat de sequential read gewoon acceptabel is : hdparm doet het prima.
Probleem mogelijk gevonden... WD greens met Areca wil (uit mijn ervaring iig) nog weleens problemen opleveren.

Volgens mij stuurt de Areca niet altijd de "goede" commando's naar die WD schijven waardoor ze soms in powersave mode blijven draaien.
Lekker. Kan ik die powersave niet ergens ranzig disablen?
Probeer ook te controleren of deze schijven TLER aan hebben staan (Googlen op typenummer moet werken). Zo niet, dan is dat waarschijnlijk je probleem. Sinds een paar jaar heeft WD alleen bij de raid edition schijven TLER support en zonder werken ze bijzonder beroerd in raid arrays.
Ik heb in de testmachine cheap ass seagates zitten, en die werken wel weer prima inderdaad ja.
Hmmm.
Kan je trouwens eens de output geven van Arccli?
Ik heb er 1 seagate inzitten omdat ik even snel een diskje moest swappen (die seagate komt uit de testserver in het rack ernaast).


Goed, ik check de disks: en dit is dus de machine met seagates en de testbak heeft WDs.
Hier zit 1 WD in omdat ik dus een diksje moest swappen...
Drive Information 
===============================================================
IDE Channel                        : 1
Model Name                         : ST31000528AS                            
Serial Number                      : 9VP2W9KW       
Firmware Rev.                      : CC38    
Disk Capacity                      : 1000.2GB
Device State                       : NORMAL
Timeout Count                      : 0
Media Error Count                  : 0
Device Temperature                 : 28 C
SMART Read Error Rate              : 109(6)
SMART Spinup Time                  : 96(0)
SMART Reallocation Count           : 100(36)
SMART Seek Error Rate              : 67(30)
SMART Spinup Retries               : 100(97)
SMART Calibration Retries          : N.A.(N.A.)

IDE Channel                        : 3
Model Name                         : ST31000528AS                            
Serial Number                      : 5VP28H42       
Firmware Rev.                      : CC38    
Disk Capacity                      : 1000.2GB
Device State                       : NORMAL
Timeout Count                      : 0
Media Error Count                  : 0
Device Temperature                 : 28 C
SMART Read Error Rate              : 112(6)
SMART Spinup Time                  : 95(0)
SMART Reallocation Count           : 100(36)
SMART Seek Error Rate              : 90(30)
SMART Spinup Retries               : 100(97)
SMART Calibration Retries          : N.A.(N.A.)

Ondanks die smart errors (read errors, wtf? :X) heb ik geen errors in de areca event log staan (wordt dagelijks handmatig gecheckt, event info)....

Zal zo eens kjken of die seagates TLER hebben.

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • mace
  • Registratie: Juni 2003
  • Laatst online: 05-10 15:53

mace

Sapere Aude

Bij Seagate heet dat anders trouwens; Error Recovery Control

Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Uit mijn vorige post:
SMART Read Error Rate              : 112(6)
SMART Spinup Time                  : 95(0)
SMART Reallocation Count           : 100(36)
SMART Seek Error Rate              : 90(30)
SMART Spinup Retries               : 100(97)



Vind ik er ook niet goed uit zien.

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • mace
  • Registratie: Juni 2003
  • Laatst online: 05-10 15:53

mace

Sapere Aude

97 spinup retries? Joh die schijf is gewoon rot.

Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Diskje1:
IDE Channel                        : 1
Model Name                         : ST31000528AS                            
Serial Number                      : 9VP2W9KW       
Firmware Rev.                      : CC38    
Disk Capacity                      : 1000.2GB
Device State                       : NORMAL
Timeout Count                      : 0
Media Error Count                  : 0
Device Temperature                 : 28 C
SMART Read Error Rate              : 104(6)
SMART Spinup Time                  : 96(0)
SMART Reallocation Count           : 100(36)
SMART Seek Error Rate              : 68(30)
SMART Spinup Retries               : 100(97)
SMART Calibration Retries          : N.A.(N.A.)

Disk2
Device Temperature                 : 26 C
SMART Read Error Rate              : 118(6)
SMART Spinup Time                  : 96(0)
SMART Reallocation Count           : 100(36)
SMART Seek Error Rate              : 90(30)
SMART Spinup Retries               : 100(97)
SMART Calibration Retries          : N.A.(N.A.)

Disk3
SMART Read Error Rate              : 114(6)
SMART Spinup Time                  : 95(0)
SMART Reallocation Count           : 100(36)
SMART Seek Error Rate              : 90(30)
SMART Spinup Retries               : 100(97)

Disk4
SMART Read Error Rate              : 111(6)
SMART Spinup Time                  : 97(0)
SMART Reallocation Count           : 100(36)
SMART Seek Error Rate              : 90(30)
SMART Spinup Retries               : 100(97)

Disk5
SMART Read Error Rate              : 117(6)
SMART Spinup Time                  : 95(0)
SMART Reallocation Count           : 100(36)
SMART Seek Error Rate              : 90(30)
SMART Spinup Retries               : 100(97)


Disk6 (wtf :P)
Device Temperature                 : 120 C
SMART Read Error Rate              : 200(51)
SMART Spinup Time                  : 183(21)
SMART Reallocation Count           : 200(140)
SMART Seek Error Rate              : 100(0)
SMART Spinup Retries               : 100(0)
SMART Calibration Retries          : 100(0)


Disk 7:
Device Temperature                 : 28 C
SMART Read Error Rate              : 107(6)
SMART Spinup Time                  : 95(0)
SMART Reallocation Count           : 100(36)
SMART Seek Error Rate              : 90(30)
SMART Spinup Retries               : 100(97)
SMART Calibration Retries          : N.A.(N.A.)


Disk 8:
Device Temperature                 : 32 C
SMART Read Error Rate              : 118(6)
SMART Spinup Time                  : 97(0)
SMART Reallocation Count           : 100(36)
SMART Seek Error Rate              : 63(30)
SMART Spinup Retries               : 100(97)
SMART Calibration Retries          : N.A.(N.A.)



Conclusies:
- Of alle seagates zijn fux0red (geloof ik niet) of de de controller heeft moeite met die dingen.
- De WD disk rapporteert niet zo goed (120C terwijl de rest vd disks niet warm is , is echt bs.).
- In mijn testdoos performt de seagate schijf (die heeft 7x wd en 1x seagate) hetzelfde als in productie.
- Beide dozen hebben dezelfde nieuwste firmware :).

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • lamko
  • Registratie: December 2001
  • Laatst online: 20-10-2024
Ja, en wat wil je nu ? Hele leuke conclusies waar je nog niks mee kan !
Offline halen en testen...

And this !! Is to go even further beyond!!!


Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Is productie. Ik kan het gewoon niet offline halen momenteel ; ik heb ook geen massas alternatieve disks liggen (en zeker geen 8 per stuk...) om even te spelen.

Binnenkort ga ik de zaak redelijk hard migreren qua virtualisatie platform (de server staat al bij mij thuis proef te draaien) en komt er een betere offsite backup machine. Als dat gebeurd is kan ik wellicht een van die machines offline halen, maar nu dus gewoon niet.

offtopic:
Ik ben eenmanszaak en hosting is gewoon 'voor erbij'. Dan heb je helaas geen onbeperkte middelen.

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • mace
  • Registratie: Juni 2003
  • Laatst online: 05-10 15:53

mace

Sapere Aude

Wat me opvalt is dat een aantal waarden voor alle disken gelijk zijn, dat is zonderling.

Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Yep, daarom geloof ik er ook geen ruk meer van. Aan de andere kant: het wordt echt telkens waziger.

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • deepbass909
  • Registratie: April 2001
  • Laatst online: 10:21

deepbass909

[☼☼] [:::][:::] [☼☼]

Wat je eventueel kan doen, en dat kan terwijl de machine gewoon in productie is, is een smart-test uit laten voeren. Je moet dan wel smartmontools op de machine hebben staan (komt vrijwel altijd standaard mee bij een distro) en smartctl -t long uitvoeren. Dit is een test die redelijk lang duurt, maar waar je nauwelijks tot niets van merkt. Als ik het goed heb wordt je dmesg gemeld wanneer hij klaar is (en anders sowieso via de terminal van waaruit de test gestart is).

Overigens zijn allemaal gelijke waarden wel vreemd... de smart-data staat namelijk op de harde schijf zelf opgeslagen en is onafhankelijk van een controller of driver. Dat het allemaal gelijk is, kan wel veroorzaakt worden door je controller, omdat deze mogelijk de smart-data niet goed uitleest.

Het viel mij gisteravond trouwens op, toen ik de smart-data van m'n eigen harde schijven eens uitlas, dat mijn Western Digital ook een onrealistische hoge temperatuur aangaf (ook in de orde van 120 graden). De ruwe data gaf een waarde van 34, wat in mijn machine realistischer is. Waarschijnlijk wordt die temperatuursmeting bij een Western Digital dus niet goed uitgelezen/geïnterpreteerd...

Waarschuwing, opperprutser aan het werk... en als je een opmerking van mij niet snapt, klik dan hier


Acties:
  • 0 Henk 'm!

  • Rainmaker
  • Registratie: Augustus 2000
  • Laatst online: 14-07-2024

Rainmaker

RHCDS

Kun je die disken niet "gewoon" trekken en 1 voor 1 met een ander type vervangen? Gewoon raid laten rebuilden.

Rebuild ze desnoods met de disken uit de testmachine ernaast...

Als het goed is, en de theorie dat de WD disken niet lekker werken met de controller klopt, heb je dan op de testmachine bagger performance.

We are pentium of borg. Division is futile. You will be approximated.


Acties:
  • 0 Henk 'm!

  • Wolfboy
  • Registratie: Januari 2001
  • Niet online

Wolfboy

ubi dubium ibi libertas

Als je problemen hebt dan kan je er meestal vanuit gaan dat deze waarden geen 0 zijn:
Timeout Count                      : 0
Media Error Count                  : 0


Die smart data heb je inderdaad meestal niets aan. Tenzij het ding op failed staat kan je het veilig negeren ;)

Blog [Stackoverflow] [LinkedIn]


Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Rainmaker schreef op woensdag 23 februari 2011 @ 10:29:
Kun je die disken niet "gewoon" trekken en 1 voor 1 met een ander type vervangen? Gewoon raid laten rebuilden.

Rebuild ze desnoods met de disken uit de testmachine ernaast...

Als het goed is, en de theorie dat de WD disken niet lekker werken met de controller klopt, heb je dan op de testmachine bagger performance.
True, maar die doos draait dus op seagates ;). Testmachine = wd.
Op zich kan het best, maar een rebuild duurt lang. Heel lang , op die array.Heeft iets te maken met baggerperformance ;).

Normaal (vroegah) duurde het een half uurtje, nu is het zo'n 48 uur. 8x half uurtje @ DC zitten is prima, maar dit zou me met heen en weer rijden ook vrij veel tijd kosten. Had er verder niet echt op gelet, maar vond het ewl traag trouwens.
Wolfboy schreef op woensdag 23 februari 2011 @ 11:32:
Als je problemen hebt dan kan je er meestal vanuit gaan dat deze waarden geen 0 zijn:
Timeout Count                      : 0
Media Error Count                  : 0


Die smart data heb je inderdaad meestal niets aan. Tenzij het ding op failed staat kan je het veilig negeren ;)
Ja anders was ik met deze waarden al als een gek naar het DC gereden ;).
Wat je eventueel kan doen, en dat kan terwijl de machine gewoon in productie is, is een smart-test uit laten voeren. Je moet dan wel smartmontools op de machine hebben staan (komt vrijwel altijd standaard mee bij een distro) en smartctl -t long uitvoeren. Dit is een test die redelijk lang duurt, maar waar je nauwelijks tot niets van merkt. Als ik het goed heb wordt je dmesg gemeld wanneer hij klaar is (en anders sowieso via de terminal van waaruit de test gestart is).
Ja maar de raid contrller is niet transparant. Maw: het OS ziet de fysieke disks niet.

[ Voor 17% gewijzigd door Boudewijn op 23-02-2011 13:25 ]

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • Wolfboy
  • Registratie: Januari 2001
  • Niet online

Wolfboy

ubi dubium ibi libertas

Boudewijn schreef op woensdag 23 februari 2011 @ 13:02:
Ja maar de raid contrller is niet transparant. Maw: het OS ziet de fysieke disks niet.
Semi-waar :P

Normaal gesproken niet nee, maar er zit Areca support in smartctl ;)

Uit de manpage
smartctl -a -d areca,2 /dev/sg2

Blog [Stackoverflow] [LinkedIn]


Acties:
  • 0 Henk 'm!

  • CAPSLOCK2000
  • Registratie: Februari 2003
  • Laatst online: 15:28

CAPSLOCK2000

zie teletekst pagina 888

Onderstaande heeft totaal niks met bovenstaande probleem te maken, maar dit topic leek een goed plek om mij ei kwijt te raken.

Vergeet nooit een LVM snapshot op te ruimen. Ik ben er een vergeten en de performance van die bak ging door het putje. 't is een desktop en het ding was zo overbelast dat de helft van de tijd de muis en het keyboard niet eens meer reageerde. Ik kon het mysterieuze verlies echter op geen enkele traceren.
Puur toevallig kwam ik het snapshot tegen. Dat verwijderen loste alle problemen direct op.

This post is warranted for the full amount you paid me for it.


Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Ik geef het op, en om logistieke redenen moet ik die machines toch migreren: ik ga die bak uit productie trekken.

FYI, zo hoort het op een bak (reserve server) met soortgelijke config:
# hdparm -Tt /dev/sdb

/dev/sdb:
 Timing cached reads:   9396 MB in  2.00 seconds = 4701.63 MB/sec
 Timing buffered disk reads: 1002 MB in  3.00 seconds = 333.66 MB/sec


Using uid:0, gid:0.
Writing a byte at a time...done
Writing intelligently...done
Rewriting...done
Reading a byte at a time...done
Reading intelligently...done
start 'em...done...done...done...done...done...
Create files in sequential order...done.
Stat files in sequential order...done.
Delete files in sequential order...done.
Create files in random order...done.
Stat files in random order...done.
Delete files in random order...done.
Version  1.96       ------Sequential Output------ --Sequential Input- --Random-
Concurrency   4     -Per Chr- --Block-- -Rewrite- -Per Chr- --Block-- --Seeks--
Machine        Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP  /sec %CP
whitebox     32000M   646  99 236589  18 140044  14  2456  60 388725  18 508.8   8
Latency             13372us     523ms     622ms     306ms     221ms     104ms
Version  1.96       ------Sequential Create------ --------Random Create--------
whitebox            -Create-- --Read--- -Delete-- -Create-- --Read--- -Delete--
              files  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP  /sec %CP
                 16 19977  29 +++++ +++ +++++ +++ +++++ +++ +++++ +++ +++++ +++
Latency             10946us     565us     597us     302us      20us      47us
1.96,1.96,whitebox,4,1299278550,32000M,,646,99,236589,18,140044,14,2456,60,388725,18,508.8,8,16,,,,,19977,29,+++++,+++,+++++,+++,+++++,+++,+++++,+++,+++++,+++,13372us,523ms,622ms,306ms,221ms,104ms,10946us,565us,597us,302us,20us,47us

Dat scheelt echt fors zeg :X.


Nou ja , thuis maar eens op mijn gemak die doos onderzoeken wat er precies mis mee is.

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Ter vergelijking ook maar eens een iostat aan het draaien op die wel werkende machine nu ik 500gb van sdb naar sdc op die raid setup copieer:

 iostat  -x
Linux 2.6.32-5-amd64 (KNIP)         03/05/2011      _x86_64_        (4 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.30    0.00    6.58    3.35    0.00   89.77

Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util
sda               0.61    87.03    1.27    2.98   102.01   720.40   193.39     0.22   50.91   2.95   1.26
sdb               0.01  8230.92    5.93  280.02  1432.09 68087.52   243.11    10.97   38.37   0.41  11.64
sdc               0.02   697.53    1.45   26.94    50.57  5773.75   205.12     1.83   64.45   1.08   3.06
sdd               0.00     0.00    0.00    0.00     0.03     0.00     9.79     0.00    2.28   2.28   0.00
Dat gaat tenminste weer ergens over :P.

i3 + moederbord + geheugen kopen?

Pagina: 1