debian+bacula; performance problemen... hoe te tackelen?

Pagina: 1
Acties:

Onderwerpen


Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Hoi,


Ik heb momenteel forse bacula performance problemen die ik niet kan herleiden.
Geval:


Bacula-fd: een aantal VMs op een 100/100mbit colocated bak.
Dikke performance, goede IO snelheid.
code:
1
2
3
4
5
6
7
8
9
10
11
12
root@www:/var# hdparm -t /dev/xvdb1

/dev/xvdb1:
 Timing buffered disk reads: 108 MB in  3.02 seconds =  35.75 MB/sec
root@www:/var# hdparm -t /dev/xvdb1

/dev/xvdb1:
 Timing buffered disk reads: 132 MB in  3.02 seconds =  43.67 MB/sec
root@www:/var# hdparm -t /dev/xvdb1

/dev/xvdb1:
 Timing buffered disk reads: 190 MB in  3.10 seconds =  61.34 MB/sec

Het is niet geniaal, maar voldoet.


Bacula-dir+sd:

Een atom bij mij thuis draait de director, met 120/10mbit (router op 100mbit...) internet.
Aan de atom (zelfde ethernetpoort, maar dat is gigabit) een netgear readynas via iscsi, met lvm+XFS.

hdparm schrijft daar redelijk lekker naar:
code:
1
2
/dev/mapper/san--vol-bacula:
 Timing buffered disk reads: 110 MB in  3.03 seconds =  36.28 MB/sec



Deze performance is ook niet subliem maar het apparaat is momenteel ook al bezig diverse andere dingen, dus acceptabel genoeg.
Tijdens een backup loopt de load op beide machines ook niet erg op.


Mijn clients zijn vrij boring ingesteld op de director:

code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
JobDefs {
  Name = "www-weekly"
  Type = Backup
  Level = Incremental
  Client = www
  FileSet = "Full Set"
  Schedule = "WeeklyCycle"
  Storage = leiden-filestorage
  Messages = Standard
  Pool = wwwPool
  Priority = 10
}

Job {
  Name = "wwwjob"
  JobDefs = "www-weekly"
  Write Bootstrap = "/var/lib/bacula/www.bsr"
}

Client {
  Name = www
  Address = www.foo.bar
  FDPort = 9102
  Catalog = MyCatalog
  Password = "*"          # password for FileDaemon
  File Retention = 30 days            # 30 days
  Job Retention = 6 months            # six months
  AutoPrune = yes                     # Prune expired Jobs/Files
}

Pool {
  Name = wwwPool
  LabelFormat = "wwwVol"
  Pool Type = Backup
  Recycle = yes                       # Bacula can automatically recycle Volumes
  AutoPrune = yes                     # Prune expired volumes
  Volume Retention = 365 days         # one year
  Volume Use Duration = 23h
}


En de file-daemon:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Director {
  Name = leiden-dir
  Password = "*"
}

Director {
  Name = www.foo.bar-mon
  Password = "*"
  Monitor = yes
}

FileDaemon {                          # this is me
  Name = www.foo.bar-fd
  FDport = 9102                  # where we listen for the director
  WorkingDirectory = /var/lib/bacula
  Pid Directory = /var/run/bacula
  HeartBeat Interval = 15
  Maximum Concurrent Jobs = 20
  FDAddress = *
}

Messages {
  Name = Standard
  director = www.foo.bar-dir = all, !skipped, !restored
}


Eveneens niet heel boeiend. De heartbeat intervals zijn nodig omdat de verbinding anders sneuvelt.


Tot deze week had mijn thuisbakje (de director) een ssd en haalde met dezelfde setup +- 1800kb/sec. Dit ongeacht of ik nou een full, incremental of differential backup draaide.
Nu heb ik de ssd vervangen door een disk met dezelfde config (en een reinstall gedaan) en ik zit op de helft daarvan.
Beide snelheden zijn imo (!) compleet onacceptabel; 20mbit is een lachertje.

Compressie kan ik aanzetten, maar ik wil het even zo eenvoudig mogelijk houden en dit zou een eventuele performance hit met zich mee kunnen brengen.


Uiteraard heb ik zelf wat onderzoek gedaan:

- io op de SD lijkt goed.
- io op de FD lijkt goed.
- bandbreedte tussen beide locaties is prima (ik kan strak met 100mbit downloaden vanaf de server naar huis).
- ik zie geen load-spikes (load wordt 0.6 ofzo) op de VMs.
- Downloaden vanaf/uploaden naar de VMs gaat ook prima met 100mbit. Xen en het netwerk zitten niet in de weg.

Een van de dingen die ik op internet veel teruglees zijn problemen met de tapes; tsja dat heb ik dus al niet. Ook de IO is momenteel prima in orde.
Paralleliseren van backups is vast een optie, maar laat ik momenteel eerst maar eens een backup een beetje soepel laten lopen.

Waar kan ik het beste gaan beginnen met kijken waar de bottleneck zit?

Een van de verdachten is mijn router, maar die zou het makkelijk aan moeten kunnen lijkt me; het is een Juniper netscreen 5GT. bittorrent/scp/usenet/streaming media: ik kan het er allemaal met 100mbit doorheen jagen, en dit is wel belachelijk slecht voor een 100mbit apparaat.

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • Hero of Time
  • Registratie: Oktober 2004
  • Laatst online: 11:16

Hero of Time

Moderator LNX

There is only one Legend

Wat krijg je in je Joblog voor snelheid te zien als je 1 groot bestand laat back-uppen? Maak dus even via dd een 100 MB bestand oid, dump die in een map die je laat back-uppen met verders niets erin en run de job handmatig.
Houd dan tijdens de back-up het CPU, geheugen en disk I/O in de gaten. Aangezien je eerst prima performance had, maar nu niet meer, en het enige verschil wat zou kunnen uitmaken is van SSD naar HD. Dat zou op zich geen probleem moeten geven, omdat je direct naar iSCSI schrijft, toch?

Commandline FTW | Tweakt met mate


Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Inderdaad,alhoewel de bootstrap wel op de hdd staat. Qua SSD/HD discussie: ik heb ook een schone install gedaan... dus wellicht dat daar iets anders is gebeurd. Ik kan me niet voorstellen dat de HDD hier de bottleneck is.
Als de backupcyclus zo is afgelopen (wellicht morgen) zal ik eea eens testen.

De HDD is trouwens prima in orde qua IO:

code:
1
2
3
4
5
6
7
8
9
10
11
12
root@leiden:~# hdparm  -t /dev/sdb6

/dev/sdb6:
 Timing buffered disk reads: 336 MB in  3.01 seconds = 111.65 MB/sec
root@leiden:~# hdparm  -t /dev/sdb6

/dev/sdb6:
 Timing buffered disk reads: 342 MB in  3.01 seconds = 113.57 MB/sec
root@leiden:~# hdparm  -t /dev/sdb6

/dev/sdb6:
 Timing buffered disk reads: 330 MB in  3.01 seconds = 109.80 MB/sec

Lijkt me niets mis mee.

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • Hero of Time
  • Registratie: Oktober 2004
  • Laatst online: 11:16

Hero of Time

Moderator LNX

There is only one Legend

Hdparm zegt niets:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
$ sudo hdparm -t /dev/sd?

/dev/sda:
 Timing buffered disk reads: 900 MB in  3.01 seconds = 299.34 MB/sec

/dev/sdb:
 Timing buffered disk reads: 184 MB in  3.00 seconds =  61.25 MB/sec

/dev/sdc:
 Timing buffered disk reads: 224 MB in  3.02 seconds =  74.26 MB/sec

/dev/sdd:
 Timing buffered disk reads: 314 MB in  3.00 seconds = 104.60 MB/sec

/dev/sde:
 Timing buffered disk reads: 214 MB in  3.00 seconds =  71.24 MB/sec

Welke is mijn SSD? En wat zijn de andere schijven (SATA/PATA)? En wat is van elke schijf de max schrijfsnelheid? Het zal je verbazen dan mijn schijf waarbij staat 61,25 MB/s met maar 35-40 MB/s max kan schrijven, dat terwijl het een SATA 300 schijf is. Waarom dan 60? Omdat het buffered is, er zit cache in en dat geeft een vertekend beeld. Daarbij is het een oudje, 6 jaar alweer (en een paar maanden).

Kijk je naar de twee die rond de 70 zitten, zou je dan geloven dat één ervan 2,5" is? 7200 RPM doet wonderen voor sommige schijven, al zijn al mijn HDDs dat.

Als ik mijn schijf die bijna gelijk presteert vergeleken met die van jouw, dan moet ik zeggen: het is een 3TB schijf. Mijne namelijk wel.

We wachten morgen even af, dan zien we wat je performance is. Bij mij op het werk halen we iig regelmatig de 40 MB/s, maar ik zie veel vaker snelheden van onder de 1 MB. Waarom? Kleine bestanden worden nou eenmaal niet snel verstuurd. Ga maar na, hoe lang ben je kwijt om 100 documenten op een USB stick te zetten en hoe lang ben je kwijt om ze gezipt in 1 bestand erop te zetten. Dat is dus ook wel belangrijk.

Verder heb ik geen idee wat het bootstrap bestand moet doen, maar het zit bij ons iig niet in de weg mbt performance (als we de piek halen iig).

Commandline FTW | Tweakt met mate


Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Hmmz ik heb net met dd een file gemaakt van 100 megabyte. Jobje ingeregeld (zelfde als hierboven) en gerund:
2 megabyte per seconde (1980kbyte/sec om precies te zijn) ongeveer.

Dat is beduidend beter (mijn oude snelheid), maar dat zou bijna insinueren dat als ik het experiment herhaal met een grotere grootte het nog beter wordt. Dat valt tegen. Met 500 megabyte (toch een significante vergroting) zit ik ook op 2megabyte per seconde.


Ik gebruik de "Rate" die bacula in zijn eigen mails aangeeft, dat lijkt redelijk te kloppen (is sowieso size/tijd).

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • Hero of Time
  • Registratie: Oktober 2004
  • Laatst online: 11:16

Hero of Time

Moderator LNX

There is only one Legend

In zo'n geval moet je eens kijken welke bestanden er in je backup staan en wat de grootte ervan is. Het ziet er dan naar uit dat je met meerdere kleine bestanden te maken hebt. Onze laatste paar backups kwamen ook niet op snelheid en bleven met een paar honderd KB/s steken.
Welke snelheid geeft je mails aan eigenlijk bij je normale backups?

Commandline FTW | Tweakt met mate


Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Nou ik ben er niet van overtuigd en wel hierom:

De backups zelf zijn niet veranderd, er is alleen eea veranderd aan de machine die ze uit moet voeren. En toch ben ik van +-1700kbyte naar de helft daarvan gegaan.

Buiten dat:
Ook zou ik dan nog steeds een veel betere performance verwachten bij die 100 en 500MB files; 20MBit is niet bepaald snel als je heel veel wil copieren.

Alleen wantrouw ik isp, router en virtualisatie setup ook niet. Zal het eens bij een fysieke bak in dezlfde colo proberen vanavond.

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Even een update:

ik heb net een fors lompe bonnie run in de VM gedaan, waarbij ik 10x 4GB heb getest (ding heeft 512meg mem).
Hij heeft ergens druk gehad met 22megabyte per seconde, maar gemiddeld zit hij rond de 40megabyte.
Ook een random seek of 140/seconde zou niet verkeerd moeten zijn.

Met andere woorden: ik denk de IO van mijn virtualisatieplatform te kunnen elimineren als boosdoener.

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Heb vandaag eens op mijn NFS store (colocated) een backupje getrokken van een 500megabyte file. Dit ging met 2 megabyte/seconde. Zelfde setup als hierboven maar dan geen gevirtualiseerde file-daemon.

Ook niet heel best, maar wel duidelijk beter.

Iemand nog ideeen? :/

[ Voor 14% gewijzigd door Boudewijn op 14-12-2011 19:32 ]

i3 + moederbord + geheugen kopen?


Acties:
  • 0 Henk 'm!

  • Hero of Time
  • Registratie: Oktober 2004
  • Laatst online: 11:16

Hero of Time

Moderator LNX

There is only one Legend

Zut kleine bestanden maken en daarmee meten? En anders tijdens de backup iotop draaien en kijken wat er precies gebeurt op beide machines.

Commandline FTW | Tweakt met mate


Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
De fd heeft nu en dan een piekje van bacula maar eigenlijk vrij zelden.

Ik zie op de director/sd machine continu dit:
code:
1
  254 be/3 root        0.00 B/s    0.00 B/s  0.00 % 64.08 % [jbd2/sdb1-8]

Dat is dus de ext4 journalling die opspeelt. sdb is de OS schijf met daarop ook de bootstrap van bacula.
Als ik echter iostat ga draaien zie ik dat het systeem 92% idele is en 8% iowait. Lijken me ook geen rare getallen.

code:
1
2
3
4
5
Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn
sdb              31.63        11.77       551.09    3915411  183354008
sda               0.35        31.52         0.11   10487876      36184
sdc               0.57         1.98       479.27     657888  159459049
dm-0              2.56         1.98       479.27     657424  159459049

sda is de oude ssd , die ik in principe niet meer gebruik (maar waar ik wel wat oude configs vanaf jat). Volgens mij gaat daar sowieso iets mis:

code:
1
2
3
4
5
6
7
8
9
10
Filesystem           1K-blocks      Used Available Use% Mounted on
/dev/sda1             96141068   2589300  88668008   3% /
none                   1028212       100   1028112   1% /dev
192.168.1.43:/backup 5812636032 5683579648 129056384  98% /bacula
192.168.1.43:/media  5812636032 5683579648 129056384  98% /media
192.168.1.43:/prive  5812636032 5683579648 129056384  98% /prive
/dev/sda1             29470696  24638932   3334728  89% /ssd
/dev/sdb6            861442888   9947944 851494944   2% /home
/dev/mapper/san--vol-bacula
                     2096128000 479543592 1616584408  23% /bacula2

Lol whut....


En toen zei ook deze disk tik en was de machine einde oefening. morgen maar weer eens een SSD kopen en de PSU checken. :/.

[ Voor 3% gewijzigd door Boudewijn op 14-12-2011 23:14 ]

i3 + moederbord + geheugen kopen?


  • Hero of Time
  • Registratie: Oktober 2004
  • Laatst online: 11:16

Hero of Time

Moderator LNX

There is only one Legend

;w voor de HDD. Dat verklaart dus het een en ander. SSDs ftw :>

Commandline FTW | Tweakt met mate


  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Hero Of Time schreef op donderdag 15 december 2011 @ 09:49:
;w voor de HDD. Dat verklaart dus het een en ander. SSDs ftw :>
De eerste schijf was een SSD. DIe fikte vorige week af.

;w :F :F ;(

i3 + moederbord + geheugen kopen?


  • Hero of Time
  • Registratie: Oktober 2004
  • Laatst online: 11:16

Hero of Time

Moderator LNX

There is only one Legend

Oeps :X. Dat is dan natuurlijk helemaal niet leuk, twee schijven in korte tijd.

Commandline FTW | Tweakt met mate


Acties:
  • 0 Henk 'm!

  • Snow_King
  • Registratie: April 2001
  • Laatst online: 08:40

Snow_King

Konijn is stoer!

Bacula leunt best wel zwaar op zijn MySQL database, dat merkten wij in onze omgeving (500 miljoen files + 40 hosts) heel goed.

Op een RAID-set van SAS 15k RPM disks was de boel nog niet snel te krijgen, pas nadat de director zijn catalog op SSD's draaide kwam de boel op snelheid.

Vooral de "File" tabel is erg druk bij het gebruik van Bacula.

Wij moesten op een gegeven moment naar InnoDB schakelen omdat MyISAM de vele INSERT's niet meer aan kon.

Acties:
  • 0 Henk 'm!

  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

Topicstarter
Goed, we hebben weer een verse SSD in de machine zitten maar backups willen nog steeds niet echt lekker.
Hij is eventjes bezig met zijn backups en omdat eea niet tegelijk kan hebben we een fijne bottleneck.

Volgens iotop wordt er ongeveer 500-2000kbyte per seconde weggeschreven, wat wel redelijk klopt met de performance.
mysql lijkt ook geen problemen te vormen; ik zie hem niet terug in top, en ook geen rare logging.


Mijn huidige iostat:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
root@leiden:/var/log# iostat 
Linux 2.6.32-5-686 (leiden)     01/03/2012  _i686_  (2 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           1.09    5.25    1.11    0.01    0.00   92.54

Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn
sda               3.49         4.52        72.15    2176792   34774288
dm-0              0.05         0.46         0.03     223348      12984
dm-1              0.00         0.00         0.00       1080          0
dm-2              0.14         1.65         0.58     795074     281512
dm-3              8.82         2.23        69.97    1074402   33722720
dm-4              0.79         0.07         1.57      35162     755710
dm-5              0.00         0.01         0.00       4090       1328
sdb               0.97         0.03       840.42      14586  405062631
dm-6              0.99         0.03       840.42      14441  405062631

Waarbij /dev/sdb mijn SAN is.


Net ook nog even op dat sannetje ingelogd: load is 0.0x en iostat boeit ook niet echt:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Linux 2.6.37.6.RNx86_64.2.1 (leidennas)     01/03/2012

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.13    0.00    2.93    0.10    0.00   96.84

Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn
sda              51.36      6550.34       119.36 19528245812  355837618
sda1              0.40         0.23         5.13     696830   15298840
sda2              0.00         0.00         0.00       1812        320
sda3             50.94      6550.10       114.23 19527545682  340538458
sdb              68.70      6550.00       119.32 19527259300  355733082
sdb1              0.40         0.29         5.13     855859   15298840
sdb2              0.00         0.00         0.00        960        432
sdb3             68.28      6549.72       114.19 19526399953  340433810
sdc              67.68      6550.41       119.35 19528477826  355823010
sdc1              0.40         0.28         5.13     836369   15298840
sdc2              0.00         0.00         0.00        704        432
sdc3             67.26      6550.13       114.22 19527639137  340523738
sdd              65.20      6550.18       119.27 19527781601  355572970
sdd1              0.40         0.24         5.13     703288   15298840
sdd2              0.00         0.00         0.00        576        440
sdd3             64.79      6549.94       114.14 19527076121  340273690
md0               0.64         1.03         4.88    3084844   14557312
md1               0.00         0.00         0.00        672        648
md2              44.12        50.31       341.26  149991892 1017371608
dm-0             43.12        42.44       341.20  126527250 1017208072

Als de (vertraagde) cyclus klaar is zal ik eens kijken of ik naar de lokale SSD kan schrijven om zodoende die bottleneck te elimineren.

i3 + moederbord + geheugen kopen?

Pagina: 1