Grote Bayes DB van SpamAssassin

Pagina: 1
Acties:

  • Speedener
  • Registratie: September 2000
  • Laatst online: 06-02 14:57
Hoi :w ,

Op een mailserver van mij duurt het 3 tot 7 seconden om een e-mailtje te processen. Na wat zoekwerk kwam ik erachter dat het te maken had met de mailscan van spamassassin (deze pakt 90% van de processing tijd volgens de logs).

Toen ik nog verder keek zag ik dat de Bayes DB 40 Mb is (en blijft). Ik denk dat het hieraan ligt dat het zo lang duurt om de mail te spamchecken.

Nu heb ik geprobeerd via de SA config de bayes_expiry_max_db_size instelling op 150000 te zetten, dit zou dan ongeveer een DB van 6 a 8 mb moeten opleveren.

Maar de DB blijft maar 40 MB.

Heeft iemand een idee hoe ik de database kan verkleinen? Zonder het filter helemaal op nieuw te moeten trainen.

[ Voor 6% gewijzigd door Speedener op 30-05-2006 22:16 ]


  • xzenor
  • Registratie: Maart 2001
  • Laatst online: 14-10-2022

xzenor

Ja doe maar. 1 klontje suiker.

ik snap wel wat je bedoelt.. Mail processing duurt best lang, ook bij mij..
Maar volgens mij ligt dat ook aan de hoeveelheid rules die je gebruikt.
Dat mailtje wordt door al die rules heen getrokken en dat kost nou eenmaal tijd en cpu-power..

  • Speedener
  • Registratie: September 2000
  • Laatst online: 06-02 14:57
possamai schreef op woensdag 31 mei 2006 @ 09:05:
ik snap wel wat je bedoelt.. Mail processing duurt best lang, ook bij mij..
Maar volgens mij ligt dat ook aan de hoeveelheid rules die je gebruikt.
Dat mailtje wordt door al die rules heen getrokken en dat kost nou eenmaal tijd en cpu-power..
Maar zoveel rules heb ik helemaal niet.

Het is zo vervelend want mailformulieren in een php pagina bijv. wachten ook op het verzendproces.

  • DJ Buzzz
  • Registratie: December 2000
  • Laatst online: 22:00
Als dat laatste het geval is, kun je ook beter wat aan je mail setup veranderen. Ik weet niet hoe het nu in elkaar steekt, maar het moet makkelijk mogelijk te zijn om een SMTP server op te zetten die gelijk een mail accepteert en het daarna op de achtergrond eens rustig gaat scannen.

  • Speedener
  • Registratie: September 2000
  • Laatst online: 06-02 14:57
Daar moet ik inderdaad ook nog (even) naar kijken. Maar ik ben ook van mening dat 3 tot 7 seconden spamcheck op een P4 3Ghz te lang is. En op een andere server wordt het spamtaggen ook goed gedaan met een db van 6 mb.

  • xzenor
  • Registratie: Maart 2001
  • Laatst online: 14-10-2022

xzenor

Ja doe maar. 1 klontje suiker.

Ja inderdaad, dat doet mijn server ook gewoon hoor..
Hij prakt 'm mijn sendmail in, en die zet'm in een queue om door spamass heen te zuigen.
Verder hoeft niets daar op te wachten..
Heb je je spamass niet te ver naar boven staan in je mail server config?

[ Voor 6% gewijzigd door xzenor op 31-05-2006 10:25 ]


  • Speedener
  • Registratie: September 2000
  • Laatst online: 06-02 14:57
Ik zal eens kijken, SA is een beetje in de Qmail gehackt.

Kan ik trouwens een bayes database zomaar kopieren van bijv een andere server? OP een andere server hebben we namelijk wel een mooie getrainde DB die maar 6 mb is.

  • xzenor
  • Registratie: Maart 2001
  • Laatst online: 14-10-2022

xzenor

Ja doe maar. 1 klontje suiker.

kan..
ik heb laatst mijn db naar een vriend gekopieerd om dat ie te lui was zelf zijn db te vullen...
'k heb 'm nog gewaarschuwed dat ik andere mail krijg dan hij dus dat het best eens fout kan gaan doordat sommige ham als spam aangezien kan worden of andersom en het minder effectief zal werken dan bij mij..

Maargoed tot nu toe werkt het en issie tevreden.. dus het kan vrij makkelijk.

  • Speedener
  • Registratie: September 2000
  • Laatst online: 06-02 14:57
Maar het verkleinen van de huidige DB is lastig ?

  • xzenor
  • Registratie: Maart 2001
  • Laatst online: 14-10-2022

xzenor

Ja doe maar. 1 klontje suiker.

geen idee... nooit gedaan :)

  • Wilke
  • Registratie: December 2000
  • Laatst online: 22:56
3-7 seconden per e-mail is natuurlijk absurd.

Uhm....geen ervaring met grote mail servers, maar heeft Spamassasin geen daemon-mode waarbij het continu in het geheugen blijft, en het scannen veel sneller gaat omdat de DB niet steeds opnieuw hoeft te worden gelezen?

  • Seth4Chaos
  • Registratie: Maart 2001
  • Niet online

Seth4Chaos

that's me...

Wilke schreef op donderdag 01 juni 2006 @ 00:59:
3-7 seconden per e-mail is natuurlijk absurd.

Uhm....geen ervaring met grote mail servers, maar heeft Spamassasin geen daemon-mode waarbij het continu in het geheugen blijft, en het scannen veel sneller gaat omdat de DB niet steeds opnieuw hoeft te worden gelezen?
3 tot 7 seconden valt best mee hoor, doet ie bij mij ook. En dit is op een redelijk snel systeem die weinig tot niets te doen heeft. En ja spamassassin heeft een deamon mode (spamd en spamc) die ik dan ook gebruik.

Hetgeen waar veel tijd in gaat zitten zijn de 'network' test. Bij mij doet die RBL-DNS tests, Pyzor, Razor en DCC. erg effectieve tests maar die kosten eenmaal tijd (iets meer dan 2 seconden bij een snelle niet representatieve test)

Overigens is een Bayes DB van 40MB wel erg groot, maar of die daar echt veel langzamer van wordt weet ik niet. De grootste bottelneck zullen de vele rules zijn die verwerkt moeten worden.

[ Voor 5% gewijzigd door Seth4Chaos op 01-06-2006 09:31 ]

Mistakes are proof that you are trying...


  • zeroxcool
  • Registratie: Januari 2001
  • Laatst online: 09-01 14:32
Seth4Chaos schreef op donderdag 01 juni 2006 @ 09:30:
[...]
3 tot 7 seconden valt best mee hoor, doet ie bij mij ook. En dit is op een redelijk snel systeem die weinig tot niets te doen heeft. En ja spamassassin heeft een deamon mode (spamd en spamc) die ik dan ook gebruik.

Hetgeen waar veel tijd in gaat zitten zijn de 'network' test. Bij mij doet die RBL-DNS tests, Pyzor, Razor en DCC. erg effectieve tests maar die kosten eenmaal tijd (iets meer dan 2 seconden bij een snelle niet representatieve test)

Overigens is een Bayes DB van 40MB wel erg groot, maar of die daar echt veel langzamer van wordt weet ik niet. De grootste bottelneck zullen de vele rules zijn die verwerkt moeten worden.
En als SA niet als daemon draait dan moet dus iedere keer die (berkleydb?) in het geheugen geladen worden. Wat al een aardige performance hit wordt.

Bij 'ons' doet een mailtje er ook ongeveer 7 seconden over om gescand te worden. Voordeel is echter dat alles geaccept wordt op SMTP-niveau. Het wordt dan 'later' gescand, waardoor er dus geen delay is op SMTP-niveau.

zeroxcool.net - curity.eu

Pagina: 1