spamassasin verbeteren - Linux en overige clients

maandag 11 oktober 2004 11:44

Acties:

Verwijderd

Topicstarter

Ik draai suse slox (als test) met daarop maar 3 mail accounts.
Alles werkt naar behoren, ik heb spamassasin geupgrade naar 2.64 zoals op de spamassasin site beschreven (bij suse staan 2 verschillende upgrade verhalen en beide resulteren in niet werkende spamassasin).
En dat werkt maar volgens mij is er ruimte voor verbetering.
Spamassasin vindt minder als 50% van alle spam.
Via het sa-learn commando heb ik spamassasin geleerd met 2000 spam berichten en 2000 ham berichten. Maar ik heb het idee dat spamassasin out-of-the-box beter detecteerd als na al het learnen.
Autolearn staat uit, ik wil eerst zien dat learnen enig nut heeft.
Hoe kan ik de score van spamassasin verbeteren?

maandag 11 oktober 2004 11:55

Acties:

Hans

Paar tips

Net::DNS installeren voor RBL checks
Razor/Pyzor installeren
upgraden naar 3.0.0
Mail::SPF::Query installeren

maandag 11 oktober 2004 12:01

Acties:

Verwijderd

Topicstarter

bedankt voor de tips, ben ik wel weer even zoet mee.
Heeft upgraden naar 3.0 zoveel zin?
Is die versie specifiek zoveel beter in het spam aanwijzen zelf?
De extra randverschijnselen intereseren me namelijk weinig voorlopig en 3.0 wordt nog niet specief ondersteund door suse (maar ik ben niet vies van zelf wat proberen, het is toch een test server)

maandag 11 oktober 2004 13:02

Acties:

Guru Evi

3.0 is inderdaad een verbetering. Ook zou ik aanraden de rules du jour scripts te gebruiken

Pandora FMS - Open Source Monitoring - pandorafms.org

dinsdag 12 oktober 2004 02:22

Acties:

Kees

Serveradmin / BOFH / DoC

3.0 schijnt beter te zijn, en zoek ook eens op het 'RulesDuJour' script waarmee je van diverse sites de laatste rules kan plukken en in je spamassassin config kan zetten.
Een aangepaste ruleset haalt veel meer spam eruit.

"Een serveradmin, voluit een serveradministrator, is dan weer een slavenbeheerder oftewel een slavendrijver" - Rataplan

dinsdag 12 oktober 2004 10:48

Acties:

lordgandalf

ik ben bezig met Rules ToJour te implementeren in mun probeersel debaian sarge machine.
Maar zowel met SpamAssassin version 2.64 als 3.0 krijg ik steeds fouten met het uitvoeren van spamassassin --link. *zie beneden*
weet iemand hoe ik het wel goed aan de praat kan krijgen ?
Ik zouw het namelijk graag werkend willen zien

code:

Failed to parse line in SpamAssassin configuration, skipping: auto_report_t
hreshold   30
Failed to parse line in SpamAssassin configuration, skipping: spamphrase_highest_score 3
8220
Failed to parse line in SpamAssassin configuration, skipping: spamphrase 38220 temple ki
ff
Failed to parse line in SpamAssassin configuration, skipping: spamphrase 36580 kathmandu
 temple
Failed to parse line in SpamAssassin configuration, skipping: spamphrase 35770 million m
ails
Failed to parse line in SpamAssassin configuration, skipping: spamphrase 35710 subject r
emove
Failed to parse line in SpamAssassin configuration, skipping: spamphrase 33060 further m
ailings
Failed to parse line in SpamAssassin configuration, skipping: spamphrase 29530 seventh h
eaven
Failed to parse line in SpamAssassin configuration, skipping: spamphrase 28870 profiled
companies
Failed to parse line in SpamAssassin configuration, skipping: spamphrase 28270 removeyou
.....
Failed to run KNOWN_BAD_DIALUPS SpamAssassin test, skipping:
        (Can't locate object method "check_for_bad_dialup_ips" via package "Mail::SpamAs
sassin::PerMsgStatus" at /usr/share/perl5/Mail/SpamAssassin/PerMsgStatus.pm line 2293.
)
Failed to run NO_MX_FOR_FROM SpamAssassin test, skipping:
        (Can't locate object method "check_for_from_mx" via package "Mail::SpamAssassin:
:PerMsgStatus" at /usr/share/perl5/Mail/SpamAssassin/PerMsgStatus.pm line 2293.
)
Failed to run SUBJ_MISSING SpamAssassin test, skipping:
        (Can't locate object method "subject_missing" via package "Mail::SpamAssassin::P
erMsgStatus" at /usr/share/perl5/Mail/SpamAssassin/PerMsgStatus.pm line 2293.
)
Failed to run DATE_IN_FUTURE SpamAssassin test, skipping:
        (Can't locate object method "check_for_forward_date" via package "Mail::SpamAssa
ssin::PerMsgStatus" at /usr/share/perl5/Mail/SpamAssassin/PerMsgStatus.pm line 2293.
)

Steam: Profile / Socialclub: Profile / Uplay: minedwarf / Origin: lordgandalf3

dinsdag 12 oktober 2004 11:18

Acties:

Verwijderd

Topicstarter

Wilde gok maareh:
zo te zien mis je de package permsgstatus?
Ik ga ook rulesdujour implementeren, dus watch this space

dinsdag 12 oktober 2004 12:41

Acties:

Verwijderd

Met SA 3.0.0 scort spam nu gemiddeld 10 punten hoger dan met 2.64.
Vooral de surbl's dragen hier aan bij.
Verder gebruik ik dezelfde rules du jour als in 2.64.
Bayes auto learning staat aan, deze stond ook al aan in 2.64.

Ik heb zo'n 4000 spams en 9000 hams in de bayes database.

Als je gaat migreren van 2.x -> 3.0.0, lees dan de INSTALL en UPGRADE docs goed door.
Hierin is veel belangrijke en handige info te vinden voor je migratie.
Hierin kan je ook vinden dat een aantal config settings zijn gehernaamd, of zijn komen te vervallen.

Succes ermee!

dinsdag 12 oktober 2004 13:06

Acties:

lordgandalf

Verwijderd schreef op 12 oktober 2004 @ 11:18:
Wilde gok maareh:
zo te zien mis je de package permsgstatus?
Ik ga ook rulesdujour implementeren, dus watch this space

die is geinstalleerd

code:

cpan> install Mail::SpamAssassin::PerMsgStatus
Caught SIGINT
Mail::SpamAssassin::PerMsgStatus is up to date.

cpan>

hij zeurt over regels die te lang zijn en regels die hij niet geparsed kijgt

na een upgrade na 3.0 en het purge van spamassassin geeft lint geen error meer terug nu even rulesdujour proberen

het werkt thnx

PS: oeps zie dat ik gedubbel post heb

[ Voor 7% gewijzigd door lordgandalf op 12-10-2004 13:08 ]

Steam: Profile / Socialclub: Profile / Uplay: minedwarf / Origin: lordgandalf3

dinsdag 12 oktober 2004 15:24

Acties:

Verwijderd

salearn

Leer spamassassin train de database.

salearn --spam (voor de spam)

salearn --ham (voor niet spam)

Je kan middels mbox formaat en losse files.

Suc6

dinsdag 12 oktober 2004 19:01

Acties:

Verwijderd

het is niet zoals het hoort, en ik weet niet of je wat aan deze tip moet willen hebben.
Maar ik heb veel met Bogofilter gewerkt en mijn ervaring daarmee is dat als je hem traint met spam messages hij heel snel leert om het grootste deel van de spam eruit te filteren.
Maar als je hem dan gaat leren wat ham messages zijn, holt het percentage gepakte spam achteruit.

Zolang de algoritmes nog zo effectief zijn als ze nu zijn, is het volgens mij beter om spamfilters te trainen met een 10:1 ratio spam:ham...

Grappig, ik legde aan een stel Israelische users globaal uit hoe het spamfilter werkte.
Zeg ik zonder na te denken, so when it has too many bad words in it, it is marked as spam and deleted. And otherwise it's kosher, and it's marked as ham.

Kreeg ik me toch een paar bedenkelijke blikken toegeworpen..

dinsdag 12 oktober 2004 19:11

Acties:

Verwijderd

Ik draai 2.64, met autolearn aan en razor2 lookups.
Op dat systeem krijg ik echt een paar duizend spammails per dag.
In het begin kregen ze een paar punten hoger dan de normale mails, nu, een jaar later scoren de spammails in de 30 punten, en de normale mails scoren rond de -5 vanwege de autowhitelist adjustments. In de eerste paar dagen heb ik geloof ik 1 false positive gehad, maar daarna nooit meer.

Ik heb de volgende extra ruleset in local.cf:

code:

score RAZOR2_CF_RANGE_51_100 3.8
score RCVD_IN_SBL 2.226
score RCVD_IN_DSBL 1.412
score RCVD_IN_NJABL_PROXY 1.000
score RCVD_IN_SORBS_HTTP 2.202
score RCVD_IN_SORBS_MISC 2.408

Verder checked mijn mailserver automatisch op sbl en xbl's, en staat sender verify vrij streng. De meeste spam wordt er dus al uitgehaald voordat het uberhaubt bij SA terecht komt.
Geen idee of je hier wat aan hebt, maar imo zijn al die rare scripts en extra rommel onnodig. RBL checks filteren sowieso al 95% van alle spam. En dan bedoel ik geen RBL checks vanuit SA, maar gewoon door de mailserver. Dus listed in RBL => 550 en opzouten.

[ Voor 16% gewijzigd door Verwijderd op 12-10-2004 19:25 ]

dinsdag 12 oktober 2004 21:03

Acties:

_JGC_

Wat betreft 550 en in een RBL: Persoonlijk heb ik het niet zo op die dingen, ik gebruik zelf dan ook alleen de 2 die ik vertrouw: dat virus ding van BIT en de open relay RBL van ORDB.org.

Mijn backup MX staat in SORBS, DYNABLOCK, etc. Allemaal wel leuk en aardig, maar alles wat ik van backup MX binnenkrijg scoort dus wel extra punten als je niet oppast met die dingen.

dinsdag 12 oktober 2004 21:29

Acties:

Verwijderd

_JGC_ schreef op 12 oktober 2004 @ 21:03:
Wat betreft 550 en in een RBL: Persoonlijk heb ik het niet zo op die dingen, ik gebruik zelf dan ook alleen de 2 die ik vertrouw: dat virus ding van BIT en de open relay RBL van ORDB.org.

Mijn backup MX staat in SORBS, DYNABLOCK, etc. Allemaal wel leuk en aardig, maar alles wat ik van backup MX binnenkrijg scoort dus wel extra punten als je niet oppast met die dingen.

Dan moet je gewoon zorgen dat je daar niet in komt he? Je komt er niet zomaar in.
Ik vind die van ORDB.org zo goed als waardeloos, sbl-xbl.spamhaus.org vangt het meeste.

dinsdag 12 oktober 2004 22:57

Acties:

zeroxcool

Hans schreef op 11 oktober 2004 @ 11:55:
Paar tips
Net::DNS installeren voor RBL checks
Razor/Pyzor installeren
upgraden naar 3.0.0
Mail::SPF::Query installeren

Wat doet Mail::SPF::Query?

zeroxcool.net - curity.eu

woensdag 13 oktober 2004 00:01

Acties:

Verwijderd

slightly OT: ben van spamassassin naar DSPAM overgestapt, bevalt heel goed. Na korte trainingsperiode al heel nauwkeurig, na pakweg 3 weken kwam ik geen fouten meer tegen.

woensdag 13 oktober 2004 01:09

Acties:

Jordi

#1#1

DSPAM heeft ingewikkelder methoden dan Spamassassin om e-mail te classificeren en het is inderdaad verbazend na hoe weinig training DSPAM al beter scoort dan Spamassassin. Het is alleen wat lastiger om (goed) op te zetten. Misschien een idee om te proberen inderdaad. Het genoemde probleem "train ham en spam detection dropt" heb ik nog niet mogen zien op ons mailsysteem waar meer legitieme mail dan spam op bezorgd wordt in elk geval.

Grappig detail: de meeste spam is Engels. Verreweg de meeste mail die op de server binnenkomt, is Nederlands. Toen het eerste legitieme engelse mailtje (zag er wel een beeeeeetje spammerig uit) binnenkwam, werd dat gezien als spam

Na twee of drie keer "leer-als-niet-spam" kwam dat ook niet meer voor.

Het zal wel niet, maar het zou maar wel.

woensdag 13 oktober 2004 11:51

Acties:

Tomsworld

officieel ele fan :*

ZeRoXcOoL schreef op 12 oktober 2004 @ 22:57:
[...]

Wat doet Mail::SPF::Query?

http://spf.pobox.com/ & http://spf.pobox.com/downloads.html

Bij domeinen die spf geimplementeerd hebben de records checken.

"De kans dat een snee brood op een nieuw tapijt valt met de beboterde zijde onderaan, is recht evenredig met de prijs van het tapijt"

woensdag 13 oktober 2004 12:17

Acties:

_JGC_

Verwijderd schreef op 12 oktober 2004 @ 21:29:
[...]

Dan moet je gewoon zorgen dat je daar niet in komt he? Je komt er niet zomaar in.
Ik vind die van ORDB.org zo goed als waardeloos, sbl-xbl.spamhaus.org vangt het meeste.

Mja, kan ik er wat aan doen dat ik het niet nodig vind om mn persoonlijke mailserver te colocaten en dat ik geen business lijntjes in huis ga nemen om niet in SORBS en DYNABLOCK te staan? Ik kan er nix aan doen dat Chello en @home zich opgeven voor die lijsten

woensdag 13 oktober 2004 12:19

Acties:

Tomsworld

officieel ele fan :*

_JGC_ schreef op 13 oktober 2004 @ 12:17:
[...]

Mja, kan ik er wat aan doen dat ik het niet nodig vind om mn persoonlijke mailserver te colocaten en dat ik geen business lijntjes in huis ga nemen om niet in SORBS en DYNABLOCK te staan? Ik kan er nix aan doen dat Chello en @home zich opgeven voor die lijsten

Hetzelfde probleem hier, wat ik doe is ze wel gebruiken met een uitzondering voor be & nl ip space.

"De kans dat een snee brood op een nieuw tapijt valt met de beboterde zijde onderaan, is recht evenredig met de prijs van het tapijt"

zaterdag 13 november 2004 11:25

Acties:

sasquatch

Wat je nog kunt doen om je spamfilter aan te scherpen: zoals hier eerder ook gezegd is 99% van alle spam in het Engels. Met "ok_languages nl" in je config geef je engelse mailtjes al wat extra punten mee.

Verder maak ik zelf wat persoonlijke filtertjes die score's verlagen. Ik scan op mijn voornaam, een nederlandse aanhef, een nederlandse groet, mijn woonplaats of de naam van mijn school. Bijvoorbeeld:

body NL_AANHEF /(B|b)este|(H|h)oi|(G|g)eachte|(H|h)allo/
score NL_AANHEF -2.1
describe NL_AANHEF Bericht bevat Nederlandse aanhef