[spamassassin sa-learn] welke mail door bayes herkend?

Pagina: 1
Acties:
  • 128 views sinds 30-01-2008
  • Reageer

  • usr-local-dick
  • Registratie: September 2001
  • Niet online
Hoi

Ik heb spamassassin-2.55 draaien op een debian machine en ben aan het experimenteren met bayes learning (sa-learn).
Wat ik me afvraag is of het mogelijk is om te zien welke mailtjes er herkend zijn door het learning gedeelte.
De gewone spamassassin werkt prima, mailtjes worden getagged en in een aparte IMAP map gezet.
Stel er is een spam mailtje wat niet door de standaard spamassassin herkend wordt, maar wel door je bayesian rules, kun je dat dan ergens zien?

Dit dus om het leerproces te volgen, ben wel benieuwd hoe die black magic van hun werkt :)

  • RvdH
  • Registratie: Juni 1999
  • Laatst online: 19-02 14:54

RvdH

Uitvinder van RickRAID

sa-learn aanroepen met -D (debug).

  • usr-local-dick
  • Registratie: September 2001
  • Niet online
strlen schreef op 21 August 2003 @ 16:18:
sa-learn aanroepen met -D (debug).
sa-learn roep ik alleen aan vanuit cron, ik wil het per gefilterd bericht zien...

  • RvdH
  • Registratie: Juni 1999
  • Laatst online: 19-02 14:54

RvdH

Uitvinder van RickRAID

Spamassassin gebruikt je Bayesian filters wanneer het genoeg ham & spam heeft vergaard, en pas dan kun je zien wat de score was in Bayesian, dat staat in de spamassassin headers van het mailtje..

Ik weet niet zeker wat je bedoeling is, en of je begrijpt wat sa-learn doet. sa-learn kijkt niet of een bericht spam is of niet. sa-learn laat de filters weten of een bericht (wat jij dus invoert) spam of ham is (en dat geef je ook op), zodat de filters het algoritme weer toe kunnen passen in spamassassin.

Dus daarna kun je aan de mailheaders zien wat voor score een mail heeft gehad van de bayes filters, en wat voor score van andere tests van spamassassin..

  • usr-local-dick
  • Registratie: September 2001
  • Niet online
Inderdaad, mijn spam boxje is nu ca. 5000 berichten groot, en je kan idd zien dat sinds een week ofzo bepaalde scores verhoogd zijn, dit moet dus door de bayesian filters komen.
Als ik bv. mijn spambox grep op NO_REAL_NAME dan zie ik dit:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
NO_REAL_NAME       (0.8 points)  From: does not include a real name
NO_REAL_NAME       (0.8 points)  From: does not include a real name
NO_REAL_NAME       (0.8 points)  From: does not include a real name
NO_REAL_NAME       (0.8 points)  From: does not include a real name
NO_REAL_NAME       (0.8 points)  From: does not include a real name
NO_REAL_NAME       (0.8 points)  From: does not include a real name
NO_REAL_NAME       (0.8 points)  From: does not include a real name
NO_REAL_NAME       (0.8 points)  From: does not include a real name
NO_REAL_NAME       (0.8 points)  From: does not include a real name
NO_REAL_NAME       (0.8 points)  From: does not include a real name
NO_REAL_NAME       (0.8 points)  From: does not include a real name
NO_REAL_NAME       (0.8 points)  From: does not include a real name
NO_REAL_NAME       (0.8 points)  From: does not include a real name
NO_REAL_NAME       (0.8 points)  From: does not include a real name
NO_REAL_NAME       (0.8 points)  From: does not include a real name
NO_REAL_NAME       (0.8 points)  From: does not include a real name
NO_REAL_NAME       (0.8 points)  From: does not include a real name
NO_REAL_NAME       (0.8 points)  From: does not include a real name
NO_REAL_NAME       (0.8 points)  From: does not include a real name
NO_REAL_NAME       (0.8 points)  From: does not include a real name
NO_REAL_NAME       (1.1 points)  From: does not include a real name
NO_REAL_NAME       (1.1 points)  From: does not include a real name
NO_REAL_NAME       (1.1 points)  From: does not include a real name
NO_REAL_NAME       (1.1 points)  From: does not include a real name
NO_REAL_NAME       (1.1 points)  From: does not include a real name
NO_REAL_NAME       (1.1 points)  From: does not include a real name
NO_REAL_NAME       (1.1 points)  From: does not include a real name
NO_REAL_NAME       (1.1 points)  From: does not include a real name
NO_REAL_NAME       (1.1 points)  From: does not include a real name
NO_REAL_NAME       (1.1 points)  From: does not include a real name
NO_REAL_NAME       (1.1 points)  From: does not include a real name
NO_REAL_NAME       (1.1 points)  From: does not include a real name
NO_REAL_NAME       (1.1 points)  From: does not include a real name
NO_REAL_NAME       (1.1 points)  From: does not include a real name
NO_REAL_NAME       (1.1 points)  From: does not include a real name
NO_REAL_NAME       (1.1 points)  From: does not include a real name
NO_REAL_NAME       (1.1 points)  From: does not include a real name
NO_REAL_NAME       (1.1 points)  From: does not include a real name
NO_REAL_NAME       (1.1 points)  From: does not include a real name
NO_REAL_NAME       (1.1 points)  From: does not include a real name


Het verhogen van de score is op het tijdstip gebeurd waar ik bayesian rules aan heb gezet. Als we aannemen dat gemiddeld genomen alle hits iets meer punten krijgen dan zou ik nu substantieel minder spam moeten krijgen.
En inderdaad, ik heb al bijna twee dagen geen enkel spambericht meer.
TSING :)

  • Arzie
  • Registratie: Juni 1999
  • Laatst online: 13:14
Hm, ik zou eerder zoiets verwachten:

code:
1
BAYESIAN_FILTER        (2.0 points)   Bayesian score


In plaats van aanpassingen van de scores van andere tests.

[ Voor 23% gewijzigd door Arzie op 28-08-2003 20:42 ]


  • usr-local-dick
  • Registratie: September 2001
  • Niet online
Je hebt gelijk, ik zie sinds kort dit soort dingen:
code:
1
BAYES_90           (3.0 points)  BODY: Bayesian classifier says spam probability is 90 to 99%


fijn :)

  • Egbert
  • Registratie: Juni 1999
  • Laatst online: 12-12-2025
Het is zo dat óók de scores van de bestaande rules worden aangepast als bayes filter actief is, naast dat die zn eigen score toevoegd.
Weet iemand waarom dat is?
Pagina: 1