Ik probeer in Java 2 verschillende soorten domains te onderscheiden. (wel hoofdlettergevoelig hier)
Voorbeeld van set 1:
h6.hjnsfb.Rn.z.L
xmC41bL5.aRL3cmg
H.QsE.XrG.URGyND
EzvFQVs.QoMcXgva
k.t.H.x.G.b.tcQJ
Voorbeeld van set 2:
voorbeeld.nu.pro
een.ander.Iets2d
de666.test.test2
TEST.TEST.VOOR.A
lang.de.groot.ik
De bedoeling is dus om een onderscheid te kunnen maken tussen deze 2 sets met mogelijke domain names, op een zo makkelijk en efficient mogelijke manier, met als doel om de 1e soort domains te kunnen detecteren, met zo veel mogelijk accuracy, maar bij de 2e soort zo weinig mogelijk false positives te hebben.
Wat ik al geprobeerd heb:
Voorbeeld van set 1:
h6.hjnsfb.Rn.z.L
xmC41bL5.aRL3cmg
H.QsE.XrG.URGyND
EzvFQVs.QoMcXgva
k.t.H.x.G.b.tcQJ
Voorbeeld van set 2:
voorbeeld.nu.pro
een.ander.Iets2d
de666.test.test2
TEST.TEST.VOOR.A
lang.de.groot.ik
De bedoeling is dus om een onderscheid te kunnen maken tussen deze 2 sets met mogelijke domain names, op een zo makkelijk en efficient mogelijke manier, met als doel om de 1e soort domains te kunnen detecteren, met zo veel mogelijk accuracy, maar bij de 2e soort zo weinig mogelijk false positives te hebben.
Wat ik al geprobeerd heb:
- Combinatie van verschillende methoden (kijken naar het aantal hoofdletters, hoe vaak die zich afwisselen, ...) zo kwam ik tot 14% false negatives, maar ik denk dat dat beter moet kunnen.
- Naive Bayes classifier: dat lukte helemaal niet. Misschien komt het door het soort strings.
[ Voor 5% gewijzigd door wwx op 14-01-2018 14:33 ]