Goedendag,
Voor een soort van anti-fraude systeem moet ik een invoerbestand vergelijken met een grote database om te kijken naar mogelijke overeenkomsten. Het probleem is echt dat ik dus een stuk tekst (zeg een 500 woorden) moet vergelijken met ong een duizendtal artikelen van tussen de 200 en 2000 woorden. Echter kan ik hier geen fatsoenlijke algoritme voor vinden/bedenken.
Het enige wat enigszins in de buurt komt is Karp-Rabin (wat woorden hasht en dan hashes vergelijkt, als ik het goed begrepen heb?). Echter, het is te onnauwkeurig om per zin te hashen en te vergelijken(1 woord hoeft maar anders te zijn en de hash matcht niet) en te traag om per woord te vergelijken en aantal matches bij te houden.
Iemand nog ideeen over hoe ik dit aan kan pakken?
Oops, "database" mist in de topictitel
Voor een soort van anti-fraude systeem moet ik een invoerbestand vergelijken met een grote database om te kijken naar mogelijke overeenkomsten. Het probleem is echt dat ik dus een stuk tekst (zeg een 500 woorden) moet vergelijken met ong een duizendtal artikelen van tussen de 200 en 2000 woorden. Echter kan ik hier geen fatsoenlijke algoritme voor vinden/bedenken.
Het enige wat enigszins in de buurt komt is Karp-Rabin (wat woorden hasht en dan hashes vergelijkt, als ik het goed begrepen heb?). Echter, het is te onnauwkeurig om per zin te hashen en te vergelijken(1 woord hoeft maar anders te zijn en de hash matcht niet) en te traag om per woord te vergelijken en aantal matches bij te houden.
Iemand nog ideeen over hoe ik dit aan kan pakken?
Oops, "database" mist in de topictitel