Ik ben bezig om een internet applicatie te ontwikkelen waar een gebruiker een stukje tekst in kan typen. Uit deze tekst verwijder ik veel voorkomende woorden (ruis) en de andere woorden wil ik opzoeken in een MS SQL 2000 database (ik wil weten welke woorden uit mijn database voorkomen in de tekst).
Nu zag ik dat in T-SQL een COMPARE functie zat die gebruik maakt van het soundex-algoritme. Alleen is dit algoritme phonetisch, dus het is imo niet ontwikkeld voor typefouten. Ik zou liever het Levenshtein-algoritme of iets anders willen gebruiken.
Ik kan me voorstellen dat het netter is om deze logica niet bij de DBMS te leggen, maar het gaat om een prototype om de requirements duidelijk te maken.
ps. In de toekomst wil ik ook vervoegingen (stemming/lemmatisatie) toe gaan voegen aan het programma, is deze logica misschien ook bij de DBMS te leggen?
edit: Ik zit nu te denken. Zou dit in een stored procedure / trigger op te lossen zijn?
Nu zag ik dat in T-SQL een COMPARE functie zat die gebruik maakt van het soundex-algoritme. Alleen is dit algoritme phonetisch, dus het is imo niet ontwikkeld voor typefouten. Ik zou liever het Levenshtein-algoritme of iets anders willen gebruiken.
Ik kan me voorstellen dat het netter is om deze logica niet bij de DBMS te leggen, maar het gaat om een prototype om de requirements duidelijk te maken.
ps. In de toekomst wil ik ook vervoegingen (stemming/lemmatisatie) toe gaan voegen aan het programma, is deze logica misschien ook bij de DBMS te leggen?
edit: Ik zit nu te denken. Zou dit in een stored procedure / trigger op te lossen zijn?
[ Voor 5% gewijzigd door SavageNL op 23-02-2007 10:58 ]