Hallo
Om mijzelf te amuseren/bij te leren, ben ik een simpele document database aan het maken.
Per type heb ik eigenlijk een db file en een index file. De index file houdt momenteel gewoon de id, de startpositie en de lengte vast van de documenten in de db file, zodanig dat de db reader direct naar de juiste positie springt.
Dit werkt verbazend simpel en goed eigenlijk. Testjes gedaan met tienduizenden documenten, db file van honderden megabytes, ... gebeurt allemaal instant.
Ik zou graag ook full text search kunnen doen. Een index maken op een bepaalde property is in deze simpele aanpak natuurlijk geen probleem, maar bij velden met lange teksten waar je FT search op wil doen, kan dat natuurlijk wel een stuk beter.
Ik ben me bewust van enkele valkuilen zoals accenten, interpretatie van de zoekopdracht, encoding, enzoverder, maar heeft iemand soms nog ideeën over hoe je dit best aanpakt? Ik veronderstel dat de meest simpele aanpak is om ieder woord apart te indexeren? Waar de gebruiker dan wel heel snel tegen de limieten aanbotst.
Bedoeling is om een lijstscherm op te bouwen, met een zoekbox erboven, die realtime filtert.
Om mijzelf te amuseren/bij te leren, ben ik een simpele document database aan het maken.
Per type heb ik eigenlijk een db file en een index file. De index file houdt momenteel gewoon de id, de startpositie en de lengte vast van de documenten in de db file, zodanig dat de db reader direct naar de juiste positie springt.
Dit werkt verbazend simpel en goed eigenlijk. Testjes gedaan met tienduizenden documenten, db file van honderden megabytes, ... gebeurt allemaal instant.
Ik zou graag ook full text search kunnen doen. Een index maken op een bepaalde property is in deze simpele aanpak natuurlijk geen probleem, maar bij velden met lange teksten waar je FT search op wil doen, kan dat natuurlijk wel een stuk beter.
Ik ben me bewust van enkele valkuilen zoals accenten, interpretatie van de zoekopdracht, encoding, enzoverder, maar heeft iemand soms nog ideeën over hoe je dit best aanpakt? Ik veronderstel dat de meest simpele aanpak is om ieder woord apart te indexeren? Waar de gebruiker dan wel heel snel tegen de limieten aanbotst.
Bedoeling is om een lijstscherm op te bouwen, met een zoekbox erboven, die realtime filtert.