C# - custom document database - inzicht mbt full text index

Pagina: 1
Acties:

Onderwerpen


Acties:
  • 0 Henk 'm!

  • SideShow
  • Registratie: Maart 2004
  • Laatst online: 16-06 15:55

SideShow

Administrator

Topicstarter
Hallo

Om mijzelf te amuseren/bij te leren, ben ik een simpele document database aan het maken.

Per type heb ik eigenlijk een db file en een index file. De index file houdt momenteel gewoon de id, de startpositie en de lengte vast van de documenten in de db file, zodanig dat de db reader direct naar de juiste positie springt.

Dit werkt verbazend simpel en goed eigenlijk. Testjes gedaan met tienduizenden documenten, db file van honderden megabytes, ... gebeurt allemaal instant.

Ik zou graag ook full text search kunnen doen. Een index maken op een bepaalde property is in deze simpele aanpak natuurlijk geen probleem, maar bij velden met lange teksten waar je FT search op wil doen, kan dat natuurlijk wel een stuk beter.

Ik ben me bewust van enkele valkuilen zoals accenten, interpretatie van de zoekopdracht, encoding, enzoverder, maar heeft iemand soms nog ideeën over hoe je dit best aanpakt? Ik veronderstel dat de meest simpele aanpak is om ieder woord apart te indexeren? Waar de gebruiker dan wel heel snel tegen de limieten aanbotst.

Bedoeling is om een lijstscherm op te bouwen, met een zoekbox erboven, die realtime filtert.

Acties:
  • 0 Henk 'm!

  • NetForce1
  • Registratie: November 2001
  • Laatst online: 17-09 16:09

NetForce1

(inspiratie == 0) -> true

Dat kun je inderdaad doen door per woord op te slaan in welke document dat woord voorkomt (en evt op welke posities). Zie: Wikipedia: Inverted index. Kijk ook eens hoe dat in Lucene is geimplementeerd.

De wereld ligt aan je voeten. Je moet alleen diep genoeg willen bukken...
"Wie geen fouten maakt maakt meestal niets!"


Acties:
  • 0 Henk 'm!

  • RobIII
  • Registratie: December 2001
  • Niet online

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

(overleden)
Denk ook aan stemming en andere zaken die een beetje FT ondersteunt ;)

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij