Toon posts:

C# - custom document database - inzicht mbt full text index

Pagina: 1
Acties:

Onderwerpen


  • SideShow
  • Registratie: Maart 2004
  • Laatst online: 24-03 20:13
Hallo

Om mijzelf te amuseren/bij te leren, ben ik een simpele document database aan het maken.

Per type heb ik eigenlijk een db file en een index file. De index file houdt momenteel gewoon de id, de startpositie en de lengte vast van de documenten in de db file, zodanig dat de db reader direct naar de juiste positie springt.

Dit werkt verbazend simpel en goed eigenlijk. Testjes gedaan met tienduizenden documenten, db file van honderden megabytes, ... gebeurt allemaal instant.

Ik zou graag ook full text search kunnen doen. Een index maken op een bepaalde property is in deze simpele aanpak natuurlijk geen probleem, maar bij velden met lange teksten waar je FT search op wil doen, kan dat natuurlijk wel een stuk beter.

Ik ben me bewust van enkele valkuilen zoals accenten, interpretatie van de zoekopdracht, encoding, enzoverder, maar heeft iemand soms nog ideeën over hoe je dit best aanpakt? Ik veronderstel dat de meest simpele aanpak is om ieder woord apart te indexeren? Waar de gebruiker dan wel heel snel tegen de limieten aanbotst.

Bedoeling is om een lijstscherm op te bouwen, met een zoekbox erboven, die realtime filtert.

  • NetForce1
  • Registratie: November 2001
  • Laatst online: 24-03 22:13

NetForce1

(inspiratie == 0) -> true

Dat kun je inderdaad doen door per woord op te slaan in welke document dat woord voorkomt (en evt op welke posities). Zie: Wikipedia: Inverted index. Kijk ook eens hoe dat in Lucene is geimplementeerd.

De wereld ligt aan je voeten. Je moet alleen diep genoeg willen bukken...
"Wie geen fouten maakt maakt meestal niets!"


  • RobIII
  • Registratie: December 2001
  • Laatst online: 12:47

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

Denk ook aan stemming en andere zaken die een beetje FT ondersteunt ;)

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Roses are red Violets are blue, Unexpected ‘{‘ on line 32.

Over mij



Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee