Check alle échte Black Friday-deals Ook zo moe van nepaanbiedingen? Wij laten alleen échte deals zien

[xapian] zoeken door berichten op forum

Pagina: 1
Acties:

  • simon
  • Registratie: Maart 2002
  • Laatst online: 19:36
Beste GoTters,

Aangezien de GoT search op Xapian/Omega draait/draaide (weet 't nu niet precies) leek dit me wel een plek waar enige xapian expertise was.

Ik ben net begonnen met het opzetten van een Xapian zoekmachine voor een forum, dit omdat full text search gewoon niet de goed genoeg is en Google niet de oude resultaten indexeert.

Nu zit ik met 't volgende. Ik indexeer de losse berichten, en maak daar losse documents van. En zet vervolgens de docid in een veld bij een message voor terugkoppeling. Maar dat levert een aantal problemen bij de resultaten op.

Als ik de resultaten lijst opmaak geef op ik van hoeveel tot hoeveel resultaten ik wil zien, nu zijn dit berichten, en ik wil dit graag groeperen per topic. Ik zou die lijst met opgehaalde berichten kunnen verwerken en aan een topic kunnen kopelen, en dat presenteren. Maar als ik dan in Xapian $matches = $enquire->get_mset(0, 100); gebruik klopt deze 100 resultaten niet meer. Dit wordt dan een aantal minder (afhankelijk van de verspreiding over topics) en om nu 0, 1000000 te doen en dat in PHP te gaan verwerken lijkt me niet verstandig.

Via Google kon ik weinig hierover vinden (kan aan mijn zoekwoorden liggen) en ook de docs zijn wat dit betreft (verwerking sowieso) heel summier.

Kan iemand mij hier bij helpen? Het aanpassen van mijn indexeringsmechanisme kan ook nog (dus geheel topic) maar ik denk niet dat dat de kwaliteit van 't zoeken verbetert..

Alvast dank.

|>


  • simon
  • Registratie: Maart 2002
  • Laatst online: 19:36
* kick *

|>


  • ACM
  • Registratie: Januari 2000
  • Niet online

ACM

Software Architect

Werkt hier

Simon schreef op vrijdag 28 september 2007 @ 13:25:
Aangezien de GoT search op Xapian/Omega draait/draaide (weet 't nu niet precies) leek dit me wel een plek waar enige xapian expertise was.
Niet zo veel hoor... Je kan beter met je vraag op de mailinglist terecht.
Als ik de resultaten lijst opmaak geef op ik van hoeveel tot hoeveel resultaten ik wil zien, nu zijn dit berichten, en ik wil dit graag groeperen per topic. Ik zou die lijst met opgehaalde berichten kunnen verwerken en aan een topic kunnen kopelen, en dat presenteren. Maar als ik dan in Xapian $matches = $enquire->get_mset(0, 100); gebruik klopt deze 100 resultaten niet meer. Dit wordt dan een aantal minder (afhankelijk van de verspreiding over topics) en om nu 0, 1000000 te doen en dat in PHP te gaan verwerken lijkt me niet verstandig.
Dat is nogal een nadeel ja. En een van de redenen dat we het hier per topic indexeren ipv per message. Maar je zou bij kunnen houden welke topics je al gehad hebt bij de vorige pagina's en dan een boolean-not kunnen construeren om zo de vervolgpagina's te krijgen. Nadeel daar weer van is dat de relevantie wat onnatuurlijk verloopt.

  • simon
  • Registratie: Maart 2002
  • Laatst online: 19:36
Ok, per topic wordt 't dus.. In ieder geval bedankt voor je antwoord. Daar kan ik al veel mee.

|>


  • simon
  • Registratie: Maart 2002
  • Laatst online: 19:36
Oh ACM, misschien kun je me hierbij wel helpen. Hoe doen jullie het dan met rechten en subfora? Ik heb me nu aangemeld voor die lijst.. Ze mogen iig wel wat extra bij de docs over 't verwerken van de resultaten zetten..

|>