Search wordt minder makkelijk

Ik geloof dat in de volgende versie van React direct naar de juiste pagina wordt verwezen; althans: zoiets meen ik eerder hier te hebben gelezen (in een dergelijk topic

zondag 11 mei 2003 14:33

Acties:

http://search.gathering.tweakers.net/forum/find

Fotograaf

GGS_VR6 schreef op 11 May 2003 @ 14:17:
Misschien is de Omega search iets voor je

offtopic:
ehm, waarom zou je die gebruiken?
React gebruikt nu standaard de omega engine, en de search van react werkt net even lekerder dan die omega

zondag 11 mei 2003 20:18

Acties:

JvS

Ik heb hem zelf ook

Grote topics zijn vaak topics waar geen relevante informatie in staat over problemen enzo maar ouwehoer of "ervaring uitwisselen" topics. Als jij iets niet kan vinden omdat het in een groot topic staat, kan je gewoon een topic openen (waarin je dat duidelijk aangeeft). Op die manier hou je de search duidelijk.

Want in het GC topic staat alleen gezwets over wat er uitkomt, in het TFT ervaringentopic staan gewoon een hoop tft's die nu te koop zijn ter discussie (een jaar later terugzoeken is dus niet boeiend), problemen of dat soort dingen kan je gewoon een eigen topic voor openen.

Die "ervaringentopics" zijn er om te voorkomen dat er elke dag topics komen met "is dit wat?" over een tft of wat dan ook, die ervaringen kan je dus doorlezen door dat topic te lezen.

[ Voor 4% gewijzigd door JvS op 11-05-2003 20:18 ]

4x APsystems DS3; 4x495Wp OZO/WNW 10° ; 4x460Wp OZO/WNW 10°; Totaal 3820Wp

zondag 11 mei 2003 20:21

Acties:

Dat is waar als je iets zoekt waarover je een vraag hebt. Ik zoek echter regelmatig (nou ja, af en toe) iets op waar ik bijvoorbeeld een foto heb gepost in een der Digitale Foto-topics. Nu doe ik dat inderdaad door veel posts op een pagina te zetten en dan te CTRL-F'en, maar dat is niet de meest handige manier...

zondag 11 mei 2003 20:54

Acties:

Maar de search engine WEET welke message de hit opleverde, hij weet dan ook de positie van die message in de thread. Hij weet ook van de gebruiker de instelling van de hoeveelheid messages per page. Het is een kleine moeite de functies die er al zijn (nl, wanneer je een nieuwe message toevoegt aan een thread op pag 1 en de thread heeft 10 pages voor jou, hij automatisch opzoekt welke page je nieuwe message staat) te omvatten met een nieuwe functie die middens een message index in een thread en de thread en de user uit te rekenen welke page moet worden geopend en welk messageid achter het '#' in de url moet worden geplaatst (die code is er ook al).

Waarom wordt dat dan niet gedaan? Ik heb hier ook al eens over geklaagd, maar het is kennelijk teveel moeite. Ik vind dit raar want het IS weinig moeite en het levert een groot plezier op.

Verder vind ik het een beetje gelul als de grote topics als 'zwetstopics' worden afgeschilderd, want bv in het procs en mobo forum staan veel threads met veel messages en die staan soms echt vol met info waar je echt wat aan hebt. Die komen dan in de search naar voren maar je kunt geen reet met de resultaten. Dan moet je eerst zelf met je instellingen prutsen of iets met de url doen.

Halloooooo!!! dat kan dit forum toch ook zelf? Waarom zit dat niet in die software? Software heb je om het de gebruiker makkelijk te maken, niet om de gebruiker te naggen met dingen die die software echt heel simpel zelf kan opzoeken.

De gebruiker moet de search gebruiken. Goed streven. Zorg dan ook dat die search werkt op een zodanige manier dat die gebruiker er wat aan heeft. Nu is dat in sommige gevallen absoluut niet het geval, terwijl dat toch zo makkelijk kan.

[ Voor 9% gewijzigd door EfBe op 11-05-2003 20:56 ]

Creator of: LLBLGen Pro | Camera mods for games
Photography portfolio: https://fransbouma.com

zondag 11 mei 2003 20:57

Acties:

Fotograaf

EfBe schreef op 11 May 2003 @ 20:54:
Maar de search engine WEET welke message de hit opleverde, hij weet dan ook de positie van die message in de thread. Hij weet ook van de gebruiker de instelling van de hoeveelheid messages per page.

de search engine weet voor zover ik weet alleen in welke thread bepaalde woorden voorkomen en niet in welke post

dit omdat de engine dan alle posts bij een thread moet gaan zoeken om zo het beste resultaat te geven

zondag 11 mei 2003 20:57

Acties:

Even voortbordurend op jouw frustratie: veelal wordt ook gezegd (voorbeeld) als iemand vraagt: 'tot hoever deze proc over te clocken' -> 'Daar heb je dit en dit topic voor van 40 pagina's'...

^{(Dit ook ter aanvulling op mijn bovenste post, waarin ik het alleen heb over eigen dingen opzoeken).}

zondag 11 mei 2003 20:58

Acties:

Erkens schreef op 11 May 2003 @ 20:57:
[...]

de search engine weet voor zover ik weet alleen in welke thread bepaalde woorden voorkomen en niet in welke post
dit omdat de engine dan alle posts bij een thread moet gaan zoeken om zo het beste resultaat te geven

Hmmm... als dit idd waar is, dan heb je wel een punt te pakken... Jammer

zondag 11 mei 2003 20:58

Acties:

JvS

Ik heb hem zelf ook

Mijn mening is als er problemen over producten besproken worden, dat dit in een apart topic moet. Heel simpel. Grote topics zijn erg vervelend als je informatie zoekt. Grote radeontopics zijn er de oorzaak van, dat je op het forum bijzonder weinig over de radeon 7200 kan vinden (alleen grote topics).

Linken naar posts is volgens mij ondoenlijk, omdat de search zoekt naar steekwoorden in een thread en niet specifiek naar in welke post (volgens mij wordt dat ook niet vastgelegd, kan ik mis hebben). Verder heb je aan een enkele post niet zoveel, omdat je dan de vraag eventueel moet opzoeken.

Mijn mening: als je een probleem zelf niet kan oplossen en het is ook niet vindbaar of al 100.000keer besproken, dan is het (mits met een goede topicstart) een eigen topic waard, zodat het later ook weer goed gevonden kan worden.

'tot hoever deze proc over te clocken' -> 'Daar heb je dit en dit topic voor van 40 pagina's'...

Dat is dan typisch zo'n geval van een nutteloos topic, waarvoor een groot topic een gedoogtopic is. Het is een nutteloze vraag (die zelfs in de FAQ beantwoord staat).

[ Voor 15% gewijzigd door JvS op 11-05-2003 21:05 ]

4x APsystems DS3; 4x495Wp OZO/WNW 10° ; 4x460Wp OZO/WNW 10°; Totaal 3820Wp

zondag 11 mei 2003 22:56

Acties:

Erkens schreef op 11 mei 2003 @ 20:57:
de search engine weet voor zover ik weet alleen in welke thread bepaalde woorden voorkomen en niet in welke post
dit omdat de engine dan alle posts bij een thread moet gaan zoeken om zo het beste resultaat te geven

huh? wordlists -> messages -> thread(s) -> forum(s)

Ik zie de link met thread niet, want de relatie wordlist - message is er wel, maar wordlist - thread is er niet. Zou ook een beetje dom zijn om het zo te rangschikken. Wellicht wel sneller zoeken, maar op zijn zachtst gezegd limiteer je jezelf dan wel gigantisch.

Creator of: LLBLGen Pro | Camera mods for games
Photography portfolio: https://fransbouma.com

zondag 11 mei 2003 22:58

Acties:

Fotograaf

EfBe schreef op 11 mei 2003 @ 22:56:
[...]

huh? wordlists -> messages -> thread(s) -> forum(s)

Ik zie de link met thread niet, want de relatie wordlist - message is er wel, maar wordlist - thread is er niet. Zou ook een beetje dom zijn om het zo te rangschikken. Wellicht wel sneller zoeken, maar op zijn zachtst gezegd limiteer je jezelf dan wel gigantisch.

volgens mij zijn de woorden per draad geindexeerd, en niet van losse messages

edit:
yup
Omega search manual #werking

In omega is ervoor gekozen om complete topics als losse documenten te beschouwen, omdat dit de kleinst mogelijke zinvolle verzameling informatie is voor het doel van deze searchengine. Losse reacties hebben vaak net niet genoeg betekenis en inhoud. Gevolg is dat de resultaten bij zoeken beperkt worden tot hele topics.

[ Voor 31% gewijzigd door Erkens op 11-05-2003 23:00 ]

zondag 11 mei 2003 23:45

Acties:

Software Architect

Werkt hier

* ACM gaat dit niet opnieuw uitleggen. Erkens heeft gelijk.

Ik heb wel een enigszins bruikbaar idee om het te maken, maar echt snel is dat niet te implementeren (kwa code wel snel, maar kwa tijdsbestek waarin ik dat beschikbaar kan maken niet).

zondag 11 mei 2003 23:49

Acties:

maandag 12 mei 2003 10:09

Fotograaf

ACM schreef op 11 May 2003 @ 23:45:
* ACM gaat dit niet opnieuw uitleggen. Erkens heeft gelijk.

Maar ik lees enkel faq's enzo hoor, dit had iedereen kunnen weten/lezen

Ik heb wel een enigszins bruikbaar idee om het te maken, maar echt snel is dat niet te implementeren (kwa code wel snel, maar kwa tijdsbestek waarin ik dat beschikbaar kan maken niet).

mooi, en wat maakt het uit dat het lang duurt om te implementeren

Acties:

maandag 12 mei 2003 10:29

ACM schreef op 11 mei 2003 @ 23:45:
* ACM gaat dit niet opnieuw uitleggen. Erkens heeft gelijk.

Ieks!

Die 'shortcut' gaat jullie nu lelijk opbreken. Het scheelt wel databaseruimte en performance, maar hoe meer threads met veel messages (en dat lijkt wel de trend te worden in bv procs en mobo's ) hoe minder zinvol de search, de cornerstone van jullie beleid mbt topicstarts.

Ik heb wel een enigszins bruikbaar idee om het te maken, maar echt snel is dat niet te implementeren (kwa code wel snel, maar kwa tijdsbestek waarin ik dat beschikbaar kan maken niet).

Volgens mij werkte de originele zoekmachine van dit forum met message indexering toch? Waarom is dat niet geoptimaliseerd dan?

Creator of: LLBLGen Pro | Camera mods for games
Photography portfolio: https://fransbouma.com

Acties:

chem

Reist de wereld rond

Dit onderwerp is al vele malen langsgeweest. Ook ik ga dit verhaal niet opnieuw helemaal ophoesten. EfBe, je intonatie bevalt me totaal niet, dus ik ga ook niet de moeite nemen een relevant topic voor je op te zoeken.

Klaar voor een nieuwe uitdaging.

maandag 12 mei 2003 10:30

Acties:

maandag 12 mei 2003 12:28

Software Architect

Werkt hier

EfBe schreef op 12 mei 2003 @ 10:09:
Ieks! Die 'shortcut' gaat jullie nu lelijk opbreken. Het scheelt wel databaseruimte en performance, maar hoe meer threads met veel messages (en dat lijkt wel de trend te worden in bv procs en mobo's ) hoe minder zinvol de search, de cornerstone van jullie beleid mbt topicstarts.

Dat dat een trend wordt is eigenlijk wel jammer. Want zoals JvS aanhaalt, imho, verstoort dat het nut van de community-knowledgebase wel een beetje.
Magoed, echt veel is er ook weer niet tegen te doen.

Volgens mij werkte de originele zoekmachine van dit forum met message indexering toch? Waarom is dat niet geoptimaliseerd dan?

Nee, dat is echt nog nooit zo op GoT geweest

(of het moet helemaal in het begin, meer dan 3 jaar terug, voor mijn tijd enzo, zo geweest zijn

)

Het probleem is niet alleen performance en databasegrootte. Ik heb het idee dat een enkele reactie in een discussie lang niet altijd interessant genoeg is om apart te indexeren, maar dan zelfs als het opzich een interessante reactie is.

Mijns inziens is het totaal van een discussie een compleet 'document', door de reacties allemaal samen te nemen kan gezochte informatie opgesnort worden door middel van keywords die in verschillende reacties stonden.

De enige threads die m.i. ook roet in dat eten gooien zijn de threads waar meerdere discussies door elkaar gegooid zijn...

Magoed, op een enkele thread is een LIKE-search best goed te doen, en daarmee kan je iig alle reacties krijgen die een of meer van jouw keywords bevatten. En ik denk dat dat de boel al aanmerkelijk kan vereenvoudigen als er goed gebruik van gemaakt wordt

Maar zonder dat is de performance ook wel redelijk belangrijk, de zoekdatabase is nu al ruim 9GB en zodra je per message gaat indexeren zal dat nog wel weer verdubbelen.

[ Voor 5% gewijzigd door ACM op 12-05-2003 10:33 ]

Acties:

maandag 12 mei 2003 12:42

chem schreef op 12 mei 2003 @ 10:29:
Dit onderwerp is al vele malen langsgeweest. Ook ik ga dit verhaal niet opnieuw helemaal ophoesten. EfBe, je intonatie bevalt me totaal niet, dus ik ga ook niet de moeite nemen een relevant topic voor je op te zoeken.

Err pardon? Ik vraag gewoon hoe het zit, want toen ik meediscussieerde op het besloten forum over deze forumsoftware (toen parse er nog aan moest beginnen) is er een uitgebreide discussie geweest over de zoekmachine en hoe die gebouwd moest worden. Ik had toen falikant ongelijk en degene die hem zou bouwen was een expert op dit gebied, werd mij toen verteld. Mja, dat maakt mij verder dan niet uit (ik bedoel, als een ventje dat nauwelijks droog is achter de oren mij gaat vertellen hoe je software moet bouwen, dan doet dat ventje dat maar fijn), maar wat me dan opvalt is dat de uiteindelijke zoekmachine dus op threads wordlists bijhoudt en niet op messageniveau. Dat strookt totaal niet met wat er toen besproken is en gebouwd ging worden.

Dat het op threadniveau de wordlists bijhoudt is totaal nieuw voor me, ik heb dit inderdaad eerder gevraagd maar kreeg toen een kluitje-in-riet antwoord dat het niet kon (maar geen reden waarom). Dat men het kennelijk niet kan hebben dat er kritiek komt op de search engine is echt niet mijn probleem. Telkenmale worden hier discussies gevoerd mbt newbies (oops, sorry, n00bs) en dat die mensen moeten zoeken en wat al niet meer. Die zoekmachine helpt die mensen echt niet in veel gevallen, ik heb dit zelf ook vele malen meegemaakt (en ik ben echt geen n00b, meneer Chem). Ik vind het dan op zijn zachtst gezegd een beetje vreemd als het ALWEER wordt rechtgeluld dat de zoekmachine in gevallen waarbij de thread langer is dan een 1 pagina (want 2 of 3 pages met messages doormoeten voor je antwoord is OOK storend) niet helpt. A) zijn die threads volgens sommige mensen niet interessant (oh? Hoe weet jij dat? Mag de zoeker dat bepalen?) en B ) is het kennelijk een meesterlijk stukje software-design die zoekmachine, dus daar mag je geen kwaad woord over zeggen.

Je doet er maar mee wat je niet laten kunt, het maakt mij verder niet uit, maar als je per se wilt weten hoe vaak ik succesvol de search gebruik gemeten op hoe vaak ik de search gebruik (en dat is minimaal 2 a 3 keer per week) dan is dat beneden de 10%, en veelal komt dat door de ellenlange threads die ik doormoet (want ik heb echt geen zin om 3 pagina's messages door te ploegen op zoek naar een message die wellicht vertelt waar ik naar op zoek ben).

En dan nog eens wat: wordlists op basis van threads zijn minder correct, TENZIJ je stiekum toch op messageniveau je wordlists bijhoudt. Immers: als ik zoek op radeon en overclocken en in een random topic met 209 messages wordt in message 99 'radeon' genoemd en in message 199 'Overclocken' dan is dat wellicht fijn om te weten, maar ik heb niet echt het gevoel dat message 99 ook maar iets vertelt mbt message 199, tenzij 199 OOK over radeon gaat, maar die kans is klein bij veel messages in een thread. Filter je op messages (dus ranking op message basis, dan threads, dan fora) dan heb je veel sneller het juiste resultaat.

Maar goed, mijn kritiek is niet gewenst. Sorry hoor, ik zal niet weer tegen je heilige huisje aanschoppen.

[ Voor 5% gewijzigd door EfBe op 12-05-2003 12:31 ]

Creator of: LLBLGen Pro | Camera mods for games
Photography portfolio: https://fransbouma.com

Acties:

maandag 12 mei 2003 12:44

ACM schreef op 12 mei 2003 @ 10:30:
Dat dat een trend wordt is eigenlijk wel jammer. Want zoals JvS aanhaalt, imho, verstoort dat het nut van de community-knowledgebase wel een beetje.
Magoed, echt veel is er ook weer niet tegen te doen.

Hoeft toch ook niet? Ik volg bv in procs en mobo's de canterwood thread. Daar staat nu veel info in over die chipset en de nieuwe mobo's. Als mensen dus gaan zoeken op een mobo met zo'n chipset en meer willen lezen over bv de MSI versie, dan komen ze die thread tegen. Dat ding heeft 500+ messages. Na msg 200 komen de mobo's pas echt aan bod. Ik weet zeker dat die persoon afhaakt na message 50. Een knowledgebase krijg je er alleen uit als je korte threads hebt, dus vraag (topicstart) en een setje antwoorden.

Als je iets zoekt, en je wilt antwoord, dan is het zaak dat je vraag matcht met de vraag in de topicstart. Immers dan weet je dat je antwoord krijgt, dat staat er nl. onder. Op messageniveau filteren is dus beter, je kunt dan ranken en de zoeker kan dan beter een beslissing nemen welke message hij wil gaan bekijken (of beter, welke thread)

Nee, dat is echt nog nooit zo op GoT geweest (of het moet helemaal in het begin, meer dan 3 jaar terug, voor mijn tijd enzo, zo geweest zijn )

Zie boven

Het probleem is niet alleen performance en databasegrootte. Ik heb het idee dat een enkele reactie in een discussie lang niet altijd interessant genoeg is om apart te indexeren, maar dan zelfs als het opzich een interessante reactie is.

Mijns inziens is het totaal van een discussie een compleet 'document', door de reacties allemaal samen te nemen kan gezochte informatie opgesnort worden door middel van keywords die in verschillende reacties stonden.

Maar dan alleen wanneer je ook ranking hebt op basis van hoe dicht de keywords bij elkaar staan, en no offence, maar als 2 messages boven elkaar staan en ze zijn beide antwoorden op dezelfde message dan hebben die 2 messages niet een relatie met elkaar (direct) maar via de message waar ze op replyen. M.a.w.: dan kijken hoe dicht woorden bijelkaar staan levert niet een goed beeld. Op message niveau dan weer wel.

Maar zonder dat is de performance ook wel redelijk belangrijk, de zoekdatabase is nu al ruim 9GB en zodra je per message gaat indexeren zal dat nog wel weer verdubbelen.

9GB, hoeveel van die data wordt uberhaupt in een jaar geraadpleegd? Zit daar ook meuk bij van meer dan een jaar oud? (ik kan bv niet topics openen van een jaar oud, alleen via de search). Als het verdubbeld heb je inderdaad een probleem (nu ook al, het past niet in memory), maar 9 GB aan wordlists is wel erg veel, als je kijkt naar de hoeveelheid bezoekers, moet daar veel data bij zitten dat nauwelijsk gebruikt wordt.

Creator of: LLBLGen Pro | Camera mods for games
Photography portfolio: https://fransbouma.com

Acties:

JvS

Ik heb hem zelf ook

EfBe schreef op 12 May 2003 @ 12:28:
[...]
Die zoekmachine helpt die mensen echt niet in veel gevallen, ik heb dit zelf ook vele malen meegemaakt (en ik ben echt geen n00b, meneer Chem).

Als jij niet kan vinden en het ook niet zelf kan oplossen, dan staat het niet duidelijk genoeg in de database. En dan mag je dus gewoon een topic openen (waarin je dat specifiek aangeeft). Dan is dat topic met dat specifieke onderwerp weer veel beter vindbaar. De search is meer voor vragen die vaak voorbij komen (zoals "welke moet ik kopen" en "hoe sluit ik adsl aan" en dat soort vragen die allang in de search behandeld zijn, niet voor vragen die hooguit een of twee keer gesteld zijn.

Overigens is met een beetje normale keywords, vaak alles gewoon goed te vinden. Info die in een groot topic staat, hoef je van mij niet perse allemaal door te nemen, daar is zelfs met een postgerichte search (welke post trouwens? De vraag of het antwoord 3 pagina's verder?), niet snel info uit te halen.

ïk mag geen kritiek leveren en ik zoek bijna altijd dingen die in grote topics staan

Je mag best kritiek leveren, alleen je dwingende en licht denigrerende ondertoon worden niet gewaardeerd. verder is het al vaker uitgelegd en daarnaast vraag ik me af wat voor dingen jij altijd zoekt, die blijkbaar altijd in grote topics staan (die dingen moeten er gewoon niet zijn voor informatie die je op moet zoeken).

Een topic dat specifiek over ervaringen met een bepaald moederbord gaat, is heel interessant om gewoon door te lezen als je die wil kopen, als jij een specifiek probleem hebt, en je kan er geen andere topics over vinden en je vindt alleen een groot ervaringen topic, dan mag (moet

) je er gewoon een topic over openen. Zulke specifieke info en zo'n specifiek probleem is gewoon een eigen onderwerp.

Nogmaals: Grote topics staan vast wel vol met info, maar specifieke problemen mag je gewoon in een specifiek topic gieten (topics die overigens gewoon goed vindbaar zijn met de search). Wat mij betreft worden users aangemoedigd vragen over problemen niet te gaan stellen in een groot topic, maar in losse topics (mits ze wel eerst zoeken).

Grote topics zijn leuk om een spelletje te bespreken, of om te discusseren over technieken van de nieuwe ati radeon 11000VE of om je home-cinema in te posten/showen. Niet om in een topic alle problemen van een asus moederbord te bespreken. Als dat moet, dan moeten er sub-subfora komen, die over zo'n moederbord gaan waarin weer eigen threads gestart kunnen worden

[ Voor 12% gewijzigd door JvS op 12-05-2003 12:47 ]

4x APsystems DS3; 4x495Wp OZO/WNW 10° ; 4x460Wp OZO/WNW 10°; Totaal 3820Wp

maandag 12 mei 2003 13:00

Acties:

chem

Reist de wereld rond

EfBe schreef op 12 May 2003 @ 12:28:
[...]

Err pardon? Ik vraag gewoon hoe het zit,

Ik vind dat je hier EfBe in "Search wordt minder makkelijk" niet bepaald vriendelijk overkomt. iig niet dat ik zeg, nou, daar zal ik meteen even op inhaken.

want toen ik meediscussieerde op het besloten forum over deze forumsoftware (toen parse er nog aan moest beginnen)

React bestond al voordat...

is er een uitgebreide discussie geweest over de zoekmachine en hoe die gebouwd moest worden. Ik had toen falikant ongelijk en degene die hem zou bouwen was een expert op dit gebied, werd mij toen verteld. Mja, dat maakt mij verder dan niet uit (ik bedoel, als een ventje dat nauwelijks droog is achter de oren mij gaat vertellen hoe je software moet bouwen, dan doet dat ventje dat maar fijn), maar wat me dan opvalt is dat de uiteindelijke zoekmachine dus op threads wordlists bijhoudt en niet op messageniveau. Dat strookt totaal niet met wat er toen besproken is en gebouwd ging worden.

Ik heb de speclist er even bijgepakt, en zoeken op berichtnivo staat er niet bij. Dit houdt niet in dat het er dus per definitie niet inkomt als het beter is, maar op dit moment is het geen optie ivm de technische onmogelijkheden *op dit moment*. Verder is dat een zaak tussen T.net en Parse, wat er al dan niet is afgesproken.

Dat het op threadniveau de wordlists bijhoudt is totaal nieuw voor me, ik heb dit inderdaad eerder gevraagd maar kreeg toen een kluitje-in-riet antwoord dat het niet kon (maar geen reden waarom).

Hangt er ook een beetje vanaf aan wie en wanneer je het gevraagd hebt, maar ik heb nooit anders geantwoord dan dat wij indexeren en zoeken op topicnivo.

Dat men het kennelijk niet kan hebben dat er kritiek komt op de search engine is echt niet mijn probleem.

Ach, ik kan het wel hebben hoor. Tot we (ACM) Xapian succesvol aan de praat hebben gekregen was het ook een serieus probleem. Op dit moment is er (in het open source domain) geen beter alternatief, en is er ook geen reden om naar een alternatief te zoeken.

Telkenmale worden hier discussies gevoerd mbt newbies (oops, sorry, n00bs) en dat die mensen moeten zoeken en wat al niet meer. Die zoekmachine helpt die mensen echt niet in veel gevallen, ik heb dit zelf ook vele malen meegemaakt (en ik ben echt geen n00b, meneer Chem).

Ik ben het met je eens dat extreem grote topics het niet makkelijk maken om iets terug te vinden. Daarintegen; wat als iets meerdere malen in een topic terug komt - hoe wil je dit wbt GUI afhandelen?

Ik vind het dan op zijn zachtst gezegd een beetje vreemd als het ALWEER wordt rechtgeluld dat de zoekmachine in gevallen waarbij de thread langer is dan een 1 pagina (want 2 of 3 pages met messages doormoeten voor je antwoord is OOK storend) niet helpt. A) zijn die threads volgens sommige mensen niet interessant (oh? Hoe weet jij dat? Mag de zoeker dat bepalen?) en B ) is het kennelijk een meesterlijk stukje software-design die zoekmachine, dus daar mag je geen kwaad woord over zeggen.

Rustig maar... of een topic te lang is, is niet aan de forumsoftware. Dat zul je mij dus ook nooit horen zeggen, iig niet in deze context.

Je doet er maar mee wat je niet laten kunt, het maakt mij verder niet uit

Het maakt je blijkbaar wel uit. Dat is vervelend, dus moeten we iig kijken OF er een verbetering mogelijk is.

, maar als je per se wilt weten hoe vaak ik succesvol de search gebruik gemeten op hoe vaak ik de search gebruik (en dat is minimaal 2 a 3 keer per week) dan is dat beneden de 10%, en veelal komt dat door de ellenlange threads die ik doormoet (want ik heb echt geen zin om 3 pagina's messages door te ploegen op zoek naar een message die wellicht vertelt waar ik naar op zoek ben).

En dan nog eens wat: wordlists op basis van threads zijn minder correct, TENZIJ je stiekum toch op messageniveau je wordlists bijhoudt. Immers: als ik zoek op radeon en overclocken en in een random topic met 209 messages wordt in message 99 'radeon' genoemd en in message 199 'Overclocken' dan is dat wellicht fijn om te weten, maar ik heb niet echt het gevoel dat message 99 ook maar iets vertelt mbt message 199, tenzij 199 OOK over radeon gaat, maar die kans is klein bij veel messages in een thread. Filter je op messages (dus ranking op message basis, dan threads, dan fora) dan heb je veel sneller het juiste resultaat.

Naast het feit dat het technisch onwenselijk is (cacheing loopt in de soep, teveel resources nodig) om op berichtnivo te indexeren, komt er ook een extra probleem bij. Hetzelfde topic zou (indien er gezocht wordt op berichtnivo) meerdere malen terug kunnen komen. Tot in den treure, zodat je eerst 2 bladzijdes moet bladeren om uberhaupt een ander topic tegen te komen.
Daarbij houdt Omega (icm de setup van de aanlevering van de data) wel degelijk rekening met de afstand van de onderlinge woorden. Een term in bericht 99 en een op de queryterms overeenkomende term in bericht 199 zal een aanzienlijk lagere ranking krijgen dan bv. bericht 34 en bericht 41; of bericht 12 en bericht 12 (dus beide woorden in 1 bericht).

Het indexeren op berichtnivo heeft dus een extra nadeel; er kan geen relatie tussen onderlinge berichten worden gelegd.

Wat dus (mij) een betere oplossing lijkt is om de searchengine (omega) nog immer te laten indexeren op topicnivo. Echter, bij het weergeven van het topic zou er een index moeten komen (voor de gebruiker) welke termen in welke berichten staan. Dit moet dan ook naar volgende pagina's worden meegenomen etc. etc.

Zoiets is niet 1-2-3 gedaan,. Maar, het komt ongetwijfeld in de toekomst wel. Wanneer, kan en wil ik niet zeggen.

Maar goed, mijn kritiek is niet gewenst. Sorry hoor, ik zal niet weer tegen je heilige huisje aanschoppen.

Leef je uit.

EfBe schreef op 12 mei 2003 @ 12:42:
[...]

Als je iets zoekt, en je wilt antwoord, dan is het zaak dat je vraag matcht met de vraag in de topicstart. Immers dan weet je dat je antwoord krijgt, dat staat er nl. onder. Op messageniveau filteren is dus beter, je kunt dan ranken en de zoeker kan dan beter een beslissing nemen welke message hij wil gaan bekijken (of beter, welke thread)

Dat is misschien op GoT zo, maar kan niet voor 'alle fora' gesteld worden. Er is wel al een zwaardere factor gegeven aan de topicstarts dan aan de andere berichten. De titel heeft een nog zwaardere factor.

9GB, hoeveel van die data wordt uberhaupt in een jaar geraadpleegd? Zit daar ook meuk bij van meer dan een jaar oud? (ik kan bv niet topics openen van een jaar oud, alleen via de search). Als het verdubbeld heb je inderdaad een probleem (nu ook al, het past niet in memory), maar 9 GB aan wordlists is wel erg veel, als je kijkt naar de hoeveelheid bezoekers, moet daar veel data bij zitten dat nauwelijsk gebruikt wordt.

Ik zie geen reden om oude topics niet te indexeren. De factor voor berichten vs. topics is zoveel groter dan nieuwe vs. oude topics, dat de oude topics vrijwel geen belasting vormen itt tot de berichten te indexeren.

Klaar voor een nieuwe uitdaging.

maandag 12 mei 2003 14:16

Acties:

maandag 12 mei 2003 14:59

Software Architect

Werkt hier

EfBe schreef op 12 mei 2003 @ 12:28:
maar wat me dan opvalt is dat de uiteindelijke zoekmachine dus op threads wordlists bijhoudt en niet op messageniveau. Dat strookt totaal niet met wat er toen besproken is en gebouwd ging worden.

De zoekmachine waar die discussie over ging bestond toen en bestaat nu nog niet. Daardoor zijn we op zoek gegaan naar een beter alternatief dan de MySQL-based engine en dat hebben we, imho, gevonden.
Dat het nog beter kan staat buiten kijf, dat dat complicaties meebrengt imho ook

Ik vind het dan op zijn zachtst gezegd een beetje vreemd als het ALWEER wordt rechtgeluld dat de zoekmachine in gevallen waarbij de thread langer is dan een 1 pagina (want 2 of 3 pages met messages doormoeten voor je antwoord is OOK storend) niet helpt.

Het wordt niet rechtgeluld, er wordt uitgelegd waarom die functionaliteit atm niet wordt aangeboden.

A) zijn die threads volgens sommige mensen niet interessant (oh? Hoe weet jij dat? Mag de zoeker dat bepalen?)

Zo bedoelde ik dat iig niet, maar zodra er twintig discussies door elkaar lopen is het zelfs als je een specifieke message wordt aangereikt nog niet gegarandeerd zo dat je hebt gevonden in die thread wat je zoekt of dat je niet alsnog een hoop reacties moet doornemen...

B ) is het kennelijk een meesterlijk stukje software-design die zoekmachine, dus daar mag je geen kwaad woord over zeggen.

Onzin, maar het is wel zo dat wij het niet zelf gebouwd hebben (wel de aansturing en de ingebruikname enzo, waar nog redelijk wat mogelijkheden bij zitten) en we daardoor niet zo makkelijk zeer structurele wijzigingen kunnen maken. (message of topic basis indices is onze keus verder)

En dan nog eens wat: wordlists op basis van threads zijn minder correct, TENZIJ je stiekum toch op messageniveau je wordlists bijhoudt. Immers: als ik zoek op radeon en overclocken en in een random topic met 209 messages wordt in message 99 'radeon' genoemd en in message 199 'Overclocken' dan is dat wellicht fijn om te weten, maar ik heb niet echt het gevoel dat message 99 ook maar iets vertelt mbt message 199, tenzij 199 OOK over radeon gaat, maar die kans is klein bij veel messages in een thread.

En dat is dus wederom een nadeel van de lange threads. Hoewel je voorbeeld bij een klein topic van 10 reacties juist weer wel opgaat, als er in reactie 2 'radeon' genoemd wordt en in 9 'overclocken' zal dat beide nog wel over hetzelfde onderwerp gaan.

Filter je op messages (dus ranking op message basis, dan threads, dan fora) dan heb je veel sneller het juiste resultaat.

Er wordt al gewogen op de afstand van de woorden, daarmee dus ook al enigszins op het feit dat woorden in een specifieke reactie staan.

Maar goed, mijn kritiek is niet gewenst. Sorry hoor, ik zal niet weer tegen je heilige huisje aanschoppen.

Je kritiek is wel gewenst. De manier waarop kan nog wel eens beter, maar de inhoud is over het algemeen wel goed.
Het is alleen wel zo dat wij hebben te roeien met de riemen die we hebben, zelf de uiteindelijke afweging over keuzes moeten maken, elke wijziging per definitie tijd kost (zeker als het gaat over het werken met gigabytes aan data) en daarmee ook niet zo makkelijk even getest kan worden.

EfBe schreef op 12 mei 2003 @ 12:42:
Ik volg bv in procs en mobo's de canterwood thread. Daar staat nu veel info in over die chipset en de nieuwe mobo's. Als mensen dus gaan zoeken op een mobo met zo'n chipset en meer willen lezen over bv de MSI versie, dan komen ze die thread tegen. Dat ding heeft 500+ messages. Na msg 200 komen de mobo's pas echt aan bod. Ik weet zeker dat die persoon afhaakt na message 50.

Maar hoe goed zou jij in zo'n topic je ding kunnen vinden als je alleen maar op message-basis kon zoeken? Beter?

Als je iets zoekt, en je wilt antwoord, dan is het zaak dat je vraag matcht met de vraag in de topicstart. Immers dan weet je dat je antwoord krijgt, dat staat er nl. onder.

Maar alleen maar als jouw vraag exact in één message staat, als je immers een vraag hebt met een combinatie van de bewoordingen uit message1 en de antwoorden uit message2 en message3 hebt is de kans al een stuk kleiner dat je dat topic kreeg (zeker als je een AND-search deed).

Maar dan alleen wanneer je ook ranking hebt op basis van hoe dicht de keywords bij elkaar staan

Voor zover ik de engine begrijp is dat er al

en no offence, maar als 2 messages boven elkaar staan en ze zijn beide antwoorden op dezelfde message dan hebben die 2 messages niet een relatie met elkaar (direct) maar via de message waar ze op replyen. M.a.w.: dan kijken hoe dicht woorden bijelkaar staan levert niet een goed beeld. Op message niveau dan weer wel.

Maar dat die antwoorden niks met elkaar te maken hadden doet uit het zoekoogpunt toch niks af aan de kwaliteit van dat resultaat als antwoord op jouw query?
Tenzij het natuurlijk beide antwoorden waren op een andere vraag en de toevallige combinatie van woorden ten onrechte als een correct resultaat werd gezien...

9GB, hoeveel van die data wordt uberhaupt in een jaar geraadpleegd? Zit daar ook meuk bij van meer dan een jaar oud? (ik kan bv niet topics openen van een jaar oud, alleen via de search).

Zoals je zelf al over de lange topics zei, wie ben ik om te bepalen of dat wel of niet relevant is?

Het grootste deel zal lang niet altijd geraadpleegd worden, maar af en toe misschien wel.

Als het verdubbeld heb je inderdaad een probleem (nu ook al, het past niet in memory)

Mja, de indices kunnen nog makkelijk in het geheugen (die zijn lekker klein, bitmapjes zijn het geloof ik)

maar 9 GB aan wordlists is wel erg veel, als je kijkt naar de hoeveelheid bezoekers, moet daar veel data bij zitten dat nauwelijsk gebruikt wordt.

Maar dat is vrijwel per definitie zo met een zoekmachine, als we alleen die topics konden indexeren die iedereen interessant zou vinden zouden we miljoenair kunnen worden met de bijbehorende software

Maar het is geen 9GB (9.3 om iets meer precies te zijn) voor de wordlist zelf hoor, de complete omega-db is zo groot.

Er is zo'n 4.6GB aan positionele data (dus woordx - woordy - woordz combinaties per thread), deze zal relatief gelijk blijven (zal wel iets van 5a6GB worden ofzo, maar ok).

Dan is er zo'n 2.2GB aan woordY-staat-in-documentX relaties (deze zal wel wat (veel?) meer dan verdubbelen, gezien de overlap van reacties).
En nog eens 2GB aan documentX-bevat-woordY relaties (dit klinkt als een overlap met de voorgaande, maar is in wezen een hele grote index om vooral het ranken te ondersteunen en ook deze zal wel flink groeien).

Verder is er nog het een en ander aan datafiles voor de extra sortering (68MB) en de record-data zelf (338MB) (die ook nog eens behoorlijk gaan groeien)

Er zijn overigens zo'n 700K topics vs 8M messages in de database (geldt dus vooral voor de sql-database, de omega-database heeft dus zo'n 700K 'documenten').

[ Voor 5% gewijzigd door ACM op 12-05-2003 14:22 ]

Acties:

maandag 12 mei 2003 15:38

ok, om het kort te houden

-> er is indexering op topic niveau, de search engine houdt wel bij of de woorden bij elkaar staan of niet, er is op dit moment geen info beschikbaar voor de search engine dat een match op wordindex 14323 in een topic overeenkomt met message 213 in die thread.

De woordY-staat-indocumentX relaties kunnen die uitgebreid worden met 1 veld? (messageid) ? Indien ja, dan ben je er al. ok, 64bits per row erbij, dat is wel wat meer data, maar op zich niet 2GB. Daarna nog code toevoegen die messageid omzet naar positie in thread. (objectified relatie woord - document met als nieuw attribute messageid)

Het indexeren op messages en die dan opleveren in een lange lijst met messages is niet gewenst, wel het grouperen op thread en dan de gebruiker laten kiezen welke message men wil zien.

Het nadeel van op document indexeren is ook dat wanneer je messages weghaalt (delete) de zoekmachine daar niet 1 2 3 mee om kan gaan lijkt me. Maar goed, het zij zo. Is het wellicht een idee, de opname van het messageid bij de woord-document relatie? (dit kan ook anders worden opgeslagen hoor. Je kunt ook opslaan per document waar de messages starten en stoppen (wordcounts) en zo afleiden welke message je moet hebben (is wel weer wat lastiger te beheren maar op zich weer makkelijker met opslaan, want de woorden hebben al een positie op het document.

Creator of: LLBLGen Pro | Camera mods for games
Photography portfolio: https://fransbouma.com

Acties:

maandag 12 mei 2003 16:21

Software Architect

Werkt hier

EfBe schreef op 12 May 2003 @ 14:59:
ok, om het kort te houden -> er is indexering op topic niveau, de search engine houdt wel bij of de woorden bij elkaar staan of niet, er is op dit moment geen info beschikbaar voor de search engine dat een match op wordindex 14323 in een topic overeenkomt met message 213 in die thread.

Mooie korte samenvatting van de lappen hierboven

De woordY-staat-indocumentX relaties kunnen die uitgebreid worden met 1 veld? (messageid) ? Indien ja, dan ben je er al. ok, 64bits per row erbij, dat is wel wat meer data, maar op zich niet 2GB. Daarna nog code toevoegen die messageid omzet naar positie in thread. (objectified relatie woord - document met als nieuw attribute messageid)

Oei en hier komt dus het 'we hebben de engine niet zelf gemaakt en kunnen het niet zo eenvoudig aanpassen' (althans, het is open source, maar mijn c++ kunde is te belabberd om in dergelijk complexe software eventjes te gaan hacken

)

Het indexeren op messages en die dan opleveren in een lange lijst met messages is niet gewenst, wel het grouperen op thread en dan de gebruiker laten kiezen welke message men wil zien.

Ik heb nu een vrij simpel idee dat relatief eenvoudig in react te integreren is bedacht en daarmee zou het al wat beter moeten worden.
In plaats van gewoon de woorden highlighten in een thread operde chem het highlighten van een complete reactie (of het omgekeerde, het dimmen van de rest) en daarmee visueel dus al aangeven welke reacties interessant zouden moeten zijn aan de hand van de gegeven keywords.

Een andere optie is natuurlijk op hetzelfde principe een lijstje te geven met links ala:
Reiko in "Search wordt minder makkelijk"
GGS_VR6 in "Search wordt minder makkelijk"

Maar dan naar reacties die aan een of meer van de keywords voldoen (liefst met erbij aan welke precies, maar dat wordt weer iets lastiger

Het nadeel van op document indexeren is ook dat wanneer je messages weghaalt (delete) de zoekmachine daar niet 1 2 3 mee om kan gaan lijkt me. Maar goed, het zij zo.

De 'laatste wijziging timestamp' van het bijbehorende topic wordt dan meegewijzigd en het document wordt gewoon compleet opnieuw geindexeerd.

Is het wellicht een idee, de opname van het messageid bij de woord-document relatie? (dit kan ook anders worden opgeslagen hoor. Je kunt ook opslaan per document waar de messages starten en stoppen (wordcounts) en zo afleiden welke message je moet hebben (is wel weer wat lastiger te beheren maar op zich weer makkelijker met opslaan, want de woorden hebben al een positie op het document.

Het zijn beide wel goede ideeen, maar niet dingen die zonder (grote?) wijzigingen aan de core (en andere lagen) van de engine gewijzigd kunnen worden.

Acties: