Verwijderd schreef op 07 december 2003 @ 15:52:
Maar help me eens dan. Je bent zelf toch ook ooit begonnen met het maken van dergelijke searchengines? Hoe kan ik nu ooit op het niveau komen dat ik het WEL begrijp, als NIEMAND me wil helpen?
Zie ook wat chem al zegt.
't Is HEEL veel leeswerk, moeilijke algoritmiek etc, als je een echt goede searchengine wilt bouwen.
Zelf heb ik nu een afstudeeropdracht in de "information retrieval", maar zelfs nu, na honderden bladzijden over de materie en al een aardige sloot voorkennis, is een groot deel nog abracadabra voor mij.
Er is veel literatuur over te vinden ("development information retrieval systems" op google zal wel een aardige startopdracht zijn voor een zoektocht), die vaak niet heel toegankelijk of leesbaar is (er wordt veel voorkennis verwacht van de lezer).
Als je echt in de materie wilt duiken is het boek "Modern Information Retrieval" van Ricardo Baeza-Yates en Berthier Ribeiro-Neto (isbn 0-201-39829-X) een aardige start. Hierin wordt het grootste deel van de mogelijkheden uitgelegd en het een en ander aan algoritmes, etc.
De meeste andere boeken zijn vaak vreselijk dure wetenschappelijke uitgaves (ik had een boek van bijna 200 euro geleend die ook best goed was, maar niet perse duidelijker dan bovenstaande).
Als je toch niet zo diep in de literatuur en theorie wilt of kunt duiken dan is het pad dat chem je aanraadt (een bestaand product gebruiken, mnogosearch, ht://dig, xapian/omega (wat wij hier gebruiken), e.v.a.) een van de betere wegen.
En de simpelste is gewoon naar google of google-sitesearch doorverwijzen, daar hebben ze speciale diensten voor zoals ik al zei.
[edit]
Owja, er zijn ook wel vrij simpele sql-based oplossingen, maar als je met "veel sites" ook echt veel bedoelt (duizenden pagina's) dan is dat niet de meest performante oplossing. Maar als je "relatief veel" (honderden pagina's) bedoelt, dan is het wellicht een handige oplossing om naar te kijken. Mysql's full text-search en allerlei andere searchengines op (my)sql gebaseerd worden her en der op het internet wel uitgelegd.
[
Voor 15% gewijzigd door
ACM op 07-12-2003 16:18
]