Toon posts:

[Alg] Eigen zoekmachine voor platform-site *

Pagina: 1
Acties:

Verwijderd

Topicstarter
Hoi Iedereen,

Ik ben een webmaster die bezig is met een nieuwe uitgebreide site.
Misschien kan iemand me helpen met een belangrijke vraag.
Ik ben bezig met een platform-site, dat chat, forum en zoek mogelijkheden biedt aan ALLE bezoekers.

Mijn probleem: ik heb GEEN idee hoe ik een internet searchengine kan maken...

Kan iemand me helpen???

Groeten,
Roel

p.s. -> ik heb dit per ongeluk ook al ergens anders gepost...

  • justmental
  • Registratie: April 2000
  • Niet online

justmental

my heart, the beat

Heb je al wel een idee van wat ie moet kunnen?

Who is John Galt?


Verwijderd

Als je website al aardig database based is hoef je alleen maar een query te bakken. Hoezit de site in elkaar. Welke taal? Kwa script dan ;)

Verwijderd

Topicstarter
Hij moet niet de site afzoeken, maar verschillende sites (en deze dagelijks indexeren). Het moet een kleine versie worden van een Yahoo of een Ilse (met beperkte mogelijkheden).

De site wordt in theorie een nuke-kloon, maar kan zeker html elementen bevatten.

[ Voor 20% gewijzigd door Verwijderd op 07-12-2003 15:39 ]


  • justmental
  • Registratie: April 2000
  • Niet online

justmental

my heart, the beat

Verwijderd schreef op 07 december 2003 @ 15:38:
Hij moet niet de site afzoeken, maar verschillende sites (en deze dagelijks indexeren). Het moet een kleine versie worden van een Yahoo of een Ilse (met beperkte mogelijkheden).

De site wordt in theorie een nuke-kloon, maar kan zeker html elementen bevatten.
Hoeveel sites heb je het dan over?

Een google bouwen kun je wel vergeten :o

Trouwens, wat is er mis met je zoekfunctie doorverwijzen naar google?

Who is John Galt?


Verwijderd

Topicstarter
Google hoef ik ook niet, maar ik wil wel iets dat van mezelf is. Uiteindelijk is het een commercieel project en kan ik niet doorverwijzen naar een bestaande zoekmachine. Ik word geacht een eigen zoekmachine te maken die een ruime hoeveelheid paginas kan indexeren en controleren.

  • chem
  • Registratie: Oktober 2000
  • Laatst online: 26-05 15:19

chem

Reist de wereld rond

ik heb het topic waar je ook ff in spamde ([rml]v_rijswijk in "[ PHP] Search engine verbeteringen"[/rml]) gesloten.

Verder zou ik er niet aan beginnen als je geen idee hebt wat een zoekmachine inhoudt.

Klaar voor een nieuwe uitdaging.


  • ACM
  • Registratie: Januari 2000
  • Niet online

ACM

Software Architect

Werkt hier

Als het allemaal publiek is, waarom zou je dan geen google-site-search aanbieden? Kan je ook commercieel toepassen en dan is de service van google gelijk wat hoger.

Zelfbouw kan wel hoor, heb ik ook gedaan (klik hierboven maar op search), maar ik gok erop dat dat nog net even wat te hoog gegrepen is voor je.

Verwijderd

Topicstarter
Ik spamde niet; ik poste daar per ongeluk (ik heb daar ook naar verwezen in mijn eerste post). Ik spam niet; heb daar geen reden toe. Maar ik vraag me af, waarom het nutteloos is te beginnen aan iets waar je niets van af weet. Ik moet toch ooit ergens beginnen? Ik wil graag leren; heb ruim 6 jaar geleden mijn eerste html-site gemaakt... ben intussen tot nuke en phpbb gekomen en wil nu graag wat meer leren over nieuwe dingen. Op internet is er alleen bijzonder weinig te vinden over HOE je een internet zoekmachine kunt maken. Vandaar dat ik het op een site, die als basis 'Programming & Webscripting' heeft, aan de bezoekers en vaste gebruikers vraag. Is dat nu werkelijk zo vreemd?

Verwijderd

Topicstarter
ACM schreef op 07 december 2003 @ 15:49:
Als het allemaal publiek is, waarom zou je dan geen google-site-search aanbieden? Kan je ook commercieel toepassen en dan is de service van google gelijk wat hoger.

Zelfbouw kan wel hoor, heb ik ook gedaan (klik hierboven maar op search), maar ik gok erop dat dat nog net even wat te hoog gegrepen is voor je.
Maar help me eens dan. Je bent zelf toch ook ooit begonnen met het maken van dergelijke searchengines? Hoe kan ik nu ooit op het niveau komen dat ik het WEL begrijp, als NIEMAND me wil helpen?

Verwijderd

Wil je de searche 'pagina's bij elkaarraap engine' ook in een webscript taaltje gaan doen? Daarvoor kun je denk ik beten een applicatie schrijven. En dan alles in een db gooien enz.. en dan bv met PHP weer een query bakken enzo.
Tja, had jezelf al een id?

  • chem
  • Registratie: Oktober 2000
  • Laatst online: 26-05 15:19

chem

Reist de wereld rond

Omdat je in 1x alles wil doen, en dat is domweg teveel.
Zoekmachines is een gespecialiseerd vakgebied, waar zelfs wij ons niet aan wagen (waar ACM naar verwijst, is een implementatie van een bestaand indexeer/retrieve systeem, en dus niet een geheel zelfgebouwd systeem).

Je zou beter eens kunnen zoeken naar bestaande systemen zoals mnogo (die zelfs integratie met PHP hebben meen ik), en op die manier de werking, terminologie, eisen en werking van dergelijke systemen te leren.

Klaar voor een nieuwe uitdaging.


Verwijderd

Topicstarter
Ik denk dat een dergelijke site ook prima is.
Het is niet zo dat ik een hele zoekmachine zelf wil maken; ik wil alleen zelf de sites toevoegen en niet tot een eindprodukt komen, waar een gebruiker simpelweg op google terechtkomt. Ik heb als opdracht een 'eigen' zoekmachine te creeeren en als dat betekent dat ik een bronprogramma moet gebruiken, lijkt me dat prima. Google is alleen geen bronprogramma, heeft een veel te breed opgezet systeem. Ik wil een zoekmachine, waar ik zelf de internetpaginas nog moet toevoegen, dat met regelmaat de paginas indexeert. Een soort phplinks, maar dan met regelmatige indexering dus. En natuurlijk geen limiet van paginas die ik toevoeg.

  • Bigs
  • Registratie: Mei 2000
  • Niet online
En als je Google nou eens mooi integreerd d.m.v. hun web API's?

http://www.google.com/apis/

Dan kun je op je site een search engine aanbieden en de resultaten ook gewoon in je eigen layout laten zien. Een eigen search engine maak je inderdaad niet zomaar en imo is dat ook niet de moeite waard (aangezien Google over het algemeen toch veel betere resultaten zla geven).

edit:
Ok, na je post hierboven zie ik dat dit niet is wat je zoekt

[ Voor 11% gewijzigd door Bigs op 07-12-2003 16:09 ]


  • gorgi_19
  • Registratie: Mei 2002
  • Laatst online: 13:28

gorgi_19

Kruimeltjes zijn weer op :9

7. How many queries can I issue from my computer programs?

Google provides each developer who registers to use the Google Web APIs service a limit of 1,000 queries per day.
Wel iets om rekening mee te houden. :)

Ook leuk:
19. What does it mean to be a "beta" service?

This means Google does not guarantee the availability of the service. Since this is an experimental service, Google may take the service down for maintenance, change the APIs in ways that may be incompatible with developer applications, or discontinue the service entirely.

However, "beta" also means your input can have an impact on how the service is ultimately configured. If you have ideas about how to improve Google Web APIs, please email api-support@google.com.

[ Voor 69% gewijzigd door gorgi_19 op 07-12-2003 16:11 ]

Digitaal onderwijsmateriaal, leermateriaal voor hbo


  • ACM
  • Registratie: Januari 2000
  • Niet online

ACM

Software Architect

Werkt hier

Verwijderd schreef op 07 december 2003 @ 15:52:
Maar help me eens dan. Je bent zelf toch ook ooit begonnen met het maken van dergelijke searchengines? Hoe kan ik nu ooit op het niveau komen dat ik het WEL begrijp, als NIEMAND me wil helpen?
Zie ook wat chem al zegt.

't Is HEEL veel leeswerk, moeilijke algoritmiek etc, als je een echt goede searchengine wilt bouwen.

Zelf heb ik nu een afstudeeropdracht in de "information retrieval", maar zelfs nu, na honderden bladzijden over de materie en al een aardige sloot voorkennis, is een groot deel nog abracadabra voor mij.
Er is veel literatuur over te vinden ("development information retrieval systems" op google zal wel een aardige startopdracht zijn voor een zoektocht), die vaak niet heel toegankelijk of leesbaar is (er wordt veel voorkennis verwacht van de lezer).

Als je echt in de materie wilt duiken is het boek "Modern Information Retrieval" van Ricardo Baeza-Yates en Berthier Ribeiro-Neto (isbn 0-201-39829-X) een aardige start. Hierin wordt het grootste deel van de mogelijkheden uitgelegd en het een en ander aan algoritmes, etc.
De meeste andere boeken zijn vaak vreselijk dure wetenschappelijke uitgaves (ik had een boek van bijna 200 euro geleend die ook best goed was, maar niet perse duidelijker dan bovenstaande).

Als je toch niet zo diep in de literatuur en theorie wilt of kunt duiken dan is het pad dat chem je aanraadt (een bestaand product gebruiken, mnogosearch, ht://dig, xapian/omega (wat wij hier gebruiken), e.v.a.) een van de betere wegen.

En de simpelste is gewoon naar google of google-sitesearch doorverwijzen, daar hebben ze speciale diensten voor zoals ik al zei.

[edit]
Owja, er zijn ook wel vrij simpele sql-based oplossingen, maar als je met "veel sites" ook echt veel bedoelt (duizenden pagina's) dan is dat niet de meest performante oplossing. Maar als je "relatief veel" (honderden pagina's) bedoelt, dan is het wellicht een handige oplossing om naar te kijken. Mysql's full text-search en allerlei andere searchengines op (my)sql gebaseerd worden her en der op het internet wel uitgelegd.

[ Voor 15% gewijzigd door ACM op 07-12-2003 16:18 ]


Verwijderd

Topicstarter
ik bedoel eerder honderden dan duizenden sites; welke php oplossingen (met regelmatige indexering) kun je me aanraden?

  • alienfruit
  • Registratie: Maart 2003
  • Laatst online: 26-05 11:18

alienfruit

the alien you never expected

Nou, je kunt je eigen spider maken die je sites doorloopt en die gegevens gebruiken tijdens het zoeken.

Zodoende heb ik ook een zoekmachine gemaakt van Google kaliber ;-)
Zoeken in nieuwsgroepen werkt wat beter, betere relevantie connection blabla etc.

Verwijderd

Topicstarter
3 VRAGEN:

1. -> indexeert het met regelmaat?
2. -> Kan het meerdere sites (enkele honderden) afzoeken?
3. -> Hoe maak ik zo'n 'spider' en wat zijn is de handigste language?

Heb je een voorbeeld en een handleiding van
de zoekmachine die je zelf hebt gemaakt?

Verwijderd

Hier staat nog een stukje over het hoe en wat van search fasciliteiten aanbieden: http://philip.greenspun.c...plication-workbook/search

Hier nog een mooie bron van informatie: http://www.searchtools.com/robots/robots-articles.html

HTH :)
Pagina: 1