Howto: Webspider ? - Softwareontwikkeling

woensdag 28 november 2001 15:26

Acties:

Verwijderd

Topicstarter

Ik ben op zoek naar goede documentatie over het functioneren en het programmeren van een webspider. Het hoeft niet heel uitgebreid te zijn, maar het lijkt me dat daar toch ooit wel eens documenten over zijn geschreven, maar kan naar een poosje zoeken nog niks vinden.

Ik ben dus niet op zoek naar een werkende webspider, maar naar documenten en dat soort gein over hoe zo'n ding zou moeten werken. .:T.I.A:.

woensdag 28 november 2001 15:37

Acties:

Tsjipmanz

Der Rudi ist da

Beetje nadenken en je kan zelf al de helft verzinnen. Probeer d.m.v. regexps HREFS uit documenten te slopen en ga deze weer recursief te onderzoeken. Ik denk dat je mbv serach-engines al redelijk wat info kan halen!

Sterkte

There's no such thing as a mistake, just happy accidents - Bob Ross
Relaxte muziek: altijd okee!
- Soulseek rulez -

dinsdag 12 november 2002 14:58

Acties:

xychix

FreeBSD Rules !

Ik zou idd ook graag de source van dit ding inzien, heeft de TS nog iets gebouwd/gevonden ?

Het is een oude KICK, i know maar om nou een nieuw topic te openen (het staat me zelfs bij dat ik dat al gedaan had maar die is verdwenen).

Every failure offers you a new opportunity! | Lokatie database|GoT - Notepad

dinsdag 12 november 2002 15:11

Acties:

Pooh

Lees eens een boek

xychix schreef op 12 november 2002 @ 14:58:
Ik zou idd ook graag de source van dit ding inzien, heeft de TS nog iets gebouwd/gevonden ?

wget is toch gewoon opensource?

dinsdag 12 november 2002 15:23

Acties:

raptorix

Je zou eens kunnen spitten in CPAN perl modules, naar mijn weten zit daar wel 1 en ander in.

dinsdag 12 november 2002 15:35

Acties:

arikkert

http://www.jafsoft.com/searchengines/webbots.html

dinsdag 12 november 2002 18:32

Acties:

sebas

Wat wil je allemaal gaan spideren? Wil je gewoon zo veel mogelijk content van websites hebben, wil je een index ervan maken, wil je alleen bepaalde content hebben?
Google heeft volgens mij een index van ca 70TB (klopt vast niet meer, maar je ziet al dat dit niet met twee, drie harde schijven te doen is). Hoe maak je de keuze welke data je wilt spideren?

Ik denk dat er bij het ontwerpen van een spider wat meer dingen komen kijken dan gewoon ergens beginnen en alle links na te trekken. Wat doe je met grote databases? Hoe kom je aan content die niet gelinked staat?

* sebas vindt het onderwerp searchengines erg interessant. Het is zeker niet afgehandeld met "Kijk gewoon in de source van wget" oid..

Everyone complains of his memory, no one of his judgement.

dinsdag 12 november 2002 19:36

Acties:

Verwijderd

1) Open page
2) Pak alle hrefs
3) filter alle HTML + javascript + troep er uit
4) md5(content)
5) bewaar uitkomst van md5
6) kijk of database die md5 al bevat
7.1) Zo Nee: sla gegevens op in database
7.2) Zo ja: Ga naar volgende link

herhaal stappen 1 t/m 8 voor alle hrefs

Zoiets moet wel werken

dinsdag 12 november 2002 19:47

Acties:

xychix

FreeBSD Rules !

Ik wil een spider die gewoon door links heenrolt, hij hoeft de link alleen te bewaren als hij voor mij interessant is.

Wat is dan interessant ? dat moet op te geven zijn in een text file
dus spider het hele inet af en schrijf alle links die een van de volgende woorden bevatten naar een database
howto
.pdf
.nl\ && .doc
xychix

een van de problemen is volgensmij: hoe hou je een spider aan het werk zonder hem te veel te voeren zodat je wachtrij DB helemaal vol loopt.

ik ben vooral geinteresseerd in de techniek erachter.

als ik een spider kan schijven die alle url's wegschrijft die een .doc bevatten en de spider blijft leven, dus als de input wachtrij leeg is vul dan een random woord in in een zoekmachine oid en ga vandaaruit verder spideren.

Daarnaast zoek ik een downloadbaar boek over AI (de techniek dan..)

hoe bouw ik een klein C botje dat iet's zelf ontwikkeld, wat zijn de ideeen erachter and so on.

Every failure offers you a new opportunity! | Lokatie database|GoT - Notepad

dinsdag 12 november 2002 19:59

Acties:

MisterE

zoek eens naar WinHTTrack Website Copier ; open source webspider

dinsdag 12 november 2002 20:40

Acties:

xychix

FreeBSD Rules !

http://olympus.het.brown.edu/cgi-bin/info2www?(webbase)
webbase, linux dus er zal source bij zitten, ook vond ik een C interface op deze pagina..

dan hoef ik het lowlevel werk niet te doen (interesseert me niet zo) maar wel de logica. welke url wel/niet uitdiepen. wat te doen bij geen input. wel/niet een php ding doorzoeken etc.

Every failure offers you a new opportunity! | Lokatie database|GoT - Notepad