Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Howto: Webspider ?

Pagina: 1
Acties:

  • Cra5hKrE8OR
  • Registratie: november 2001
  • Laatst online: 03-05-2010

Cra5hKrE8OR

nagesynchroniseerd¿

Topicstarter
Ik ben op zoek naar goede documentatie over het functioneren en het programmeren van een webspider. Het hoeft niet heel uitgebreid te zijn, maar het lijkt me dat daar toch ooit wel eens documenten over zijn geschreven, maar kan naar een poosje zoeken nog niks vinden.

Ik ben dus niet op zoek naar een werkende webspider, maar naar documenten en dat soort gein over hoe zo'n ding zou moeten werken. .:T.I.A:.

Now fully y3k compatible!!!


  • Tsjipmanz
  • Registratie: oktober 2000
  • Laatst online: 20-09 18:12

Tsjipmanz

Het maakt MIJ niks uit...

Beetje nadenken en je kan zelf al de helft verzinnen. Probeer d.m.v. regexps HREFS uit documenten te slopen en ga deze weer recursief te onderzoeken. Ik denk dat je mbv serach-engines al redelijk wat info kan halen!

Sterkte

There's no such thing as a mistake, just happy accidents - Bob Ross
Relaxte muziek: altijd okee!
- Soulseek rulez -


  • xychix
  • Registratie: september 2000
  • Laatst online: 10-08 09:21

xychix

FreeBSD Rules !

Ik zou idd ook graag de source van dit ding inzien, heeft de TS nog iets gebouwd/gevonden ?

Het is een oude KICK, i know maar om nou een nieuw topic te openen (het staat me zelfs bij dat ik dat al gedaan had maar die is verdwenen).

Every failure offers you a new opportunity! | Lokatie database|GoT - Notepad


  • Pooh
  • Registratie: april 2001
  • Niet online

Pooh

Lees eens een boek

quote:
xychix schreef op 12 november 2002 @ 14:58:
Ik zou idd ook graag de source van dit ding inzien, heeft de TS nog iets gebouwd/gevonden ?
wget is toch gewoon opensource? :?

  • raptorix
  • Registratie: februari 2000
  • Laatst online: 08-09 15:15
Je zou eens kunnen spitten in CPAN perl modules, naar mijn weten zit daar wel 1 en ander in.

  • sebas
  • Registratie: april 2000
  • Laatst online: 04-02-2016
Wat wil je allemaal gaan spideren? Wil je gewoon zo veel mogelijk content van websites hebben, wil je een index ervan maken, wil je alleen bepaalde content hebben?
Google heeft volgens mij een index van ca 70TB (klopt vast niet meer, maar je ziet al dat dit niet met twee, drie harde schijven te doen is). Hoe maak je de keuze welke data je wilt spideren?

Ik denk dat er bij het ontwerpen van een spider wat meer dingen komen kijken dan gewoon ergens beginnen en alle links na te trekken. Wat doe je met grote databases? Hoe kom je aan content die niet gelinked staat?

* sebas vindt het onderwerp searchengines erg interessant. Het is zeker niet afgehandeld met "Kijk gewoon in de source van wget" oid..

Everyone complains of his memory, no one of his judgement.


  • dj_delta
  • Registratie: juni 2001
  • Laatst online: 24-03-2008

dj_delta

Sensation komt er weer aan!

1) Open page
2) Pak alle hrefs
3) filter alle HTML + javascript + troep er uit
4) md5(content)
5) bewaar uitkomst van md5
6) kijk of database die md5 al bevat
7.1) Zo Nee: sla gegevens op in database
7.2) Zo ja: Ga naar volgende link
8) herhaal stappen 1 t/m 8 voor alle hrefs

Zoiets moet wel werken :)

There are 10 types of people in the world: Those who understand binary and those who don't.


  • xychix
  • Registratie: september 2000
  • Laatst online: 10-08 09:21

xychix

FreeBSD Rules !

Ik wil een spider die gewoon door links heenrolt, hij hoeft de link alleen te bewaren als hij voor mij interessant is.

Wat is dan interessant ? dat moet op te geven zijn in een text file
dus spider het hele inet af en schrijf alle links die een van de volgende woorden bevatten naar een database
howto
.pdf
.nl\ && .doc
xychix

een van de problemen is volgensmij: hoe hou je een spider aan het werk zonder hem te veel te voeren zodat je wachtrij DB helemaal vol loopt.

ik ben vooral geinteresseerd in de techniek erachter.

als ik een spider kan schijven die alle url's wegschrijft die een .doc bevatten en de spider blijft leven, dus als de input wachtrij leeg is vul dan een random woord in in een zoekmachine oid en ga vandaaruit verder spideren.

Daarnaast zoek ik een downloadbaar boek over AI (de techniek dan..)

hoe bouw ik een klein C botje dat iet's zelf ontwikkeld, wat zijn de ideeen erachter and so on.

Every failure offers you a new opportunity! | Lokatie database|GoT - Notepad


  • MisterE
  • Registratie: april 2002
  • Laatst online: 19-08 23:16
zoek eens naar WinHTTrack Website Copier ; open source webspider

  • xychix
  • Registratie: september 2000
  • Laatst online: 10-08 09:21

xychix

FreeBSD Rules !

http://olympus.het.brown.edu/cgi-bin/info2www?(webbase)
webbase, linux dus er zal source bij zitten, ook vond ik een C interface op deze pagina..

dan hoef ik het lowlevel werk niet te doen (interesseert me niet zo) maar wel de logica. welke url wel/niet uitdiepen. wat te doen bij geen input. wel/niet een php ding doorzoeken etc.

Every failure offers you a new opportunity! | Lokatie database|GoT - Notepad

Pagina: 1


Apple iPhone X Google Pixel XL 2 LG W7 Samsung Galaxy S8 Google Pixel 2 Sony Bravia A1 OLED Microsoft Xbox One X Apple iPhone 8

© 1998 - 2017 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Hardware.Info de Persgroep Online Services B.V. Hosting door True

*