In verband met een onderzoeksopdracht voor mijn studie ben ik aan het onderzoeken hoe een site als Jaap.nl werkt. Ik weet dat er door spider scripts websites worden gespiderd en de informatie dan getoond wordt op Jaap.nl
Nu heb ik begrepen dat voor elke site die Jaap spidert een apart script wordt geschreven? Ik vraag me nu dan af hoe dit wordt gedaan, is het een soort van hacken wat het script doet? Wat maakt het verschil waarvoor de spider moet worden geschreven, dat zal met de sitestructuur te maken hebben maar hoe wordt dit dan bepaald?
Ik neem aan dat websites geen toestemming geven aan Jaap.nl om de structuur van hun site prijs te geven. En wanneer deze informatie dan wordt opgehaald wordt dit neem ik aan in een eigen database weggeschreven waar Jaap dan weer de gewilde informatie uit ophaalt?
En draait zo'n spider dan 24/7 of wordt er 1 keer per dag gereindext? Wordt de hele site dan opnieuw nageplozen of alleen de wijzigingen?
Een heleboel vragen dus en ik hoop dat iemand met ervaring hiermee mij enkele antwoorden kan geven! Bedankt alvast!
Nu heb ik begrepen dat voor elke site die Jaap spidert een apart script wordt geschreven? Ik vraag me nu dan af hoe dit wordt gedaan, is het een soort van hacken wat het script doet? Wat maakt het verschil waarvoor de spider moet worden geschreven, dat zal met de sitestructuur te maken hebben maar hoe wordt dit dan bepaald?
Ik neem aan dat websites geen toestemming geven aan Jaap.nl om de structuur van hun site prijs te geven. En wanneer deze informatie dan wordt opgehaald wordt dit neem ik aan in een eigen database weggeschreven waar Jaap dan weer de gewilde informatie uit ophaalt?
En draait zo'n spider dan 24/7 of wordt er 1 keer per dag gereindext? Wordt de hele site dan opnieuw nageplozen of alleen de wijzigingen?
Een heleboel vragen dus en ik hoop dat iemand met ervaring hiermee mij enkele antwoorden kan geven! Bedankt alvast!