Voor een opdracht op de universiteit had ik het idee om style analyses uit te voeren op nieuwsberichten met als doel deze geautomatiseerd in te delen en voor een nieuw bericht de auteur te herkennen.
Nu heb ik een crawlscript geschreven dat een nieuwssite crawled. Uiteraard heb ik een kwaliteitssite gekozen om te crawlen, namelijk tweakers.mobi/nieuws.
Mijn crawler aangezet op 4 requests per seconde. Echter na een ruime 2500 requests is mijn ip geblokkeerd en krijg ik alleen nog maar 403 Forbidden terug.
Wat zou een betere crawlrate zijn zodat mijn bot niet geblokkeerd word. Zijn er hier richtlijnen voor? Hoe snel crawlt een Google bijvoorbeeld?
(Uiteraard heb ik gecontroleerd of tweakers.mobi crawlen verbied. Ook is het mijns inziens totaal legaal en niet vreemd om een site volledig te indexeren.)
Nu heb ik een crawlscript geschreven dat een nieuwssite crawled. Uiteraard heb ik een kwaliteitssite gekozen om te crawlen, namelijk tweakers.mobi/nieuws.
Mijn crawler aangezet op 4 requests per seconde. Echter na een ruime 2500 requests is mijn ip geblokkeerd en krijg ik alleen nog maar 403 Forbidden terug.
Wat zou een betere crawlrate zijn zodat mijn bot niet geblokkeerd word. Zijn er hier richtlijnen voor? Hoe snel crawlt een Google bijvoorbeeld?
(Uiteraard heb ik gecontroleerd of tweakers.mobi crawlen verbied. Ook is het mijns inziens totaal legaal en niet vreemd om een site volledig te indexeren.)