Normale crawlrate - Lieve adjes

maandag 23 maart 2009 11:55

Acties:

Topicstarter

Voor een opdracht op de universiteit had ik het idee om style analyses uit te voeren op nieuwsberichten met als doel deze geautomatiseerd in te delen en voor een nieuw bericht de auteur te herkennen.

Nu heb ik een crawlscript geschreven dat een nieuwssite crawled. Uiteraard heb ik een kwaliteitssite gekozen om te crawlen, namelijk tweakers.mobi/nieuws.

Mijn crawler aangezet op 4 requests per seconde. Echter na een ruime 2500 requests is mijn ip geblokkeerd en krijg ik alleen nog maar 403 Forbidden terug.

Wat zou een betere crawlrate zijn zodat mijn bot niet geblokkeerd word. Zijn er hier richtlijnen voor? Hoe snel crawlt een Google bijvoorbeeld?

(Uiteraard heb ik gecontroleerd of tweakers.mobi crawlen verbied. Ook is het mijns inziens totaal legaal en niet vreemd om een site volledig te indexeren.)

petersmit.eu

maandag 23 maart 2009 11:57

Acties:

asfaloth_arwen

Ik zou toch even eerst contact opnemen of het toegestaan is, aangezien:

quote: http://tweakers.net/voorwaarden
geen robots, spiders, toepassingen voor het doorzoeken van websites of andere middelen voor het zoeken of indexeren van (delen van) de Website en Content van Leden gebruiken;

Specs

maandag 23 maart 2009 11:58

Acties:

DataGhost

iPL dev

Ik zou het op 1 request per 10 seconden houden of met tweakers.net iets regelen. Wellicht zou je ook het nieuwsoverzicht per dag kunnen gebruiken, hier staan de berichten volledig in, dat zal schelen in het aantal requests.

Edit: anders kijk ik even niet wat er op de mobiele site staat.

[ Voor 11% gewijzigd door DataGhost op 23-03-2009 12:24 ]

maandag 23 maart 2009 12:01

Acties:

stereohead

Mijn crawler aangezet op 4 requests per seconde.

Begrijp ik je goed en vraag je elke 0.25 seconden een pagina op?
Zo snel kan ik niet F5'en

maandag 23 maart 2009 12:01

Acties:

Pete

Topicstarter

asfaloth_arwen schreef op maandag 23 maart 2009 @ 11:57:
Ik zou toch even eerst contact opnemen of het toegestaan is, aangezien:

[...]

Maar wat is het verschil tussen mij en bijvoorbeeld Google? (En nee, ik indexeer niet met een T.Net id en ik indexeer geen niet publiekelijk toegankelijke pagina's)

petersmit.eu

maandag 23 maart 2009 12:01

Acties:

Zoijar

Because he doesn't row...

En je netjes aan de robots.txt houden.4 hits/s is wel erg veel; de meeste sites gooien je er dan al snel af. Ik zou 1 a 2 seconden tussen je hits houden. Als het niet zo snel hoeft, dan nog langer. Google kan heel veel sites crawlen, dus die kunnen makkelijk nog veel langer wachten tussen requests naar dezelfde server. Als je 100 servers afloopt en je doet 10 hits/s, dan krijgt elke apparte server alsnog maar 1 request per 10 seconden.

[ Voor 84% gewijzigd door Zoijar op 23-03-2009 12:04 ]

maandag 23 maart 2009 12:03

Acties:

Cloud

FP ProMod

Ex-moderatie mobster

Waarom moet dat überhaupt zo verrekte vaak? Als ik het goed begrijp kun je ook prima uit de voeten met een crawl van één keer per half uur of nog minder zelfs.

Pete schreef op maandag 23 maart 2009 @ 12:01:
[...]

Maar wat is het verschil tussen mij en bijvoorbeeld Google? (En nee, ik indexeer niet met een T.Net id en ik indexeer geen niet publiekelijk toegankelijke pagina's)

Google vraagt echt niet elke seconde exact dezelfde pagina op hoor. Ten eerste is dat gewoon dom, want zo vaak verandert de content echt niet en ten tweede hebben ze daar de capaciteit niet voor.

Dus nogmaals, waarom moet het zo vaak?

Never attribute to malice that which can be adequately explained by stupidity. - Robert J. Hanlon
60% of the time, it works all the time. - Brian Fantana

maandag 23 maart 2009 12:03

Acties:

Pete

Topicstarter

Zoijar schreef op maandag 23 maart 2009 @ 12:01:
En je netjes aan de robots.txt houden.

Pete schreef op maandag 23 maart 2009 @ 11:55:
(Uiteraard heb ik gecontroleerd of tweakers.mobi crawlen verbied.

Dit heb ik idd met robots.txt gechecked.

petersmit.eu

maandag 23 maart 2009 12:03

Acties:

asfaloth_arwen

Pete schreef op maandag 23 maart 2009 @ 12:01:
[...]

Maar wat is het verschil tussen mij en bijvoorbeeld Google? (En nee, ik indexeer niet met een T.Net id en ik indexeer geen niet publiekelijk toegankelijke pagina's)

ik denk dat er voor T.net wel een meerwaarde is dat er geïndexeerd wordt door Google. Dat zie ik bij jou project niet. Ik geef het alleen aan om problemen te voorkomen en je aan te raden even contact te zoeken en e.e.a. uit te leggen. Je krijgt niet voor niets een IP-ban na X-requests.

Specs

maandag 23 maart 2009 12:05

Acties:

Pete

Topicstarter

Cloud schreef op maandag 23 maart 2009 @ 12:03:
Waarom moet dat überhaupt zo verrekte vaak? Als ik het goed begrijp kun je ook prima uit de voeten met een crawl van één keer per half uur of nog minder zelfs.

[...]

Google vraagt echt niet elke seconde exact dezelfde pagina op hoor. Ten eerste is dat gewoon dom, want zo vaak verandert de content echt niet en ten tweede hebben ze daar de capaciteit niet voor.

Dus nogmaals, waarom moet het zo vaak?

De crawl die ik doe is maar eenmalig. Als ik binnen een redelijke tijd 50.000 berichten wil indexeren is 1x per half uur niet echt doenlijk. 1x per seconde geeft zelfs maar 3600 documenten per uur.

Verders, ik wil misschien ook andere nieuwssites gebruiken. Wat ziet een gemiddelde server beheerder als normale crawl rate?

[ Voor 8% gewijzigd door Pete op 23-03-2009 12:07 ]

petersmit.eu

maandag 23 maart 2009 12:08

Acties:

Cloud

FP ProMod

Ex-moderatie mobster

Ah op die fiets. Verkeerd begrepen.

Never attribute to malice that which can be adequately explained by stupidity. - Robert J. Hanlon
60% of the time, it works all the time. - Brian Fantana

maandag 23 maart 2009 12:10

Acties:

Zoijar

Because he doesn't row...

Beheerders zijn iha niet zo blij met bots; vooral omdat ze geen idee hebben wat er met die informatie wordt gedaan. Wat voor user-agent geef je bv door? Heb je je bot geregistreerd? Staat er email bij? Kan iemand contact met je opnemen? Weten beheerders wat je bot doet? Zodra jij lange tijd 1 request per seconde maakt dan is het al snel te zien dat het een bot is. Zeker als je alles systematisch afloopt. Wie weet wat je met die content doet... spammer? Illegale mirror?

(1x per 5 a 10 seconden, dan ben je in 70-140 uur klaar, dat is toch wel te doen?)

[ Voor 8% gewijzigd door Zoijar op 23-03-2009 12:12 ]

maandag 23 maart 2009 12:13

Acties:

Pete

Topicstarter

Zoijar schreef op maandag 23 maart 2009 @ 12:10:
Beheerders zijn iha niet zo blij met bots; vooral omdat ze geen idee hebben wat er met die informatie wordt gedaan. Wat voor user-agent geef je bv door? Heb je je bot geregistreerd? Staat er email bij? Kan iemand contact met je opnemen? Weten beheerders wat je bot doet? Zodra jij lange tijd 1 request per seconde maakt dan is het al snel te zien dat het een bot is. Zeker als je alles systematisch afloopt. Wie weet wat je met die content doet... spammer? Illegale mirror?

Ik heb mijn bot niet geregistreerd (wist niet eens dat dit kon en weet niet hoe dit moet). Wel geef ik als user agent mee:
PeteBot/1.0 (petebot@domain.tld)

Heeft iemand een idee naar welk tweakers mailadres ik het beste een mailtje kan sturen over dit onderwerp?

[ Voor 6% gewijzigd door Pete op 23-03-2009 12:14 ]

petersmit.eu

maandag 23 maart 2009 12:15

Acties:

Zoijar

Because he doesn't row...

Pete schreef op maandag 23 maart 2009 @ 12:13:
Ik heb mijn bot niet geregistreerd (wist niet eens dat dit kon en weet niet hoe dit moet). Wel geef ik als user agent mee:
PeteBot/1.0 (petebot@domain.tld)

Registreren is een groot woord; het gaat er meer om dat iemand kan vinden wat je bot doet. Daar zijn wat websites en forums voor. Zie ook http://www.robotstxt.org/

maandag 23 maart 2009 12:16

Acties:

NitroX infinity

Pete schreef op maandag 23 maart 2009 @ 12:05:
[...]

De crawl die ik doe is maar eenmalig. Als ik binnen een redelijke tijd 50.000 berichten wil indexeren is 1x per half uur niet echt doenlijk. 1x per seconde geeft zelfs maar 3600 documenten per uur.

Waarom moet dat zo snel? Met 3600 per uur en 6 uren per nacht zit je al op 21600 berichten. Dan ben je zo'n 3 nachten bezig. Als je per 4 seconden doet ben je ongeveer 9 nachten mee bezig. Is er een noodzaak dat al die berichten snel geïndexeerd worden?

Graphene; a material that can do everything, except leave the lab. - Asianometry

maandag 23 maart 2009 12:20

Acties:

ACM

Software Architect

Werkt hier

Zoals al door diverse gebruikers aangegeven willen we vooral graag weten waarom onze content wordt gecrawled. Een voor ons acceptabele crawlrate hangt o.a. af van de benodigde content en wat het "ons oplevert".
We zijn, ivm auteursrechten van zowel onszelf als onze gebruikers (reacties) redelijk streng met het blokkeren van onbekende crawlers.

Afgezien daarvan vraag ik me af wat je er aan hebt om de "one liners + quote" van het begin van Tweakers.net te analyzeren in eenzelfde context als je met de huidige content doet...

Het heeft om dat soort redenen dan inderdaad onze voorkeur om (vooraf) even contact op te nemen.

[ Voor 8% gewijzigd door ACM op 23-03-2009 12:21 ]

maandag 23 maart 2009 12:22

Acties:

Pete

Topicstarter

NitroX infinity schreef op maandag 23 maart 2009 @ 12:16:
[...]

Waarom moet dat zo snel? Met 3600 per uur en 6 uren per nacht zit je al op 21600 berichten. Dan ben je zo'n 3 nachten bezig. Als je per 4 seconden doet ben je ongeveer 9 nachten mee bezig. Is er een noodzaak dat al die berichten snel geïndexeerd worden?

Het is niet zo dat ze zo snel geindexeerd moeten worden. Mijn opdracht moet 25 apr. afgerond zijn dus ik heb de tijd

.
Toen ik het op mijn eigen server probeerde gaf 4 requests per seconde niet echt een hogere load. Mijn redenatie was dat met tweakers hardware 4 requests per seconde niet echt merkbaar zou zijn.

petersmit.eu

maandag 23 maart 2009 12:24

Acties:

ACM

Software Architect

Werkt hier

Pete schreef op maandag 23 maart 2009 @ 12:22:
Toen ik het op mijn eigen server probeerde gaf 4 requests per seconde niet echt een hogere load. Mijn redenatie was dat met tweakers hardware 4 requests per seconde niet echt merkbaar zou zijn.

De load is inderdaad ook niet per se een probleem voor ons. Hoewel dat uiteraard van de specifieke opgevraagde content afhangt

maandag 23 maart 2009 12:33

Acties:

dik_voormekaar

Hoesnel je kunt crawlen hangt natuurlijk erg van de content en de server af.
Van nfo.ftd.nu kun je er 18 per seconde crawlen, van news.nl ongeveer 7.

maandag 23 maart 2009 12:34

Acties:

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

dik_voormekaar schreef op maandag 23 maart 2009 @ 12:33:
Hoesnel je kunt crawlen hangt natuurlijk erg van de content en de server af.
Van nfo.ftd.nu kun je er 18 per seconde crawlen, van news.nl ongeveer 7.

En hoe hangt dat samen met de content

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij

maandag 23 maart 2009 12:35

Acties:

Pete

Topicstarter

RobIII schreef op maandag 23 maart 2009 @ 12:34:
[...]

En hoe hangt dat samen met de content

De meeste servers trekken het niet als je 10 documenten van 10Mb per seconde crawlt

. Documenten van 1 Kb gaat waarschijnlijk beter.

[ Voor 8% gewijzigd door Pete op 23-03-2009 12:36 ]

petersmit.eu

maandag 23 maart 2009 12:36

Acties:

dik_voormekaar

RobIII schreef op maandag 23 maart 2009 @ 12:34:
[...]

En hoe hangt dat samen met de content

De ene site heeft meer content per pagina dan de andere...

maandag 23 maart 2009 12:36

Acties:

Kalentum

Pete schreef op maandag 23 maart 2009 @ 11:55:
Voor een opdracht op de universiteit had ik het idee om style analyses uit te voeren op nieuwsberichten met als doel deze geautomatiseerd in te delen en voor een nieuw bericht de auteur te herkennen.

Moet het perse nieuws zijn? Je kan evt ook de wikipedia downloaden van Wikipedia: Wikipedia:Database download dan heb je ook een leuke dataset waar je tekstuele analyses op los kunt laten.

maandag 23 maart 2009 12:36

Acties:

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

Pete schreef op maandag 23 maart 2009 @ 12:35:
[...]

De meeste servers trekken het niet als je 10 documenten van 10Mb per seconde crawlt

Dan is het niet afhankelijk van de content maar van de server en of 'ie het trekt

Ik ken zat "servers" die 1000+ requests per seconde prima afkunnen; ook van meerdere MB's. Maar goed, we gaan offtopic.

[ Voor 16% gewijzigd door RobIII op 23-03-2009 12:38 ]

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij

maandag 23 maart 2009 12:39

Acties:

Pete

Topicstarter

rutgerw schreef op maandag 23 maart 2009 @ 12:36:
[...]

Moet het perse nieuws zijn? Je kan evt ook de wikipedia downloaden van Wikipedia: Wikipedia:Database download dan heb je ook een leuke dataset waar je tekstuele analyses op los kunt laten.

Mijn specifieke interesse is het traceren van de auteur van een tekst. Met wikipedia is dat nogal lastig.

petersmit.eu

maandag 23 maart 2009 12:41

Acties:

Roelant

Tja, er speelt natuurlijk nog meer mee dan serverload alleen. Zoals de diverse auteurs-, database- en merkrechten, wat je met de data gaat doen en (hoe je) de privacy van onze bezoekers (waarborgt). Zoals geciteerd door asfaloth_arwen staan we crawlen dus inderdaad niet zomaar standaard voor iedereen toe. Dit valt gewoon niet onder "normaal gebruik".

Ergo, de juiste manier is om op voorhand even contact met ons op te nemen (en daar ben je nu dus een beetje laat mee

), aan te geven welke data je wil crawlen, waarom, wat je er mee gaat doen, etc.

Pete schreef op maandag 23 maart 2009 @ 12:01:
Maar wat is het verschil tussen mij en bijvoorbeeld Google? (En nee, ik indexeer niet met een T.Net id en ik indexeer geen niet publiekelijk toegankelijke pagina's)

Dat Google onze toestemming heeft, omdat doel, wijze van verwerking en maatregelen ter bescherming van de privacy van de bezoekers ons bekend zijn.

maandag 23 maart 2009 12:51

Acties:

Kees

Serveradmin / BOFH / DoC

Een normale crawlrate hangt inderdaad van de server af, een beetje server kan redelijk wat requests per seconde verwerken, en doet dat ook al. Bij Tweakers hebben wij een automatische detectie / ipban functionaliteit in gebruik voor mensen die leechen, dit om inderdaad te voorkomen dat mensen alle content van de site plukken en een eigen mirror starten (nu zal dat vaak wel meevallen, het valt redelijk snel op als je onze site volledig ript en het ergens anders publiceert).

Blijft over de load op de servers. Ten eerste, onze setup is waarschijnlijk niet helemaal te vergelijken met jouw thuisserver, en onze load is anders dan een server die niets te doen staat. Het beste wat je kan doen is even contact met ons opnemen als je toestemming krijgt, en dan kunnen we wel iets regelen. Een site als google spiderd er ook behoorlijk op los bij ons, dagelijks doet die soms wel 600k requests. En ja, afhankelijk van de content (en hoe die gegenereerd wordt) kun je van 1 request per 10 seconden tot een paar 1000 requests / seconden 'leechen' al gaat het in het laatste geval dan wel om kleine statische files

Verder; zie Roelant, en neem even contact met ons op (zie je laatst geleechte pagina, als die een 403 geeft krijg je ook een contact adres mee

)

"Een serveradmin, voluit een serveradministrator, is dan weer een slavenbeheerder oftewel een slavendrijver" - Rataplan

maandag 23 maart 2009 13:08

Acties:

ACM

Software Architect

Werkt hier

Dergelijke crawlrates zullen per site verschillen, wij kijken er vrij streng naar. Anderen boeit het wellicht helemaal niks, deze discussie is te veel op tweakers.net gericht geworden

Dus Programming -> Lieve Adjes