Crawlers niet welkom / cookie-blokkade? - Lieve adjes

dinsdag 30 juni 2015 09:34

Acties:

Tux is lievvv

Topicstarter

Lieve adjes,

Voor een project waarmee ik met een webcrawler technisch-gerelateerde content aan het crawlen ben om hier tekstanalyse op toe te passen, deed ik ook een poging om tweakers.net te crawlen. Echter, het lijkt erop dat er zodra er een niet-standaard User-Agent meegegeven wordt, er ipv een HTTP 200/OK een HTTP 202/Accepted wordt meegegeven, met als payload de cookie-notificatie ipv de daadwerkelijke inhoud. Een useragent van "Wget/VERSIE" levert gewoon netjes de content op. Echter, om ruzie met diverse andere websites te voorkomen heeft de crawler een nette User-Agent, die natuurlijk bij Tweakers.net onbekend is.

Gevolg: ik kan alleen maar cookie-gerelateerde informatie crawlen, aangezien de content zelf een geblurde screenshot van de website lijkt te zijn. Is het daadwerkelijk niet de bedoeling om Tweakers.net te crawlen met onbekende webcrawlers of is er een manier om geautomatiseerd aan Tweakers.net aan te geven dat cookies geaccepteerd worden (want dat doet de crawler natuurlijk gewoon netjes). Iets als een GET-paramater of een bepaalde header.

Ik vond een referentie naar dit probleem in een topic uit 2013 (om precies te zijn, hier: pedorus in "Probleem met nieuwe implementatie cookienotificatie."), echter, zonder oplossing helaas.

Bedankt voor het advies.

Tja

dinsdag 30 juni 2015 10:00

Acties:

Kees

Serveradmin / BOFH / DoC

Het probleem met de GET request: ACM in "Cookies met een GET request accepteren"
Een header zou eventueel kunnen, maar dat is nog niet geimplementeerd.

Je kan een TnetID van een browser pakken die cookies heeft geaccepteerd, dan krijg je ook geen cookiewall meer. Of inderdaad een useragent gebruiken die aangeeft dat je een crawler bent (gebruik crawler of spider in je useragent)

Let er overigens ook op dat je niet al te snel crawled, en niet rücksichtslos alle links volgt (waardoor je bijvoorbeeld dezelfde pagina tientallen keren krijgt maar dan met een andere anchor) en dat je de robots.txt respecteerd

Mocht je desondanks toch gebanned worden door ons crawler-detectie script, kun je gathering at tweakers.net mailen.

[ Voor 29% gewijzigd door Kees op 30-06-2015 10:20 ]

"Een serveradmin, voluit een serveradministrator, is dan weer een slavenbeheerder oftewel een slavendrijver" - Rataplan

dinsdag 30 juni 2015 10:28

Acties:

MadEgg

Tux is lievvv

Topicstarter

Ah top, het gaat op basis van een regex op crawler/spider dus? Daar kan ik wel wat mee, een kleine aanpassing in de UA is geen probleem.

Er wordt zeker niet te snel gecrawled, de crawler gaat zeer respectvol om met robots.txt bepalingen en requests per minuut, dus dat komt goed.

Bedankt!

Tja