Lieve adjes,
Voor een project waarmee ik met een webcrawler technisch-gerelateerde content aan het crawlen ben om hier tekstanalyse op toe te passen, deed ik ook een poging om tweakers.net te crawlen. Echter, het lijkt erop dat er zodra er een niet-standaard User-Agent meegegeven wordt, er ipv een HTTP 200/OK een HTTP 202/Accepted wordt meegegeven, met als payload de cookie-notificatie ipv de daadwerkelijke inhoud. Een useragent van "Wget/VERSIE" levert gewoon netjes de content op. Echter, om ruzie met diverse andere websites te voorkomen heeft de crawler een nette User-Agent, die natuurlijk bij Tweakers.net onbekend is.
Gevolg: ik kan alleen maar cookie-gerelateerde informatie crawlen, aangezien de content zelf een geblurde screenshot van de website lijkt te zijn. Is het daadwerkelijk niet de bedoeling om Tweakers.net te crawlen met onbekende webcrawlers of is er een manier om geautomatiseerd aan Tweakers.net aan te geven dat cookies geaccepteerd worden (want dat doet de crawler natuurlijk gewoon netjes). Iets als een GET-paramater of een bepaalde header.
Ik vond een referentie naar dit probleem in een topic uit 2013 (om precies te zijn, hier: pedorus in "Probleem met nieuwe implementatie cookienotificatie."), echter, zonder oplossing helaas.
Bedankt voor het advies.
Voor een project waarmee ik met een webcrawler technisch-gerelateerde content aan het crawlen ben om hier tekstanalyse op toe te passen, deed ik ook een poging om tweakers.net te crawlen. Echter, het lijkt erop dat er zodra er een niet-standaard User-Agent meegegeven wordt, er ipv een HTTP 200/OK een HTTP 202/Accepted wordt meegegeven, met als payload de cookie-notificatie ipv de daadwerkelijke inhoud. Een useragent van "Wget/VERSIE" levert gewoon netjes de content op. Echter, om ruzie met diverse andere websites te voorkomen heeft de crawler een nette User-Agent, die natuurlijk bij Tweakers.net onbekend is.
Gevolg: ik kan alleen maar cookie-gerelateerde informatie crawlen, aangezien de content zelf een geblurde screenshot van de website lijkt te zijn. Is het daadwerkelijk niet de bedoeling om Tweakers.net te crawlen met onbekende webcrawlers of is er een manier om geautomatiseerd aan Tweakers.net aan te geven dat cookies geaccepteerd worden (want dat doet de crawler natuurlijk gewoon netjes). Iets als een GET-paramater of een bepaalde header.
Ik vond een referentie naar dit probleem in een topic uit 2013 (om precies te zijn, hier: pedorus in "Probleem met nieuwe implementatie cookienotificatie."), echter, zonder oplossing helaas.
Bedankt voor het advies.
Tja