Ik heb een slechte ervaring met de zgn Twengabot. Deze verbruikt ongeveer 98% van mijn dataverkeer. Op dit moment (8 juli), is door mijn vrienden van Twenga al ruim 1.5GB (51000+ hits) aan dataverkeer binnengehaald, maar met mijn maandelijkse limiet wordt dit (alweer) problematisch.
Wat ik heb gedaan:
- Mail versturen naar Twenga in het Nederlands en Engels dat ze moeten kappen, uiteraard niets op gehoord
- In cPanel IP adressen geblokkeerd, maar er komen steeds meer Twenga IP Adressen bij
- robots.txt aangemaakt en in de webroot gezet (Zie hieronder)
Ik heb hier meerdere malen Twenga in staan, omdat ze verschillende bots hebben.
Heeft iemand ervaringen met het blokkeren ervan? Ik kan me ook niet herinneren dat ik me ooit heb aangemeld bij Twenga. Google bijvoorbeeld crawlt ook, maar gebruikt misschien 100MB per maand, en dan is het nog veel!
Op de bot pagina van Twenga staat dat ze robots.txt ondersteunen, maar crawl-delay van 300 seconden werkt niet, iedere 3 seconden wordt er een request gedaan. Het disallow lijken ze al helemaal niet te snappen.
Hier staat mijn log dus vol mee:
Iemand enig idee of ik een fout in mijn robots.txt heb gemaakt? Of heeft iemand een idee om op een andere manier Twenga te blokkeren?
Wat ik heb gedaan:
- Mail versturen naar Twenga in het Nederlands en Engels dat ze moeten kappen, uiteraard niets op gehoord
- In cPanel IP adressen geblokkeerd, maar er komen steeds meer Twenga IP Adressen bij
- robots.txt aangemaakt en in de webroot gezet (Zie hieronder)
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
| Crawl-delay: 300 User-Agent: * Disallow /webshop/images User-Agent: TwengaBot/1.1 Disallow / User-Agent: TwengaBot Disallow / User-Agent: Twenga* Disallow / |
Ik heb hier meerdere malen Twenga in staan, omdat ze verschillende bots hebben.
Heeft iemand ervaringen met het blokkeren ervan? Ik kan me ook niet herinneren dat ik me ooit heb aangemeld bij Twenga. Google bijvoorbeeld crawlt ook, maar gebruikt misschien 100MB per maand, en dan is het nog veel!
Op de bot pagina van Twenga staat dat ze robots.txt ondersteunen, maar crawl-delay van 300 seconden werkt niet, iedere 3 seconden wordt er een request gedaan. Het disallow lijken ze al helemaal niet te snappen.
Hier staat mijn log dus vol mee:
code:
1
2
3
| Http Code: 200 Date: Jul 08 14:19:51 Http Version: HTTP/1.0 Size in Bytes: 7043 Referer: - Agent: TwengaBot/1.1 (+http://www.twenga.com/bot.html) |
Iemand enig idee of ik een fout in mijn robots.txt heb gemaakt? Of heeft iemand een idee om op een andere manier Twenga te blokkeren?
🃏 TCG Codex - Je volledige TCG verzameling in je broekzak ::: 🍏 TCG Codex for iOS ::: 🤖 TCG Codex for Android