Ik heb twee websites waar 95% van het verkeer komt van een Baidu spider. In de access-logs zie ik 2-3 requests per seconde, waarbij het verkeer afkomstig is van Baidu.
In de robots.txt staat het volgende:
In de .htaccess wordt Baidu op User Agent geblokkeerd:
En we blokkeren op IP niveau:
Toch zie ik nog steeds erg veel requests voorbij komen die herleidbaar zijn naar Baidu.
Bijvoorbeeld:
Op geen enkele manier is te zien dat het hier om Baidu gaat, behalve als ik kijk naar IP-gegevens:
Natuurlijk kan ik ook dit IP weer toevoegen aan het lijstje met denies, maar ik zie erg veel verschillende IP-adressen, die ik alleen na een handmatige check identificeer als Baidu.
Ze lijken de robots.txt te negeren, ook al lees ik in documentatie dat ze dat niet zouden doen. Volgens hun eigen documentatie zou een Baidu spider zich moeten identificeren als Baiduspider, maar ook dat doen ze niet (getuige de entry in het access-log).
Het spideren zelf blijkt ook niet lekker te gaan. We meten het gebruik va resources op ons hostingplatform (memory en processor) en Baidu is bij deze twee kleine websites verantwoordelijk voor een gigantische hoeveelheid gebruik.
Heeft iemand een goed idee om deze spider helemaal te blokkeren? Het liefst op een manier die weinig resources gebuikt.
In de robots.txt staat het volgende:
code:
1
2
| User-agent: Baiduspider Disallow: / |
In de .htaccess wordt Baidu op User Agent geblokkeerd:
code:
1
2
| RewriteCond %{HTTP_USER_AGENT} ^Baiduspider.* [NC]
RewriteRule .* - [F] |
En we blokkeren op IP niveau:
code:
1
2
3
4
5
| order allow,deny allow from all # Block access to Baiduspider deny from 180.76.15.0/24 180.76.5.0/24 180.76.6.0/24 123.125.71.0/24 220.181.108.0/24 |
Toch zie ik nog steeds erg veel requests voorbij komen die herleidbaar zijn naar Baidu.
Bijvoorbeeld:
code:
1
| [2016-07-25 12:18:47] [web04] [client 202.46.51.164] "GET /path/naar/pagina HTTP/1.1" 200 3488 "-" "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.93 Safari/537.36" |
Op geen enkele manier is te zien dat het hier om Baidu gaat, behalve als ik kijk naar IP-gegevens:
| ip | 202.46.51.164 |
| asorgname | Beijing Baidu Netcom Science and Technology Co., Ltd. |
| orgname | ShenZhen Sunrise Technology Co.,Ltd. |
Natuurlijk kan ik ook dit IP weer toevoegen aan het lijstje met denies, maar ik zie erg veel verschillende IP-adressen, die ik alleen na een handmatige check identificeer als Baidu.
Ze lijken de robots.txt te negeren, ook al lees ik in documentatie dat ze dat niet zouden doen. Volgens hun eigen documentatie zou een Baidu spider zich moeten identificeren als Baiduspider, maar ook dat doen ze niet (getuige de entry in het access-log).
Het spideren zelf blijkt ook niet lekker te gaan. We meten het gebruik va resources op ons hostingplatform (memory en processor) en Baidu is bij deze twee kleine websites verantwoordelijk voor een gigantische hoeveelheid gebruik.
Heeft iemand een goed idee om deze spider helemaal te blokkeren? Het liefst op een manier die weinig resources gebuikt.