Acties:
  • 0 Henk 'm!

  • orf
  • Registratie: Augustus 2005
  • Nu online
Hoi,

Eén van onze websites veroorzaakt een flinke load doordat Baidu spidert. We hebben Baidu op alle IP-adressen die we konden vinden uitgesloten, maar nu loopt al maanden het error-log vol met errors. De server geeft al maanden een 403, maar toch blijft Baidu de website opvragen. Zo vaak (elke 1-2 seconden een request) dat er nog steeds een verhoogde load is.

We hebben geprobeerd om een abuse melding o.i.d. te doen, maar we lopen vast in dat proces. Iemand een idee?

Het error-log staat vol met deze elke 1-2 seconden deze error (met verschillende IP-adressen)

code:
1
[pid 23586] [client 180.76.15.30:46107] AH01797: client denied by server configuration


Dit is de regel waarmee we (met trial&error) Baidu zo veel mogelijk hebben geblockt:

code:
1
2
# Block access to Baiduspider
deny from 45.113.192.0/24 45.113.194.0/24 103.235.44.0/24 103.235.45.0/24 103.235.46.0/24 103.235.47.0/24 104.193.88.0/24 104.193.89.0/24 131.161.8.0/24 131.161.9.0/24 131.161.10.0/24 131.161.11.0/24 180.76.0.0/20 180.76.1.0/24 180.76.6.0/24 180.76.7.0/24 180.76.8.0/24 180.76.9.0/24 180.76.11.0/24 180.76.12.0/24 180.76.13.0/24 180.76.14.0/24 180.76.15.0/24 180.76.76.0/24 182.61.64.0/18 182.61.99.0/24 202.46.48.0/24 202.46.49.0/24 202.46.50.0/24 202.46.51.0/24 202.46.52.0/24 202.46.53.0/24 202.46.54.0/24 202.46.55.0/24 202.46.56.0/24 202.46.57.0/24 202.46.58.0/24 202.46.60.0/24 202.46.61.0/24 202.46.62.0/24

Acties:
  • 0 Henk 'm!

  • Hero of Time
  • Registratie: Oktober 2004
  • Laatst online: 29-09 21:21

Hero of Time

Moderator LNX

There is only one Legend

Doe de deny eens via iptables, ipv in je webserver configuratie. Want het wordt nu nog steeds door je webserver afgehandeld en dat blijft hoe dan ook load genereren. Door het met iptables te doen, houd je 't al tegen voordat je webserver erop reageert. Bovendien is iptables veel efficiënter.

Commandline FTW | Tweakt met mate


Acties:
  • 0 Henk 'm!

  • orf
  • Registratie: Augustus 2005
  • Nu online
Hero of Time schreef op donderdag 29 juni 2017 @ 10:22:
Doe de deny eens via iptables, ipv in je webserver configuratie. Want het wordt nu nog steeds door je webserver afgehandeld en dat blijft hoe dan ook load genereren. Door het met iptables te doen, houd je 't al tegen voordat je webserver erop reageert. Bovendien is iptables veel efficiënter.
Bedankt voor je reply :)
De website draait op een shared omgeving (had ik er wel even bij kunnen zeggen). Dat maakt het denk ik lastig om Baidu alleen voor deze website te weigeren in de iptables denk ik? Voor andere websites is het -denk ik- nadelig om Baidu te weigeren.

Acties:
  • 0 Henk 'm!

  • RocketKoen
  • Registratie: December 2001
  • Laatst online: 13:53
Werkt het niet als je de baidu spider toevoegt aan je spiders.txt?
code:
1
2
User-agent: Baiduspider
Disallow: /

Het kan een paar dagen duren. Maar dan zou de Baidu spider je website moeten overslaan.

Of meteen alle spiders blocken, behalve google:
code:
1
2
3
4
5
User-agent: *
Disallow: /

User-agent: Googlebot
Disallow:

Of een crawl delay. Dan mogen ze maar 1 request per X seconden doen (x=30 in voorbeeld)
code:
1
2
User-agent: *
Crawl-delay: 30

TheS4ndm4n#1919


Acties:
  • 0 Henk 'm!

  • emnich
  • Registratie: November 2012
  • Niet online

emnich

kom je hier vaker?

Ik weet niet of je Apache gebruikt en waar je wel toegang toe hebt maar kijk hier eens naar
Conditional Logs

There are times when it is convenient to exclude certain entries from the access logs based on characteristics of the client request. This is easily accomplished with the help of environment variables. First, an environment variable must be set to indicate that the request meets certain conditions. This is usually accomplished with SetEnvIf. Then the env= clause of the CustomLog directive is used to include or exclude requests where the environment variable is set. Some examples:
code:
1
2
3
4
5
6
# Mark requests from the loop-back interface
SetEnvIf Remote_Addr "127\.0\.0\.1" dontlog
# Mark requests for the robots.txt file
SetEnvIf Request_URI "^/robots\.txt$" dontlog
# Log what remains
CustomLog logs/access_log common env=!dontlog

[ Voor 4% gewijzigd door emnich op 29-06-2017 10:58 . Reden: format ]


Acties:
  • 0 Henk 'm!

  • orf
  • Registratie: Augustus 2005
  • Nu online
RocketKoen schreef op donderdag 29 juni 2017 @ 10:57:
Werkt het niet als je de baidu spider toevoegt aan je spiders.txt?
code:
1
2
User-agent: Baiduspider
Disallow: /

Het kan een paar dagen duren. Maar dan zou de Baidu spider je website moeten overslaan.

Of meteen alle spiders blocken, behalve google:
code:
1
2
3
4
5
User-agent: *
Disallow: /

User-agent: Googlebot
Disallow:

Of een crawl delay. Dan mogen ze maar 1 request per X seconden doen (x=30 in voorbeeld)
code:
1
2
User-agent: *
Crawl-delay: 30
Dat hebben we als eerste geprobeerd en heeft niet gewerkt. Baidu idenficeert zich vaak helemaal niet. Alleen aan het IP-adres is dan te zien dat het Baidu is. De robots.txt werd compleet genegeerd (werd ook niet opgevraagd)

Acties:
  • 0 Henk 'm!

  • Hero of Time
  • Registratie: Oktober 2004
  • Laatst online: 29-09 21:21

Hero of Time

Moderator LNX

There is only one Legend

orf schreef op donderdag 29 juni 2017 @ 10:44:
[...]

Bedankt voor je reply :)
De website draait op een shared omgeving (had ik er wel even bij kunnen zeggen). Dat maakt het denk ik lastig om Baidu alleen voor deze website te weigeren in de iptables denk ik? Voor andere websites is het -denk ik- nadelig om Baidu te weigeren.
Je hebt toch een eigen IP adres? Dan kan je het ook op door manier afvangen. En wat zou je nou totaal missen door een Chinese zoekmachine te blokkeren?

Commandline FTW | Tweakt met mate

Pagina: 1