Chinese searchbot valt me lastig

Pagina: 1
Acties:

  • ScuL
  • Registratie: Januari 2000
  • Laatst online: 10:59
Ik heb nu al sinds enige maanden last van een (kennelijk) Chinese zoekmachine die een giga load aan traffic op mijn site aan het veroorzaken is. Hij scant vrijwel continu alle secties van mijn forum.
Robots.txt heb ik wel actief, om bepaalde plaatsen uit te sluiten, maar Google en MSN search moeten wel gewoon op mijn site kunnen komen.

Ik heb zelf het idee dat dit een soort proxy-cache machine is van de Chinese overheid om hun gecensureerde buffer van het internet continu te updaten, alleen mijn datatraffic lijdt daar gigantisch onder :X De laatste 2 maanden kostte het zo'n 5GB/maand extra.

Hier zie je wat ik zie in het administratiepanel van 't forum, af en toe zijn er wel 50 robots tegelijk bezig, en ook dikwijls vanaf verschillende IP-adressen.

http://img194.imageshack.us/my.php?image=chinaseach2ms.png

Hoe stop ik 'm :? :X

[ Voor 5% gewijzigd door ScuL op 20-09-2005 23:14 ]

ProMods ETS2 uitbreiding - Mijn tijdszone is UTC+13


  • Wirehead
  • Registratie: December 2000
  • Laatst online: 22-11-2025
je kan om te proberen heel deze range van ip-adressen tegen te houden vanop je server 202.108.0.0 - 202.108.255.255

jeffrey@ares:~$ whois 202.108.23.70
% [whois.apnic.net node-1]
% Whois data copyright terms http://www.apnic.net/db/dbcopyright.html

inetnum: 202.108.0.0 - 202.108.255.255
netname: CNCGROUP-BJ
descr: CNCGROUP Beijing province network
descr: China Network Communications Group Corporation
descr: No.156,Fu-Xing-Men-Nei Street,
descr: Beijing 100031
country: CN

Denon AVR-X2800H, Quadral Amun Mk.III, Technics SL-7, DIY PhonoPre, AT-152LP / 4.225kW Heckert Solar / SMA 3.0-1AV-41 / Kia e-Niro 64kWh First Edition


  • pven
  • Registratie: Oktober 1999
  • Niet online
Misschien aan je host vragen of hij je kan helpen?

|| Marktplaats-meuk. Afdingen mag! ;-) || slotje.com for sale || Dank pven! ||


  • ScuL
  • Registratie: Januari 2000
  • Laatst online: 10:59
Ja m'n host zou dat doen moeten doen, want ik kan zelf wel IP-bannen maar daar hou ik hem niet mee tegen want hij is geen geregistreerde gebruiker dus zal hij alsnog gewoon connect-attempts kunnen maken..

Blocken van die range heeft weer als nadeel dat Chinese consumenten de site ook niet meer kunnen benaderen :P

Als de user-agent van dat ding bekend was zou ik hem gewoon in robots.txt zetten

[ Voor 36% gewijzigd door ScuL op 20-09-2005 23:23 ]

ProMods ETS2 uitbreiding - Mijn tijdszone is UTC+13


  • Wirehead
  • Registratie: December 2000
  • Laatst online: 22-11-2025
-ScuL- schreef op dinsdag 20 september 2005 @ 23:21:
Ja m'n host zou dat doen moeten doen, want ik kan zelf wel IP-bannen maar daar hou ik hem niet mee tegen want hij is geen geregistreerde gebruiker dus zal hij alsnog gewoon connect-attempts kunnen maken..
ip-ban op je subdomein in ieder geval, niet alleen je forum :)
Blocken van die range heeft weer als nadeel dat Chinese consumenten de site ook niet meer kunnen benaderen :P
ach, die zien sowieso toch al je originele content niet meer eenmaal die bot er geweest is :+

[ Voor 24% gewijzigd door Wirehead op 20-09-2005 23:23 ]

Denon AVR-X2800H, Quadral Amun Mk.III, Technics SL-7, DIY PhonoPre, AT-152LP / 4.225kW Heckert Solar / SMA 3.0-1AV-41 / Kia e-Niro 64kWh First Edition


  • ScuL
  • Registratie: Januari 2000
  • Laatst online: 10:59
Ik heb al zitten googlen om de user-agent van dat ding te proberen te achterhalen.
Vind ondere andere deze lijst:
http://www.jafsoft.com/searchengines/webbots.html

maar daar staat ie niet tussen

ProMods ETS2 uitbreiding - Mijn tijdszone is UTC+13


Verwijderd

-ScuL- schreef op dinsdag 20 september 2005 @ 23:13:Robots.txt heb ik wel actief, om bepaalde plaatsen uit te sluiten, maar Google en MSN search moeten wel gewoon op mijn site kunnen komen.
Zou het onderstaande niet gewoon werken?
code:
1
2
3
4
5
User-agent: *
Disallow: /bepaaldeuitgeslotenplaatsen
#
User-agent: [naam van 'Chinese searchbot']
Disallow: /


Edit: Of wil je slechts de naam van de 'Chinese searchbot' weten?
Edit2: Volgens mij is 'ie van Baidu: maf lijstje.

[ Voor 40% gewijzigd door Verwijderd op 20-09-2005 23:35 ]


  • ScuL
  • Registratie: Januari 2000
  • Laatst online: 10:59
hehe ik weet wel hoe robots.txt werkt... dus ja... enkel de naam ;)
googlen op IP helpt ook niet :{
Misschien zijn er medetweakers die vaker last hebben gehad van dit ding.. vandaar mijn post

[ Voor 32% gewijzigd door ScuL op 20-09-2005 23:35 ]

ProMods ETS2 uitbreiding - Mijn tijdszone is UTC+13


Verwijderd

-ScuL- schreef op dinsdag 20 september 2005 @ 23:34:
hehe ik weet wel hoe robots.txt werkt... dus ja... enkel de naam ;)
googlen op IP helpt ook niet :{
Misschien zijn er medetweakers die vaker last hebben gehad van dit ding.. vandaar mijn post
Googlen op IP levert bij mij zoals je kunt zien wel resultaten; probeer Baidu.

  • ScuL
  • Registratie: Januari 2000
  • Laatst online: 10:59
Ha thnks
hier staat meer info!

http://www.baidu.com/search/spider.htm

In het Chinees :|

[ Voor 3% gewijzigd door ScuL op 20-09-2005 23:40 ]

ProMods ETS2 uitbreiding - Mijn tijdszone is UTC+13


  • CyBeR
  • Registratie: September 2001
  • Niet online

CyBeR

💩

-ScuL- schreef op dinsdag 20 september 2005 @ 23:13:

Ik heb zelf het idee dat dit een soort proxy-cache machine is van de Chinese overheid om hun gecensureerde buffer van het internet continu te updaten
Dat is niet zo. China laat je gewoon internetten maar filtert wat je binnenkrijgt. Ze hebben niet een of andere mirror van het halve internet gemaakt ofzo ;)
, alleen mijn datatraffic lijdt daar gigantisch onder :X De laatste 2 maanden kostte het zo'n 5GB/maand extra.
Als het maar zo weinig is, laat 'm gewoon gaan? Of neem je maar 10GB af ofzo?
Hier zie je wat ik zie in het administratiepanel van 't forum, af en toe zijn er wel 50 robots tegelijk bezig, en ook dikwijls vanaf verschillende IP-adressen.

http://img194.imageshack.us/my.php?image=chinaseach2ms.png

Hoe stop ik 'm :? :X
Als je dat per se wilt is 't vrij simpel om die netrange in je firewall te gooien. Ik neem maar even aan dat de doelgroep van je forum niet in china zit :P

All my posts are provided as-is. They come with NO WARRANTY at all.


  • Vipertje
  • Registratie: Oktober 2001
  • Laatst online: 16-02 17:29
je krijgt dan wel een enorme lijst. ik zou gewoon even vragen of ze die range voor je dicht gooien dat is het makkelijkst. dat rangeje zal vast niet de hele chinese community van site weghouden :D en het bespaard enorm veel werk

  • Wirehead
  • Registratie: December 2000
  • Laatst online: 22-11-2025

Denon AVR-X2800H, Quadral Amun Mk.III, Technics SL-7, DIY PhonoPre, AT-152LP / 4.225kW Heckert Solar / SMA 3.0-1AV-41 / Kia e-Niro 64kWh First Edition


  • ScuL
  • Registratie: Januari 2000
  • Laatst online: 10:59
CyBeR schreef op dinsdag 20 september 2005 @ 23:42:
Als het maar zo weinig is, laat 'm gewoon gaan? Of neem je maar 10GB af ofzo?
mwoa ik vind 5GB op een maandlimiet van 30GB best wel veel
(17%)
Als je dat per se wilt is 't vrij simpel om die netrange in je firewall te gooien. Ik neem maar even aan dat de doelgroep van je forum niet in china zit :P
nee de core niet nee, maar er zitten wel wat rariteiten tussen zoals een figuur in Hong Kong die in dezelfde range zit (202.108.*)
martijnf schreef op dinsdag 20 september 2005 @ 23:42:
je krijgt dan wel een enorme lijst. ik zou gewoon even vragen of ze die range voor je dicht gooien dat is het makkelijkst. dat rangeje zal vast niet de hele chinese community van site weghouden :D en het bespaard enorm veel werk
zie ^^ :D

ff kijken of Baiduspider tag in robots.txt verschil maakt

ProMods ETS2 uitbreiding - Mijn tijdszone is UTC+13


  • Wirehead
  • Registratie: December 2000
  • Laatst online: 22-11-2025
wel in lowercase dan ;)
"baiduspider" completely is the lowercase letter.
brakke vertaling :X

Denon AVR-X2800H, Quadral Amun Mk.III, Technics SL-7, DIY PhonoPre, AT-152LP / 4.225kW Heckert Solar / SMA 3.0-1AV-41 / Kia e-Niro 64kWh First Edition


  • ScuL
  • Registratie: Januari 2000
  • Laatst online: 10:59
Thx dit lijkt al te schelen :) Mocht ie nog terug komen ga ik m'n host verwittigen :*)

[ Voor 5% gewijzigd door ScuL op 20-09-2005 23:55 ]

ProMods ETS2 uitbreiding - Mijn tijdszone is UTC+13


Verwijderd

Hm, kan je niet gewoon even de user-agent string opvragen alstie weer langskomt? Via ASP of PHP check je of iemand langskomt uit die ip-range, vraag z'n useragent-string op, en mail die aan jezelf (of schrijf het weg naar een file ofzo als je geen 100'en mailtjes wilt ontvangen :) )

Verwijderd

anders kan je toch met een .htaccess de hele range makkelijk blokkeren of zie ik dat fout?

  • ScuL
  • Registratie: Januari 2000
  • Laatst online: 10:59
Verwijderd schreef op dinsdag 20 september 2005 @ 23:57:
Hm, kan je niet gewoon even de user-agent string opvragen alstie weer langskomt? Via ASP of PHP check je of iemand langskomt uit die ip-range, vraag z'n useragent-string op, en mail die aan jezelf (of schrijf het weg naar een file ofzo als je geen 100'en mailtjes wilt ontvangen :) )
Hehe je wilt niet weten hoeveel useragents ik in een uur langs krijg :P Dus dat zou lekker intensief worden, maar je hebt gelijk :)

ProMods ETS2 uitbreiding - Mijn tijdszone is UTC+13


  • Erkens
  • Registratie: December 2001
  • Niet online

Erkens

Fotograaf

-ScuL- schreef op dinsdag 20 september 2005 @ 23:55:
Thx dit lijkt al te schelen :) Mocht ie nog terug komen ga ik m'n host verwittigen :*)
OMG, werkt die robots.txt zo snel :o
dat die bot geen gebruik maakt van caching :X

maar ehm, in een beetje logfile heb je wel een user-agent :)

  • griphin
  • Registratie: Maart 2003
  • Laatst online: 21-11-2025
Volgens: http://net-promoter.com/robots-txt/spider_list

is de text voor robots.txt voor BaiDu (User-agent: BaiDuSpider)

-edit- ok spuit nummer 137

[ Voor 11% gewijzigd door griphin op 22-09-2005 10:45 ]


  • ShellGhost
  • Registratie: Augustus 2001
  • Laatst online: 16-12-2021
Aangezien Google een deel van Biadu heeft overgenomen zou het misschien te verklaren zijn dat de robots te keer gaan...
Aangezien ze googles manier gebruiken, of is dat komplete onzin wat ik zit uit te kramen??? :)

  • apNia
  • Registratie: Juli 2002
  • Laatst online: 14:46

apNia

Schreeuwen en Nibbits eten!

Zorg gewoon een PHP header() functie naar een blanco pagina als de host afkomstig is van .cn. Dat zal denk ik een hoop schelen. (note: te lui geweest om topic door te lezen heur ;))
Pagina: 1