Bot (?) verbruikt veel dataverkeer

Pagina: 1
Acties:

  • Xcalibur
  • Registratie: Augustus 2002
  • Laatst online: 12:22
Ik bied hosting aan aan mijn klanten, en ik heb sinds deze maand het volgende probleem.

Eén van mijn klanten is een band die op dit moment bezig is met een nieuw album. Ter promotie zetten zij af en toe MP3's op hun site, wat wereldkundig gemaakt wordt op de site en op MySpace etc.Gevolg: veel downloads op de MP3's. Geeft niks, is ingecalculeerd, doet ongeveer 6gb per dag :)

Nu heb ik deze maand al twee keer gehad dat binnen een paar uur de laatste MP3 een aantal duizend keer gedownload wordt vanaf 1 IP-adres, wat goed is voor z'n 40 tot 45gb dataverkeer. En dat is dus niet ingecalculeerd.... :/

Het is onmogelijk om het bestand zo vaak af te luisteren in die tijd, dus ik vermoed dat het om een bot of iets dergelijks gaat. De betreffende IP-adressen (iedere 'run' komt vanaf een ander adres) heb ik inmiddels geblocked, maar als het steeds vanaf een ander adres komt schiet het niet op natuurlijk.

Ik vraag me af of iemand dit herkent, of hier ervaring mee heeft? Tips om dit te kunnen voorkomen zijn welkom :)

Designer | Developer | Director | Photographer | LARPer | Geek | Male | 39


  • Dennahz
  • Registratie: November 2001
  • Laatst online: 27-11 08:52

Dennahz

Life feels like hell should.

De IP adressen zijn dan wel telkens verschillend, maar de hostname of tld ook? Stel je voor als het 1 of ander vaag Russisch IP is en de doelgroep is niet Rusland dan kan je overwegen deze te bannen?

Of natuurlijk een restrictie dat per IP het liedje een x aantal keer beluisterd kan worden binnen 24u?

[ Voor 21% gewijzigd door Dennahz op 18-09-2007 09:56 ]

Twitter


  • Mark-
  • Registratie: Juli 2003
  • Laatst online: 01-12 13:24
Ik weet niet of dit iets te maken heeft met jouw geval;

maar ik ken en gebruik wel vaak de Myspace music downloader:

http://www.eches.net/myspace-music/

  • Xcalibur
  • Registratie: Augustus 2002
  • Laatst online: 12:22
Bij geen van de IP-adressen kan ik een hostname opvragen. De adressen lijken ook totaal niet op elkaar.

De MP3 wordt gewoon gelinkt naar het bestand, en niet via een script aangeboden of iets dergelijks. Het aantal requests limiteren is dan knap lastig denk ik? Ik denk dat hotlinking uitschakelen wel effect kan hebben, maar ik denk dat er dan wel meer dingen niet meer werken (links vanaf MySpace oid), en dat is niet de bedoeling..... :)

Designer | Developer | Director | Photographer | LARPer | Geek | Male | 39


  • Dennahz
  • Registratie: November 2001
  • Laatst online: 27-11 08:52

Dennahz

Life feels like hell should.

En als je hotlinking uitschakelt voor alle sites _behalve_ Myspace?

Twitter


  • Xcalibur
  • Registratie: Augustus 2002
  • Laatst online: 12:22
Dennahz schreef op dinsdag 18 september 2007 @ 10:03:
En als je hotlinking uitschakelt voor alle sites _behalve_ Myspace?
Good thinking :)
Ik heb aan mijn klant gevraagd of en wat er gehotlinkt wordt, maar ik wacht nog op antwoord :)

Maar om even op het probleem terug te komen: wat zou dit kunnen veroorzaken? De link hierboven doet niet zoveel volgens mij, dus ik denk niet dat dat het probleem is ;)

Designer | Developer | Director | Photographer | LARPer | Geek | Male | 39


  • jep
  • Registratie: November 2000
  • Laatst online: 30-11 17:24

jep

Verder kun je nog in Apache gaan Throttelen of Limiten en een abuse-mail sturen naar de ISP van die ip's. Je kunt de gegevens vinden door 't ip te whoissen. :)

Ik heb zulke dingen ook wel eens. De oorzaak is vaak moeilijk te achterhalen. Zie je geen refers in je logfiles?

  • BlaTieBla
  • Registratie: November 2000
  • Laatst online: 08:20

BlaTieBla

Vloeken En Raak Schieten

jep schreef op dinsdag 18 september 2007 @ 10:43:
.... en een abuse-mail sturen naar de ISP van die ip's. Je kunt de gegevens vinden door 't ip te whoissen. :)
Abuse mail lijkt me niet gepast in dit geval. Het zijn publiekelijk toegankelijke mp3's die gedownload worden. Dat kan je moeilijk verbieden. Dat is toch echt een kwestie van het zelf oplossen met de middelen die er zijn (username/password, hotlinking niet toestaan, IP adressen/netwerken buitensluiten, etc.).

leica - zeiss - fuji - apple | PSN = Sh4m1n0


  • Keiichi
  • Registratie: Juni 2005
  • Laatst online: 01-12 19:36
Zijn dat volledige verzoeken die het hele bestanden laden?

Beetje webserver ondersteund dat je ergens kunnen beginnen en ergens kunt eindigen.

Solar @ Dongen: http://solar.searchy.net/ - Penpal International: http://ppi.searchy.net/


  • jep
  • Registratie: November 2000
  • Laatst online: 30-11 17:24

jep

BlaTieBla schreef op dinsdag 18 september 2007 @ 10:49:
[...]


Abuse mail lijkt me niet gepast in dit geval. Het zijn publiekelijk toegankelijke mp3's die gedownload worden. Dat kan je moeilijk verbieden. Dat is toch echt een kwestie van het zelf oplossen met de middelen die er zijn (username/password, hotlinking niet toestaan, IP adressen/netwerken buitensluiten, etc.).
True, niet goed gelezen.

  • Xcalibur
  • Registratie: Augustus 2002
  • Laatst online: 12:22
Keiichi schreef op dinsdag 18 september 2007 @ 10:52:
Zijn dat volledige verzoeken die het hele bestanden laden?

Beetje webserver ondersteund dat je ergens kunnen beginnen en ergens kunt eindigen.
Ik weet niet of ik je vraag goed begrijp, je bedoelt of het bestand iedere keer volledig wordt geladen, of slechts gedeeltelijk? Volgens AWstats zit de traffic bij de 'viewed traffic' en niet bij de 'not viewed traffic', waar ook 206 - Partial content onder valt. Mag ik hieruit concluderen dat de bestanden volledig gedownload worden?

Ik zie overigens geen refererers die overeenkomen met het aantal hits, zal de logfiles nog eens uitpluizen :)

Designer | Developer | Director | Photographer | LARPer | Geek | Male | 39


  • Nijn
  • Registratie: Januari 2005
  • Laatst online: 30-11 19:05
Wat de veroorzaker van dat dataverkeer kan zijn durf ik je niet te vertellen, maar kijk is bij RIPE waaronder die geregistreerd is. (Of post het IP hier dan kan ik of iemand anders het even nagaan).

Oplossingen zijn er natuurlijk ter overvloeden. Hotlink protectie werdt net al genoemd, maar ik denk dat dat in dit geval lastig wordt. Immers, als het nummer zo vaak wordt gedownload vanaf hetzelfde IP, dan zal de request niet iedere keer vanaf een website afkomstig zijn.

Andere opties zijn het uitsluiten van bepaalde landen (Scripten met RIPE of een landen database / geo-identification), uitsluiten van clients (Welke client-naam wordt er gebruikt?) en uitsluiten van IP op basis van gegenereerd dataverkeer.

Ik denk dat het laatste het slimste is. Zet een vrij simpel php script ertussen die het IP opslaat samen met het verbruikte dataverkeer. Meer dan 3x per 15 minuten downloaden? Schotel ze dan lekker een HTML pagina voor met het verzoek te stoppen. (Denk aan de MIME types).

Iedere normale MP3 speler zal downloads cachen. Opnieuw downloaden is dus, zelfs al zou iemand hem 15x per minuut afspelen, niet logisch.

  • Keiichi
  • Registratie: Juni 2005
  • Laatst online: 01-12 19:36
Xcalibur schreef op dinsdag 18 september 2007 @ 13:20:
[...]


Ik weet niet of ik je vraag goed begrijp, je bedoelt of het bestand iedere keer volledig wordt geladen, of slechts gedeeltelijk? Volgens AWstats zit de traffic bij de 'viewed traffic' en niet bij de 'not viewed traffic', waar ook 206 - Partial content onder valt. Mag ik hieruit concluderen dat de bestanden volledig gedownload worden?

Ik zie overigens geen refererers die overeenkomen met het aantal hits, zal de logfiles nog eens uitpluizen :)
206 partial content valt precies daaronder.

Ik heb eens een keertje een test op een eigen webserver gedaan. Ik maakte mee dat als ik gewoon een zeer grote download afkapt, dat het zeker was dat niet alles gedownload was dat in het logbestand het wel als zijnde volledige grootte stond, maar wat eigenlijk niet echt het geval was.

Solar @ Dongen: http://solar.searchy.net/ - Penpal International: http://ppi.searchy.net/


  • Pogostokje
  • Registratie: September 2001
  • Laatst online: 01-12 19:59

Pogostokje

* twiet *

Keiichi schreef op dinsdag 18 september 2007 @ 14:22:
[...]
206 partial content valt precies daaronder.
Ik heb eens een keertje een test op een eigen webserver gedaan. Ik maakte mee dat als ik gewoon een zeer grote download afkapt, dat het zeker was dat niet alles gedownload was dat in het logbestand het wel als zijnde volledige grootte stond, maar wat eigenlijk niet echt het geval was.
Of 206 wel of niet bij viewed komt te staan, is een instelling in AWStats. Je kan per status code aangeven waar het onder moet vallen.

Deze code wordt aan het begin van de download bepaald op basis van het request van de browser. Of de download wel of niet wordt afgerond maakt niet uit voor regel in de logfile ... daar zul je altijd de bestandsgrootte vinden van het bestand dat werd opgevraagd, niet hoeveel er uiteindelijk met succes verzonden is. Een logfiles is op dat punt helaas niet betrouwbaar.

Zou het kunnen zijn dat het gaat om een batterij proxy servers, en dat het wel degelijk legitieme downloads zijn maar dat ze allemaal via een reeks proxy gaan van bv een provider? Ik weet niet of er een verdacht patroon is te vinden in de downloads? Je zegt binnen een paar uur een boel keren, bedoel je dat daarbuiten het bestand vrijwel niet wordt gedownload uit die IP reeks? Is het toevallig altijd rond dezelfde tijd en klopt die tijd met bv. internetspitsuur van het gebied waar die IP adressen toe behoren? Ik roep maar wat hoor. ;)

... ook ik heb soms per ongeluk gelijk.


  • LuCarD
  • Registratie: Januari 2000
  • Niet online

LuCarD

Certified BUFH

Kan je niet zien in de Useragent welke bot het is?

Misschien is het handig om de mp3 directory te excluden via robots.txt, de meeste legale bots luisteren toch wel netjes naar de robots.txt

Programmer - an organism that turns coffee into software.


  • Nijn
  • Registratie: Januari 2005
  • Laatst online: 30-11 19:05
Een bot die zo veel dataverkeer op hetzelfde bestand genereerd is geen legitieme bot. Kans dat die de robots.txt negeert is zeer groot.

  • LuCarD
  • Registratie: Januari 2000
  • Niet online

LuCarD

Certified BUFH

Nijn schreef op dinsdag 18 september 2007 @ 21:38:
Een bot die zo veel dataverkeer op hetzelfde bestand genereerd is geen legitieme bot. Kans dat die de robots.txt negeert is zeer groot.
Daar zit wel wat in....

Maar kwaad kan het in ieder geval niet....

Programmer - an organism that turns coffee into software.


  • Nijn
  • Registratie: Januari 2005
  • Laatst online: 30-11 19:05
Daar heb jij dan weer gelijk in.
Pagina: 1