(On)Geschreven Regels over Site Scraping (juridisch) - Internet en hosting

donderdag 3 april 2014 10:36

Acties:

Topicstarter

Misschien niet het juiste forum gedeelte maar aangezien werk & inkomen gerelateerd aan juridisch is....

Ik ben op dit moment bezig met een prive projekt en mijn huzarenstukje is een site scraping onderdeel

wat betekent site scrapping ongeveer

het enige gedeelte van de content waar ik geinteresseerd ben is niet de content maar alleen de prijs van produkt X

zonder dat ik precies weggeef waar ik me precies mee bezig ga houden. (is een beetje vaag wereldje als in niet zo bekend)

neem ik als voorbeeld een catogorie als game/software/licentie cd-keys websites
daar bestaan er tientallen van en de zijn ook wel soms wel eens aangesloten aan op een soort pricewatch

ik wil zelf deze sites scrapen als ze me geen vrijwillig toegang geven tot een api of voor mij om realtime de prijzen aan beschikbaar stellen.

(ik ben zelfs bereid om die api zelf voor ze te schrijven he he)

de meesten die ik gecontacteerd heb vinden dat begrijpelijk niet zo leuk (nogal zacht uitgedrukt)
vanwege 2 redenen natuurlijk

1. ik heb op een makkelijke manier beschikking tot hun prijzen (en veranderingen

)
2. hammertime op hun server

aan die eerste heb ik zwart wit gezien geen boodschap omdat dat naar mijn inziens publiekelijk beschikbaar is als compensatie prijzen van mijzelf ben ik ook bereid om die beschikbaar te stellen aan de tegenpartijg (met een delay van X aantal uur

aan die tweede wil ik wel graag tegemoet komen, ik heb geen behoefte om + 1000 requests per uur naar iemands website te sturen (dat is ook niet nodig) en ik wil ook rekening houden met hun piek uren. vandaar dat ik graag contact met ze opneem.

moet ik mij ergens juridisch hiervoor zorgen gaan maken of geld hier nu gewoon het recht van de slimste en de sterkste?

ik ben benieuwd wie er hier wel eens mee te maken heeft gehad

donderdag 3 april 2014 11:03

Acties:

ATS

Er is voor zover ik weet wel wat jurisprudentie over (maar ik ben geen jurist). Zoek maar eens op zaken als funda vs. zoekallehuizen, en er was een soortgelijk akkefietje met sites waar autos verkocht worden als ik het me goed herinner. Relevante wetgeving is in elk geval het databankenrecht, en wellicht nog meer.

Ik denk dat sites scrapen voor alleen prijzen mag, maar wat je verder nog mag meenemen is heel beperkt.

My opinions may have changed, but not the fact that I am right. -- Ashleigh Brilliant

donderdag 3 april 2014 11:06

Acties:

P.O. Box

kranten.com heeft hier ook ooit een zaak over gehad... misschien dat je daar iets over kunt vinden...

overigens kan jezelf bekend maken ook andere nadelige gevolgen hebben... bijv. dat ze er alles aan doen om het jou lastig te maken (bijv. ipadressen blokkeren, etc. etc.)

donderdag 3 april 2014 11:18

Acties:

The Eagle

I wear my sunglasses at night

Als ik je zo lees vraag ik me af of je bedoelingen wel zo zuiver zijn als dat je voor poogt te doen.
Het lijkt mij een beetje op het randje.

Maar waarom echte site benaderen als het voor een soort van testprojectje is?
Waarom niet je eigen site opzetten en die als test scrapen via een andere server? Paar VM's draaien met wat software en klaar ben je

En als je echt goede bedoelingen hebt: je kunt natuurlijk ook de crew van T.net benaderen en vragen of je een testmachine van bijv de PW zou mogen scrapen. Onder de juiste condities: nee heb je, ja kun je krijgen

Al is het nieuws nog zo slecht, het wordt leuker als je het op zijn Brabants zegt :)

donderdag 3 april 2014 12:46

Acties:

Hydra

Je kunt altijd beter proberen het netjes te doen; zelfs als je juridisch in je recht staat kunnen ze het je knap lastig maken. Probeer dus in eerste instantie gewoon dit in overleg te doen met de betrokken sites.

https://niels.nu

donderdag 3 april 2014 12:57

Acties:

chime

Veel hangt al af van wat er in de robots.txt staat, maar ook de voorwaarden van de site.

Ook wat je met die data gaat doen, is dat voor interne rapportage dan mag er meer dan wanneer je zaken gaat publiceren (zoals een vergelijkingssite)

Soit, ik ben er professioneel mee bezig - maar de juridische dienst heeft daar toch wel een paar keer goed naar gekeken.
Ook wordt het weer een heel ander verhaal als je het als dienst gaat aanbieden.

Via google app engine kan je aan vrij veel zaken met de url fetch van google, ook leuk omdat je dan in 1 trek ook google search kunt gebruiken.
Wat weer handig is omdat sommige sites de zoek functie uitsluiten in de robots.txt voor bots.
Ook geeft de zoekmachine van google vaak betere resultaten terug dan de zoekfunctie van de sites zelf

donderdag 3 april 2014 13:01

Acties:

dik_voormekaar

Als jij content van een website (al dan niet gedeeltelijk) overneemt, dan schendt jij het auteursrecht van die site. Het mag alleen indien de voorwaarden van de site vermelden dat dit mag. Jij neemt een deel van de inhoud over (de prijs per product), dus dit mag niet.

[ Voor 3% gewijzigd door dik_voormekaar op 03-04-2014 13:02 ]

donderdag 3 april 2014 13:12

Acties:

t_captain

@TS: als je een goede business case hebt voor je site dan kan het betalen voor de API's ook een optie zijn. Misschien dat de houding van sommige sites t.a.v. een API daarmee verandert?

donderdag 3 april 2014 13:15

Acties:

RedHat

dik_voormekaar schreef op donderdag 03 april 2014 @ 13:01:
Als jij content van een website (al dan niet gedeeltelijk) overneemt, dan schendt jij het auteursrecht van die site. Het mag alleen indien de voorwaarden van de site vermelden dat dit mag. Jij neemt een deel van de inhoud over (de prijs per product), dus dit mag niet.

Een prijs van een product kan niet auteursrechtelijk beschermd zijn vziw.

Scraping is weinig over bekend, in de zin van jurisprudentie, als het om data gaat ipv inhoud. Auteursrechtelijk beschermd materiaal overnemen mag niet, een complete database ook vaak niet (Zie databaserecht), een simpele prijs is meer een grijs gebied.

Publiekelijke data (neem bijvoorbeeld voetbaluitslagen, dat komt dichter in de buurt) heeft gewoon geen of weinig jurisprudentie, ik heb het in mijn zoektocht nog niet kunnen vinden iig.

Dus het is een afweging maken, wil je mogelijk jurisprudentie scheppen, gewoon scrapen en een evt rechtszaak aangaan en anders ben je echt overgeleverd aan de publicerende partijen.

donderdag 3 april 2014 13:21

Acties:

dik_voormekaar

Ik denk dat prijzen van een product zal onder het databankrecht vallen. En dit heeft ook te maken met intellectueel eigendom.

donderdag 3 april 2014 13:30

Acties:

Orion84

Admin Wonen & Mobiliteit

Fotogenie(k)?

Lees het volgende stuk even door: http://sync.nl/andermans-site-scrapen-wanneer-mag-dat

Belangrijke quote:

Je hebt alleen een beschermde databank, aldus het Hof, als je speciaal geïnvesteerd hebt in de databank.

Een webshop investeert voor mijn gevoel niet speciaal in een prijslijst. Ze verkopen producten online en bijgevolg staan dus de prijzen ook op een website.

Zie ook de volgende quote uit dat artikel:

Zoekallehuizen had het dan handiger bekeken: die namen Funda niet over, maar gingen gewoon naar de sites van de individuele makelaars, waar immers al die advertenties ook staan. Kost iets meer werk, maar daar heb je spiders voor.
Dit mocht: de makelaars waren immers niet bezig met een databank met huizenadvertenties, maar met het verkopen van huizen. De advertenties op hun site waren dus niet beschermd onder het databankenrecht.

Dat is in feite exact wat je zou doen met een prijsscraper. Enige waar je natuurlijk nog wel mee zit is gedoe doordat je overlast veroorzaakt door de vele requests, maar daar valt ongetwijfeld een technische mouw aan te passen (requests spreiden over de verschillende sites die je wilt scrapen, ipv. eerst 1 site compleet uitvragen en dan de volgende).

[ Voor 52% gewijzigd door Orion84 op 03-04-2014 13:35 ]

The problem with common sense is that it's not all that common. | LinkedIn | Flickr

donderdag 3 april 2014 15:07

Acties:

RedHat

dik_voormekaar schreef op donderdag 03 april 2014 @ 13:21:
Ik denk dat prijzen van een product zal onder het databankrecht vallen. En dit heeft ook te maken met intellectueel eigendom.

Dat ligt eraan. Ga je de hele PW scrapen wel, maar ga je een prijs scrapen vanuit een webwinkel mogelijk weer niet.

donderdag 3 april 2014 15:16

Acties:

Orion84

Admin Wonen & Mobiliteit

Fotogenie(k)?

Dat is inderdaad dezelfde vergelijking als tussen het scrapen van Funda (die geïnvesteerd hebben in die samengestelde databank) en het scrapen van makelaars die gewoon huizen verkopen en die 'toevallig' online publiceren. Van dat eerste is jurisprudentie dat het niet is toegestaan op basis van databankrecht. Van dat laatste is jurisprudentie dat het niet onder DB recht valt.

[ Voor 26% gewijzigd door Orion84 op 03-04-2014 15:17 ]

The problem with common sense is that it's not all that common. | LinkedIn | Flickr

donderdag 3 april 2014 15:42

Acties:

ari3

Is scraping wel zo'n goede oplossing? Als een bedrijf jou de data liever niet vrijwillig verstrekt kunnen zij toch opzettelijk foutieve gegevens retourneren wanneer je scraped? Lijkt me nogal een bedrijfsrisico dat scrapen.

"Kill one man, and you are a murderer. Kill millions of men, and you are a conqueror. Kill them all, and you are a god." -- Jean Rostand

donderdag 3 april 2014 16:31

Acties:

chime

ari3 schreef op donderdag 03 april 2014 @ 15:42:
Is scraping wel zo'n goede oplossing? Als een bedrijf jou de data liever niet vrijwillig verstrekt kunnen zij toch opzettelijk foutieve gegevens retourneren wanneer je scraped? Lijkt me nogal een bedrijfsrisico dat scrapen.

Foutieve gegevens zullen ze vaak niet doen, want dan riskeer je dat je klanten dat ook zo gaan zien.

Wat men wel kan doen is het blokken van je crawler, dat is veel sneller dan even iets te gaan maken zodat jou requests worden opgevangen en je een ander resultaat gaat terugkrijgen.

Ook kan men trucjes uithalen om bepaalde zaken te verstoppen, zoals:
- prijs in een image steken
- goedkopere prijs verstoppen onder een "klik hier voor actieprijs" popup
- elementen / structuur veranderen.

Maar bij sommige van die zaken ga je ook impact hebben op zoekmachines - meeste bedrijven willen nu toch net wel gevonden worden op google en co.

Zo zijn er ook applicatie's die data ophalen van foursquare, hangouts, twitter ...
Dat mag - maar vaak mag je die data dan niet gaan combineren met elkaar => je krijgt dan heel accurate gegevens van waar mensen zich bevinden, maar die sites staan zo een manipulatie van hun data dus niet toe.

Rond scraping is op zich nog niet zoveel jurisprudentie, dus het is en blijft een grijs gebied.

Nu, bij het ophalen haal je vaak gewoon dingen op die op het internet (openbaar dus) terug te vinden zijn.
Waarbij je natuurlijk moet opletten dat je sites niet gaat platleggen met je requests.

Maar ga die data manipuleren of ga data ophalen die achter een login is opgeslagen en je komt in een volledig andere situatie terecht.

donderdag 3 april 2014 17:18

Acties:

Krisp

like.no.other

Ik schuif dit door naar Internetmarketing & Social Media .

Life is what happens to you, while you're busy making other plans (John Lennon)

donderdag 3 april 2014 17:42

Acties:

Hydra

chime schreef op donderdag 03 april 2014 @ 16:31:
[...]

Foutieve gegevens zullen ze vaak niet doen, want dan riskeer je dat je klanten dat ook zo gaan zien.

Tuurlijk niet. Die foute gegevens geef je alleen aan de crawler. De klanten op je eigen site zien de juiste gegevens.

https://niels.nu

donderdag 3 april 2014 20:17

Acties:

BazenKruistocht

Topicstarter

Ik heb het doorgelezen en bedankt iedereen voor de nuttige bijdrage, ik zal morgen hier wat uitgebreider op in gaan, maar het doel is alleen maar om van ongeveer 15 sites de prijzen te scrapen en die eigenlijk alleen maar intern gebruik om prijs veranderingen in de gaten te houden, ik neem geen prijzen over.

sommige sites hadden mij al bedreigd om zoals hieronder gezegd

ari3 schreef op donderdag 03 april 2014 @ 15:42:
Is scraping wel zo'n goede oplossing? Als een bedrijf jou de data liever niet vrijwillig verstrekt kunnen zij toch opzettelijk foutieve gegevens retourneren wanneer je scraped? Lijkt me nogal een bedrijfsrisico dat scrapen.

maar daar heb ik geen last van, het gaat mij alleen maar om tijd en werkbesparing om alles handmatig af te zoeken

donderdag 10 april 2014 17:43

Acties:

BdR

TV is gooder then books

Hydra schreef op donderdag 03 april 2014 @ 12:46:
Je kunt altijd beter proberen het netjes te doen; zelfs als je juridisch in je recht staat kunnen ze het je knap lastig maken. Probeer dus in eerste instantie gewoon dit in overleg te doen met de betrokken sites.

Mee eens

Het is in feite een vorm van parasiteren.

Ik ken een praktijk voorbeeld waarbij partij A de prijsinformatie van partij B via scripts "leeg zoog". Ging om twee concurrerende apps tijdje terug. Toen partij B daar achter kwam staken ze er een stokje voor en gingen partij A expres van voeden met hilarische onzin "in de prijs verlaagd: kaboutersoep met echte kabouters" oid

Erg grappig.

mijn web games -> Impossible Snake 2 :: Impossible Snake :: Snake Slider