Hulp nodig bij Scraper supermarkt prijzen

Pagina: 1
Acties:

Vraag


Acties:
  • 0 Henk 'm!

  • Ransom_nl
  • Registratie: Oktober 2007
  • Laatst online: 15-03-2024
Mijn vraag:

Ik wil graag voor een project de producten van de Albert heijn zakelijk webshop afhalen en in een excel krijgen met de kolommen: productnaam, inhoud verpakking, en prijs.

Relevante software en hardware die ik gebruik:
Windows pc. Freeware scrapetool

Wat ik al gevonden of geprobeerd heb:
Ik heb 2 chrome plugins geprobeerd met scrapers. Bij de een kreeg ik wel een output maar de tekst was raar vervormd en kreeg niet goed 3 kolommen. Bij de ander stond alles goed ingesteld, in een data preview gaf hij mooi de juiste data, maar als ik daadwerkelijk op scrape drukte om alle producten te doen, kreeg ik een slecht resultaat, alles door elkaar.

Hoop dat iemand kan helpen. Alvast dank!

Alle reacties


Acties:
  • +2 Henk 'm!

  • spone
  • Registratie: Mei 2002
  • Niet online
Biedt AH zakelijk geen xml feed? Dan kan je je een hoop werk en gedoe besparen. Bovendien, als je continu de complete site binnen gaat trekken lijkt het me handig om dit even tegen ze aan te houden. Nee heb je, ja kun je krijgen :) .

i5-14600K | 32GB DDR5-6000 | RTX 5070 - MacBook Pro M1 Pro 14" 16/512


Acties:
  • 0 Henk 'm!

  • Ransom_nl
  • Registratie: Oktober 2007
  • Laatst online: 15-03-2024
Ik doe dit voor een zakelijke groothandel die concurrentie verwacht, dus de prijsstelling wil vergelijken. Dus dat ligt wat gevoelig. Ah zakelijk is ook niet bedoeld voor wederverkoop, meer wat grotere verpakkingen zeg maar, dus betwijfel of ze een feed aanbieden.

Acties:
  • 0 Henk 'm!

  • TripleQ
  • Registratie: Juni 2004
  • Niet online
Ransom_nl schreef op dinsdag 8 augustus 2017 @ 07:07:
Ik doe dit voor een zakelijke groothandel die concurrentie verwacht, dus de prijsstelling wil vergelijken. Dus dat ligt wat gevoelig. Ah zakelijk is ook niet bedoeld voor wederverkoop, meer wat grotere verpakkingen zeg maar, dus betwijfel of ze een feed aanbieden.
Weet je zeker dat dit mag dan?

En met een beetje programmeer kunst is dit vast wel te doen. Selenium bijvoorbeeld is een library die je kan gebruiken om te scrapen.

Maar de vraag is of je dit wel mag en wilt doen. 1 lay-out aanpassing aan hun kant en jou tool werkt niet meer. .

Acties:
  • +1 Henk 'm!

  • samo
  • Registratie: Juni 2003
  • Laatst online: 21:55

samo

yo/wassup

Scraping is niet de nette manier om aan die informatie te komen. Eigenlijk misbruik je de interface door de prijzen op te slaan en te verwerken. Dit opslaan en verwerken is niet zomaar legaal (lees bijvoorbeeld even dit artikel op ICTRecht over content scrapen.

Daarmee kom je in het volgende twijfelachtige gebied: als we er even vanuitgaan dat scrapen niet mag, mogen middelen om dat uit te voeren niet besproken worden volgens Het algemeen beleid #verbodenhacken.

Let vooral op, het vragen of iemand anders de oplossing voor je uit kan werken mag al helemaal niet, aldus
Het algemeen beleid #verbodenspam


In mijn ervaring hebben juist zakelijke aanbieders feeds (XML, EDI of CSV) zodat hun prijzen kunnen worden ingelezen in systemen. Zodat een voorraadmanagementsysteem zelf de bestelling kan doorzetten naar de leverancier. Juist bij groothandels is dit handig en veel voorkomend. Heb je recht op de feed, dan is dat een goede manier om structureel aan die informatie te komen.

Bekend van cmns.nl | ArneCoomans.nl | Het kindertehuis van mijn pa in Ghana


Acties:
  • 0 Henk 'm!

  • Croga
  • Registratie: Oktober 2001
  • Laatst online: 15:58

Croga

The Unreasonable Man

samo schreef op dinsdag 8 augustus 2017 @ 07:21:
Scraping is niet de nette manier om aan die informatie te komen. Eigenlijk misbruik je de interface door de prijzen op te slaan en te verwerken. Dit opslaan en verwerken is niet zomaar legaal (lees bijvoorbeeld even dit artikel op ICTRecht over content scrapen.
Als je dat artikel door leest dan is wat TS wil doen geen enkel probleem.

- Er worden geen teksten en fotos overgenomen anders dan de productnaam zelf.
- Het valt niet onder databank recht aangezien AH geen bijzondere inspanning heeft hoeven te verrichten om de data te genereren.
- De database is niet de core business van de AH dus ook daar kunnen ze zich niet op beroepen

Al met al zie ik geen reden waarom dit niet gescraped kan worden.
(ik heb een tijd gewerkt voor een bedrijf wat prijzen van vliegmaatschappijen scraped. Die vliegmaatschappijen hebben dat liever niet maar kunnen het dat bedrijf niet verbieden. In feite is dat vergelijkbaar met de case van TS).

Waarom zou je dit niet moeten willen? Omdat scraping niet iets is wat je één keer opzet en daarna kunt blijven doen. De website van de AH zal veranderen. Als ze echt niet willen dat je scraped kunnen ze dat tegen gaan door vaak te veranderen. En iedere keer dat er iets verandert moet jij je scraper opnieuw inrichten. Bij het bedrijf wat ik hier boven noem hadden ze grofweg voor iedere 3 vliegmaatschappijen 1 FTE om de scraper in de lucht te houden en dat was niet genoeg. Er vielen nogsteeds regelmatig maatschappijen uit omdat de scrapers geen tijd hadden om mee te gaan met de aanpassingen.
Pagina: 1