OpenGraph, Schema.org of andere metadata gebruiken?

Pagina: 1
Acties:

Acties:
  • 0 Henk 'm!

  • !null
  • Registratie: Maart 2008
  • Laatst online: 08:21
Ik wil op basis van een willekeurige webshop URL een aantal dingen ophalen. Zoals prijs van het artikel, afbeelding etc, de basale dingen. Dit op basis van een URL die de gebruiker invoert, ik ga dus expliciteit geen web scraping doen of servers lastig vallen.

De link kan van meerdere webshops zijn, maar zal voor deze toepassing vrijwel zeker altijd Nederlandse webshop URLs zijn. Buitenlandse webshop URLs zullen zeldzaam zijn, dus daar wil ik me niet op richten.

Nu ligt het aan de webshop op wat voor manier deze metadata beschikbaar is gesteld. Als het al beschikbaar is gesteld. Maar het kan dus zijn dat de webshop in kwestie Open Graph gebruikt, Schema.org of oEmbed.
Mijn vragen:

1. Kan ik met deze drie standaarden het gros van de webshops afdekken? (los van de webshops die hier niks aan gedaan hebben)
Of zijn er nog meer standaarden? Of zou ik oEmbed niet moeten doen, maar me alleen moeten richten op OpenGraph en Schema.org?
Ik heb namelijk geen idee wat het "marktaandeel" is van deze standaarden, onder de Nederlandse webshops.

2. Zijn er wellicht libraries/scripts die deze standaarden aflopen?
Uiteraard heb ik al wat losse (PHP) scriptjes gevonden die wat parsen. Vermoedelijk ga ik gewoon deze losse parser scriptjes draaien op de URL, en kijken welke succesvol met iets terugkomt. Maar wellicht heeft iemand een betere suggestie.

Ampera-e (60kWh) -> (66kWh)


Acties:
  • 0 Henk 'm!

  • RobIII
  • Registratie: December 2001
  • Niet online

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

(overleden)
!null schreef op dinsdag 08 november 2016 @ 21:45:
Ik wil op basis van een willekeurige webshop URL een aantal dingen ophalen. [...]Dit op basis van een URL die de gebruiker invoert, ik ga dus expliciteit geen web scraping doen of servers lastig vallen.
Ik heb geen idee hoe die eerste zin en die tweede zin elkaar niet uitsluiten. Je zult toch écht een server moeten 'lastig vallen'. Dat je dat niet met honderden of duizenden requests wil doen maar specifieke (product)pagina's "cherry picken" is vers 2. Maar je zult dus wel degelijk een server moeten "lastig vallen", hoe "miniem" ook.
!null schreef op dinsdag 08 november 2016 @ 21:45:
1. Kan ik met deze drie standaarden het gros van de webshops afdekken? (los van de webshops die hier niks [...]
Ik heb namelijk geen idee wat het "marktaandeel" is van deze standaarden, onder de Nederlandse webshops.

2. Zijn er wellicht libraries/scripts die deze standaarden aflopen?
Uiteraard heb ik al wat losse (PHP) scriptjes gevonden die wat parsen. Vermoedelijk ga ik gewoon deze losse parser scriptjes draaien op de URL, en kijken welke succesvol met iets terugkomt. Maar wellicht heeft iemand een betere suggestie.
Heel dom idee misschien, maar pak eens een willekeurige graai van, zeg, 10 of 25 of 100 webshops die representatief zijn voor wat je gaat verwachten en bekijk (al dan niet geautomatiseerd) gewoon wat ze gebruiken (if anything)? Ik denk dat 't je behoorlijk gaat tegenvallen, maar goed, ik zit niet zo in die materie dus misschien vergis ik me daarin. Dit heb je toch in een uurtje of desnoods een middagje gedaan? Het zal ook allicht nogal wat schelen in welke "hoek" dat je zit; zit je in de ICT webshops dan zal dat (vermoed ik) beter in elkaar zitten dan Gertie's PunnikShop en consorten.

[ Voor 62% gewijzigd door RobIII op 08-11-2016 22:24 ]

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij


Acties:
  • 0 Henk 'm!

  • DJMaze
  • Registratie: Juni 2002
  • Niet online
Om webshops niet te belasten hebben ze "product feeds"

Maak je niet druk, dat doet de compressor maar


Acties:
  • 0 Henk 'm!

  • !null
  • Registratie: Maart 2008
  • Laatst online: 08:21
RobIII schreef op dinsdag 08 november 2016 @ 22:18:
[...]

Ik heb geen idee hoe die eerste zin en die tweede zin elkaar niet uitsluiten. Je zult toch écht een server moeten 'lastig vallen'. Dat je dat niet met honderden of duizenden requests wil doen maar specifieke (product)pagina's "cherry picken" is vers 2. Maar je zult dus wel degelijk een server moeten "lastig vallen", hoe "miniem" ook.
Wat ik wilde voorkomen is een discussie over webscraping en hoe je dan webshops gaat lastig vallen die dat niet prettig vinden etcetera.
Ik weet ook wel dat er een HTTP request de deur uit gaat om deze informatie eenmalig op te moeten halen.
[...]


Heel dom idee misschien, maar pak eens een willekeurige graai van, zeg, 10 of 25 of 100 webshops die representatief zijn voor wat je gaat verwachten en bekijk (al dan niet geautomatiseerd) gewoon wat ze gebruiken (if anything)? Ik denk dat 't je behoorlijk gaat tegenvallen, maar goed, ik zit niet zo in die materie dus misschien vergis ik me daarin. Dit heb je toch in een uurtje of desnoods een middagje gedaan? Het zal ook allicht nogal wat schelen in welke "hoek" dat je zit; zit je in de ICT webshops dan zal dat (vermoed ik) beter in elkaar zitten dan Gertie's PunnikShop en consorten.
Nou ja, ik heb inderdaad wat rond gekeken de grote webshops (bol.com enzo) doen wel of Schema.org of OpenGraph. Maar de webshops zullen heel divers zijn. Ook vele kleintjes. Die zullen hier allemaal geen aandacht aan hebben besteed, dus ik kan alleen maar hopen dat het gebruikt wordt omdat de webshop software dit voor ze doet.
Het ging er meer om of ik nog andere op de radar moet hebben. Zoals de genoemde Product Feed.
DJMaze schreef op dinsdag 08 november 2016 @ 22:22:
Om webshops niet te belasten hebben ze "product feeds"
Ok bedankt, die had ik dus nog niet op de radar staan. Ik vroeg me al af wat Google Shopping gebruikte.
Nu nog even kijken hoe ik dit op basis van een URL naar de product feed kom (of dat het ook gewoon in de HTML zit verwerkt.
Edit: Ik zal hier nog wat verder op zoeken, maar wat ik ervan begrijp is dat de toepassing meestal gaat over het aanbieden van een complete database aanbieden (in productfeed xml vorm) om inderdaad belasting te voorkomen. Stuk efficienter ook.
Ik moet van een URL eigenlijk naar een product feed komen en dat is niet hoe het gemodelleerd is. Het gaat om een centrale product feed. Ik denk niet dat ik dat kan gebruiken.

[ Voor 11% gewijzigd door !null op 08-11-2016 23:26 ]

Ampera-e (60kWh) -> (66kWh)


Acties:
  • 0 Henk 'm!

  • Navi
  • Registratie: Maart 2007
  • Niet online
Webshops zitten er heus niet op te wachten jou even zomaar hun productfeed incl prijzen en voorraad aan te bieden, dat gebruiken ze over het algemeen voor de reclameplatforms waar ze bij aangesloten zijn. Maw die feed is niet publiek beschikbaar.

Acties:
  • 0 Henk 'm!

  • !null
  • Registratie: Maart 2008
  • Laatst online: 08:21
Ja dat was ook al zoals ik het zie.

Het lijkt erop dat ik vooral OpenGraph en Schema.org moet gebruiken. Al een beetje mee getest, werkt wel leuk en makkelijk.
Alleen worden de prijzen niet altijd handig doorgegeven (soms euro teken bij de prijs in, soms netjes EUR apart als currency veld zoals het bedoelt is), maar daar valt wel mee te werken.

Ampera-e (60kWh) -> (66kWh)

Pagina: 1