Scraper vraag: Jsoup geeft andere resultaten

Pagina: 1
Acties:

Vraag


Acties:
  • 0 Henk 'm!

  • Furion2000
  • Registratie: September 2017
  • Laatst online: 01-10 21:06
Goede morgen,

Zit voor de lol wat met JSoup te rommelen en wil op marktplaats een zoekpagina scrapen. Het werkt half.

Ik scrape een pagina, maar niet de juiste, want krijg andere resultaten terug. Als ik dan de url weer in mozilla zet dan krijg ik weer de resultaten die ik verwacht 8)7 .

Ik denk dat Marktplaats vast anti-scrape dingen heeft ingebouwd, maar ik ben wel benieuwd of iemand mij uit kan leggen hoe ze dit doen?

Misschien hebben jullie een oplossing?

Beste antwoord (via Furion2000 op 05-04-2020 10:51)


  • Postman
  • Registratie: Februari 2000
  • Laatst online: 26-09 12:50
Wat @Hydra ook al aangeeft: JSoup doet niets met JavaScript: https://stackoverflow.com...t-and-jsoup-doesnt-see-it
In de SO vraag wordt ook een oplossing gesuggereerd, maar dat is dan wel zonder JSoup.

Alle reacties


Acties:
  • +1 Henk 'm!

  • kevintjeb
  • Registratie: Juli 2013
  • Laatst online: 10-01 14:42
Heb je al geprobeerd om de pagina die JSoup ziet naar een bestand weg te schrijven? Zo zou je zelf kunnen checken wat de 'scraper' ziet

Acties:
  • +2 Henk 'm!

  • Hydra
  • Registratie: September 2000
  • Laatst online: 21-08 17:09
Ik zou beginnen met in ieder geval de user-agent en andere headers die je browser mee stuurt ook met Jsoup mee te sturen. Daarnaast is er een grote kans dat de site voor een groot deel op JavaScript leunt; en JSoup doet daar natuurlijk niks mee.

Goeie kans in ieder geval dat Marktplaats het in ieder geval moeilijk maakt, maar dat neemt natuurlijk niet weg dat als jij precies doet wat je browser doet, ze niet het onderscheid kunnen zien.

https://niels.nu


Acties:
  • Beste antwoord
  • 0 Henk 'm!

  • Postman
  • Registratie: Februari 2000
  • Laatst online: 26-09 12:50
Wat @Hydra ook al aangeeft: JSoup doet niets met JavaScript: https://stackoverflow.com...t-and-jsoup-doesnt-see-it
In de SO vraag wordt ook een oplossing gesuggereerd, maar dat is dan wel zonder JSoup.

Acties:
  • 0 Henk 'm!

  • Furion2000
  • Registratie: September 2017
  • Laatst online: 01-10 21:06
Allen bedankt voor het reageren, SO gelezen en dat is inderdaad waar ik verder op moet borduren. Leek al te mooi om waar te zijn om even met 5 regels code met Jsoup een scrape te doen