Software om een website te controleren op nieuwe content

Pagina: 1
Acties:

Vraag


Acties:
  • 0 Henk 'm!

  • RutgerMartijn
  • Registratie: Oktober 2014
  • Laatst online: 17-12-2024
Hallo mensen,

Voor wat prive werkzaamheden die ik doe ben ik op zoek naar een bepaald stukje software (freeware) die website's bijhoud.

Mijn vraag...
Deze software die ik zoek moet dus een hele website bijhouden op veranderingen. Je laat de software 1 keer draaien en dat is het vergelijkingsmateriaal. Wanneer ik na een tijdje deze software weer laat draaien moet hij mij kunnen aangeven of er pagina's veranderd zijn of dat er nieuwe pagina's bijgekomen zijn of dat er pagina's weg zijn. RSS is iets waar ik totaal niet op zoek naar ben, volgens mij kan dit ook niet met rss en de website die ik wil bijhouden ondersteunt ook geen rss.


Wat ik al gevonden of geprobeerd heb...
Ik heb er al veel gevonden, ook online, die alleen de url bijhoud die je opgeeft. Wat ik wil, is dat als ik een url ingeef, dat hij dan alle onderliggende pagina's ook meeneemt.

Alvast bedankt voor het meedenken!

ps. excuus als dit in de verkeerde categorie staat

Alle reacties


Acties:
  • +1 Henk 'm!

  • mr.paaJ
  • Registratie: Februari 2007
  • Laatst online: 18:37

mr.paaJ

generatie cmd+z

hoe handig ben je, en wat wil je met die informatie bereiken?

met een webscraper zoals https://scrapy.org, en wat python/programmeerkennis moet je zoiets redelijk eenvoudig kunnen maken: pagina opslaan, volgende keer vergelijken. kan op html niveau of op tekstinhoud of wat je maar wil.

liever de tong gebrand dan lauwe soep


Acties:
  • 0 Henk 'm!

  • arvidbeheerder
  • Registratie: November 2003
  • Laatst online: 21:46
Met een RPA robotje kom je denk ik ook best ver. 1x scrapen en dan vergelijken. Uipath heeft een community versie waar je mee kan spelen en daarnaast ook veel duidelijke handleidingen

Acties:
  • 0 Henk 'm!

  • johnkeates
  • Registratie: Februari 2008
  • Laatst online: 04-07 16:30
Wat je wil kan wel, maar is niet goedkoop en makkelijk. Er zijn (dure) producten op de markt die het doen, en er zijn gratis systemen die kennis en ervaring vergen om goed te laten werken. Eigenlijk een kwestie van kiezen.

Dan is er nog het punt dat de website die je wil scrapen (want dat is wat je doet) misschien helemaal niet wil dat jij dat doet. Dat kan betekenen dat ze je blokkeren of nep-content serveren.

Een hele eenvoudige manier is met wget --mirror elke dag een mirror draaien en daarna een recursive diff doen, heb je maar twee commando's nodig en geen custom scripting. Is niet heel efficient, maar werkt wel.

Acties:
  • 0 Henk 'm!

  • RutgerMartijn
  • Registratie: Oktober 2014
  • Laatst online: 17-12-2024
Bedankt. Ik ga het een en ander eens uit proberen.

Acties:
  • 0 Henk 'm!

  • MAX3400
  • Registratie: Mei 2003
  • Laatst online: 12:35

MAX3400

XBL: OctagonQontrol

RutgerMartijn schreef op zaterdag 11 mei 2019 @ 16:46:
Wat ik wil, is dat als ik een url ingeef, dat hij dan alle onderliggende pagina's ook meeneemt.
Wat je dus eigenlijk wil, is website-eigenaren op (mogelijk extreem hoge) kosten jagen door elke x minuten een site volledig binnen te trekken, kijken of er wijzigingen zijn en daarna alle data weer weg te flikkeren.

Geen idee of je weet wat je vraagt (of wil) maar moet je voor de gein eens handmatig een site als nu.nl of tweakers.net helemaal mirroren. Daar wordt je qua totale data-omvang absoluuuut niet vrolijk van. Maar dat is wel wat je nu eigenlijk vraagt/zoekt.

Mijn advertenties!!! | Mijn antwoorden zijn vaak niet snowflake-proof


Acties:
  • 0 Henk 'm!

  • RutgerMartijn
  • Registratie: Oktober 2014
  • Laatst online: 17-12-2024
@MAX3400 Waarom denk je dat ik wil? 1 x in de maand ongeveer 100 pagina's vergelijken vind ik wel meevallen hoor.

Acties:
  • 0 Henk 'm!

  • MAX3400
  • Registratie: Mei 2003
  • Laatst online: 12:35

MAX3400

XBL: OctagonQontrol

RutgerMartijn schreef op zaterdag 8 juni 2019 @ 19:13:
@MAX3400 Waarom denk je dat ik wil? 1 x in de maand ongeveer 100 pagina's vergelijken vind ik wel meevallen hoor.
100 afzonderlijke pagina's is echt wat anders dan "een url ingeef, dat hij dan alle onderliggende pagina's ook meeneemt".

Even analogie, als je 100 mappen met elk 100 paginas in je kast hebt staan. Je zegt, naar mijn mening "ik wil 100 mappen controleren en alle onderliggende pagina's". Dat zijn dus maandelijks 100 mappen met 100 pagina's oftewel 10.000 paginas.

Op https://4sysops.com/archi...se-and-scrape-a-web-page/ staat wel een leuk stukje code / info :)

[ Voor 10% gewijzigd door MAX3400 op 08-06-2019 19:52 ]

Mijn advertenties!!! | Mijn antwoorden zijn vaak niet snowflake-proof


Acties:
  • 0 Henk 'm!

  • RutgerMartijn
  • Registratie: Oktober 2014
  • Laatst online: 17-12-2024
@MAX3400 bedankt voor je linkje!
Pagina: 1