Data pipelines: goede databronnen?

Pagina: 1
Acties:

Vraag


Acties:
  • 0 Henk 'm!

  • braek
  • Registratie: Juni 2015
  • Laatst online: 04-10 23:58
Mijn vraag

Ik ben mij aan het verdiepen in data pipelines waarmee ik met een queue heel veel JSON-bestanden wil verwerken. Ik vraag mij af of er een goede (open) databronnen zijn die je kan gebruiken om veel data binnen te halen. Idealiter in de vorm van JSON/XML-bestanden, maar dat mag ook bijvoorbeeld data uit een API zijn.

Relevante software en hardware die ik gebruik

Ik gebruik een zelfgemaakt Python-script om wat JSON-bestanden met sample data te genereren, maar ben op zoek naar meer "real life data" idealiter in de vorm van bestanden.

Wat ik al gevonden of geprobeerd heb

Het bovenvermelde Python-script.

MacBook Pro 2021 - 16 inch - M1 Pro - 32 GB memory - 1 TB storage

Alle reacties


Acties:
  • 0 Henk 'm!

  • 418O2
  • Registratie: November 2001
  • Laatst online: 17:00

Acties:
  • 0 Henk 'm!

  • Ben(V)
  • Registratie: December 2013
  • Laatst online: 16:43
Python is bijzonder geschikt voor dit soort toepassingen.


Zo iets bijvoorbeeld:
https://pymotw.com/2/Queue/

All truth passes through three stages: First it is ridiculed, second it is violently opposed and third it is accepted as being self-evident.


Acties:
  • 0 Henk 'm!

  • braek
  • Registratie: Juni 2015
  • Laatst online: 04-10 23:58
Top! Dat is een lijst om U tegen te zeggen. Ik wist trouwens niet dat Gmail een REST API aanbood.

Ik ben de "Yelp Dataset" momenteel aan 't bekijken en die is ook best interessant.

Suggesties nog altijd welkom.

MacBook Pro 2021 - 16 inch - M1 Pro - 32 GB memory - 1 TB storage


Acties:
  • 0 Henk 'm!

  • braek
  • Registratie: Juni 2015
  • Laatst online: 04-10 23:58
Ben(V) schreef op donderdag 24 oktober 2019 @ 18:20:
Python is bijzonder geschikt voor dit soort toepassingen.


Zo iets bijvoorbeeld:
https://pymotw.com/2/Queue/
Nog nooit gebruikt, wist nog niet dat dat kon op die manier in Python.

Ik ben momenteel de "managed queues" aan het bekijken voor het bouwen van een ETL pipeline (RabbitMQ en AWS SQS).

MacBook Pro 2021 - 16 inch - M1 Pro - 32 GB memory - 1 TB storage


Acties:
  • 0 Henk 'm!

  • Moofnor
  • Registratie: April 2010
  • Laatst online: 17:05

Moofnor

King of my castle

Zelf alleen CSV bestanden gebruikt, maar ik zie dat Kaggle ook datasets in Json aanbiedt.
Misschien zit er wat leuks voor je tussen: https://www.kaggle.com/datasets?fileType=json

- I can accurately say I was born on Earth, but it's not very precise. I can precisely say I was born at latitude 37.229N, longitude 115.811W, but that is not at all accurate - Matt Parker


Acties:
  • 0 Henk 'm!

Verwijderd

Misschien ook leuk om naar te kijken: http://reactivex.io/

Heeft ook het principe waarbij data van de producer naar de consumer stroomt en je daartussen een pijp maakt door functies te chainen.

Afbeeldingslocatie: https://i.imgur.com/WvRnmAO.png
Uit RxJS in Action.
Pagina: 1