Toon posts:

Data pipelines: goede databronnen?

Pagina: 1

Acties:

534 views
Reageer

Vraag

donderdag 24 oktober 2019 18:14

Acties:

braek

Topicstarter

Mijn vraag

Ik ben mij aan het verdiepen in data pipelines waarmee ik met een queue heel veel JSON-bestanden wil verwerken. Ik vraag mij af of er een goede (open) databronnen zijn die je kan gebruiken om veel data binnen te halen. Idealiter in de vorm van JSON/XML-bestanden, maar dat mag ook bijvoorbeeld data uit een API zijn.

Relevante software en hardware die ik gebruik

Ik gebruik een zelfgemaakt Python-script om wat JSON-bestanden met sample data te genereren, maar ben op zoek naar meer "real life data" idealiter in de vorm van bestanden.

Wat ik al gevonden of geprobeerd heb

Het bovenvermelde Python-script.

MacBook Pro 2021 - 16 inch - M1 Pro - 32 GB memory - 1 TB storage

Alle reacties

donderdag 24 oktober 2019 18:16

Acties:

418O2

u mad?

https://github.com/public...pis/blob/master/README.md

Daar moet je wel wat mee kunnen

donderdag 24 oktober 2019 18:20

Acties:

Ben(V)

Python is bijzonder geschikt voor dit soort toepassingen.

Zo iets bijvoorbeeld:
https://pymotw.com/2/Queue/

All truth passes through three stages: First it is ridiculed, second it is violently opposed and third it is accepted as being self-evident.

donderdag 24 oktober 2019 18:21

Acties:

braek

Topicstarter

Top! Dat is een lijst om U tegen te zeggen. Ik wist trouwens niet dat Gmail een REST API aanbood.

Ik ben de "Yelp Dataset" momenteel aan 't bekijken en die is ook best interessant.

Suggesties nog altijd welkom.

MacBook Pro 2021 - 16 inch - M1 Pro - 32 GB memory - 1 TB storage

donderdag 24 oktober 2019 18:24

Acties:

braek

Topicstarter

Ben(V) schreef op donderdag 24 oktober 2019 @ 18:20:
Python is bijzonder geschikt voor dit soort toepassingen.

Zo iets bijvoorbeeld:
https://pymotw.com/2/Queue/

Nog nooit gebruikt, wist nog niet dat dat kon op die manier in Python.

Ik ben momenteel de "managed queues" aan het bekijken voor het bouwen van een ETL pipeline (RabbitMQ en AWS SQS).

MacBook Pro 2021 - 16 inch - M1 Pro - 32 GB memory - 1 TB storage

donderdag 24 oktober 2019 18:32

Acties:

Moofnor

King of my castle

Zelf alleen CSV bestanden gebruikt, maar ik zie dat Kaggle ook datasets in Json aanbiedt.
Misschien zit er wat leuks voor je tussen: https://www.kaggle.com/datasets?fileType=json

- I can accurately say I was born on Earth, but it's not very precise. I can precisely say I was born at latitude 37.229N, longitude 115.811W, but that is not at all accurate - Matt Parker

vrijdag 25 oktober 2019 17:13

Acties:

Verwijderd

Misschien ook leuk om naar te kijken: http://reactivex.io/

Heeft ook het principe waarbij data van de producer naar de consumer stroomt en je daartussen een pijp maakt door functies te chainen.

Afbeeldingslocatie: https://i.imgur.com/WvRnmAO.png

Afbeeldingslocatie: https://i.imgur.com/WvRnmAO.png

_{Uit RxJS in Action.}

Pagina: 1

Reageer