Ik werk voor een bedrijf die marktdata wil importeren uit verschillende databronnen en hierop verschillende apparaten wil gaan aansturen. Deze apparaten moeten elke minuut een nieuw signaal krijgen. Hiervoor zijn we opzoek naar een platform waarin we onze eigen Python en R scripts kunnen draaien en beheren. Verschillende algoritmes zullen dan worden gecombineerd tot uiteindelijk één stuursignaal ontstaat. Deze puzzel bestaat uiteindelijk uit de volgende delen:
Requirements die we hebben opgesteld zijn:
Er is al gekeken naar Microsoft Azure ML (traag, beperkt) en we zijn nu aan het kijken naar Apache Spark. Mogelijk zijn er verschillende tools te combineren in Azure die hetzelfde resultaat opleveren? Alternatief zou zijn om alles zelf te bouwen in Python maar daar ligt niet onze expertise. Mijn vraag is daarom of er een platform bestaat wat voldoet aan bovenstaande requirements? Twijfel vooral niet om iets te roepen, mogelijk brengt dit iemand op het juiste spoor.
- Het importeren en opslaan van externe databronnen in een (SQL) database
- Het toepassen van verschillende machine learning technieken om te komen tot een stuursignaal per apparaat
- Het verzenden van dit stuursignaal naar de uiteindelijke apparaten, inclusief stabiel houden van de verbinding, monitoring e.d.
Requirements die we hebben opgesteld zijn:
- Ondersteuning voor Python 2.x, Python 3.x en R scripts
- Parallel kunnen draaien van verschillende scripts met verschillende starttijden zodat bijvoorbeeld een neuraal netwerk kan worden getraind (een proces van uren) terwijl nog steeds elke minuut een stuursignaal wordt geproduceerd
- Opslaan en laden van o.a. .JSON en .H5 bestanden voor gebruik in de algoritmes. Een van onze algoritmes gebruikt deze bestanden.
- Moeiteloos importeren van datasets van 50MB. We zullen niet gauw datasets van >1GB nodig hebben.
- Mogelijkheid om (minimaal) een testomgeving en productieomgeving te bouwen zodat we een nieuw algoritme direct kunnen simuleren
- Mogelijkheid om script X te draaien nadat script A tot Q klaar zijn met draaien
- Mogelijkheid om scripts elkaar aan te laten roepen
- Mogelijkheid om scripts op gezette tijden (bijv. elke minuut of elke week) te laten draaien
- Nice-to-have: een user interface waarmee een simulatie kan worden gedaan voor verschillende parameters op de meest recente algoritmes
- Nice-to-have: een user interface waarmee resultaten met minder dan 5 seconden vertraging visueel worden weergegeven
- Geen requirement is een 'data science made easy' platform. We hebben uitstekende data scientists in dienst die vaak gebruikmaken van obscure R en Python packages/libraries. Een 'data science made easy'-platform beperkt hun alleen maar.
Er is al gekeken naar Microsoft Azure ML (traag, beperkt) en we zijn nu aan het kijken naar Apache Spark. Mogelijk zijn er verschillende tools te combineren in Azure die hetzelfde resultaat opleveren? Alternatief zou zijn om alles zelf te bouwen in Python maar daar ligt niet onze expertise. Mijn vraag is daarom of er een platform bestaat wat voldoet aan bovenstaande requirements? Twijfel vooral niet om iets te roepen, mogelijk brengt dit iemand op het juiste spoor.