Toon posts:

Cloudservices ervaringen ML&Data Science: AWS, MS of Google?

Pagina: 1
Acties:

Vraag


  • MPJansen
  • Registratie: November 2018
  • Laatst online: 30-01 15:59
Hi mede tweakers,

Ik werk sinds kort als data scientist in de industrie, waar ik hiervoor altijd in academia heb gewerkt. Nu willen we mogelijk overgaan op een cloud omgeving in combinatie met Snowflake of Databricks. Door deze combinatie ligt volgens mij een van de grote drie (AWS, MS, Google) voor de hand. Mijn vraag is dan ook, welke cloud dienst gebruiken jullie graag en waarom? Hoe kan ik het beste een keuze maken tussen deze drie platformen. Uit tijdsoverwegingen kan ik ze denk ik niet alledrie uitproberen voor we een keuze gaan maken, dus ik dacht ik win hier informatie in :).

We gaan in eerste instantie vooral gebruik maken van data opslag in lake houses/ware houses, ML operations en mogelijk in de toekomst ook voor andere, complexere doeleinden.

Eigen onderzoek:
Ik heb zelf weinig ervaring met de cloud omgevingen, maar heb een paar mensen gevraagd. Zij geven vaak verschillende antwoorden, dus dat hielp me niet echt verder. Op het web vindt ik het ook moeilijk om een goede guide te vinden, van een betrouwbare bron. Ik hoor dus graag wat meer van mensen die hier ervaringen/inzichten hebben O-) .

Alvast bedankt voor jullie tips!

Alle reacties


  • F_J_K
  • Registratie: Juni 2001
  • Niet online

F_J_K

Moderator CSA/PB

Front verplichte underscores

Vanuit welke optiek zoek je ervaringen? Gebruik als data scientist / performance / beheer / kosten / etc? Ik denk (heb er alleen van een afstand wat van meegekregen) dat de ervaringen bijv. erg afhangen van de specifieke inrichtingskeuzes.

Misschien goed om eerst voor jezelf inzicht te hebben in soort / frequentie van huidig gebruik. In de wolken kan je grotendeels naar gebruik betalen, dan wil je de orde van grootte van gebruik vooraf kennen als je geen langdurige pilots kunt hebben :)

Het scheelt bijvoorbeeld nogal of je de meeste capaciteit per maand / jaar / jaren kunt afnemen ipv. per uur, maar misschien is voor jouw soort gebruik juist per uur zinvol als het soms een dag hollen en dan drie maanden (qua serverhardware) stilstaan is, of mag het in de tussen-uren gebeuren en neem je bijv. Azure spot capaciteit.

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)


  • MPJansen
  • Registratie: November 2018
  • Laatst online: 30-01 15:59
F_J_K schreef op donderdag 30 juni 2022 @ 14:48:
Vanuit welke optiek zoek je ervaringen? Gebruik als data scientist / performance / beheer / kosten / etc? Ik denk (heb er alleen van een afstand wat van meegekregen) dat de ervaringen bijv. erg afhangen van de specifieke inrichtingskeuzes.

Misschien goed om eerst voor jezelf inzicht te hebben in soort / frequentie van huidig gebruik. In de wolken kan je grotendeels naar gebruik betalen, dan wil je de orde van grootte van gebruik vooraf kennen als je geen langdurige pilots kunt hebben :)

Het scheelt bijvoorbeeld nogal of je de meeste capaciteit per maand / jaar / jaren kunt afnemen ipv. per uur, maar misschien is voor jouw soort gebruik juist per uur zinvol als het soms een dag hollen en dan drie maanden (qua serverhardware) stilstaan is, of mag het in de tussen-uren gebeuren en neem je bijv. Azure spot capaciteit.
Bedankt voor je tips, inderdaad mijn vraag is nogal breed, en ik moet ook eerlijk zeggen dat er waarschijnlijk veel aspecten bij komen kijken waar ik nog niet aan heb gedacht. Een paar metrics die ik sowieso in gedachten heb; overzichtelijkheid, flexibiliteit/gebruiksvriendelijkheid voor verschillende gebruikers, schaalbaarheid, kosten. Vanuit een data science rol heb ik wel een idee van de frequentie/soort gebruik, maar het lastige is dat andere rollen of toekomstige rollen misschien wat anders nodig hebben (we groeien redelijk snel).

  • Oogje
  • Registratie: Oktober 2003
  • Niet online
MPJansen schreef op donderdag 30 juni 2022 @ 14:33:
Hi mede tweakers,

Ik werk sinds kort als data scientist in de industrie, waar ik hiervoor altijd in academia heb gewerkt. Nu willen we mogelijk overgaan op een cloud omgeving in combinatie met Snowflake of Databricks. Door deze combinatie ligt volgens mij een van de grote drie (AWS, MS, Google) voor de hand. Mijn vraag is dan ook, welke cloud dienst gebruiken jullie graag en waarom? Hoe kan ik het beste een keuze maken tussen deze drie platformen. Uit tijdsoverwegingen kan ik ze denk ik niet alledrie uitproberen voor we een keuze gaan maken, dus ik dacht ik win hier informatie in :).

We gaan in eerste instantie vooral gebruik maken van data opslag in lake houses/ware houses, ML operations en mogelijk in de toekomst ook voor andere, complexere doeleinden.

Eigen onderzoek:
Ik heb zelf weinig ervaring met de cloud omgevingen, maar heb een paar mensen gevraagd. Zij geven vaak verschillende antwoorden, dus dat hielp me niet echt verder. Op het web vindt ik het ook moeilijk om een goede guide te vinden, van een betrouwbare bron. Ik hoor dus graag wat meer van mensen die hier ervaringen/inzichten hebben O-) .

Alvast bedankt voor jullie tips!
Het bedrijf waar je zit heeft op dit moment nog 0 clouddiensten bij genoemde vendors?

De reden waarom ik het vraag, het gaat verder dan datascience, stukje infra/connecties etc. Dan wil je niet bij AWS met Databricks gaan zitten terwijl de IT afdeling helemaal thuis is in Azure..of vice versa.

[Voor 7% gewijzigd door Oogje op 30-06-2022 15:20]

Any errors in spelling, tact, or fact are transmission errors.


  • MPJansen
  • Registratie: November 2018
  • Laatst online: 30-01 15:59
Oogje schreef op donderdag 30 juni 2022 @ 15:16:
[...]

Het bedrijf waar je zit heeft op dit moment nog 0 clouddiensten bij genoemde vendors?

De reden waarom ik het vraag, het gaat verder dan datascience, stukje infra/connecties etc. Dan wil je niet bij AWS met Databricks gaan zitten terwijl de IT afdeling helemaal thuis is in Azure..of vice versa.
0 clouddiensten behalve google analytics als je dit onder de diensten schaart. Lijkt mij inderdaad ook handig bij 1 cloud platform te zitten.

Acties:
  • +1Henk 'm!

  • Docslik
  • Registratie: November 2011
  • Laatst online: 31-03 15:43
Ik heb de afgelopen jaren met zowel AWS als Azure gewerkt op dit gebied (en voor beide het DS/ML certificaat fwiw) en heb zo m'n voorkeuren. Maar overall is het logo'tje waar erboven staat irrelevant. Beide kunnen ze veel, maar werken ze soms net iets anders. Als je verder geen ingebakken cloud-infra hebt in de organisatie (ofwel clean-sheet), zou ik gewoon eens spelen met 2 vendors.

Ik vind zelf Azure net wat uitgebreider (zeker met de native support voor Databricks; in theorie kan je hier alle DS/ML stages in doorlopen - maar is non-tech tools (ML pipelines maken alá KNIME). Afhankelijk van de organisatie, kan dit interessant zijn!

AWS vond ik fijner voor meer customizable (end-2-end) oplossingen, zoals APIs, portals, etc. Het instapniveau van AWS voelde voor mij wel hoger.
Pagina: 1


Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee