Cookies op Tweakers

Tweakers is onderdeel van DPG Media en maakt gebruik van cookies, JavaScript en vergelijkbare technologie om je onder andere een optimale gebruikerservaring te bieden. Ook kan Tweakers hierdoor het gedrag van bezoekers vastleggen en analyseren. Door gebruik te maken van deze website, of door op 'Cookies accepteren' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt? Bekijk dan ons cookiebeleid.

Meer informatie

  • kelvintje
  • Registratie: september 2010
  • Laatst online: 10-06 11:11
Beste Tweakers,

Na het afronden van mijn studie gaat het aankomende maandag gebeuren, ik ga starten als Junior Data Scientist bij een Consultancy bureau. De situatie is zo dat de organisatie in het verleden de 'data vraagstukken' in hun opdrachten outsourcde, maar dat zij nu de stap maken om de kennis binnen te halen. Ik ben de eerste startende data scientist en zal nog worden aangevuld met meer ervaren data scientists.

Nu wilde ik graag een luchtige discussie starten; "Wat zou je mij graag als startende data scientist als gouden tip willen meegeven?"

Het is mijn eerste 'grote mensen baan' en ik laat me graag inspireren door andere in het vakgebied of door mensen die met data scientists te maken hebben zodat ik mijn werk goed kan doen! Als er overduidelijke valkuilen zijn dan loop ik daar graag omheen ;)

Acties:
  • +11Henk 'm!

  • Nopheros
  • Registratie: juli 2007
  • Laatst online: 22:13
Kom op tijd d:)b

Acties:
  • +5Henk 'm!

  • TMDC
  • Registratie: september 2007
  • Laatst online: 18:03
Leg uit wat een data scientist eigenlijk doet (aangezien je de eerste bent). Zoek de verbinding met de rest van het bedrijf. Maak vraagstukken en resultaten begrijpelijk en inzichtelijk. Neem mensen mee in je verhaal.

Acties:
  • +1Henk 'm!

  • TheDeuce
  • Registratie: februari 2008
  • Laatst online: 10-06 08:04
Wees jezelf. Wees niet bang. Pak je kansen. Werk hard* en wees altijd eerlijk. Wat inhoudelijker: zorg dat het begrijpbaar blijft voor de ‘klant’ wat je gedaan hebt en wat de uitkomsten zijn. Begin met kleine stapjes en werk iteratief, deel tussenresultaten met je ‘klanten’.

Slightly off-topic: welke studie heb je gedaan?

* Ik ervaar zelf en zie om mij heen dat je in de eerste paar jaren na je studie snel stappen kan maken als je goed je best doen. Als je je eenmaal bewezen hebt krijg je meer vrijheid, maar zit je bij goede prestaties al wel in die hogere schaal ;)

Acties:
  • +3Henk 'm!

  • Basekid
  • Registratie: maart 2004
  • Laatst online: 20:19
Geef ook aan als je dingen gewoon (nog) niet weet. Normaal kan je als je ergens begint optrekken met een senior, maarja dat hebt je dus niet.

Ze kunnen dus ook niet van je verwachten dat je alles zelf moet kunnen oppakken direct.

  • kelvintje
  • Registratie: september 2010
  • Laatst online: 10-06 11:11
Thanks voor de reactie so far!
Wat betreft mijn studie. Ik heb een bachelor Informatiekunde gedaan en een Master Innovatie wetenschap. Hier heb ik echter het 2de jaar beetje gepivot naar data analyse/science met vakken en kwantitatief onderzoek!

Op tijd komen moet lukken ;)

Ik denk dat het betrekken van mijn collega's en klanten in het begrijpen van mijn uitdagingen en uitkomsten inderdaad het belangrijkste is.

Acties:
  • +5Henk 'm!

  • Hydra
  • Registratie: september 2000
  • Laatst online: 16:28
kelvintje schreef op vrijdag 12 maart 2021 @ 15:19:
Nu wilde ik graag een luchtige discussie starten; "Wat zou je mij graag als startende data scientist als gouden tip willen meegeven?"
Laat je niet in data analist of (nog erger) data entry rollen drukken. Veel bedrijven weten eigenlijk compleet niet wat ze aanmoeten met "data science". Ze weten niet wat het is, maar willen het wel hebben, want het is hip.

Wat je vaak ziet gebeuren is dat data scientists ergens voor een mooi model bouwen, getraind op mooie data, dat al vrij snel een accuracy van 80% heeft. Heel mooi in de demo, bedrijf entusiast, top. Maar dan is het dus zo van "okay, en die laatste 20%, wanneer is het af?". En dan mag je uitleggen waarom je het nooit op 100% gaat krijgen; want het is natuurlijk gewoon toegepaste statistiek.

Wat je dan ziet is dat het bedrijf (waarschijnlijk een klant van je consultancy) vindt dat jouw oplossing onbruikbaar is. En dan zit je daarna nog jaren met regexes en SQL queries data op te schonen.

Beetje een worst case scenario, maar ik heb dit al bij drie verschillende klanten zien gebeuren.

https://niels.nu


Acties:
  • +3Henk 'm!

  • Rukapul
  • Registratie: februari 2000
  • Nu online

Rukapul

Moderator General Chat
Hydra schreef op vrijdag 12 maart 2021 @ 16:07:
[...]


Laat je niet in data analist of (nog erger) data entry rollen drukken. Veel bedrijven weten eigenlijk compleet niet wat ze aanmoeten met "data science". Ze weten niet wat het is, maar willen het wel hebben, want het is hip.

Wat je vaak ziet gebeuren is dat data scientists ergens voor een mooi model bouwen, getraind op mooie data, dat al vrij snel een accuracy van 80% heeft. Heel mooi in de demo, bedrijf entusiast, top. Maar dan is het dus zo van "okay, en die laatste 20%, wanneer is het af?". En dan mag je uitleggen waarom je het nooit op 100% gaat krijgen; want het is natuurlijk gewoon toegepaste statistiek.

Wat je dan ziet is dat het bedrijf (waarschijnlijk een klant van je consultancy) vindt dat jouw oplossing onbruikbaar is. En dan zit je daarna nog jaren met regexes en SQL queries data op te schonen.

Beetje een worst case scenario, maar ik heb dit al bij drie verschillende klanten zien gebeuren.
In aanvulling hier: blijf nieuwe dingen doen en leren. En dan bedoel ik aan de science kant. Het is zo makkelijk om vast te komen zitten in tools, dashboards, data handling, etc. etc.

Aan de andere kant, de vooropleiding is bepaald niet sterk voor de science kant. Wil je echter inhoudelijk verder dan is nu het moment. Eenmaal een achterstand opgelopen of vastzittend is dat het lastigste om weer op te pakken.

[Voor 8% gewijzigd door Rukapul op 12-03-2021 16:21]


  • kelvintje
  • Registratie: september 2010
  • Laatst online: 10-06 11:11
Twee goede opmerkingen. Ik heb wel het gevoel uit mijn sollicitatie gesprekken dat het bedrijf waar ik ga werken zelf wel inzicht heeft in wat een data scientist doet en hoe het werkt. Maar het blijft belangrijk om dat inderdaad mee te nemen en goed op m'n strepen te staan indien nodig.

Wat betreft de vooropleiding Rukapul. In de basis inderdaad niet de sterkste vooropleiding als data scientist. Ik heb me echter in alle keuzeruimte daarop gefocust en ook na het afronden van mijn studie nog twee cursussen gedaan om me nog bij te scholen. Ik denk dat ik daarmee als junior data scientist best een goede startpositie heb!

Acties:
  • +7Henk 'm!

  • The Eagle
  • Registratie: januari 2002
  • Laatst online: 18:06

The Eagle

I wear my sunglasses at night

kelvintje schreef op vrijdag 12 maart 2021 @ 17:10:
Twee goede opmerkingen. Ik heb wel het gevoel uit mijn sollicitatie gesprekken dat het bedrijf waar ik ga werken zelf wel inzicht heeft in wat een data scientist doet en hoe het werkt. Maar het blijft belangrijk om dat inderdaad mee te nemen en goed op m'n strepen te staan indien nodig.
Dat even nunceren: tegen je werkgever doe je dat op een andere manier als richting een opdrachtgever. Maar wees eerlijk in wat je wel en niet kunt, en in wat je leuk vind om te doen. Zeker bij de grotere bureaus wordt je gewoon op een opdracht gezet, en ga het maar doen.
Trap ook alsjeblieft niet in de valkuil dat je meent alles al te moeten weten en kunnen. Je staat aan het begin van je carrière en weet dus 0 van hoe het er bedrijven echt aan toe gaat. Laat het je gewoon overkomen en leer er van :)
Wat betreft de vooropleiding Rukapul. In de basis inderdaad niet de sterkste vooropleiding als data scientist. Ik heb me echter in alle keuzeruimte daarop gefocust en ook na het afronden van mijn studie nog twee cursussen gedaan om me nog bij te scholen. Ik denk dat ik daarmee als junior data scientist best een goede startpositie heb!
Zie ook vorige opmerking, ik heb een hoop junior datascientists meegemaakt, veel van het type millenial en alles aanpakken en hard werken en dingen willen verbeteren. Maar vervolgens compleet gefrustreerd raken als iets niet lukt, keer op keer deadlines willen halen, zichzelf het snot voor de ogen werken en binnen twee jaar een burnout te pakken. Niet in de laatste plaats omdat ze gewend waren alle data zo te kunnen krijgen en geen stroobreed in de weg gelegd, terwijl je bij een beetje enterprise al blij mag zijn als er uberhaupt een provedure beschreven is omtrent data governance, danwel dat iemand daarin ook snapt wat ie doet. Ik ben situaties tegengekomen dat we na 4 maanden nog geen data van de dataeigenaar kregen :X
Doe gewoon je ding, laat je niet gekmaken. Spreek vooraf af wat wel en niet en wat je nodig hebt. Communicatie is de sleutel :)

Al is het nieuws nog zo slecht, het wordt leuker als je het op zijn Brabants zegt :)


  • kelvintje
  • Registratie: september 2010
  • Laatst online: 10-06 11:11
Goed advies! Ik ga er inderdaad ook wel in met het idee 'ik weet niks'. Wat niet ver van de waarheid ligt ;)

Maar zeker goed advies om reëel te blijven over mn kunnen en de mentale gezondheid te bewaren, thanks!

Acties:
  • +1Henk 'm!

  • Djordjo
  • Registratie: mei 2007
  • Niet online
kelvintje schreef op vrijdag 12 maart 2021 @ 15:19:
De situatie is zo dat de organisatie in het verleden de 'data vraagstukken' in hun opdrachten outsourcde, maar dat zij nu de stap maken om de kennis binnen te halen. Ik ben de eerste startende data scientist en zal nog worden aangevuld met meer ervaren data scientists.
Da's wel een rare volgorde, en voor jou een potentieel risico omdat ze mogelijk (onbewust) vaardigheden van je verwachten die horen bij een senior / geoutsourcde opdracht.

Acties:
  • +2Henk 'm!

  • Morrar
  • Registratie: juni 2002
  • Laatst online: 22:11
Paar belangrijke inhoudelijke zaken denk ik:

- Praat vooraf veel met de business, zorg dat de opdracht / hypotheses / definities / etc duidelijk zijn.

- Negeer vooral niet de domeinexperts binnen het bedrijf; mensen praten vaak graag over hun werk en hun goodwill kan je project maken of breken. Zij weten vaak de nuances / details die net het verschil maken.

- Bedrijven zijn altijd te optimistisch over hun DATA. Data is er altijd te weinig, en data is altijd een bende

- Het algo maakt meestal vrij weinig uit, focus liever op features / data cleansing / data verrijking of verzameling.

- Ga voor eerst voor de eenvoudigste oplossing; deep learning is vrijwel nooit het goede antwoord en business rules komen soms ook een heel eind.

- Een RandomForest is voor de meeste cases een prima benchmark

- Geef tijdig aan wat wel / niet haalbaar lijkt, manage de verwachtingen goed (er is veel te veel hype)

- Denk goed na over hoe je resultaten kunt meten. Een vergelijking met kansniveau is nooit relevant in de praktijk; de business doet niks willekeurig en heeft echt wel een doordachte strategie. Probeer je aanpak daar zo goed mogelijk mee te vergelijken.

- Werk gestructureerd (teveel DS maken er een zootje van qua code / Notebooks)

En last but not least: have fun! Grote voordeel van DS bij een consultancy is dat je enorm veel verschillende use cases en tooling gaat tegenkomen. Van houtje touwtje tot high tech en van marketing tot whatever. Dus ga lekker ontdekken en leren!

[Voor 27% gewijzigd door Morrar op 12-03-2021 19:21]


Acties:
  • +3Henk 'm!

  • AGee
  • Registratie: december 2002
  • Niet online

AGee

Formerly known as naitsoezn

Respecteer de domeinkennis die bij de opdrachtgever aanwezig is. Niet alles wat je nodig hebt voor een klus zit altijd verstopt in de data, en niet alles wat je uit de data kunt halen heb je per se nodig voor een oplossing.

't Het nog nooit, nog nooit zo donker west, of 't wer altied wel weer licht


Acties:
  • +1Henk 'm!

  • Croga
  • Registratie: oktober 2001
  • Laatst online: 18:14

Croga

The Unreasonable Man

Data Science is een heel erg breed begrip. Veel mensen denken dan ML/AI gelijk staat aan Data science maar het gebied is veel breder. Data engineering, scrubbing, analyses, entry valt allemaal onder het vakgebied. Het is dus, zoals al gezegd, belangrijk te weten wat je nieuwe werkgever er onder verstaat.

En zoals Rukapul ook al zegt: Blijf leren. Het vakgebied is breed en 1 onderdeel kan eigenlijk niet zonder de andere onderdelen. Of op zijn minst begrip er van.

Acties:
  • +1Henk 'm!

  • Termi
  • Registratie: augustus 2001
  • Laatst online: 17:42
Mijn ervaring is dat je meegenomen wordt door een ervaren collega op bestaande of nieuwe projecten. Nu zegt data science net zoveel als een mkv bestand, het is een groot container begrip.

Kijk wel goed uit bij consultancy bedrijven naar de werkdruk en de afhankelijkheid voor speciale cursussen. Dure trainingen hebben vaak een boete clausule terwijl soms de kwaliteit tegenvallend is.

Heeft wat met AH cassieres, en vrouwen met een vriend. Tjah! | Hier spreekt het Gelders Volksleger, de gewapende arm van de beweging Groot Gelderhand, die streeft naar een vrij en onafhankelijk Gelderland...


Acties:
  • +1Henk 'm!

  • D-dark
  • Registratie: januari 2008
  • Nu online
Ga er niet zomaar vanuit dat alle data in de database betrouwbaar is.
Vooral bij langlopende programma's zijn er in de loop van de tijd datafixes uitgevoerd met variabele vorm van betrouwbaarheid of zijn er in de loop van de tijd nieuwe velden opgenomen die niet gelden voor oude data.

Neem steekproeven en bekijk in de eindgebruikersinterface of je geselecteerde data klopt.

Bekijk aan de front-end eens hoe men met de programma's werkt en data invoert en vooral wat de workarounds voor fout situaties zijn.

  • kelvintje
  • Registratie: september 2010
  • Laatst online: 10-06 11:11
@Djordjo Ze zijn (zoals ze mij vertelde) al wel in gesprek met een senior data scientist om mij ook direct aan te vullen. Ik ben het inderdaad met je eens dat de volgorde mogelijk wat gek is, waarom eerst een junior aannemen? Ik moet inderdaad waakzaam zijn op de verwachtingen, thanks!

@Morrar Allemaal goede tips! De rode draad die ik hieruit haal is dat er veel informatie buiten je datasets om te vinden is. Thanks :)

@AGee Ook aansluitend bij het bericht van Morrar. Domeinkennis is inderdaad de maak of kraak van de juiste informatie 'toveren',

@Croga Ik heb in mijn eerste week ook een gesprek over mijn persoonlijke doelen en mijn doelen binnen het bedrijf. Ik zal hier inderdaad goed moeten opletten wat de opvattingen zijn over het vakgebied en of dat overeenkomt met mijn opvattingen!

@Termi Zoals eerder aangegeven word ik hopelijk snel aangevuld met meer ervaren collega's. Het stuk over de cursussen is ook een goed punt, iets waar ik nog niet aan had gedacht.

@D-dark Dat is een goede tip inderdaad, het ook van de voor/gebruikers kant bekijken. Ga ik meenemen!

Thanks voor de reacties allemaal, dan ben ik scherp als ik van start ga maandag! :)

Acties:
  • +2Henk 'm!

Anoniem: 1146851

Ik heb wat meer praktische tips, uit het perspectief van een software developer die weleens wat data scientists moet bijstaan in hun werkzaamheden:

Sommige junior data scientists komen bij mij met een Windows computer aanzetten bij een organisatie waar de technologie vooral op Linux based servers draait. Dat is niet handig. Daarnaast zijn ML/AI packages (vaak) lastig te installeren op Windows (daarom is ooit anaconda gemaakt). Mijn tip; installeer/leer bijv. Ubuntu. Je wordt een techneut, en dan hoor je goed overweg te kunnen met een bash shell.

Junior data scientists schrijven (vaak) hele slechte code. In bijv. R of Python. Regelrechte spaghetti code. Vraag software ontwikkelaars binnen je organisatie om je hierbij te helpen. Je snapt misschien statistiek heel goed en andere theorie, maar je kunt niet coden. Uit ervaring, de beste data scientists zijn mensen die zich goed kunnen uitdrukken in code en veel van statistiek weten. Dat betekent dat je eigenlijk een soort halve software developer wordt.

Leer de verschillende databases (NoSQL/SQL). Hoe je daarmee connect. Hoe rechten werken binnen die databases. Hoe data stroomt door het bedrijf. Hoe ElasticSearch werkt. Hoe Kafka werkt. RabbitMQ. Hoe je access logs van een webserver (nginx/apache) kunt parsen. Hoe je data uit AdSense kan halen. List goes on.

}:O

[Voor 5% gewijzigd door Anoniem: 1146851 op 12-03-2021 21:30]


  • kelvintje
  • Registratie: september 2010
  • Laatst online: 10-06 11:11
@zZz Erg goede tips. Ik heb gelukkig een aantal hardcore programmeur vrienden waar ik ook nog het een en ander van leer af en toe. Ik heb inderdaad tot nu toe altijd via de Anaconda distributie gewerkt. Het is mogelijk een goed idee thuis Ubuntu te dualbooten om daar ervaring mee op te doen.

Ik heb inderdaad via mijn studie altijd met R gewerkt, en zelfs ook les gegeven in R, waar ik wel altijd heb geprobeerd om coding guidelines na te leven. Maar ik weet zeker dat ik inderdaad veel slecht gestructureerde code schrijf omdat ik nooit op een formele manier R of Python op die manier heb gebruikt (in een organisatie waar anderen ook mijn code moeten lezen). Ik ga hier waakzaam op zijn!

Ik heb gelukkig een klein beetje ervaring met SQL via een opdracht die ik heb gedaan, maar de andere zaken die je opnoemt niet. Ik ga proberen een map te maken met soft en hard skills waar ik verder mee kan komen. Bedankt voor je meer praktische tips!

Acties:
  • +2Henk 'm!

  • Fulgora
  • Registratie: september 2012
  • Laatst online: 22:18
Morrar schreef op vrijdag 12 maart 2021 @ 19:09:
Paar belangrijke inhoudelijke zaken denk ik:

- Het algo maakt meestal vrij weinig uit, focus liever op features / data cleansing / data verrijking of verzameling.
Hele goede tips in de post van @Morrar (echt!) maar als iemand die zich bezig houdt met data engineering (en amper in de consultancy gezeten heeft) wil ik je toch meegeven om aan de bel te trekken wanneer een opdrachtgever onrealistische verwachtingen heeft. Er zijn teveel klussen/vacatures die eigenlijk een one man team verwachten. Zeker de ops en de engineering gedeeltes (het bouwen van pipelines, inrichten van feature stores, deployen van modellen etc) zijn niet altijd de plekken waar een DS de meeste achtergrond in heeft. Beheers de verwachtingen die een opdrachtgever heeft ten aanzien van de buitengebieden van de rol.

Acties:
  • +1Henk 'm!

  • kelvintje
  • Registratie: september 2010
  • Laatst online: 10-06 11:11
@Fulgora Wat ik uit veel van de vorige reacties, en nu ook uit die van jouw begrijp is dat ik erg op m'n hoede moet zijn over de verwachtingen die ze van mij hebben. Ik ben iemand die data engineering bijvoorbeeld ook interessant vind, maar inderdaad geen expertise in heb. Dus ik moet een goede balans vinden waarbij ik de juiste workload probeer te vinden en mijzelf kan ontwikkelen, zonder teveel hooi op m'n vork te nemen.

Bedankt voor je inzicht!

Acties:
  • +1Henk 'm!

  • Morrar
  • Registratie: juni 2002
  • Laatst online: 22:11
Fulgora schreef op vrijdag 12 maart 2021 @ 22:43:
[...]


Hele goede tips in de post van @Morrar (echt!) maar als iemand die zich bezig houdt met data engineering (en amper in de consultancy gezeten heeft) wil ik je toch meegeven om aan de bel te trekken wanneer een opdrachtgever onrealistische verwachtingen heeft. Er zijn teveel klussen/vacatures die eigenlijk een one man team verwachten. Zeker de ops en de engineering gedeeltes (het bouwen van pipelines, inrichten van feature stores, deployen van modellen etc) zijn niet altijd de plekken waar een DS de meeste achtergrond in heeft. Beheers de verwachtingen die een opdrachtgever heeft ten aanzien van de buitengebieden van de rol.
Mee eens, al heb ik wel het idee dat de DS minder het one man army wordt dan 5 a 6 jaar geleden. Data engineering en data science zijn nu beter gescheiden in mijn beleving en soms zit er zelfs nog een machine learning engineer tussen.

Ook de link naar de business wordt soms opgevangen met een analytics translator of een product owner met wat meer statisticche kennis.

Qua management vind ik het nog wel heel erg wisselend; aangezien het een behoorlijk nieuw veld is, zijn er weinig mensen door gegroeid naar lead rollen. Dus meestal heb je gewoon generieke managers.

Nog een laatste (wellicht wat controversele) mening, maar voor productie systemen vind ik Python wel wat fijner dan R. Maar goed R heeft weer andere voordelen :)

  • kelvintje
  • Registratie: september 2010
  • Laatst online: 10-06 11:11
Ik denk dat het niet een hele controversiële mening is. Ik ben begonnen met R omdat het in de wetenschappelijke wereld volgens mij de standaard is. Na het afronden van de studie ben ik Python gaan leren via cursussen en wat kaggle challenges. En het enige wat ik constant dacht: R heeft mijn voorkeur als het aankomt op data laden, transformeren, filteren, opschonen. Maar Python is zeker superieur als het aankomt op het daadwerkelijk deployen van modellen (in mijn ervaring tot dusver). Qua visualisatie heb ik geen hele specifieke voorkeur, ik denk dat R en Python hier beide erg mooie libraries voor hebben.

  • Dr.Greg
  • Registratie: oktober 2006
  • Laatst online: 09:11
kelvintje schreef op vrijdag 12 maart 2021 @ 15:19:
Ik ben de eerste startende data scientist en zal nog worden aangevuld met meer ervaren data scientists.
Zorg er dan actief voor dat de juiste mensen worden aangenomen. Sommige kandidaten volgen een Udemy cursus, noemen zich "Data Science Ninja", en kunnen zichzelf verder ontzettend goed verkopen. Jij bent nu dus 1 van de weinige in jouw bedrijf die daar tijdens een gesprek doorheen kan prikken.

En collega's waar je goed mee kan sparren, maakt je werk zoveel leuker.
Pagina: 1


Apple iPad Pro (2021) 11" Wi-Fi, 8GB ram Microsoft Xbox Series X LG CX Google Pixel 5a 5G Sony XH90 / XH92 Samsung Galaxy S21 5G Sony PlayStation 5 Nintendo Switch Lite

Tweakers vormt samen met Hardware Info, AutoTrack, Gaspedaal.nl, Nationale Vacaturebank, Intermediair en Independer DPG Online Services B.V.
Alle rechten voorbehouden © 1998 - 2021 Hosting door True