Acties:
  • 0 Henk 'm!

  • Config
  • Registratie: Januari 2000
  • Laatst online: 06-01 00:49
Het valt mij op dat de ontwikkeling van Data Science in Nederland wat traag verloopt. In tegenstelling tot de USA, UK en DE is de vraag vanuit de markt nog heel erg gering, afgaande op LinkedIn en andere welbekende bronnen.

Hoe ziet de markt voor Big Data Science, Advanced Analytics en Data Visualization eruit, en welke kant ontwikkelt het zich op? Hoeveel van jullie zijn hier al concreet mee bezig? Is het wat vroeg, of is de hype alweer over? Is dit ook voor Nederland de welbekende "sexiest job of the century" of zijn we er niet technisch genoeg voor in ons alfa/gamma landje?

Afbeeldingslocatie: http://static.guim.co.uk/sys-images/Guardian/Pix/pictures/2012/3/2/1330695813011/EMC2-graphic-on-data-scie-007.jpg

[ Voor 3% gewijzigd door Config op 18-04-2014 23:35 ]


Acties:
  • 0 Henk 'm!

  • Hydra
  • Registratie: September 2000
  • Laatst online: 21-08 17:09
Wat verloopt volgens jou traag? Hoe weet jij dat 'men' niet met big data bezig is?

Big data is voor een groot deel hype, daar zijn Hollanders te nuchter voor. Dat betekent niet dat we er niet aan werken (ik werk zelf op een big data project, gebruik de term alleen nooit)' we schreeuwen allen geen "big data" van de daken als we een paar TB in een Hadoop cluster drukken.

https://niels.nu


Acties:
  • 0 Henk 'm!

  • gambieter
  • Registratie: Oktober 2006
  • Niet online

gambieter

Just me & my cat

Wat noem je eigenlijk data science? Wij zijn met DNA sequencing ook bezig met data science, het zoeken naar patronen in een grote datasets. Als ik het vergelijk met de beschrijving van data science op wiki, dan komt dat volledig overeen, al zal dat misschien niet zijn waar je op doelt :)

I had a decent lunch, and I'm feeling quite amiable. That's why you're still alive.


Acties:
  • 0 Henk 'm!

  • Don Quijote
  • Registratie: April 2005
  • Laatst online: 22:36

Don Quijote

El Magnifico

An sich is het natuurlijk zoals Hydra aangeeft een beetje een hype geweest. Maar desalniettemin wordt het wel steeds relevanter. In mijn vakgebied, forensic eDiscovery/Cybercrime, wordt "datascience/datavisualization" steeds meer toegepast en ook steeds relevanter waarbij we vroeger bij een redelijk fraude zaak 50GB tot 250GB aan data moesten verwerken en reviewen hebben we recent in een zaak meer dan 200TB verwerkt. Op dat soort momenten beginnen dingen als predictive coding (laat de machine maar leren en vervolgens bepalen wat relevante documenten zijn voor het onderzoek) steeds belangrijker te worden.
Ook bij cybercrime zie je dat we steeds meer gebruik gaan maken van process mining. Tot slotte is ook het data visualization aspect steeds belangrijker aan het worden, zeker in gesprek met niet techneuten zeggen een paar goede Tableau rapporten meer dan 100 pagina's aan geschreven rapportage.

Acties:
  • 0 Henk 'm!

  • Streup
  • Registratie: Augustus 2010
  • Laatst online: 24-09 14:15
Data science is inderdaad wel een heel algemene term. Ik werk zelf in de tak van sport waarbij we data uit klinische studies gebruiken om kosteneffectiviteit van geneesmiddelen te modelleren. Nu steeds meer farmaceutische bedrijven hun klinische databases openbaar maken denk ik dat hier heel veel gaat gebeuren. Probleem is dat waarschijnlijk heel erg gezocht gaat worden naar signalen in de data ('cherrypicking'), en dat is natuurlijk geen wetenschap.

Ook werk ik met cijfers over declaraties en zorggebruik in de Nederlandse ziekenhuizen (DBCs) welke je ook wel kan scharen onder big data. Recentelijk was over onderzoek met dit soort cijfers ophef in het nieuws dat er een grote variatie is tussen ziekenhuizen qua hoeveelheid operaties en behandelingen. Ook hier viel me op dat er conclusies werden getrokken die helemaal niet getrokken mochten worden (er waren helemaal geen causale verbanden, alleen maar signalen).

Mijn conclusie is dat het heel interessant is om big data te onderzoeken, dat er heel veel belangrijke en relevante informatie uit te halen valt en dat het niet te stoppen is waarschijnlijk. Een hype is het zeker niet trouwens. Het heeft vooral te maken met het feit dat computers zo snel geworden zijn dat enorme databases binnen redelijke tijd onderzocht kunnen worden en dat gaat in de toekomst alleen maar beter met snellere hardware. Belangrijk is wel dat om een link te leggen tussen de data en de realiteit/praktijk er wel duidelijke regels (die van wetenschappelijk onderzoek bv) gevolgd moeten worden om te voorkomen dat er verbanden gezocht worden die toevallig goed van pas komen om makkelijk te scoren.

“Most people gaze neither into the past nor the future; they explore neither truth nor lies. They gaze at the television.” - (Radiohead)


Acties:
  • 0 Henk 'm!

  • Hydra
  • Registratie: September 2000
  • Laatst online: 21-08 17:09
Ik zeg niet dat big data niet bestaat. Ik zeg zelf dat ik op een dergelijk project zit. Dat gaat om petabytes aan datasoep waar wij gegevens uit moeten halen. Maar het is wel een hype; het concept is hip en een hoop marketing types duiken erop zonder dat iemand iets kan zeggen over wat predies die definitie is. Net zoals 'de cloud': ik zeg niet dat het niet bestaat; maar het is lange tijd ook meer hype dan iets concreets geweest.

https://niels.nu


Acties:
  • 0 Henk 'm!

  • Zoijar
  • Registratie: September 2001
  • Niet online

Zoijar

Because he doesn't row...

Dit soort projecten lopen al jaren: http://www.cwi.nl/news/20...big-data-research-project . http://www.cwi.nl/news/2012/veni-grant-big-data-research Nederland doet gewoon mee met de top, zoals gewoonlijk.

Acties:
  • 0 Henk 'm!

  • begintmeta
  • Registratie: November 2001
  • Niet online

begintmeta

Moderator General Chat
Inderdaad

Acties:
  • 0 Henk 'm!

  • FRidh
  • Registratie: Januari 2004
  • Laatst online: 02-10 08:34
Het is een gemeenschappelijke deler in de werkzaamheden van veel mensen in verschillende gebieden. Aangezien deze gemeenschappelijke deler groter lijkt te worden en ook in steeds meer gebieden voorkomt is het begrijpelijk om het een naam te geven.

Goed, wat exact omvat wordt door deze deler is nog steeds onduidelijk; de definitie van 'data science' lijkt nog niet helemaal gedefinieerd te zijn. Zelf vind ik het Venn diagram van Drew Conway wel mooi illustreren wat het is.

Data Science wordt steeds belangrijker, alleen helaas wordt dit niet overal gerealiseerd. Als ik kijk in mijn projectgroep, en dan met name naar degene die het project sturen, dan lijkt het erop alsof sommigen denken dat onderzoek doen nu nog exact hetzelfde is als in de tijd dat ze dat zelf deden. Daarentegen moeten velen van ons simulaties uitvoeren (waarvoor ook de implementatie moet worden geschreven) en ook steeds grotere hoeveelheden data analyseren (van metingen en simulaties) en dit kan niet meer worden gedaan met een simpel Matlab-scriptje. Doordat de ontwikkeling en analyse steeds complexer wordt, wordt het ook steeds moeilijker om onderzoek te reproduceren.

Research is to see what everybody else has seen, and to think what nobody else has thought - Albert Szent-Györgyi


Acties:
  • 0 Henk 'm!

  • Frips
  • Registratie: Augustus 2010
  • Laatst online: 20:50
Leuk om die links te zien. Nederland deed/doet zeker mee met de top op dit gebied. Ik heb >15 jaar geleden gewerkt aan datamining modules in MonetDB en heb er toen een aantal leuke projecten mee gedaan. De "big data" van toen was niet zo "big" als die van tegenwoordig natuurlijk, maar de principes waren hetzelfde. Je wilt niet weten hoeveel databases er toen al aan elkaar gekoppeld werden om interessante patronen te vinden in klant data >:)

Ze zijn een beetje laat om het de "sexiest job of the century" te noemen...

Acties:
  • 0 Henk 'm!

  • Config
  • Registratie: Januari 2000
  • Laatst online: 06-01 00:49
Interessant die links naar Nederlandse wetenschap :). Mooi dat we meedoen op dat niveau.

Wat mijn verbazing wekt is Big Data/Data Science/Predictive Analytics/ Data Discovery (er zijn zoveel termen voor ;)) nog geen wortel hebben geschoten in de organisaties waar je dit het eerst zou verwachten: grote banken, retailers, vervoersbedrijven, ministeries. Allen lijken er nog niet echt mee aan de gang. De Albert Heijn voert het uit in de UK...

Is het (nog) slechts het terrein van startups, big techs (Facebook, Google) en de wetenschappelijke wereld, of zien jullie dat anders?

Acties:
  • 0 Henk 'm!

  • Bl@ckbird
  • Registratie: November 2000
  • Niet online
Ik weet dat Cisco Big Data redelijk pushed en ze hebben hier ook wat referentie architecturen voor gemaakt voor de infrastructuur. (Compute, network en storage)

Bedrijven als Shell en Albert Heijn zijn hier al lang mee bezig en zien ook welke waarde dit biedt. Ik denk dat bedrijven A) Nog niet weten welke waarde het biedt, of B ) ze niet weten waar ze moeten beginnen. Privacy wetgeving is hier een stuk strikter dan in de VS en aan de overkant van de plas lopen ze daar veel meer op voor. (Naast bijna niet bestaande privacy wetgeving, zijn bedrijven daar een stuk groter en kunnen er dus meer resources tegenaan gooien.)

Ik doe nu 8 jaar wat met Cisco en complexe, nieuwe technologie zie ik vaak als eerste toegepast worden in grote enterprises. (Zoals VoIP / Unified Communications) Daarna zie je het doorsijpelen in het MKB. (Een Amerikaanse fabrikant als Cisco hanteert hele andere bedrijfsgrootte voor "MKB", dan wat wij in Nederland onder "MKB" verstaan.) Zodra Big Data analyse als een soort kant en klaar product wordt aangeboden, zal het een grote vlucht nemen.

Verder is er nog Big Data analyse wat voor de eindgebruiker niet als Big Data er uit ziet. (Denk dan bijvoorbeeld aan wifi tracking op access points.) Het rekenwerk wordt ergens in de cloud gedaan en de eindgebruiker ziet alleen het resultaat. Ik denk dat dit Big Data analyse steeds vaker achter dit soort cloud services hangen.

Volgens Cisco komen er komende jaren miljarden apparaten online die data het (inter)netwerk op spugen en deze data moet geanalyseerd worden. (Anders heb je er niet zoveel aan.) Het is een samenwerking van mensen, processen, data en dingen. Data wat door sensoren wordt uitgespuugd moet geanalyseerd worden en hiermee kan het process realime aangestuurd worden en verbeterd. Denk dan bijvoorbeeld aan slimme meters / Smart Grid om energie verbruikers en (groene) energie producenten beter op elkaar af te stemmen.

~ Voordelig Zelf Vliegen? ~ Sent using RFC 1149. Note: No animals were harmed during this data transfer. ~


Acties:
  • 0 Henk 'm!

  • qadn
  • Registratie: Juni 2007
  • Laatst online: 31-03 20:56

qadn

Pinnacle of Perversion

Mijn huidige jobtitle is data scientist. Hoewel ik technisch gezien in Duitsland werk (in ieder geval voor een Duitse werkgever, met Duitse verzekering, etc.).

Mijn ervaring is dat qua het serieuze spul we in Nederland goed meekomen.De UVA en het CWI hebben binnen de wetenschap vrij veel te doen. Het ESA doet natuurlijk mee, en we lopen ook vooraan als je kijkt naar veul sensoren in steden / waters / dijken / etc.

Maargoed, het hele concept data scientist is veel te waterig en betekend heel weinig. (Net zoals "Big Data").

Ik zie het grootste probleem van het big data gebeuren in het er voor zorgen dat de data die er overal verzameld wordt op een correcte manier beschreven wordt met metadata zodat het allemaal beter combineerbaar en terugvindbaar is.
Als je niet weet wat er is weet je ook niet wat je kan doen.

Anyway, je ziet weinig vacatures voor "data scientists" omdat het niet benoemt wat je zoekt / wat de persoon doet.

Te koop: Agfa clack; DM voor details.


Acties:
  • 0 Henk 'm!

  • Bonsaiboom
  • Registratie: December 2009
  • Laatst online: 28-09 10:24
Ik weet dat unversiteiten in Amsterdam, Maastricht, Groningen, Eindhoven en Leuven in ieder geval al Data Science initiatieven hebben opgestart. Bij degene in Eindhoven ben ik betrokken - ik zie mezelf wel redelijk als data scientist, doorgegroeit vanuit een business intelligence analisten rol, maar ik heb een eigen bv dus heb ook niet echt die jobtitle. Ik merkte ook dat op de verschillende data science bijeenkomsten waar ik ben geweest, dat Big Data vooral door degenen gebruikt worden die nét niet in de stof zitten. En als het al gebruikt wordt is het vooral een betekenis naar volume.

Het grootste probleem met de noemer vind ik dat bedrijven, net zoals big data, dan ineens vinden dat ze dat nodig hebben, terwijl ze zelf er helemaal niet klaar voor zijn om data-driven te worden...

Acties:
  • 0 Henk 'm!

  • Hydra
  • Registratie: September 2000
  • Laatst online: 21-08 17:09
qadn schreef op zondag 20 april 2014 @ 22:57:
Ik zie het grootste probleem van het big data gebeuren in het er voor zorgen dat de data die er overal verzameld wordt op een correcte manier beschreven wordt met metadata zodat het allemaal beter combineerbaar en terugvindbaar is.
Als je niet weet wat er is weet je ook niet wat je kan doen.
Dat is min of meer exact de 'definitie' van wanneer je data 'big data' wordt: als het zo groot is, dat je het niet meer even in een flinke database kunt stoppen omdat dat niet meer schaalbaar is. In ons geval gaat het om 2-20 terabyte aan data per project, hier worden dan een hoop bewerkingen losgelaten en de resultaten daarvan worden dan beschikbaar gemaakt om te doorzoeken.

Maargoed, dit is echt niks nieuws. Hier wordt al jaren vanalles mee gedaan, en net zoals "cloud" computing ook een hip stempeltje is op een verzameling technieken geldt dat net zo goed voor "big data". Google's Map/Reduce is ook niks anders dan het Map/Fold uit functioneel programmeren.

https://niels.nu


Acties:
  • 0 Henk 'm!

  • qadn
  • Registratie: Juni 2007
  • Laatst online: 31-03 20:56

qadn

Pinnacle of Perversion

Ik geloof dat ik niet duidelijk genoeg was.

Wat ik bedoelde is dat afdoende metadata essentieel is op alle data die gegenereerd wordt zodat je er later wat mee kan doen.
Ook als de data, voor het doel waar het voor verzameld wordt, makkelijk te overzien is.

Je weet nooit waar het allemaal geschikt voor kan zijn.
Maar zonder goede beschrijving en discoverabilty kom je daar nooit achter.

Te koop: Agfa clack; DM voor details.


Acties:
  • 0 Henk 'm!

  • Config
  • Registratie: Januari 2000
  • Laatst online: 06-01 00:49
Ik denk dat qadn zegt wat ik al vaker heb gehoord: dat de applicatie (en dus algoritmes) van de data vergankelijk zijn geworden, maar de data zelf niet. Dus data over application. Dus omdat je niet kunt weten waar de data voor gebruikt gaat worden, houd je alles vast. Keep everything forever.

Zie ook Tidy Data :)

[ Voor 4% gewijzigd door Config op 21-04-2014 20:19 ]


Acties:
  • 0 Henk 'm!

  • qadn
  • Registratie: Juni 2007
  • Laatst online: 31-03 20:56

qadn

Pinnacle of Perversion

Ik denk dat dat Tidy data geval weer erg beperkt naar de wereld kijkt. Het zou natuurlijk mooi zijn als alle observaties in duidelijke tabellen kunnen worden gestopt. Maar voor veel gevallen kan dat niet.

Om het te illustreren met een concreet voorbeeld wat momenteel speeld: the wheat initiative. ( http://www.wheatinitiative.org/ ). Hierbinnen proberen een erg groot aantal partijen alle relevante data die wat te maken heeft met graan samen te brengen. Om dingen beter te begrijpen.
Problemen die met bij dit soort dingen vaak tegenkomt:
- Data is onvindbaar (als er metadata is is deze niet zichtbaar)
- Data heeft geen/nauwelijks metadata
- Data heeft metadata, maar die is alleen afdoende voor experts uit hetzelfde vakgebied. (wat betekenen de onzekerheden precies? etc.)
- Data is niet beschikbaar
- Data is wel beschikbaar, maar enkel onder bepaalde voorwaarden.

Zeld vind ik vooral #2 en #3 interessant, en daar is ook veel aan te doen. Vooral going forward, maar je kan ook bestaande metadata updaten als je van het probleem bewust bent.

Te koop: Agfa clack; DM voor details.


Acties:
  • 0 Henk 'm!

  • Config
  • Registratie: Januari 2000
  • Laatst online: 06-01 00:49
Lijkt mij juist prima te stromen met de Tidy Data definitie? Alleen moet je dan de ruwe data behouden omdat je nooit weet hoe deze later weer van pas kan komen in een andere vorm! :)

Acties:
  • 0 Henk 'm!

  • qadn
  • Registratie: Juni 2007
  • Laatst online: 31-03 20:56

qadn

Pinnacle of Perversion

Niet alles past van nature in een observatie-database.
Bijvoorbeeld:
- AV-materiaal (AV opnames, satelietbeelden, etc.)
- Metingen met een ietwat idiote datarate: Astronomie, deeltjesversnelers, plasmafysika, etc.
- Gene sequences
- 3D opnames (terein, gebouwen, MRI, rontgen)
Vandaar dat ik zei: beperkt.

Als iets wel een relatief kleine set observaties is is het natuurlijk wel handig om dat een beetje logisch en makkelijk verwerkbaar op te slaan.

Te koop: Agfa clack; DM voor details.


Acties:
  • 0 Henk 'm!

  • Config
  • Registratie: Januari 2000
  • Laatst online: 06-01 00:49
True, binaire data wordt lastig!

Acties:
  • 0 Henk 'm!

  • Hydra
  • Registratie: September 2000
  • Laatst online: 21-08 17:09
Config schreef op dinsdag 22 april 2014 @ 19:07:
True, binaire data wordt lastig!
Euh, nee? Ongestructureerde data is lastig, helemaal als je er grote hoeveelheden van hebt. Of het binair of tekst is, maakt vrij weinig uit.

https://niels.nu


Acties:
  • 0 Henk 'm!

  • Config
  • Registratie: Januari 2000
  • Laatst online: 06-01 00:49
Ongestructureerd kun je nog structureren (bijvoorbeeld in Hadoop), maar video's worden lastiger?

Acties:
  • 0 Henk 'm!

  • Hydra
  • Registratie: September 2000
  • Laatst online: 21-08 17:09
Config schreef op dinsdag 22 april 2014 @ 19:46:
Ongestructureerd kun je nog structureren (bijvoorbeeld in Hadoop), maar video's worden lastiger?
Daar kun je net zo goed gegevens uithalen. In het systeem waar ik aan werk wordt er bijvoorbeeld in video's gezocht naar bepaalde content. Daarnaast is metadata in bijvoorbeeld een exif tag helemaal simpel uit te lezen. Zaken als bitrate en formaat kun je gewoon uit de header halen. Wat veel lastiger is, is als je gewoon niet weet wat voor'n data je hebt.

Daarnaast: gewoon data in een hadoop cluster plempen maakt het niet gestructureerd.

[ Voor 7% gewijzigd door Hydra op 22-04-2014 19:58 ]

https://niels.nu


Acties:
  • 0 Henk 'm!

  • qadn
  • Registratie: Juni 2007
  • Laatst online: 31-03 20:56

qadn

Pinnacle of Perversion

Huh? observatie data is meestal wel bruikbaar mits goed beschreven. Ik gaf enkel wat voorbeelden die niet in het observatie-tabel paradigma passen. Ik zie niet in waarom MRI data ongestructureerd zou zijn of lastig zou zijn. Het zijn enkel geen tabellen.

Het blijft zo dat goede metadata nodig is.
Bij video's (want iedereen snapt wat het zijn) heeft de file zelf in de header al ingebouwd wat de bitrate is en welke decoder je nodig hebt.
Maar bijvoorbeeld niet:
- wat is er gefilmd
- wie in de video zei op welk moment wat
- een vertaling van wie wat zei in een taal waar je wat mee kan
- wat is het onderwerp
- welke gebaren worden er gemaakt
- wat is het onderwerp
enzovoorts.

[ Voor 27% gewijzigd door qadn op 22-04-2014 20:04 ]

Te koop: Agfa clack; DM voor details.


Acties:
  • 0 Henk 'm!

  • Hydra
  • Registratie: September 2000
  • Laatst online: 21-08 17:09
qadn schreef op dinsdag 22 april 2014 @ 20:01:
Huh? observatie data is meestal wel bruikbaar mits goed beschreven. Ik gaf enkel wat voorbeelden die niet in het observatie-tabel paradigma passen. Ik zie niet in waarom MRI data ongestructureerd zou zijn of lastig zou zijn. Het zijn enkel geen tabellen.
Op wie reageer je?

https://niels.nu


Acties:
  • 0 Henk 'm!

  • qadn
  • Registratie: Juni 2007
  • Laatst online: 31-03 20:56

qadn

Pinnacle of Perversion

Op "Config"

Te koop: Agfa clack; DM voor details.


Acties:
  • 0 Henk 'm!

  • Config
  • Registratie: Januari 2000
  • Laatst online: 06-01 00:49
True qadn. Het punt dat ik wilde maken was dat je structuur (wat voor structuur dan ook) op je data moet toepassen (op wat voor data dan ook), om er conclusies uit te kunnen trekken. "Structuur" betekent hier dan niet slechts "ERD diagrammen met data dictionaries", of course.
Pagina: 1