Spark en Big Data: wie gebruikt het? - Softwareontwikkeling

dinsdag 19 april 2016 15:47

Acties:

Topicstarter

Wij werken zakelijk veel met Spark(http://spark.apache.org/ ) en we komen het bij meer en meer klanten tegen. Logisch natuurlijk wanneer je bedrijf een focus op (Big) Data technologie heeft (*snip* niet relevant / spam). Maar ik mis het eigenlijk nog compleet hier op het forum, terwijl het toch wel heel relevante technologieën zijn (geworden). Zijn er geen devvers hier die professioneel met Big Data tech werken? Ik denk aan zaken als Hadoop, Spark, Flink, Storm, Cassandra, ElasticSearch, MongoDB, MapR..

[ Voor 9% gewijzigd door RobIII op 19-04-2016 16:01 ]

dinsdag 19 april 2016 17:03

Acties:

Hydra

Ik werk er professioneel mee. Maar ik denk dat je een beetje de grootte van de dev community hier overschat en vooral de hoeveelheid van deze devs die met dit soort spul werken. Je ziet een vrij groot deel van de posts hier over beginnerswerk in bijvoorbeeld PHP gaan.

Als je meer in contact wil komen met devs die hier mee werken kun je dat beter via de verschillende meetup groepen doen.

https://niels.nu

dinsdag 19 april 2016 19:08

Acties:

zneek

Topicstarter

Weet ik, die organiseren we voor een deel zelf

Ik zou alleen verwachten dat de jongere garde zich wat meer bekend aan het maken is met dit soort dingen. Kennelijk niet dus. Zonde, zulke interessante materie

dinsdag 19 april 2016 20:29

Acties:

Gomez12

Tja, in NL is er simpel weinig big data... Zijn we net even iets te klein voor...
Meeste aantallen passen gewoon nog in niet big-data oplossingen.
Waardoor het discussie gedeelte gewoon klein is en juist perfect bij meetups valt te doen.

Terwijl alles op serieus niveau gewoon in het engels gedaan wordt en daar dus ook de discussies plaatsvinden.

dinsdag 19 april 2016 20:40

Acties:

zneek

Topicstarter

Dat ben ik niet met je eens, big data draait al lang niet meer alleen om veel data. Maar voor die discussie is dit niet de plek

woensdag 20 april 2016 08:58

Acties:

Morrar

Ik werk voor een consultancy en we zien dat veel klanten inmiddels kijken naar de ontwikkelingen in BigData architecturen. Het staat echter vaak nog in de kinderschoenen, om een aantal redenen denk ik:

1. De ontwikkelingen in software gaan erg hard; er zijn nog niet echt duidelijke winnaars en niet alles is enterprise ready. Bedrijven hebben daarom vaak moeite een stack te kiezen of zijn huiverig zich vast te pinnen / te investeren in een stack.

2. Nieuwe technieken werken soms lastig samen met bestaande technieken. De integratie kan dan duur uitpakken.

3. Gebrek aan kennis. De meeste cluster computing software is open source en draait op Linux. Niet alle sysads kunnen daarmee omgaan. Daarnaast vereist het programmeerskills van analisten en die zijn niet altijd voorhanden.

4. Lang niet iedereen heeft veel data en niet alle problemen hoeven opgelost te worden met veel data. Er zijn weinig vraagstukken waarvoor je echt alle data moet hebben; heel vaak kun je ook gewoon uit de voeten met een steekproef. De toegevoegde waarde is dus niet altijd meteen duidelijk.

5. Veel bedrijven zijn überhaupt nog bezig hun bestaande data op orde te krijgen. Dus samenbrengen van bronnen, datakwaliteit verhogen, ontsluiten nieuwe bronnen etc. Die denken nog niet echt na over een nieuwe architectuur.

Dat gezegd hebbende vind ik het wel zeer interessant wat er allemaal speelt op dit gebied. Spark met Spark ml of mllib begint steeds meer volwassen te worden evenals de tools om ongestructureerde data te bevragen. Kwestie van tijd voordat er ook makkelijk te gebruiken tooling omheen komt. Dan zal de acceptatie denk ik nog wel sneller gaan lopen

[ Voor 7% gewijzigd door Morrar op 20-04-2016 09:15 ]

woensdag 20 april 2016 10:13

Acties:

Hydra

Gomez12 schreef op dinsdag 19 april 2016 @ 20:29:
Tja, in NL is er simpel weinig big data... Zijn we net even iets te klein voor...

Complete onzin. Er zijn genoeg bedrijven die hier dingen mee doen. Er zijn ook genoeg developers mee bezig. Er zitten hier alleen heel weinig developers die zich met dat soort zaken bezig houden. Tweakers is primair een gadget-niews site, geen developer community. Developer communities organiseren zich meestal rond de stack die gebruikt wordt; een Java dev vindt bijvoorbeeld C#/PHP nieuws niet bijster interessant.

https://niels.nu

donderdag 21 april 2016 17:00

Acties:

Douweegbertje

Wat kinderachtig.. godverdomme

Waar moet over gepraat worden?

Er zijn hier zat mensen die bepaalde applicaties gebruiken die jij aangeeft, maar in feite is het meer een 'tool' c.q. hulpmiddel wat haast 'automatisch' gaat. De meeste vragen / discussies gaan meer over de bovenliggende (of onderliggende, hoe je het ook wilt zien) delen van zo'n applicatie. Daadwerkelijke programmeer vraagstukken of w/e.

vrijdag 29 april 2016 08:35

Acties:

lilliprutser

Ik vind dit wel interessant, alleen kom ik hiermee professioneel momenteel niet mee in aanraking. Ik heb ook moeite om te begrijpen welke problemen je met zoeits als Spark kunt oplossen. Zou je een wat use cases kunnen geven?

Thanks
David

vrijdag 29 april 2016 08:47

Acties:

Morrar

lilliprutser schreef op vrijdag 29 april 2016 @ 08:35:
Ik vind dit wel interessant, alleen kom ik hiermee professioneel momenteel niet mee in aanraking. Ik heb ook moeite om te begrijpen welke problemen je met zoeits als Spark kunt oplossen. Zou je een wat use cases kunnen geven?

Thanks
David

Spark is een cluster computing platform. Het stelt je in staat om extreem grote datasets te verdelen over het geheugen van vele computers. Vervolgens kun je er met dezelfde computers met veel CPU's tegelijk aan gaan rekenen. Use cases zijn dus vooral in die hoek te vinden: applicaties die met veel data snel moeten kunnen werken.

Denk bijvoorbeeld aan het verwerken van click streams op drukke websites of het doen van recommendations op basis van online clicks of aankopen of het verwerken van grote hoeveelheden sensorische data.

Ook achter de schermen kan het soms handig zijn om grote hoeveelheden data door te rekenen. Denk bijvoorbeeld aan fraudedetectie: aangezien het hierbij gaat om erg zeldzame events (hoop je althans), kun je ze het beste detecteren als je veel data hebt.

Als je een keer wilt experimenteren met Spark kun je trouwens vrij eenvoudig beginnen door een sandbox van Hortonworks of Cloudera te downloaden voor (bijvoorbeeld) virtualbox. Of je kan het zelf vrij eenvoudig installeren op bijvoorbeeld Ubuntu. Uiteraard werk je dan maar op 1 computer / node, maar je kunt dan wel kijken hoe het werkt.

[ Voor 12% gewijzigd door Morrar op 29-04-2016 08:52 ]

vrijdag 29 april 2016 09:01

Acties:

Maks

Ik denk dat veel bedrijven nog niet in het stadium zijn dat ze iets met grote hoeveelheden data kunnen gaan doen. Veel bedrijven waar ik langs kom doen eigenlijk nog het meeste met Excel, daar is het implementeren van standaard BI oplossingen eigenlijk al een hele grote stap. Bedrijven die de behoefte hebben om veel data te analyseren dragen vaak ook actief bij aan de ontwikkeling van dit soort technologieën (zoals Netflix).

Daarnaast heb je voor kwantitatieve analyse wat meer kennis van statistiek nodig dan het aanklikken van ANOVA in SPSS, vaak is die kennis niet aanwezig en begrijpt men ook niet wat een goede statistische analyse inhoudt.

Ook is big data een nogal variabel begrip, ik houd altijd een technische definitie aan, als de dataset te groot is om in 1 keer in het geheugen te laten dan zie ik het als big data. Dat omdat statistische analyses dan al een stuk moeilijker worden. Grootste dataset waar ik ooit een analyse op heb gedaan was 100 GB, dat paste destijds niet in het geheugen dus moest met ff in R worden ingeladen. Dit staat echter los van alle database technologieën, die ben ik ook nog nooit in het wild tegengekomen trouwens.

vrijdag 29 april 2016 09:30

Acties:

Hydra

lilliprutser schreef op vrijdag 29 april 2016 @ 08:35:
Ik vind dit wel interessant, alleen kom ik hiermee professioneel momenteel niet mee in aanraking. Ik heb ook moeite om te begrijpen welke problemen je met zoeits als Spark kunt oplossen. Zou je een wat use cases kunnen geven?

Er simpel gesteld: je kunt het 'oplossen' van veel vragen versnellen door er gewoon een hoop computers tegen aan te gooien. Spark regelt het verdelen van het werk over die computers voor je. Als je met Spark bezig bent doe je eigenlijk bewerkingen en aggregaties op data 'streams' en Spark regelt het verdelen van dat werk over de verschillende nodes in je netwerk voor je. Het is voor de developer bijna volledig transparant.

Ik heb een tijdje geleden een praatje op JFall gegeven over het doen van sentiment analysis mbv Spark. Ook heb ik een blog post geschreven over het paralelliseren van een genetisch algoritme op Spark. Je zou die beiden kunnen lezen voor wat meer achtergrond. Laat maar weten als je nog vragen hebt.

[ Voor 22% gewijzigd door Hydra op 29-04-2016 09:34 ]

https://niels.nu

maandag 25 maart 2019 14:47

Acties:

ToolkiT

brit-tweaker

Maks schreef op vrijdag 29 april 2016 @ 09:01:
Ik denk dat veel bedrijven nog niet in het stadium zijn dat ze iets met grote hoeveelheden data kunnen gaan doen. Veel bedrijven waar ik langs kom doen eigenlijk nog het meeste met Excel, daar is het implementeren van standaard BI oplossingen eigenlijk al een hele grote stap. Bedrijven die de behoefte hebben om veel data te analyseren dragen vaak ook actief bij aan de ontwikkeling van dit soort technologieën (zoals Netflix).

Even een kick van een oud topic..

Ik denk dat het 3 jaar later al een heel ander beeld is..
Vorige week was ik bij de Hortonworks Cloudera DataWorks Summit in Barcelona en daar zag ik bijvoorbeeld alle nederlandse banken rond lopen..

Zelf werk ik tegenwoordig bij een een bedrijf dat (o.a.) een self service tool maakt die het gebruik van datalakes (hadoop, AWS, Azure) makkelijker maken.. Wij generen de (o.a.) Spark code via een drag and drop GUI...

Mag je een gegeten paard in de bek kijken?

maandag 25 maart 2019 15:04

Acties:

Maks

ToolkiT schreef op maandag 25 maart 2019 @ 14:47:
[...]

Even een kick van een oud topic..

Ik denk dat het 3 jaar later al een heel ander beeld is..
Vorige week was ik bij de Hortonworks Cloudera DataWorks Summit in Barcelona en daar zag ik bijvoorbeeld alle nederlandse banken rond lopen..

Zelf werk ik tegenwoordig bij een een bedrijf dat (o.a.) een self service tool maakt die het gebruik van datalakes (hadoop, AWS, Azure) makkelijker maken.. Wij generen de (o.a.) Spark code via een drag and drop GUI...

Haha, heel grappig om terug te lezen. Ik denk dat ook namelijk, sterker nog, dit is juist het enige waar ik mij op dit moment mee bezig houd. Ook niet echt een goede reacte van mij eerlijk gezegd want het zat er toen al wel aan te komen natuurlijk.

Denk dat met de migratie naar cloud-platforms zoals AWS, Azure en GCP de drempel ook een stuk lager is geworden om met Sagemaker of Databricks e.e.a. te testen.