Postgres Tools voor DWH development & laden

vrijdag 22 maart 2019 11:58

Acties:

runs on cafeïne and sarcasm.

Topicstarter

Wij zijn bezig een nieuw datawarehouse te ontwikkelen. De keuze is voor mijn komst gemaakt om dit te doen met Postgres in combinatie met de tool Ixiwa van Synerscope. Naar mijn beleving is die tool niet geschikt voor DWH development. Mooie analysetool op basis van Hadoop, maar ETL is niet mogelijk. Helaas beschik ik niet over Postgres kennis en ervaring. Paar decenia Oracle en wat jaren SQLServer; daar moet ik 't mee doen. Vroegâh gebruikte ik veelvuldig Oracle Warehouse Builder (OWB) om het DWH waar ik toen aan ontwikkelde en beheerde te ontwikkelen en de dagelijkse nachtrun te schedulen en uit te voeren.

Mijn concrete vraag: wat prettig was aan OWB was dat het min of meer visueel werkte. Zowel het bouwen van de mappings (laad-procedures), maar ook het configureren van de laadprocedures (serieel/parallel, enz.). Zijn er toevallig tweakers die ervaring hebben met DWH's op Postgres? Ik hoor graag welke tooling jullie gebruiken of dat jullie puur manueel alles coderen.

Relevante software en hardware die ik gebruik
- PostgreSQL 9.6.11 on x86_64-pc-linux-gnu, compiled by gcc (GCC) 4.8.5 20150623 (Red Hat 4.8.5-28), 64-bit
- DBeaver 5.3.5.
- Ixiwa 2.3.1. (SynerScope)

Wat ik al gevonden of geprobeerd heb
Via Google aan het proberen iets te vinden, maar vooalsnog niks concreets gevonden.

De koffie loopt. Sportiever wordt het niet vandaag.

vrijdag 22 maart 2019 18:07

The Eagle

I wear my sunglasses at night

Ixiwa is idd niet als DWH geschikt. Al was het alleen maar omdat het eigenlijk een compleet dichtgespijkerde appliance is. Het draait bovenop Hortonworks idd, maar verder kun je er compleet niks mee. Enige wat het snapt is import via CSV. Of je moet het compleet verbouwen

Mijn huidige klant heeft het, maar het voldoet verre van voor waar men het allemaal beoogd heeft.

Een DWH op Postgres kan uiteraard. De vraag is alleen wat voor ETL je wilt gaan gebruiken. Aan beide kanten (Hive, Postgres) zul je een JDBC nodig hebben en dan moet je heel goed opletten met welke versies en dependencies je nodig hebt. Ik weet dat Nifi daar mee om kan gaan, maar die kun je dan eigenlijk weer niet gebruiken voor het ombouwen van je level 0 naar je 1, 2 en 3. Of je moet alle transformaties handmatig willen bouwen

Commercieel ken ik alleen Informatica die eigenlijk alles wel ondersteunt. Maar dan praat je wel over een dure oplossing. Kom net wel https://pgmodeler.io tegen, wellicht is dat iets?

Maar mijn tegenvraag zou zijn wat exact je doel is. Heb je alleen een DWH use case, of meerdere use cases voor je platform? En om hoeveel data gaat het? Enige ETL tool moet natuurlijk wel in verhouding staan met de rest van de stack.

_{En verder wel benieuwd welk bedrijf je zit. Ixiwa is best een niceproduct namelijk}

[ Voor 6% gewijzigd door The Eagle op 22-03-2019 19:27 ]

Al is het nieuws nog zo slecht, het wordt leuker als je het op zijn Brabants zegt :)

vrijdag 22 maart 2019 17:40

Acties:

JaQ

OWB is tot Oracle 11.2, in het Oracle landschap moet je daarna richting ODI gaan. Recente versies zouden min of meer OWB functionaliteit overgenomen moeten hebben. Let wel; dat is niet goedkoop.

De meer recente trajecten die ik ken, kijken allemaal naar Kafka.

Egoist: A person of low taste, more interested in themselves than in me

vrijdag 22 maart 2019 17:54

Acties:

BombaAriba

Ondertitel

Is Snowflake niks voor je? Als je nu helemaal gaat beginnen vanaf start zou ik iets gaan nemen wat de boel automatisch genereerd.

Je zou ook naar Informatica pakketten kunnen gaan kijken maar dat is wel net zoals Oracle duur.

We can believe what we choose. We are answerable for what we choose to believe. -John Henry Newman

vrijdag 22 maart 2019 18:00

Acties:

johnkeates

Het lijkt me dat al die spullen totaal niet meer bij zijn, een DWH nu nog op een blackbox tool en een RDBMS laten draaien is een beetje terug in de tijd gaan.

Wat voor data wil je ingesteren en wat voor ETL en BI wil je er aan de andere kant op loslaten?

Je zou kunnen kijken naar iets als AirFlow of NiFi in combinatie met object storage of een unstructured DB. Data voor opslaan al normaliseren is eigenlijk niet meer nodig met de tooling van nu, tenzij je het nog op zelf gehoste hardware probeert te doen (maar dan is nu nog een DWH of DL bouwen ook eigenlijk onbegonnen werk vrees ik -- als je een dikke datapijp hebt)

vrijdag 22 maart 2019 18:07

Acties:

Beste antwoord ✓

The Eagle

I wear my sunglasses at night

Ixiwa is idd niet als DWH geschikt. Al was het alleen maar omdat het eigenlijk een compleet dichtgespijkerde appliance is. Het draait bovenop Hortonworks idd, maar verder kun je er compleet niks mee. Enige wat het snapt is import via CSV. Of je moet het compleet verbouwen

Mijn huidige klant heeft het, maar het voldoet verre van voor waar men het allemaal beoogd heeft.

Een DWH op Postgres kan uiteraard. De vraag is alleen wat voor ETL je wilt gaan gebruiken. Aan beide kanten (Hive, Postgres) zul je een JDBC nodig hebben en dan moet je heel goed opletten met welke versies en dependencies je nodig hebt. Ik weet dat Nifi daar mee om kan gaan, maar die kun je dan eigenlijk weer niet gebruiken voor het ombouwen van je level 0 naar je 1, 2 en 3. Of je moet alle transformaties handmatig willen bouwen

Commercieel ken ik alleen Informatica die eigenlijk alles wel ondersteunt. Maar dan praat je wel over een dure oplossing. Kom net wel https://pgmodeler.io tegen, wellicht is dat iets?

Maar mijn tegenvraag zou zijn wat exact je doel is. Heb je alleen een DWH use case, of meerdere use cases voor je platform? En om hoeveel data gaat het? Enige ETL tool moet natuurlijk wel in verhouding staan met de rest van de stack.

_{En verder wel benieuwd welk bedrijf je zit. Ixiwa is best een niceproduct namelijk}

[ Voor 6% gewijzigd door The Eagle op 22-03-2019 19:27 ]

Al is het nieuws nog zo slecht, het wordt leuker als je het op zijn Brabants zegt :)

vrijdag 22 maart 2019 22:10

Acties:

Cass Casey

runs on cafeïne and sarcasm.

Topicstarter

Ik zit nu te relaxen met whisky, maar zal binnenkort reageren. Dank alvast. Proost.

De koffie loopt. Sportiever wordt het niet vandaag.

maandag 25 maart 2019 10:05

Acties:

Cass Casey

runs on cafeïne and sarcasm.

Topicstarter

BombaAriba schreef op vrijdag 22 maart 2019 @ 17:54:
Is Snowflake niks voor je? Als je nu helemaal gaat beginnen vanaf start zou ik iets gaan nemen wat de boel automatisch genereerd.

Je zou ook naar Informatica pakketten kunnen gaan kijken maar dat is wel net zoals Oracle duur.

Ik neem mijn collega's komende vrijdag mee naar mijn oude werkgever. Daar gebruikten ze (nadat ik al weg was bij het BI team) Informatica als vervanger van OWB (waarmee ik ontwikkelde destijds). Snowflake zijn ze nu mee aan het experimenteren. Ken ik ook niet, maar ga ik nu eens naar kijken. ALs dat automatisch code genereert, zou dat ideaal zijn. Zeker omdat mijn collega DWH-developer geen die hard programmeur is.

Thanks!

JaQ schreef op vrijdag 22 maart 2019 @ 17:40:
OWB is tot Oracle 11.2, in het Oracle landschap moet je daarna richting ODI gaan. Recente versies zouden min of meer OWB functionaliteit overgenomen moeten hebben. Let wel; dat is niet goedkoop.

De meer recente trajecten die ik ken, kijken allemaal naar Kafka.

Omdat we hier geen Oracle gebruiken, hoef ik daar niet naar te kijken. Kafka ken ik niet, dus zal ik me even in verdiepen.

The Eagle schreef op vrijdag 22 maart 2019 @ 18:07:
<knip>

[/quote]
Bedankt voor je uitgebreide reactie. De keuze voor Ixiwa is helaas voor mijn komst bij dit team gemaakt door een aantal collega's die nooit zelf een DWH ontwikkeld hebben. Nou ja, twee die op basis van een miljoenmiljard views een soort van DWH hebben gefabriceerd met overal en nergens logica, historie, etc.
Blijkbaar was het verkooppraatje van Synerscope erg goed en ze beloofden gouden bergen en een compleet DWH in drie maanden. Tja, als je nooit zelf iets degelijks gebouwd hebt, kies je natuurlijk daarvoor. Maar nu blijkt toch steeds meer dat Ixiwa helemaal niks doet voor een DWH. Snel zoeken in je data: ja, maar dan houdt 't wel een beetje op. Overigens kan het wel nu ook data inlezen uit SQLServer. En exporteren (min of meer 1 voor 1) naar PostgreSQL.

PGModeler was ik al wel tegen gekomen. Ik ga eens kijken of ik het kan downloaden en mee kan spelen.

Qua data en bronnen: vergeleken met mijn vorige DWH is het peanuts. Toen was het een DWH met meerdere terabytes op Exadata machines, nu een paar 100 gig hooguit uit diverse bronnen (HR, Finance/Inkoop, planning, custom apps). HR komt via api calls uit Afas Profit, de custom apps bevatten XML-structuren in een SQLServer DB die uit elkaar getrokken moeten worden. de rest is gewoon SQLServer. PostgreSQL is nu gekozen op basis van advies vanuit Synerscope/Ixiwa. Helaas hebben we daar nog geen kennis van in huis, laat staan een DBA...

De use case is kort door de bocht: een DWH/Data Mart waarop "eindgebruikers" zelf met Power BI rapportages en dashboards kunnen maken. Ik voorzie dat dat bouwen ook gewoon bij ons komt te liggen, want de gemiddelde medewerker vindt Excel al een uitdaging.

Ik ga jullie adviezen/opmerken meenemen naar mijn collega's. Kijken of we nog kunnen switchen. Probleem is: dit is overheid. Dus simpel een applicatie kiezen kan niet zo maar. Moet aanbesteed worden, enz. enz. enz.

De koffie loopt. Sportiever wordt het niet vandaag.

maandag 25 maart 2019 14:59

Acties:

ToolkiT

brit-tweaker

Hebben jullie al een Hadoop datalake?

Dan zijn daar zeker wel tools te vinden voor wat jij zoekt..
Ons bedrijf heeft daar bijvoorbeeld een oplossing voor:

Mag je een gegeten paard in de bek kijken?

maandag 25 maart 2019 19:08

Acties:

The Eagle

I wear my sunglasses at night

Als ik die video zo zie is dat ook een beetje wat Ixiwa doet: inzicht geven in data. Het spul is Hortonworks gebaseerd. Maar is potdichtgespijkerd. Als in: het is alsof je een appliance voor data koopt. Hadoop based dus ja, maar met dermate veel haken en ogen dat het HDP als platform gebruikt om zijn ding te doen. En dan een platform waar je verder niet zoveel mee kunt.

Voor een datalake, zeker bij de overheid, is dat ook veel te beperkt. Daar zit je niet alleen met je insights (die kan iedereen wel leveren, nofi @ToolkiT, maar ook met zaken als data lineage, enterprise data catalogs, ad hoc en dataflow processing, datascience use cases, complex event processing, streaming processing en lambda architecturen, etc. Om van iets basaals als fine grained data security (combi hive / apache ranger bijvoorbeeld) maar te zwijgen.

Sure, een DWH is een onderdeel van je datalake, en je kunt ook een combinatie van big data en relationele technieken inzetten om zoiets te realiseren. Maar dan moet je wel producten hebben die de diverse lagen van een DWH (raw, history, logic datamodel, datamarts) over die technieken kunnen verdelen. En die zijn er niet zoveel, zeker niet als het ook nog deels on prem moet. Cloud native zijn ze er uiteraard bij de grote jongens (aws, azure, google, oracle) wel. Maar das ook een gevalletje "wij van wc eend"

Vraag anders Synerscope eens naar referentiecases, met name voor het DWH stuk. Kijken waar ze mee terug komen.

_{Sidenote @ToolkiT: ik ben je DM van destijds niet vergeten. Binnenkort eens een keertje een CC plannen ofzo. Kan nu iets beter beslagen ten ijs komen. Bedenk maar vast een lijstje met vragen}

[ Voor 3% gewijzigd door The Eagle op 25-03-2019 19:09 ]

Al is het nieuws nog zo slecht, het wordt leuker als je het op zijn Brabants zegt :)

maandag 25 maart 2019 20:05

Acties:

ToolkiT

brit-tweaker

The Eagle schreef op maandag 25 maart 2019 @ 19:08:
Als ik die video zo zie is dat ook een beetje wat Ixiwa doet: inzicht geven in data. Het spul is Hortonworks gebaseerd. Maar is potdichtgespijkerd. Als in: het is alsof je een appliance voor data koopt. Hadoop based dus ja, maar met dermate veel haken en ogen dat het HDP als platform gebruikt om zijn ding te doen. En dan een platform waar je verder niet zoveel mee kunt.

Goed punt, ons product is ook meer een code generator.. die code is open, kan je in de interface gebruiken of zelf mee verder knutselen als je will.. je bent dus niet beperkt met wat de UI kan.. en integreerd met github dus als je product weg wil doen kan je nog steeds je werk verder gebruiken en verder ontwikkelen..
Ook draaien wij op alle hadoop flavours en op AWS native (azure is bijna af).. dus als je van hadoop wil swappen naar AWS is dat geen probleem

[b]The Eagle in "Postgres Tools voor DWH development & laden"Voor een datalake, zeker bij de overheid, is dat ook veel te beperkt. Daar zit je niet alleen met je insights (die kan iedereen wel leveren, nofi @ToolkiT, maar ook met zaken als data lineage, enterprise data catalogs, ad hoc en dataflow processing, datascience use cases, complex event processing, streaming processing en lambda architecturen, etc. Om van iets basaals als fine grained data security (combi hive / apache ranger bijvoorbeeld) maar te zwijgen.

Absoluut mee eens, het is een totaal plaatje.. wij doen er een deel van, maar omdat alles binnen je datalake blijft werken al die andere tools er natively mee samen

Jupyter notebook integration zit er trouwen bij ingebakken, we gaan het wiel niet opnieuw uitvinden maar hebben het wel zo goed geintegreerd dat datascience makkelijker word.
Ik was deze week bij de hortonworks cloudera dataworks summit en met name Ranger is een hot item.. lineage/security is erg belangrijk..

The Eagle schreef op maandag 25 maart 2019 @ 19:08:Cloud native zijn ze er uiteraard bij de grote jongens (aws, azure, google, oracle) wel. Maar das ook een gevalletje "wij van wc eend"

Cloudera had in hun keynote ook veel nadruk over hoe cloud compatible ze zijn..
OnPrem heeft zijn voordelen..Hybrid heeft zijn voordelen.. cloud native heeft ook zijn voordelen.. je moet dus kijken wat je toepassing is..

Mag je een gegeten paard in de bek kijken?

maandag 25 maart 2019 21:11

Acties:

The Eagle

I wear my sunglasses at night

Dataworks summit kwam ik te laat achter, dus helaas gemist. En cloud compatible. Mooi woordgrapje. Op IAAS draait alles, ook in de cloud. HDP kun je als HDinsights krijgen op Azure. CDH ben ik nog nergens als SAAS of PAAS tegengekomen. Hooguit als xAAS vanuit Cloudera zelf, maar in feite is dat gewoon een Cloudera managed IAAS deployment.

Al is het nieuws nog zo slecht, het wordt leuker als je het op zijn Brabants zegt :)

dinsdag 26 maart 2019 12:45

Acties:

ToolkiT

brit-tweaker

The Eagle schreef op maandag 25 maart 2019 @ 21:11:
Dataworks summit kwam ik te laat achter, dus helaas gemist. En cloud compatible. Mooi woordgrapje. Op IAAS draait alles, ook in de cloud. HDP kun je als HDinsights krijgen op Azure. CDH ben ik nog nergens als SAAS of PAAS tegengekomen. Hooguit als xAAS vanuit Cloudera zelf, maar in feite is dat gewoon een Cloudera managed IAAS deployment.

Ze containerisen de nodes zodat je makkelijker kan dynamic scalen is wat ik er van begreep, maar moet zeggen dat ik niet naar de details heb gekeken..
HDinsights is een fork van hortonworks maar niet 100% compatible voor zover ik weet.. HW support het volgens mij ook niet omdat het een appart azure product is geworden..

Om even op je opmerking over governance terug te komen, ik zag net toevallig dit filmpje op linkedin:

Mag je een gegeten paard in de bek kijken?

vrijdag 12 april 2019 11:36

Acties:

frisoheddema

*snip*, spam is hier niet toegestaan: Het algemeen beleid #verbodenspam

[ Voor 103% gewijzigd door Woy op 12-04-2019 12:50 ]

Vraag

Beste antwoord (via Cass Casey op 25-03-2019 17:07)

Alle reacties