Kent iemand goede software om versiebeheer van datasets te beheren?
Iedereen hier zal git kennen voor het versiebeheer van software. Ik werk zelf in de ERP wereld en daar heb je vaak de situatie dat je bij migraties data moet gaan opschonen. Leveranciersdata opschonen, artikeldata opschonen, etc. Het lastige dat je daar hebt is dat het eigenaarschap niet altijd duidelijk is met als gevolg dat er tijdelijk meerdere versies van de waarheid zijn. Uiteindelijk komen die meestal wel weer bij elkaar. Hier is nogal wat variatie in; jantje beheert de nederlandse leveranciers, pietje de buitenlandse, en klaasje de leveranciers van ijzerwaren ongeacht waar die gevestigd zijn. De overlap en bijbehorende discussies mogen duidelijk zijn.
Het resultaat is dat je vrijwel dezelfde situatie hebt als met software. Allerlei losse stukjes code die uiteindelijk ofwel verdwijnen, ofwel ooit in de master branch terechtkomen. Tooling in deze datawereld wordt ETL tooling genoemd. Extract, transform en load maar dat is dan ook precies wat het doet. De focus ligt op allerlei connectors in combinatie met transformatiemogelijkheden. Maar dan wel uitgaande van een afgebakende dataset en daar zit het pijnpunt.
Ik zocht dus naar tools die dit meer op een git manier aanpakken met branching en merging. Daarbij ben ik alleen lakeFS tegengekomen. Dat is dan weer specifiek op big data gericht. Waarschijnlijk is er wel overlap, maar het zou wel handig zijn als er ook een user interface op zou zitten waarbij key users data kunnen reviewen en dat lijkt hier dan weer niet de insteek te zijn.
Ergens vraag ik me af of ik een afslag gemist heb. Wat ik wil lijkt enorm voor de hand liggend te zijn en toch bestaat het blijkbaar niet. Heeft iemand hier iets handigs voor gevonden?
Ik twijfelde een beetje over het juiste forum. Omdat dit ondanks de data toch wel sterk om scripting draait en mensen buiten de devwereld het concept van git lastig te begrijpen te vinden heb ik voor software ontwikkeling gekozen. Feitelijk zijn migraties dat vanwege de vele scripting dat in de basis namelijk ook wel alleen is het breder dan dan.
edit; de ETL tools die bij mijn huidige klant gebruikt worden zijn dell boomi. azure data factory en SSIS (verkokering, diverse afdelingen). Ik heb daar zelf nog niets relevants voor kunnen vinden maar ik noem ze mocht iemand een exotische plugin voor een ervan kennen die dit soort dingen afhandelt. Je hebt voor azure data factory wel bijvoorbeeld dit maar dit is juist een voorbeeld van wat ik niet zoek. Dit focust op versiebeheer voor de ETL scripts zelf ipv de datasets die erbij horen en alleen die scripts meenemen is te beperkt.
Iedereen hier zal git kennen voor het versiebeheer van software. Ik werk zelf in de ERP wereld en daar heb je vaak de situatie dat je bij migraties data moet gaan opschonen. Leveranciersdata opschonen, artikeldata opschonen, etc. Het lastige dat je daar hebt is dat het eigenaarschap niet altijd duidelijk is met als gevolg dat er tijdelijk meerdere versies van de waarheid zijn. Uiteindelijk komen die meestal wel weer bij elkaar. Hier is nogal wat variatie in; jantje beheert de nederlandse leveranciers, pietje de buitenlandse, en klaasje de leveranciers van ijzerwaren ongeacht waar die gevestigd zijn. De overlap en bijbehorende discussies mogen duidelijk zijn.
Het resultaat is dat je vrijwel dezelfde situatie hebt als met software. Allerlei losse stukjes code die uiteindelijk ofwel verdwijnen, ofwel ooit in de master branch terechtkomen. Tooling in deze datawereld wordt ETL tooling genoemd. Extract, transform en load maar dat is dan ook precies wat het doet. De focus ligt op allerlei connectors in combinatie met transformatiemogelijkheden. Maar dan wel uitgaande van een afgebakende dataset en daar zit het pijnpunt.
Ik zocht dus naar tools die dit meer op een git manier aanpakken met branching en merging. Daarbij ben ik alleen lakeFS tegengekomen. Dat is dan weer specifiek op big data gericht. Waarschijnlijk is er wel overlap, maar het zou wel handig zijn als er ook een user interface op zou zitten waarbij key users data kunnen reviewen en dat lijkt hier dan weer niet de insteek te zijn.
Ergens vraag ik me af of ik een afslag gemist heb. Wat ik wil lijkt enorm voor de hand liggend te zijn en toch bestaat het blijkbaar niet. Heeft iemand hier iets handigs voor gevonden?
Ik twijfelde een beetje over het juiste forum. Omdat dit ondanks de data toch wel sterk om scripting draait en mensen buiten de devwereld het concept van git lastig te begrijpen te vinden heb ik voor software ontwikkeling gekozen. Feitelijk zijn migraties dat vanwege de vele scripting dat in de basis namelijk ook wel alleen is het breder dan dan.
edit; de ETL tools die bij mijn huidige klant gebruikt worden zijn dell boomi. azure data factory en SSIS (verkokering, diverse afdelingen). Ik heb daar zelf nog niets relevants voor kunnen vinden maar ik noem ze mocht iemand een exotische plugin voor een ervan kennen die dit soort dingen afhandelt. Je hebt voor azure data factory wel bijvoorbeeld dit maar dit is juist een voorbeeld van wat ik niet zoek. Dit focust op versiebeheer voor de ETL scripts zelf ipv de datasets die erbij horen en alleen die scripts meenemen is te beperkt.
[ Voor 20% gewijzigd door Yucon op 22-02-2022 09:46 ]