Ik zit met volgende casus, waarbij ik niet meteen een pasklaar antwoord weet. Ik ben niet zo een guru als het op databanken aankomt, dus ik hoop dat hier iemand mij op weg kan helpen om dit zo goed mogelijk aan te pakken.
Ik krijg drie maal daags een reeks CSV-bestanden aangeleverd met een heel pak data in, dewelke ik in een MySQL-databank moet steken. De bestanden bevatten echter steeds alle data opnieuw, ongeacht of deze gewijzigd zijn of niet. Er is ook geen kolom aanwezig met een timestamp om te zien wanneer de row het laatste werd geupdate.
Ik zoek dus een manier om uit deze CSV-bestanden steeds alle actuele data op een efficiënte en handelbare manier in mijn MySQL-tabellen te pompen. Dit moet dan nog eens drie maal daags gebeuren, liefst op een zo kort mogelijke tijd.
Ik kan de aanwezige data en informatie in de CSV-bestanden niet aanpassen of beïnvloeden, deze worden zo aangeleverd zonder ik hier enige invloed op heb. Sommige CSV-bestanden zijn maar enkele honderden KB's groot, andere lopen op tot 20 MB met meer dan 300.000 rows. Row per row gaan vergelijken en desgevallen updaten lijkt mij iets te hevig voor de performance, of valt dit wel mee?
Ik besef dat de aangeleverde vorm van data verre van ideaal is, maar ik moet het er mee doen. Heeft er iemand ervaring met dergelijke gevallen of enkele tips hoe ik dit qua servercapaciteit het beste aan pak?
Alvast bedankt!
Ik krijg drie maal daags een reeks CSV-bestanden aangeleverd met een heel pak data in, dewelke ik in een MySQL-databank moet steken. De bestanden bevatten echter steeds alle data opnieuw, ongeacht of deze gewijzigd zijn of niet. Er is ook geen kolom aanwezig met een timestamp om te zien wanneer de row het laatste werd geupdate.
Ik zoek dus een manier om uit deze CSV-bestanden steeds alle actuele data op een efficiënte en handelbare manier in mijn MySQL-tabellen te pompen. Dit moet dan nog eens drie maal daags gebeuren, liefst op een zo kort mogelijke tijd.
Ik kan de aanwezige data en informatie in de CSV-bestanden niet aanpassen of beïnvloeden, deze worden zo aangeleverd zonder ik hier enige invloed op heb. Sommige CSV-bestanden zijn maar enkele honderden KB's groot, andere lopen op tot 20 MB met meer dan 300.000 rows. Row per row gaan vergelijken en desgevallen updaten lijkt mij iets te hevig voor de performance, of valt dit wel mee?
Ik besef dat de aangeleverde vorm van data verre van ideaal is, maar ik moet het er mee doen. Heeft er iemand ervaring met dergelijke gevallen of enkele tips hoe ik dit qua servercapaciteit het beste aan pak?
Alvast bedankt!