Ik ben bezig met een projectje waar ik nogal veel data bij elkaar hark. Nu heb ik dit voor een testcase opgeslagen in een simpel csv format en kwam ik op 4GB uit. Een snel berekeningetje leert me dat ik voor een complete set uitkom op zo'n 80GB. Dit gaat dus aardig lastig worden om in het geheugen te laden.
Hoe kan ik dit het beste aanpakken als ik data wil zoeken / bewerken en zijn hier goede libraries voor of best practices voor?
Het is een dataset van een tiental parameters en dan miljoenen rijen aan doubles.
Omdat een double 8 bytes is weet ik natuurlijk waar in de file ik die moet zoeken, dus in feite kan ik wel een wrapper maken die gebruik maakt van een simpele RandomAccesFile en op de juiste locatie de bytes inleest.
Alleen heb ik het donkerbruine vermoeden dat dit al minstens een miljoen keer eerder gedaan is door anderen. Ik weet ook niet helemaal met wat voor performance dingen ik rekening moet gaan houden bij files van 80GB.
Overigens had ik de Java.nio library al gezien, welke wat performanter schijnt te zijn.
Iemand tips?
Hoe kan ik dit het beste aanpakken als ik data wil zoeken / bewerken en zijn hier goede libraries voor of best practices voor?
Het is een dataset van een tiental parameters en dan miljoenen rijen aan doubles.
Omdat een double 8 bytes is weet ik natuurlijk waar in de file ik die moet zoeken, dus in feite kan ik wel een wrapper maken die gebruik maakt van een simpele RandomAccesFile en op de juiste locatie de bytes inleest.
Alleen heb ik het donkerbruine vermoeden dat dit al minstens een miljoen keer eerder gedaan is door anderen. Ik weet ook niet helemaal met wat voor performance dingen ik rekening moet gaan houden bij files van 80GB.
Overigens had ik de Java.nio library al gezien, welke wat performanter schijnt te zijn.
Iemand tips?
Engineering is like Tetris. Succes disappears and errors accumulate.