We moeten op mijn werk zeer grote tekstbestanden (5-100 GB per stuk) archiveren. Omdat het simpele tekst bestanden zijn willen we ze graag comprimeren. Dat doen we met parallel bz2 / tar op linux systemen omdat dit goed comprimeert en de computer veel cores hebben zodat het ook rap gebeurt is.
Helaas hebben we nu een aantal keer gezien dat het bz2 archive corrupt was. Je kan ze dan gedeeltelijk recoveren maar dat is niet voldoende, we moeten er zeker van zijn dat alles in het archive terug te halen is.
Ik zat te denken aan een usenet achtige oplossing waarbij de tekstfile in meerdere chunks gecompressed wordt, waarnaar er PAR archives gemaakt worden om eventuele beschadigingen op te lossen welke dan allemaal in een enkel TAR archive gezet worden. Alleen het is wat omslachtig.
Heeft iemand een andere suggestie misschien?
Helaas hebben we nu een aantal keer gezien dat het bz2 archive corrupt was. Je kan ze dan gedeeltelijk recoveren maar dat is niet voldoende, we moeten er zeker van zijn dat alles in het archive terug te halen is.
Ik zat te denken aan een usenet achtige oplossing waarbij de tekstfile in meerdere chunks gecompressed wordt, waarnaar er PAR archives gemaakt worden om eventuele beschadigingen op te lossen welke dan allemaal in een enkel TAR archive gezet worden. Alleen het is wat omslachtig.
Heeft iemand een andere suggestie misschien?