zeer grote textfiles archiveren, compressen met recovery - Client software algemeen

woensdag 21 september 2011 11:27

Acties:

Z3_3.0 Woeiiii

Topicstarter

We moeten op mijn werk zeer grote tekstbestanden (5-100 GB per stuk) archiveren. Omdat het simpele tekst bestanden zijn willen we ze graag comprimeren. Dat doen we met parallel bz2 / tar op linux systemen omdat dit goed comprimeert en de computer veel cores hebben zodat het ook rap gebeurt is.

Helaas hebben we nu een aantal keer gezien dat het bz2 archive corrupt was. Je kan ze dan gedeeltelijk recoveren maar dat is niet voldoende, we moeten er zeker van zijn dat alles in het archive terug te halen is.

Ik zat te denken aan een usenet achtige oplossing waarbij de tekstfile in meerdere chunks gecompressed wordt, waarnaar er PAR archives gemaakt worden om eventuele beschadigingen op te lossen welke dan allemaal in een enkel TAR archive gezet worden. Alleen het is wat omslachtig.

Heeft iemand een andere suggestie misschien?

woensdag 21 september 2011 11:33

Acties:

GlowMouse

Ik zou mezelf eerst eens afvragen welk defect stuk hardware voor de fouten zorgt. Wanneer je bz2 van meet af aan al corrupt is, helpen par-files niks.
Bij correct functionerende hardware kun je kijken naar archivers met ingebouwde foutcorrectie. Winrar heeft zoiets bijvoorbeeld.

woensdag 21 september 2011 11:54

Acties:

superduper

Z3_3.0 Woeiiii

Topicstarter

GlowMouse schreef op woensdag 21 september 2011 @ 11:33:
Ik zou mezelf eerst eens afvragen welk defect stuk hardware voor de fouten zorgt. Wanneer je bz2 van meet af aan al corrupt is, helpen par-files niks.
Bij correct functionerende hardware kun je kijken naar archivers met ingebouwde foutcorrectie. Winrar heeft zoiets bijvoorbeeld.

Je hebt zeker gelijk. Helaas duurt het checken van het archive heel erg lang en in de pipeline wordt het origineel gelijk vervangen duur het archive. Aangezien het steeds opdezelfde bak gebeurt en er tot nu dan een aantal defecten zijn opgemerkt is het nog steeds een klein percentage. (<1%) dus opsporing lijkt me heel lastig.

Het opsplitten zorgt er iig voor dat je niet je hele file kwijt raakt bij een enkel defect aan het archive. Ik zal kijken naar RAR4linux maar vind daar nu niks terug over ingebouwde foutcorrectie of mulitcore comprimeren.

woensdag 21 september 2011 20:10

Acties:

CAPSLOCK2000

zie teletekst pagina 888

Misschien niet helemaal wat je in gedachte had, maar denk eens over ZFS. Daar krijg je compressie en beveiliging tegen corruptie bijna gratis bij. Aangezien dit door het filesystem gedaan wordt hoef je zelf geen aparte compressie/decompressie meer te doen.

This post is warranted for the full amount you paid me for it.