Filesystem compression ipv file compression zoals 7zip

Pagina: 1
Acties:

  • Twazerty
  • Registratie: April 2006
  • Laatst online: 11:23

Twazerty

AVCHDCoder developer

Topicstarter
Ik heb rond de 1 TB aan, niet belangrijke, data. Deze data is goed te comprimeren met 7zip tot circa 500 GB. Nu zou het mooi zijn als ik door middel van 'Transparent compression' de data direct kan benaderen zonder deze eerst te moeten uitpakken. Zolang ik al met Windows werk (15 jaar) had ik nog nooit naar NTFS compression gekeken dus direct een testje uitgevoerd:

code:
1
2
3
4
5
6
Size: 2,27 GB (2.442.571.994 bytes)
NTFS compressie: Size on disk: 1,91 GB (2.062.307.328 bytes)
7zip size: 1,24 GB (1.332.304.032 bytes)

NTFS ratio: 1,18
7zip ratio 1,83


Nu ben ik niet echt onder de indruk van NTFS compressie. Dus dan maar eens even kijken wat er onder linux mogelijk is. Linux Mint 15 geïnstalleerd in VirtualBox om eens te gaan stoeien. Het eerste dat ik tegenkom is dat dit niet mogelijk is in ext2/ext3/ext4 wat ik eigenlijk wel had verwacht. Btrfs blijkt wel ondersteuning te hebben voor btrfs. Na veel te googlen is de oplossing volgens mij door in /etc/fstab de mount te regelen waarbij compressie opgegeven kan worden:
code:
1
/dev/disk/by-uuid/34694e9c-9246-414b-83d3-11a3eccedc19 /mnt/externaldisk1 btrfs defaults,compress=zlib 0 1


Via een SMB share deze schijf gedeeld en er hetzelfde setje bestanden opgezet. Vervolgens met 'df' de size opgevraagd:
2,1 GB / 2198904 kbytes. Ofwel een ratio van 1,11. De .vdi die gekoppeld is aan de VM is 2,17 GB (2.335.178.752 bytes). Moet ik nu onder de indruk zijn van NTFS dat Btrfs nog slechter comprimeert of doe ik iets fout?

Nu heb ik ook het een en ander gelezen over ZFS icm FreeBSD die ook Filesystem compression zou ondersteunen. Even FreeBSD in een VM geinstalleerd, maar de leercurve voor mij is nu te hoog tenzij ik een goede handleiding kan vinden die mij er stap voor stap doorheen helpt. Linux is voor mij tot op zekere hoogte aardig te doen. Welke compression ratio's zou ik met ZFS kunnen verwachten?

HFS+ zou ook filesystem compression ondersteunen (aldus wikipedia). Op linux een HFS+ partitie aangemaakt maar kan niet vinden hoe je compression activeerd. Na wat googlen blijkt dat op zelfs Mac OS X dit niet zo eenvoudig is, in ieder geval niet even een vinkje aanzetten net zoals op Windows.

Wil ik op Windows een betere compressie dan NTFS kan ik het wel schudden. Echter voor de data waar ik mee wil experimenteren is het niet erg dat het pas te benaderen is als ik een VM aanzet en een netwerk share openzet. Performance is ook niet belangrijk. Iemand die mij verder kan helpen? Hoe hebben jullie dit aangepakt?

Ruisende versterker: schakel je subwoofer in.


Verwijderd

Nu heb ik ook het een en ander gelezen over ZFS icm FreeBSD die ook Filesystem compression zou ondersteunen. Even FreeBSD in een VM geinstalleerd, maar de leercurve voor mij is nu te hoog tenzij ik een goede handleiding kan vinden die mij er stap voor stap doorheen helpt. Linux is voor mij tot op zekere hoogte aardig te doen. Welke compression ratio's zou ik met ZFS kunnen verwachten
ZFS v5000 ondersteunt LZ4-compressie, dat is heel gaaf want het is heel snel, het kan al je cores gebruiken en de ratios zijn erg goed. Een doorbraak in compressie dus; je kunt nu LZ4-compressie bijna standaard wel activeren.

De ratio op binary data is gewoon 1.00, zoals te verwachten viel. Maar de ratios op mixed data is wel goed. Vooral omdat de snelheid zo goed is, kun je het breder inzetten. Bedenk wel: de instelling veranderen betekent dat alle nieuwe data die geschreven wordt, volgens de gekozen compressie-instellingen worden opgeslagen. Bestaande data blijft zoals hij is.

Als je meer hulp wilt met ZFS kun je me DMen, dan loods ik je er wel doorheen. Maar als newbie hoor je ook niet gelijk in het diepe gegooid te worden. In plaats van een plain OS zoals FreeBSD kun je beter een ZFS platform kiezen. Ik zelf werk mee aan ZFSguru, dat is de gemakkelijkste - maar ook minst complete - van alle ZFS platforms (FreeNAS/NAS4Free/Nexenta/napp-it/Linux). Prima om daar eerst mee te beginnen. In Virtualbox ook gemakkelijk uit te proberen. Evengoed kun je de overige alternatieven uitproberen, al hebben die over het algemeen een hogere leercurve.

  • Twazerty
  • Registratie: April 2006
  • Laatst online: 11:23

Twazerty

AVCHDCoder developer

Topicstarter
ZFSguru is inderdaad erg makkelijk. Na wat puzzelen heb ik nu een werkende share opgezet met maximale compressie die ik kon kiezen (GZIP-9). Ratio op hetzelfde setje data is nu 1.51. Alleen waar kan ik nu voor LZ4 kiezen?

Daarnaast nog even kijken waarom de performance super shit is. Write performance lag nu op 5-10 MB/s terwijl er Gigabit snelheid mogelijk zou moeten kunnen zijn. De VM heeft 2 cores gekregen met 4GB ram.

Ruisende versterker: schakel je subwoofer in.


Verwijderd

Heb je aan je virtual machine meerdere disks gegeven, bijvoorbeeld in RAID-Z configuratie? Als je die images op een lokale hardeschijf opslaat zal dat niet zo snel zijn, inderdaad. Dus daar kun je niet zoveel mee.

ZFS v5000 support komt pas in de komende beta9 versie, die binnen enkele dagen beschikbaar zou moeten zijn. Pas dan kun je LZ4-compressie via de web-interface inschakelen. Nu kun je dat wel handmatig doen, zoals met:

zfs set compression=lz4 tank/documents

  • Twazerty
  • Registratie: April 2006
  • Laatst online: 11:23

Twazerty

AVCHDCoder developer

Topicstarter
Ik heb de System disk een eigen schijf gegeven. De datadisk bestaat uit 1 schijf (Single Disk RAID0). Als ik lz4 in wil stellen krijg ik de volgende melding:
cannot set property for 'Pool1' : pool and or dataset must be upgraded to set this property or value.

Naar wat moet ik upgraden? De pool version staat op 28.

Ruisende versterker: schakel je subwoofer in.


  • Jolke
  • Registratie: Augustus 2006
  • Laatst online: 16:55
Wat zijn nu de voordelen van comprimeren? Ik bedoel, de schijfruimte is tegenwoordig zo goedkoop. Als de data in een 'zip' container zit, moet je die eerst uitpakken om de data te kunnen benaderen (list) en/of bekijken (read/write)?
En hoe zit het met corruptie in de bestanden. Ik ben vroeger menig zip/arj bestand kwijt geraakt, omdat er enkele rotte sectoren inzaten. ;w

Overigens, met de tegenwoordige hardware kan ik me voorstellen dat de snelheid om in/uitpakken verwaarloosbaar is geworden.

Ik heb vroegâh programma's als Stack gebruikt om een 80 MB schijf in een 386 te verdrievoudigen! Maar toen was schijfruimte dan ook beperkt en duur. :P

  • Icekiller2k6
  • Registratie: Februari 2005
  • Laatst online: 13:51
@Jolke,
Als je performancewise weinig uitmaakt dat het 20mb ipv 40mb is dan is 30% datawinst toch mooi? Zeker als je bv raid 5 of 10 gebruikt waardoor je 1/4de of 2/4de van je space verliest...

MT Venus E 5KW (V151) P1 HomeWizard | Hackerspace Brixel te Hasselt (BE) - http://www.brixel.be | 9800X3D, 96GB DDR5 6000MHZ, NVIDIA GEFORCE 4090, ASRock X670E Steel Legend, Seasonic GX1000


  • Jolke
  • Registratie: Augustus 2006
  • Laatst online: 16:55
Dat is inderdaad wat er goed aan vindt. Maar ik maak me bijvoorbeeld zorgen om de integriteit van de gecomprimeerde data.

  • KopjeThee
  • Registratie: Maart 2005
  • Niet online
Jolke schreef op woensdag 01 januari 2014 @ 19:14:
Wat zijn nu de voordelen van comprimeren? Ik bedoel, de schijfruimte is tegenwoordig zo goedkoop. ,,,

Overigens, met de tegenwoordige hardware kan ik me voorstellen dat de snelheid om in/uitpakken verwaarloosbaar is geworden.
Er is nog wel een reden: Schijfruimte is goedkoop, maar niet snel (tenzij je SSD hebt, maar dat is weer niet zo goedkoop). In sommige gevallen zal de tijd om gegevens te lezen/schrijven de bottleneck zijn in je performance, en niet de CPU. Dan kan je ook beter comprimeren, omdat het sneller is.

  • ISaFeeliN
  • Registratie: November 2005
  • Laatst online: 01-01 21:22
KopjeThee schreef op donderdag 02 januari 2014 @ 07:59:
[...]

Er is nog wel een reden: Schijfruimte is goedkoop, maar niet snel (tenzij je SSD hebt, maar dat is weer niet zo goedkoop). In sommige gevallen zal de tijd om gegevens te lezen/schrijven de bottleneck zijn in je performance, en niet de CPU. Dan kan je ook beter comprimeren, omdat het sneller is.
Dus, omdat de CPU's zo snel zijn (en dan zit het ook nog eens in de kernel, is het multi-threaded), merk je praktisch niets van het comprimeren, de winst zit 'm dan in het feit dat je disks minder hoeven te doen (minder data lezen/schrijven) omdat het gecomprimeerd is. Daar zit je winst.

  • Jolke
  • Registratie: Augustus 2006
  • Laatst online: 16:55
Duidelijk en die vraag is dan ook zorgvuldig beantwoord... maar hoe zit het met data integriteit bij compressie? Je hebt immers een hogere data dichtheid gecreëerd. :?

  • Admiral Freebee
  • Registratie: Februari 2004
  • Niet online
Jolke: ik denk niet dat de TS hierin hard geïnteresseerd is aangezien hij aangeeft dat het weinig belangrijke data is. Bovendien hoor je voor belangrijke data altijd een goede backup te hebben.

  • Jolke
  • Registratie: Augustus 2006
  • Laatst online: 16:55
Ok, thanks... ging idd meer offtopic worden, lama dan. :)
Pagina: 1