Sinds jaar en dag gebruik ik Canon's MP Navigator om documenten te scannen en op te slaan. Dit programma is stokoud, niet beschikbaar voor Linux en ik ben op zoek naar een alternatief. Natuurlijk zijn er opties te over, maar mijn probleem zit in de bestandsgrootte. Met MP Navigator, onder Windows, zijn de bestanden 3-10x zo klein als met elk Linux alternatief wat ik geprobeerd heb.
Zover ik kan nagaan, gebruikt MP Navigator een slimme methode waarbij het beeld wordt gespitst in een monochroom deel, wat met CCITT compressie zeer klein wordt gemaakt, en een kleur-deel, wat met simpele JPEG compressie wordt opgeslagen.
Volgens pdfimages ziet dat er zo uit voor een eenvoudige brief (met logo bovenaan, kleurenbalk onder en verder enkel tekst):
Ghostscript en Magick (onder Linux) maken daar ongeveer dit van:
Een factor 10 groter dus. Met de hoeveelheid bestanden die ik scan gaat dat behoorlijk in de papieren lopen (pun intended
). Met GS en Magick kun je diverse compressiemethoden toepassen, maar wil je echt impact op de bestandsgrootte dan wordt de beeldkwaliteit enorm aangetast.
OcrMyPdf komt enigszins in de buurt met het volgende commando
maar dit is nog steeds 3x zo groot en bovendien met (beperkte) lossy compressie:
Ik heb wat zitten spelen met ChatGPT om met een Python script een monochroom bestand en een kleur bestand te maken, maar dat gaat allemaal (enorm) ten koste van de beeldkwaliteit.
Heeft iemand ideeen hoe je onder Linux dezelfde bestandsgrootte (bij dezelfde kwaliteit) kunt krijgen zoals MP Navigator onder Windows?
Het OS is overigens Fedora 41.
Zover ik kan nagaan, gebruikt MP Navigator een slimme methode waarbij het beeld wordt gespitst in een monochroom deel, wat met CCITT compressie zeer klein wordt gemaakt, en een kleur-deel, wat met simpele JPEG compressie wordt opgeslagen.
Volgens pdfimages ziet dat er zo uit voor een eenvoudige brief (met logo bovenaan, kleurenbalk onder en verder enkel tekst):
code:
1
2
3
4
| page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio -------------------------------------------------------------------------------------------- 1 0 image 1238 1752 rgb 3 8 jpeg no 2 0 150 150 53.3K 0.8% 1 1 stencil 2088 2932 - 1 1 ccitt no 3 0 300 300 16.3K 2.2% |
Ghostscript en Magick (onder Linux) maken daar ongeveer dit van:
code:
1
2
3
| page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio -------------------------------------------------------------------------------------------- 1 0 image 2476 3504 rgb 3 8 jpeg no 11 0 300 300 777K 3.1% |
Een factor 10 groter dus. Met de hoeveelheid bestanden die ik scan gaat dat behoorlijk in de papieren lopen (pun intended
OcrMyPdf komt enigszins in de buurt met het volgende commando
code:
1
| ocrmypdf --output-type pdfa --optimize 3 input.pdf output.pdf |
maar dit is nog steeds 3x zo groot en bovendien met (beperkte) lossy compressie:
code:
1
2
3
| page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio -------------------------------------------------------------------------------------------- 1 0 image 2476 3504 rgb 3 8 jpeg no 14 0 300 300 210K 0.8% |
Ik heb wat zitten spelen met ChatGPT om met een Python script een monochroom bestand en een kleur bestand te maken, maar dat gaat allemaal (enorm) ten koste van de beeldkwaliteit.
Heeft iemand ideeen hoe je onder Linux dezelfde bestandsgrootte (bij dezelfde kwaliteit) kunt krijgen zoals MP Navigator onder Windows?
Het OS is overigens Fedora 41.