verzameling PDF bestanden controleren op duplicaten

donderdag 25 februari 2021 12:13

Acties:

Topicstarter

Ik werk met Windows 10.

Ik heb (vanuit het verleden) (min of meer) dezelfde PDF bestanden onder verschillende bestandsnamen opgeslagen. Deze zou ik graag ontdubbelen.
Uit steekproef blijkt dat de duplicaten wel (soms enkele) bytes verschillen, maar toch (bijna) hetzelfde zijn, naar de inhoud gekeken.

Natuurlijk kan ik handmatig door alle bestanden gaan, maar dat is veel werk.

Is er een tooltje dat een verzameling PDF bestanden vergelijkt en naar de inhoud kijkt en checkt of deze (bijna) hetzelfde zijn, bijvoorbeeld met een percentage (90% hetzelfde).

Eigenlijk zoiets als Anti-Twin doet voor .jpg bestanden, maar dan voor PDF bestanden.

Alvast bedankt.

donderdag 25 februari 2021 12:27

Acties:

F_J_K

Moderator CSA/PB/AI

Front verplichte underscores

Enkele bytes verschillen, oef dat is een stuk lastiger dan identiek, zeker als ze ook onder erg andere filenames zijn opgenomen. Er kan niet met checksums gewerkt worden.

Is semi-handmatig een optie? Maak in powershell een lijst en toon alleen als er bijv 100 bytes verschil in filesize is (of filter achteraf in bijv Excel).

En dan combineren met iets als https://www.quora.com/Is-...ing-two-similar-PDF-files -> https://github.com/lbellonda/ConfrontaPDF of http://www.qtrac.eu/diffpdf-foss.html waar je dan alleen de bijna-gelijken vergelijkt met elkaar.

(Alles vergelijken kan simpelweg niet, bij slechts 100 PDFs is dat al 100! = 9,3 *10^157 vergelijkingen). dom dom zie @RemcoDelft

--

Meer pragmatisch: zoek op *.pdf in de verkenner, sorteer op grootte, bekijk handmatig quick&dirty tot het te klein wordt om je nog relevant te zijn op een groot opslagsysteem. Zo deed ik het toevallig vorige week (via een duplicate tool voor eigen vakantievideo's etc. maar het principe is gelijk).

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)

donderdag 25 februari 2021 12:33

Acties:

RemcoDelft

F_J_K schreef op donderdag 25 februari 2021 @ 12:27:

(Alles vergelijken kan simpelweg niet, bij slechts 100 PDFs is dat al 100! = 9,3 *10^157 vergelijkingen).

Het zijn er maar 100*(100-1)/2.

Je kan de PDFs omzetten naar plaatjes, die van elkaar aftrekken, en als het resultaat bijna wit is, zijn ze hetzelfde.

[ Voor 19% gewijzigd door RemcoDelft op 25-02-2021 12:35 ]

donderdag 25 februari 2021 12:54

Acties:

g0tanks

Moderator CSA

Met de zoektermen 'fuzzy match duplicate files' kwam ik op het volgende: Near Duplicates Finder

Lijkt ook te werken voor pdfs:

In this particular case we want to talk specifically about text based documents, like HTML, Microsoft Word, PDF, etc. Some documents are exact copies, (or archived exact copies), and usually these are easy to find - just calculate good checksum and compare it with others. But if you are involved in anything related to the document life cycle (like project development), then many of your archived documents will be copies made during the life cycle of this document, which basically are different versions of the same document. Usually the situation is worse, on top of that you may have different formats of documents, for example a document created in Microsoft Word and later converted to PDF format.

Ultrawide gaming setup: AMD Ryzen 7 2700X | NVIDIA GeForce RTX 2080 | Dell Alienware AW3418DW

donderdag 25 februari 2021 15:39

Acties:

pastafan

Topicstarter

RemcoDelft schreef op donderdag 25 februari 2021 @ 12:33:
[...]

Het zijn er maar 100*(100-1)/2.

Je kan de PDFs omzetten naar plaatjes, die van elkaar aftrekken, en als het resultaat bijna wit is, zijn ze hetzelfde.

Dan komt mijn volgende vraag: weet jij een tooltje dat bulksgewijs PDFs omzet naar plaatjes?

donderdag 25 februari 2021 15:41

Acties:

com2,1ghz

pastafan schreef op donderdag 25 februari 2021 @ 15:39:
[...]

Dan komt mijn volgende vraag: weet jij een tooltje dat bulksgewijs PDFs omzet naar plaatjes?

Had Photoshop niet van dit soort bulk operaties?

donderdag 25 februari 2021 16:28

Acties:

F_J_K

Moderator CSA/PB/AI

Front verplichte underscores

Een spelcorrectie in een pdf laat alles opschuiven, resulteert in heel veel verschillen als je het als plaatje vergelijkt. Zelfs als er geen zinnen en alinea’s naar een volgende bladzijde omvallen. De tip van @g0tanks lijkt me dan handiger

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)

donderdag 25 februari 2021 16:30

Acties:

Donaldinho

Slim script maken met diff-pdf?

You almost can’t blame him or the other diet gurus for leaning in on the techno-bullshit market; it’s hard to fill up a 300 page diet book on “eat a bit less and find a type of exercise that doesn’t make you hate life.”

donderdag 25 februari 2021 18:27

Acties:

Boeryepes

ik heb een Word add-in (mijn eigen) VSTO die dit kan. 1 vd functies is dat het scannen van documenten om bepaalde informatie te verzamelen (in mijn geval om te bepalen of Word documenten 'schoon' zijn). Ik kan PDF's (via PDFSharp) openen en lezen.

Even quick en dirty heb ik wat PDFs gescand en wat algemene info uitgelezen. In Excel krijg je dan zoiets:

De vraag is natuurlijk - welke info is nodig om eenduidig te bepalen of ze gelijk zijn. NB. het lezen van bijvoorbeeld de eerste karakters/bytes moet mogelijk zijn maar heb ik nog niet ontdekt.

The biggest communication problem is we do not listen to understand. We listen to reply.

donderdag 25 februari 2021 19:09

Acties:

pastafan

Topicstarter

Allen:
hartelijk dank voor het meedenken.

Ik heb inmiddels een oplossing gevonden: Anti-Twin werkt ook met PDF bestanden. Prima dus.

Vraag

Alle reacties