Files ontdubbelen op twee schijven

Pagina: 1
Acties:

Vraag


Acties:
  • 0 Henk 'm!

  • Ortep
  • Registratie: Maart 2000
  • Niet online

Ortep

Soylent Green is People!

Topicstarter
Ik heb van iemand een stapel oude schijven gekregen. Daarop staan van zeker 20 jaar foto's.

Die zijn zonder enig systeem opgeslagen. Ook zijn er 'backups' gemaakt door hele directories te copieren naar andere sub directories. Het systeem is directories met namen als 2002 of vakantie Duitsland

En dat dan weer over meerdere schijven. sommige trees zijn identiek, soms ook niet.

Er zijn in de loop der jaren steeds grotere schijven gekocht waarop dan (een deel van de oude) schijven werd gecopieerd en er werd dan ook weer nieuw spul bij gezet.

Kortom chaos
De vraag is nu hoe kan ik dubbele files vinden in dit systeem. Echt moeilijk is dat niet. met bv XYplorer kan ik een lijst maken van wat er dubbel is. Maar die lijst bevat dus iets van 350000 files.

Zoeken wat waar staat is dan nog steeds zoe goed als onmogelijk.

Wat ik dus zoek is een methode om in eerste instantie per schijf de dubbele files te vinden op een andere schijf. Zodat ik kan gaan weggooien wat al in de kopie van de kopie staat. Uiteindelijk wil ik een schijf overhouden waarop alle unieke foto's staan. Bij voorkeur nog in de directoies waar ze in stonden.

Foto's vinden is nl. geen probleem. En ik zou ze gewoon in een grote map kunnen zetten. Maar dan is weer volkomen onduidelijk waar ze vandaan komen.

Ik heb de schijven gekopieerd naar mijn nas. Dus iets verzieken kan ik niet.

...

Only two things are infinite, the universe and human stupidity, Einstein
Alleen de doden kennen het einde van de oorlog, Plato

Beste antwoord (via Ortep op 30-05-2022 12:39)


  • Craven
  • Registratie: Februari 2007
  • Nu online
Even totaal out of the box denkend. Is het niet handiger om dit gewoon op een andere manier te organiseren? Ik weet niet hoe vaak je hierin terug kijkt maar ik heb alle foto's gewoon in een folder per jaartal opgeslagen. Dan zou je alles effectief al ontdubbeld hebben omdat je geen identieke filenames in een folder kan opslaan.

Jaartal zou in metadata gewoon beschikbaar moeten zijn. Dus dan is in windows explorer een kwestie van zoeken op * zodat je alle files in 1 view hebt staan en met de details view en shift click de foto's per jaar kopieren of knippen en plakken.

Alle reacties


Acties:
  • 0 Henk 'm!

  • F_J_K
  • Registratie: Juni 2001
  • Niet online

F_J_K

Moderator CSA/PB

Front verplichte underscores

Je zou met een script een checksum kunnen maken en die vergelijken.
Lijst bestandsnaam & checksums. Vergelijk filename + cheksums, verwijder aan een zijde waar die identiek zijn.

Of, als alles al op de NAS staat: een deduplication tool daarover halen? Zal traag zijn via netwerk, maar het zal geen haast hebben.

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)


Acties:
  • 0 Henk 'm!

  • Ortep
  • Registratie: Maart 2000
  • Niet online

Ortep

Soylent Green is People!

Topicstarter
F_J_K schreef op zaterdag 28 mei 2022 @ 14:34:

Of, als alles al op de NAS staat: een deduplication tool daarover halen? Zal traag zijn via netwerk, maar het zal geen haast hebben.
Dat kan wel, maar hoe weet ik dan wat hij waar weg haalt?

Only two things are infinite, the universe and human stupidity, Einstein
Alleen de doden kennen het einde van de oorlog, Plato


Acties:
  • 0 Henk 'm!

  • CodeCaster
  • Registratie: Juni 2003
  • Niet online

CodeCaster

Can I get uhm...

Ik zou even met Beyond Compare kijken.

Dat geeft aan, bij het vergelijken van twee mappen, welke bestanden in de een staan maar niet in de ander en andersom.

Het heeft een trial van 30 dagen.

Als de bestanden willekeurig over verschillende mappen staan, moet je gewoon een "free image deduplication tool" zoeken, degene met de lelijkste UI zijn vaak het best.

[ Voor 81% gewijzigd door CodeCaster op 28-05-2022 14:47 ]

https://oneerlijkewoz.nl
Het ergste moet nog komen / Het leven is een straf / Een uitgestrekte kwelling van de wieg tot aan het graf


Acties:
  • 0 Henk 'm!

  • F_J_K
  • Registratie: Juni 2001
  • Niet online

F_J_K

Moderator CSA/PB

Front verplichte underscores

Zoiets ja. Wel eerst even de trial proberen voorafgaand aan aanschaf, denk ik.
Ortep schreef op zaterdag 28 mei 2022 @ 14:37:
[...]
Dat kan wel, maar hoe weet ik dan wat hij waar weg haalt?
Dat kan je bij elk tool toch wel aangeven? Denk ik, ik heb er in jaren geen gebruikt - anders dan Total commander, maar daar heb je hier niets aan.

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)


Acties:
  • 0 Henk 'm!

  • Tazzios
  • Registratie: November 2001
  • Laatst online: 17:48

Tazzios

..

Wat dingen die mij te binnen schieten.
Is het niet handiger om je op de mappen te richting i.p.v. bestanden? Je geeft aan 350000 files maar misschien zijn het 'maar' een paar honderd foto mappen.

verwijder script; verwijderbestand van lokatie1 indien deze op lokatie 2 voorkomt. daarna de boel samenvoegen. mogelijk meerdere keren herhalen.

Acties:
  • 0 Henk 'm!

  • Frappuccino
  • Registratie: Maart 2015
  • Laatst online: 21:27
Vroeger had je ACDSee, heet nu Photo Studio meen ik, welke een duplicate finder functie had/heeft.
Je moest dan zelf aangeven welke van de twee (of meer) duplicates je wilde verwijderen.

Bij veel foto's een tyfuswerk, maar het werkt wel.
Let wel, de bestanden moeten 100% identiek zijn Foto A is bijv. niet hetzelfde als verschaalde Foto A.

Acties:
  • +1 Henk 'm!

  • Viper®
  • Registratie: Februari 2001
  • Niet online
Volgens mij kan winmerge directories vergelijken met files en checkt de md5 hashes.

Acties:
  • 0 Henk 'm!

  • Brahiewahiewa
  • Registratie: Oktober 2001
  • Laatst online: 30-09-2022

Brahiewahiewa

boelkloedig

Ortep schreef op zaterdag 28 mei 2022 @ 14:23:
...
Foto's vinden is nl. geen probleem...
Dan zou ik ook gewoon de dubbele bestanden laten voor wat het is. Als er bijvoorbeeld een folder "vakantie 2013" en een folder "verjaardag Jantje" is, dan zullen daar dubbele bestanden in voorkomen als Jantje in 2013 tijdens de vakantie jarig was. Maar wat is daar het probleem van? Schijfruimte? Koop een 20TB disk!

QnJhaGlld2FoaWV3YQ==


Acties:
  • 0 Henk 'm!

  • DataGhost
  • Registratie: Augustus 2003
  • Laatst online: 13:20

DataGhost

iPL dev

Brahiewahiewa schreef op zaterdag 28 mei 2022 @ 18:59:
[...]

Dan zou ik ook gewoon de dubbele bestanden laten voor wat het is. Als er bijvoorbeeld een folder "vakantie 2013" en een folder "verjaardag Jantje" is, dan zullen daar dubbele bestanden in voorkomen als Jantje in 2013 tijdens de vakantie jarig was. Maar wat is daar het probleem van? Schijfruimte? Koop een 20TB disk!
Ik ben met je eens dat storage goedkoop is maar hiervoor zou een fatsoenlijke database beter zijn. Dan heb je de foto's niet dubbel en kan je bovendien op basis van tags, keywords enz zoeken.

Acties:
  • +1 Henk 'm!

  • gekkie
  • Registratie: April 2000
  • Laatst online: 20-05 22:31
CodeCaster schreef op zaterdag 28 mei 2022 @ 14:42:
Als de bestanden willekeurig over verschillende mappen staan, moet je gewoon een "free image deduplication tool" zoeken, degene met de lelijkste UI zijn vaak het best.
Heb zelf op windows regelmatig "antitwin" gebruikt en dat voldoet op zich wel aan deze definitie :p

Acties:
  • 0 Henk 'm!

  • RoscoP
  • Registratie: Juli 2006
  • Laatst online: 21-12-2024

RoscoP

..the best is yet to come..

Wat ik kan aanraden is Duplicate Cleaner Pro waarbij je mappen kan toevoegen en zoek-criteria kan invoeren.

Acties:
  • 0 Henk 'm!

  • CodeCaster
  • Registratie: Juni 2003
  • Niet online

CodeCaster

Can I get uhm...

RoscoP schreef op zaterdag 28 mei 2022 @ 23:59:
Wat ik kan aanraden is Duplicate Cleaner Pro waarbij je mappen kan toevoegen en zoek-criteria kan invoeren.
Fancy UI met veel te grote icons en niet-native controls, groepering per bestand (hoe ziet dat eruit met 100.000 bestanden?) en 46 euro voor de volledige versie? Ik zou even verder zoeken.

Maar wel 7 dagen volledig functionele trial, dus het is een poging waard.

[ Voor 13% gewijzigd door CodeCaster op 29-05-2022 00:11 ]

https://oneerlijkewoz.nl
Het ergste moet nog komen / Het leven is een straf / Een uitgestrekte kwelling van de wieg tot aan het graf


Acties:
  • 0 Henk 'm!

  • The Eagle
  • Registratie: Januari 2002
  • Laatst online: 20:44

The Eagle

I wear my sunglasses at night

Welke NAS heb je? Een Synology kan met zijn storage en deduplicatie analyzer kijken welke files gelijk zijn. Dan is het een kwestie van de boel in subdirs gooien en de nas het werk laten doen .

Alternatief: scriptje bouwen dat van alle bestanden de hash berekent, er de naam en directory bij gooit en die vergelijkt.

Al is het nieuws nog zo slecht, het wordt leuker als je het op zijn Brabants zegt :)


Acties:
  • 0 Henk 'm!

  • Jimster
  • Registratie: Januari 2000
  • Nu online
Ik gebruik CloneSpy. https://clonespy.com/
Gratis en eenvoudig. CloneSpy verwijdert direct de dubbele bestanden als je dat wilt.

Acties:
  • 0 Henk 'm!

  • Ortep
  • Registratie: Maart 2000
  • Niet online

Ortep

Soylent Green is People!

Topicstarter
Dank allemaal voor de tips. Het blijft een lastig probleem. De dubbele files zijn op veel manieren te vinden. Het lukt me bv ook prima met XYplorer. Maar dan heb ik een lijst van meer dan 150000 dubbele waarvan sommige wel 5 keer voorkomen.
Het is onbegonnen werk om dan met de hand te gaan kijken wat er waar staat. Soms staan er 3 dubbele op schijf P en geen op Q en dan weer staat de ene op P en de andere op Q

Het gaat me niet eens om de ruimte die het inneemt. De reden van het zoeken is dat er wat structuur in moet komen

Only two things are infinite, the universe and human stupidity, Einstein
Alleen de doden kennen het einde van de oorlog, Plato


Acties:
  • Beste antwoord
  • +1 Henk 'm!

  • Craven
  • Registratie: Februari 2007
  • Nu online
Even totaal out of the box denkend. Is het niet handiger om dit gewoon op een andere manier te organiseren? Ik weet niet hoe vaak je hierin terug kijkt maar ik heb alle foto's gewoon in een folder per jaartal opgeslagen. Dan zou je alles effectief al ontdubbeld hebben omdat je geen identieke filenames in een folder kan opslaan.

Jaartal zou in metadata gewoon beschikbaar moeten zijn. Dus dan is in windows explorer een kwestie van zoeken op * zodat je alle files in 1 view hebt staan en met de details view en shift click de foto's per jaar kopieren of knippen en plakken.

Acties:
  • 0 Henk 'm!

  • H-W
  • Registratie: Maart 2016
  • Laatst online: 19:15

H-W

Niet om dit topic te kapen, maar het haakt wel in op een "probleem" waar ik zelf ook mee zit. Werkt dit soort software ook met dubbele foto's waarbij de files wel een verschillende naam hebben? Ik heb namelijk eens een hdd crash gehad en middels data recovery veel terug weten te krijgen. Maar ook zelf zitten prullen met een tooltje waardoor ik nu met een boel dubbele foto's zit.

Acties:
  • 0 Henk 'm!

  • RoscoP
  • Registratie: Juli 2006
  • Laatst online: 21-12-2024

RoscoP

..the best is yet to come..

Ik had duizenden foto's zonder metadata in verschillende mappen waar vele foto's een naam image1, image2 etc. hadden, ooit eens heen en weer gekopieerd van een partitie met andere indeling van lang geleden waarbij alle bestanden ook nog eens dezelfde datum/tijd kregen. Dat kan je alleen ontdubbelen door de software naar inhoud te laten kijken en die inhoud vergelijkt, en dat is ook gelukt.

Acties:
  • 0 Henk 'm!

  • Ortep
  • Registratie: Maart 2000
  • Niet online

Ortep

Soylent Green is People!

Topicstarter
H-W schreef op maandag 30 mei 2022 @ 16:50:
Niet om dit topic te kapen, maar het haakt wel in op een "probleem" waar ik zelf ook mee zit. Werkt dit soort software ook met dubbele foto's waarbij de files wel een verschillende naam hebben? Ik heb namelijk eens een hdd crash gehad en middels data recovery veel terug weten te krijgen. Maar ook zelf zitten prullen met een tooltje waardoor ik nu met een boel dubbele foto's zit.
Als je files wilt vergelijken is de naam het slechtste kenmerk. Je kan wel 20 files hebben met dezelfde naam of een file 20 keer ergens anders heen kopieeren met een andere naam.

Wat je eerst moet doen is sorteren op de grootte van de files. Als twee files niet precies hetzelfde aantal bytes hebben zijn ze per definitie al niet gelijk. Dan hoef je direct al niet verder meer te kijken.
Daarna kan je de files die exact dezelfde afmeting hebben als een andere file gaan vergelijken op byte niveau. Daar zijn verschillende methodes voor. Een goede tool doet dat dus voor je.

Only two things are infinite, the universe and human stupidity, Einstein
Alleen de doden kennen het einde van de oorlog, Plato

Pagina: 1