In een applicatie verwerk ik geautomatiseerd user generated content, voornamelijk SWF animaties en applicaties. Om dubbele entries te voorkomen wordt in een database de MD5 hash van het bestand opgeslagen, een unieke hash mag slechts 1 keer in de database voorkomen.
Soms komt het echter voor dat bestanden ondanks dat ze vrijwel dezelfde inhoud hebben (bijvoorbeeld een ander logo tijdens de loader, soms zelfs geen zichtbare verschillen) andere hashes hebben.
Mijn vraag: is er een methode om deze bestanden op overeenkomsten te controleren. Zodat ik bijvoorbeeld een grens kan instellen, bijvoorbeeld 85%. Een hash is iedere keer totaal anders, dus dat betekent zelfs bij 1 bitje anders een andere hash. Zijn er guru's die hier iets nuttigs over kunnen zeggen? Zolang het op een linux server gedraaid kan worden komt het in principe in aanmerking.
(Aangezien ik tot nu toe vooral met PHP heb gewerkt heb ik het topic hier gezet, moet mischien naar SE&A?)
Soms komt het echter voor dat bestanden ondanks dat ze vrijwel dezelfde inhoud hebben (bijvoorbeeld een ander logo tijdens de loader, soms zelfs geen zichtbare verschillen) andere hashes hebben.
Mijn vraag: is er een methode om deze bestanden op overeenkomsten te controleren. Zodat ik bijvoorbeeld een grens kan instellen, bijvoorbeeld 85%. Een hash is iedere keer totaal anders, dus dat betekent zelfs bij 1 bitje anders een andere hash. Zijn er guru's die hier iets nuttigs over kunnen zeggen? Zolang het op een linux server gedraaid kan worden komt het in principe in aanmerking.
(Aangezien ik tot nu toe vooral met PHP heb gewerkt heb ik het topic hier gezet, moet mischien naar SE&A?)