[ALG] Overeenkomsten algoritme

Pagina: 1
Acties:

  • kmf
  • Registratie: November 2000
  • Niet online
SItuatie:
Ik heb ongeveer 40GB aan losse bestandjes van een serie. Zipbestandjes wel te verstaan. Allemaal scanlations (oftwel manga die vertaald zijn en ingezipt/rart zijn)

Nou komt het voor dat een serie dat uit meerdere hoofdstukken en volumes bestaat een net wat andere naam hebben. Dit vanwege het feit dat ze door verschillende fangroups zijn vertaald en dus andere credits in de naamgeving hebben.

Dus zoiets krijg je dan.

[groep1]_titel_v01_ch01.rar
titel_ch02_[groep2].rar

Voor een mens is dit natuurlijk duidelijk genoeg en ik kan dan handmatig toch wel sorteren.

Maar voor 40GB is dat niet echt handig natuurlijk.

Ik ben dus een rename tooltje aan het maken dat er een generieke naam van dit geheel kan maken.

Dus uiteindelijk zoiets
titel_ch001.rar
titel_ch002.rar

enz.

Wat ik tot nu toe kan verzinnen is om te proberen een generiek woordenset uit het bestandsnaam te trekken.
titel dus. Ik strip dan eerst de vreemde dingen zoals • en de nummers, om vervolgens een pregmatch te doen op de andere bestandsnamen.

Uiteraard werkt dit niet goed. Er zijn teveel factoren die roet in het eten kunnen gooien. Titels met nummers erin bv, of juist met die vreemde tekens.

Daarna probeerde ik de bestanden in een database te gooien en soundex erop los te laten. Dan krijg ik echter alleen een lijstje die enigszins op elkaar lijken te klinken, maar totaal anders zijn...


Wat ik moet hebben is dus eigenlijk een algoritme dat net als de mens, overeenkomsten tussen verschillende woorden kan zien en dat er uit kan filteren.
Bestaat er al zoiets, of moet ik toch echt zelf wat verder verzinnen?

One thing's certain: the iPad seriously increases toilet time.. tibber uitnodigingscode: bqufpqmp


  • cyberstalker
  • Registratie: September 2005
  • Niet online

cyberstalker

Eersteklas beunhaas

Hoeveel van die verschillende groepen zijn er? Als dat er niet al te veel zijn, zou je die renames gewoon groep voor groep kunnen doen, en dus per groep een specifieke regex bouwen.

Ik ontken het bestaan van IE.