SItuatie:
Ik heb ongeveer 40GB aan losse bestandjes van een serie. Zipbestandjes wel te verstaan. Allemaal scanlations (oftwel manga die vertaald zijn en ingezipt/rart zijn)
Nou komt het voor dat een serie dat uit meerdere hoofdstukken en volumes bestaat een net wat andere naam hebben. Dit vanwege het feit dat ze door verschillende fangroups zijn vertaald en dus andere credits in de naamgeving hebben.
Dus zoiets krijg je dan.
[groep1]_titel_v01_ch01.rar
titel_ch02_[groep2].rar
Voor een mens is dit natuurlijk duidelijk genoeg en ik kan dan handmatig toch wel sorteren.
Maar voor 40GB is dat niet echt handig natuurlijk.
Ik ben dus een rename tooltje aan het maken dat er een generieke naam van dit geheel kan maken.
Dus uiteindelijk zoiets
titel_ch001.rar
titel_ch002.rar
enz.
Wat ik tot nu toe kan verzinnen is om te proberen een generiek woordenset uit het bestandsnaam te trekken.
titel dus. Ik strip dan eerst de vreemde dingen zoals • en de nummers, om vervolgens een pregmatch te doen op de andere bestandsnamen.
Uiteraard werkt dit niet goed. Er zijn teveel factoren die roet in het eten kunnen gooien. Titels met nummers erin bv, of juist met die vreemde tekens.
Daarna probeerde ik de bestanden in een database te gooien en soundex erop los te laten. Dan krijg ik echter alleen een lijstje die enigszins op elkaar lijken te klinken, maar totaal anders zijn...
Wat ik moet hebben is dus eigenlijk een algoritme dat net als de mens, overeenkomsten tussen verschillende woorden kan zien en dat er uit kan filteren.
Bestaat er al zoiets, of moet ik toch echt zelf wat verder verzinnen?
Ik heb ongeveer 40GB aan losse bestandjes van een serie. Zipbestandjes wel te verstaan. Allemaal scanlations (oftwel manga die vertaald zijn en ingezipt/rart zijn)
Nou komt het voor dat een serie dat uit meerdere hoofdstukken en volumes bestaat een net wat andere naam hebben. Dit vanwege het feit dat ze door verschillende fangroups zijn vertaald en dus andere credits in de naamgeving hebben.
Dus zoiets krijg je dan.
[groep1]_titel_v01_ch01.rar
titel_ch02_[groep2].rar
Voor een mens is dit natuurlijk duidelijk genoeg en ik kan dan handmatig toch wel sorteren.
Maar voor 40GB is dat niet echt handig natuurlijk.
Ik ben dus een rename tooltje aan het maken dat er een generieke naam van dit geheel kan maken.
Dus uiteindelijk zoiets
titel_ch001.rar
titel_ch002.rar
enz.
Wat ik tot nu toe kan verzinnen is om te proberen een generiek woordenset uit het bestandsnaam te trekken.
titel dus. Ik strip dan eerst de vreemde dingen zoals • en de nummers, om vervolgens een pregmatch te doen op de andere bestandsnamen.
Uiteraard werkt dit niet goed. Er zijn teveel factoren die roet in het eten kunnen gooien. Titels met nummers erin bv, of juist met die vreemde tekens.
Daarna probeerde ik de bestanden in een database te gooien en soundex erop los te laten. Dan krijg ik echter alleen een lijstje die enigszins op elkaar lijken te klinken, maar totaal anders zijn...
Wat ik moet hebben is dus eigenlijk een algoritme dat net als de mens, overeenkomsten tussen verschillende woorden kan zien en dat er uit kan filteren.
Bestaat er al zoiets, of moet ik toch echt zelf wat verder verzinnen?
One thing's certain: the iPad seriously increases toilet time.. tibber uitnodigingscode: bqufpqmp