Hallo!
Bij het ontwerpen van een all-in-one DVD naar MKV convertor (bash & perl maddness
) ben ik nu bezig met de stap waar de dvd subtitles naar een mooie SRT moeten omgezet worden. Mijn huidige aanpak: subtitle stream extracten van VOB, aparte subtitles extracten, OCR over draaien, en het geheel in een SRT gieten.
Over het OCR gedeelte ben ik echter niet tevreden. Italic wordt niet goed gedetecteerd, er komen veel veel fouten in voor, etc. Ik heb o.a. al gebruikt: tesseract, gocr en ocrad. Een voorbeeld hoe mis het kan lopen (momenteel met gocr):
Voor de kenners: The X-Files, seizoen 1, pilot
Soit, ik ben nu op zoek naar (unix) OCR software waar ik alle tolerantie/gokken/assumpties kan uitschakelen, en enkel een 100% match met een charakter map resulteert in een herkenning. Zo moet ik gewoon eenmalig bij het voorkomen van een nieuw karakter, zijn ASCII variant eenmalig invoeren.
Een beetje zoals "subrip" dus. SubRip kan ik jammer genoeg niet gebruiken, aangezien het 1) niet scriptable is, 2) niet overweg kan met de extracted subtitle streams (en ik de originele VOB's niet meer heb), en 3) niet echt goed werkt onder Wine. Kent er iemand dus een UNIX OCR (of een eenvoudige/CLI windows ocr dat niet te complex is om deftig onder Wine te werken), waarbij ik alles manueel kan aanpakken?
Bedankt!
Dit was het moeilijkste topic tot nu toe om een geschikte categorie voor te vinden... NOS, PRG, graphics... u kiest maar
Bij het ontwerpen van een all-in-one DVD naar MKV convertor (bash & perl maddness
Over het OCR gedeelte ben ik echter niet tevreden. Italic wordt niet goed gedetecteerd, er komen veel veel fouten in voor, etc. Ik heb o.a. al gebruikt: tesseract, gocr en ocrad. Een voorbeeld hoe mis het kan lopen (momenteel met gocr):
code:
1
2
3
4
5
6
7
8
9
10
11
| 7 00:01:59,989 --> 00:02:02,739 Wasdatdeeindexamenklasvan1989? 8 00:02:03,750 --> 00:02:06,459 Hetisweerbegonnen,hè? 9 00:02:13,949 --> 00:02:17,569 HOOfDKWARTIERfBI |
Voor de kenners: The X-Files, seizoen 1, pilot
Soit, ik ben nu op zoek naar (unix) OCR software waar ik alle tolerantie/gokken/assumpties kan uitschakelen, en enkel een 100% match met een charakter map resulteert in een herkenning. Zo moet ik gewoon eenmalig bij het voorkomen van een nieuw karakter, zijn ASCII variant eenmalig invoeren.
Een beetje zoals "subrip" dus. SubRip kan ik jammer genoeg niet gebruiken, aangezien het 1) niet scriptable is, 2) niet overweg kan met de extracted subtitle streams (en ik de originele VOB's niet meer heb), en 3) niet echt goed werkt onder Wine. Kent er iemand dus een UNIX OCR (of een eenvoudige/CLI windows ocr dat niet te complex is om deftig onder Wine te werken), waarbij ik alles manueel kan aanpakken?
Bedankt!
Dit was het moeilijkste topic tot nu toe om een geschikte categorie voor te vinden... NOS, PRG, graphics... u kiest maar