Beste Tweakers,
Als projectje ben ik bezig met een systeempje voor het herkennen van documenten. Echter loop ik tegen het probleem aan dat de herkenning van OCR nog altijd te laag is in mijn ogen.
Ik heb geprobeerd een aantal pakketten samen te voegen om tot een zo goed mogelijk resultaat te komen maar loop nog te vaak tegen het probleem aan dat een i als 1 wordt gezien of een 9 als 0 (ook bij duidelijke documenten).
Nu doe ik op dit moment de volgende acties:
1. Converteer de eerste pagina van de pdf (99% van documenten is factuur) naar een image.
- convert -density 400 -alpha off -resize 1500 "temp.pdf"[0] temp.jpg
2. Haal de eerste OCR eroverheen
- gocr -C "0-9a-zA-Z--., " -u "" -m 4 -i temp.jpg -o temp.txt
3. Haal de tweede OCR eroverheen
- tesseract temp.jpg temp2 -l nld
4. Maak een combi van de 2 documenten.
Echter beide OCR resultaten zijn echt enorm matig. Nu weet ik dat OCR een pittig iets is, maar als ik de image inzoom lijkt het echt enorm scherp.
Nu dacht ik wellicht met grijstinten of het aanpassen van de images een beter resultaat te kunnen creëren, maar hoopte wellicht dat de Tweakers hier betere methodes hebben.
Mijn dank!
Als projectje ben ik bezig met een systeempje voor het herkennen van documenten. Echter loop ik tegen het probleem aan dat de herkenning van OCR nog altijd te laag is in mijn ogen.
Ik heb geprobeerd een aantal pakketten samen te voegen om tot een zo goed mogelijk resultaat te komen maar loop nog te vaak tegen het probleem aan dat een i als 1 wordt gezien of een 9 als 0 (ook bij duidelijke documenten).
Nu doe ik op dit moment de volgende acties:
1. Converteer de eerste pagina van de pdf (99% van documenten is factuur) naar een image.
- convert -density 400 -alpha off -resize 1500 "temp.pdf"[0] temp.jpg
2. Haal de eerste OCR eroverheen
- gocr -C "0-9a-zA-Z--., " -u "" -m 4 -i temp.jpg -o temp.txt
3. Haal de tweede OCR eroverheen
- tesseract temp.jpg temp2 -l nld
4. Maak een combi van de 2 documenten.
Echter beide OCR resultaten zijn echt enorm matig. Nu weet ik dat OCR een pittig iets is, maar als ik de image inzoom lijkt het echt enorm scherp.
Nu dacht ik wellicht met grijstinten of het aanpassen van de images een beter resultaat te kunnen creëren, maar hoopte wellicht dat de Tweakers hier betere methodes hebben.
Mijn dank!