OCR herkenningssoftware - Serversoftware en clouddiensten

woensdag 28 augustus 2013 10:32

Acties:

Topicstarter

Beste Tweakers,

Als projectje ben ik bezig met een systeempje voor het herkennen van documenten. Echter loop ik tegen het probleem aan dat de herkenning van OCR nog altijd te laag is in mijn ogen.

Ik heb geprobeerd een aantal pakketten samen te voegen om tot een zo goed mogelijk resultaat te komen maar loop nog te vaak tegen het probleem aan dat een i als 1 wordt gezien of een 9 als 0 (ook bij duidelijke documenten).

Nu doe ik op dit moment de volgende acties:

1. Converteer de eerste pagina van de pdf (99% van documenten is factuur) naar een image.
- convert -density 400 -alpha off -resize 1500 "temp.pdf"[0] temp.jpg

2. Haal de eerste OCR eroverheen
- gocr -C "0-9a-zA-Z--., " -u "" -m 4 -i temp.jpg -o temp.txt

3. Haal de tweede OCR eroverheen
- tesseract temp.jpg temp2 -l nld

4. Maak een combi van de 2 documenten.

Echter beide OCR resultaten zijn echt enorm matig. Nu weet ik dat OCR een pittig iets is, maar als ik de image inzoom lijkt het echt enorm scherp.

Nu dacht ik wellicht met grijstinten of het aanpassen van de images een beter resultaat te kunnen creëren, maar hoopte wellicht dat de Tweakers hier betere methodes hebben.

Mijn dank!

woensdag 28 augustus 2013 11:17

Acties:

CAPSLOCK2000

zie teletekst pagina 888

Kun je je OCR engine misschien bijtrainen?

This post is warranted for the full amount you paid me for it.

woensdag 28 augustus 2013 11:24

Acties:

bassiej19

Topicstarter

CAPSLOCK2000 schreef op woensdag 28 augustus 2013 @ 11:17:
Kun je je OCR engine misschien bijtrainen?

Bedankt voor je reactie. Heb het al wel zover dat ik hem de locaties kan aanleren waar de informatie staat van een bepaalde leverancier. Echter heb ik zo snel geen idee hoe ik het converteren van een volledige pdf naar text kan optimaliseren en bijleren.

Jij daar ideeën over?