[C#] Welke API/Library voor OCR - Softwareontwikkeling

woensdag 29 oktober 2014 09:47

Acties:

Verwijderd

Topicstarter

In het bedrijf waar ik werk zou ik graag een toepassing ontwikkelen die automatisch de rijksregisternummers kan lezen van gescande pdf documenten. Hiervoor lijkt OCR natuurlijk de aangewezen oplossing.

De bedoeling is om deze toepassing te ontwikkelen in C#, daarom ben ik nu op zoek naar API's of Libraries die ik kan gebruiken voor het OCR gedeelte. Ik ben reeds een week aan het 'klooien' geweest met Tesseract, maar om de een of andere reden lukt het met niet om hier een toepassing werkende te krijgen op x86.

Ik koos voor Tesseract omdat dit open source is, maar indien er andere (betalende) oplossingen zijn wil ik die ook zeker gebruiken. Mijn vraag is nu welke het meest aan te raden zijn, of met welke hier de beste ervaringen zijn?

Alvast bedankt!

woensdag 29 oktober 2014 15:37

Acties:

Face_-_LeSS

Tesseract OCR heb ik ooit een keer gebruikt voor een vrij simpele OCR toepassing. Ik kan me herinneren dat ik ook wat moeite had om het aan de praat te krijgen op Windows maar het is me uiteindelijk wel gelukt. Ik weet niet wat er precies niet lukt bij jou maar mijn oplossing staat ook op GoT gepost. Misschien heb je er wat aan

woensdag 29 oktober 2014 16:08

Acties:

Coca-Cola

Verwijderd schreef op woensdag 29 oktober 2014 @ 09:47:
In het bedrijf waar ik werk zou ik graag een toepassing ontwikkelen die automatisch de rijksregisternummers kan lezen van gescande pdf documenten. Hiervoor lijkt OCR natuurlijk de aangewezen oplossing.

De bedoeling is om deze toepassing te ontwikkelen in C#, daarom ben ik nu op zoek naar API's of Libraries die ik kan gebruiken voor het OCR gedeelte. Ik ben reeds een week aan het 'klooien' geweest met Tesseract, maar om de een of andere reden lukt het met niet om hier een toepassing werkende te krijgen op x86.

Ik koos voor Tesseract omdat dit open source is, maar indien er andere (betalende) oplossingen zijn wil ik die ook zeker gebruiken. Mijn vraag is nu welke het meest aan te raden zijn, of met welke hier de beste ervaringen zijn?

Alvast bedankt!

Ik heb zelf ook Tesseract draaien voor hobby doeleinde (werkt prima). Als je professioneel aan de slag gaat zijn er maar een paar goede commerciële partijen. Welke features en talen heb je nodig, wat voor soort documenten wil je OCRen (alleen PDF?) en met welk doel?
Allround kan je het best de ABBYY engine gebruiken (is vrij goedkoop), heeft een .NET api en is 32 en 64 bit en gebruikt de Adobe library om PDFs te renderen. Het ondersteunt bijna alle talen (Farsi zit in de huidige beta) en doet ook image enhancement, barcodes taal herkenning en document herkenning. Het ondersteunt ook export naar alle denkbare formaten.

woensdag 29 oktober 2014 16:24

Acties:

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

Zit hier niets tussen? De meeste nuget packages zijn gewoon een kwestie van

PM> Install-Package <packagename>

en gaan.

[ Voor 8% gewijzigd door RobIII op 29-10-2014 16:25 ]

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij

donderdag 30 oktober 2014 11:25

Acties:

epic007

Halcon is erg goed (en duur). Het is een algemeen vision pakket maar je kan de OCR module ook los kopen.

donderdag 30 oktober 2014 11:38

Acties:

P_de_B

Waarom zou je dit zelf ontwikkelen? Wij doen veel met http://scansys.nl een pakket wat heel dominant is in de Nederlandse markt. Je kunt zeer uitgebreid documenten scannen met een hele goede OCR-engine. De documenten kunnen uit verschillende bronnen gelezen worden (file, ftp, pop3, databases etc) en kunnen ook verwerkt worden in verschillende achterliggende systemen met webservice, div. exports etc etc.

Voor de prijs kun je het echt niet zelf ontwikkelen. Als je dat toch wilt, kijk eens naar http://finereader.abbyy.com/

Oops! Google Chrome could not find www.rijks%20museum.nl

donderdag 30 oktober 2014 14:49

Acties:

Verwijderd

Topicstarter

P_de_B schreef op donderdag 30 oktober 2014 @ 11:38:
Waarom zou je dit zelf ontwikkelen? Wij doen veel met http://scansys.nl een pakket wat heel dominant is in de Nederlandse markt. Je kunt zeer uitgebreid documenten scannen met een hele goede OCR-engine. De documenten kunnen uit verschillende bronnen gelezen worden (file, ftp, pop3, databases etc) en kunnen ook verwerkt worden in verschillende achterliggende systemen met webservice, div. exports etc etc.

Voor de prijs kun je het echt niet zelf ontwikkelen. Als je dat toch wilt, kijk eens naar http://finereader.abbyy.com/

Die scansys lijkt me inderdaad iets zeer interessants. Echter ben ik uit België afkomstig en zou ik hier een bedrijf moeten zoeken dat dezelfde diensten aanbiedt.

donderdag 30 oktober 2014 15:11

Acties:

P_de_B

Ze leveren ook in België

Ik zou zeggen, neem eens contact op.

Oops! Google Chrome could not find www.rijks%20museum.nl

donderdag 30 oktober 2014 15:16

Acties:

degrgiov

In Belgie/Gent kan je terecht bij www.Recomatics.be

woensdag 5 november 2014 22:22

Acties:

labee

Als de PDF digitaal is (die geen gescand plaatje bevat)
Waarom gebruik je dan geen Windows ifilter.

Die van Adobe staat hier:
http://www.adobe.com/support/downloads/detail.jsp?ftpID=5542

En een voorbeeld (gemaakt door een collega

) staat hier:
https://github.com/Sicos1977/IFilterTextReader

En anders:
OpenText Capture Center
http://www.opentext.com/w...8245.229857375.1415222655

[ Voor 32% gewijzigd door labee op 05-11-2014 22:24 ]

http://www.labee.nl