Check alle échte Black Friday-deals Ook zo moe van nepaanbiedingen? Wij laten alleen échte deals zien
Toon posts:

[C#] Welke API/Library voor OCR

Pagina: 1
Acties:

Verwijderd

Topicstarter
In het bedrijf waar ik werk zou ik graag een toepassing ontwikkelen die automatisch de rijksregisternummers kan lezen van gescande pdf documenten. Hiervoor lijkt OCR natuurlijk de aangewezen oplossing.

De bedoeling is om deze toepassing te ontwikkelen in C#, daarom ben ik nu op zoek naar API's of Libraries die ik kan gebruiken voor het OCR gedeelte. Ik ben reeds een week aan het 'klooien' geweest met Tesseract, maar om de een of andere reden lukt het met niet om hier een toepassing werkende te krijgen op x86.

Ik koos voor Tesseract omdat dit open source is, maar indien er andere (betalende) oplossingen zijn wil ik die ook zeker gebruiken. Mijn vraag is nu welke het meest aan te raden zijn, of met welke hier de beste ervaringen zijn?

Alvast bedankt!

  • Face_-_LeSS
  • Registratie: September 2004
  • Niet online
Tesseract OCR heb ik ooit een keer gebruikt voor een vrij simpele OCR toepassing. Ik kan me herinneren dat ik ook wat moeite had om het aan de praat te krijgen op Windows maar het is me uiteindelijk wel gelukt. Ik weet niet wat er precies niet lukt bij jou maar mijn oplossing staat ook op GoT gepost. Misschien heb je er wat aan :)

  • Coca-Cola
  • Registratie: Maart 2001
  • Laatst online: 17:16
Verwijderd schreef op woensdag 29 oktober 2014 @ 09:47:
In het bedrijf waar ik werk zou ik graag een toepassing ontwikkelen die automatisch de rijksregisternummers kan lezen van gescande pdf documenten. Hiervoor lijkt OCR natuurlijk de aangewezen oplossing.

De bedoeling is om deze toepassing te ontwikkelen in C#, daarom ben ik nu op zoek naar API's of Libraries die ik kan gebruiken voor het OCR gedeelte. Ik ben reeds een week aan het 'klooien' geweest met Tesseract, maar om de een of andere reden lukt het met niet om hier een toepassing werkende te krijgen op x86.

Ik koos voor Tesseract omdat dit open source is, maar indien er andere (betalende) oplossingen zijn wil ik die ook zeker gebruiken. Mijn vraag is nu welke het meest aan te raden zijn, of met welke hier de beste ervaringen zijn?

Alvast bedankt!
Ik heb zelf ook Tesseract draaien voor hobby doeleinde (werkt prima). Als je professioneel aan de slag gaat zijn er maar een paar goede commerciële partijen. Welke features en talen heb je nodig, wat voor soort documenten wil je OCRen (alleen PDF?) en met welk doel?
Allround kan je het best de ABBYY engine gebruiken (is vrij goedkoop), heeft een .NET api en is 32 en 64 bit en gebruikt de Adobe library om PDFs te renderen. Het ondersteunt bijna alle talen (Farsi zit in de huidige beta) en doet ook image enhancement, barcodes taal herkenning en document herkenning. Het ondersteunt ook export naar alle denkbare formaten.

  • RobIII
  • Registratie: December 2001
  • Niet online

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

(overleden)
Zit hier niets tussen? De meeste nuget packages zijn gewoon een kwestie van
PM> Install-Package <packagename>
en gaan.

[ Voor 8% gewijzigd door RobIII op 29-10-2014 16:25 ]

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij


  • epic007
  • Registratie: Februari 2004
  • Laatst online: 17-11 15:31
Halcon is erg goed (en duur). Het is een algemeen vision pakket maar je kan de OCR module ook los kopen.

  • P_de_B
  • Registratie: Juli 2003
  • Niet online
Waarom zou je dit zelf ontwikkelen? Wij doen veel met http://scansys.nl een pakket wat heel dominant is in de Nederlandse markt. Je kunt zeer uitgebreid documenten scannen met een hele goede OCR-engine. De documenten kunnen uit verschillende bronnen gelezen worden (file, ftp, pop3, databases etc) en kunnen ook verwerkt worden in verschillende achterliggende systemen met webservice, div. exports etc etc.

Voor de prijs kun je het echt niet zelf ontwikkelen. Als je dat toch wilt, kijk eens naar http://finereader.abbyy.com/

Oops! Google Chrome could not find www.rijks%20museum.nl


Verwijderd

Topicstarter
P_de_B schreef op donderdag 30 oktober 2014 @ 11:38:
Waarom zou je dit zelf ontwikkelen? Wij doen veel met http://scansys.nl een pakket wat heel dominant is in de Nederlandse markt. Je kunt zeer uitgebreid documenten scannen met een hele goede OCR-engine. De documenten kunnen uit verschillende bronnen gelezen worden (file, ftp, pop3, databases etc) en kunnen ook verwerkt worden in verschillende achterliggende systemen met webservice, div. exports etc etc.

Voor de prijs kun je het echt niet zelf ontwikkelen. Als je dat toch wilt, kijk eens naar http://finereader.abbyy.com/
Die scansys lijkt me inderdaad iets zeer interessants. Echter ben ik uit België afkomstig en zou ik hier een bedrijf moeten zoeken dat dezelfde diensten aanbiedt.

  • P_de_B
  • Registratie: Juli 2003
  • Niet online
Ze leveren ook in België :) Ik zou zeggen, neem eens contact op.

Oops! Google Chrome could not find www.rijks%20museum.nl


  • degrgiov
  • Registratie: Januari 2004
  • Laatst online: 22-05 15:00
In Belgie/Gent kan je terecht bij www.Recomatics.be

  • labee
  • Registratie: November 2002
  • Laatst online: 10-09-2022
Als de PDF digitaal is (die geen gescand plaatje bevat)
Waarom gebruik je dan geen Windows ifilter.

Die van Adobe staat hier:
http://www.adobe.com/support/downloads/detail.jsp?ftpID=5542

En een voorbeeld (gemaakt door een collega :) ) staat hier:
https://github.com/Sicos1977/IFilterTextReader

En anders:
OpenText Capture Center
http://www.opentext.com/w...8245.229857375.1415222655

[ Voor 32% gewijzigd door labee op 05-11-2014 22:24 ]

http://www.labee.nl

Pagina: 1