[OCR] OCR en documentherkenning

Pagina: 1
Acties:

Onderwerpen


Acties:
  • 0 Henk 'm!

  • Scheffer
  • Registratie: Maart 2008
  • Laatst online: 07-12-2021
Hallo,

Na wat topics doorzocht te hebben is dit volgens mij de juiste plaats voor mijn vraag. Mocht dit niet zo zijn dan mijn excuses!!

Ik heb op zoek naar een programma welke gescande pdf's doorzoekbaar maakt en de juiste bestandsnaam geeft, en dit dan allemaal automatisch. Ik heb al veel producten gezien maar bij de meeste houd het helaas op na de OCR, op het moment aan het kijken naar ABBYY Recognition Server 3.0 maar deze kan volgens mij niet op een voorgedefinieerde plek in het document naar overeenkomsten zoeken.

Hieronder is het wat beter geformuleerd wat voor een soort programma is zoek:

Doel: D.m.v. software gescande documenten doorzoekbaar maken en de juiste bestandnaam geven zodat een ander programma (zelf geschreven in vb.net) het bestand op de juiste plek in het netwerk kan zetten.

Netwerkscanner: Scant het document naar PDF en zet het in de ‘IN’ map.

Programma:
  • Kijkt in de ‘IN’ map en als hier documenten zijn worden deze d.m.v OCR doorzoekbaar gemaakt.
  • Er moet gekeken worden (d.m.v. voorgedefinieerde sjablonen) om welk document het gaat en op welke plekken de benodigde gegevens staan, zie Afbeelding 1. (Het liefst iets waarbij je sjablonen kunt aanmaken en naar een bepaalde tekst op een bepaald gebied in het document kunt zoeken, komt dit niet overeen dan moet het programma verder gaan met het vergelijken met sjabloon 2, enz, enz)
  • [**]Uitvoermogelijkheid 1: Als het document(PDF) [b]niet[/b] voldoet aan 1 van de sjablonen word deze in de map ‘EXEPTIONS’ geplaatst en zal deze handmatig een bestandsnaam gegeven moeten worden.
  • [**]Uitvoermogelijkheid 2: Als het document(PDF) [b]wel[/b] voldoet aan 1 van de sjablonen wordt aan de hand van de gevonden gegevens automatisch de bestandsnaam gecorrigeerd en in de map ‘OUT’ geplaatst.
Afbeelding 1:
Afbeeldingslocatie: http://www.achterhoekersonline.nl/allerlei/Afbeelding1.JPG

Waar de grenzen liggen van de mogelijkheden? Op het punt waar je fantasie ophoudt!


Acties:
  • 0 Henk 'm!

  • dajappie
  • Registratie: Januari 2005
  • Laatst online: 06:51
Veel OCR-software (bv. Kofax Ascent) kan prima formulieren matchen tegen gescande documenten. Je maakt dan een configuratie waarin je een (gescande) template invoert, de te herkennen velden definieert op vorm en locatie, waarna de OCR-software zelf de benodigde informatie van je gescande documenten afhaalt. Vaak wordt daar afhankelijk van de gehaalde herkenningsgraad al dan niet een handmatige validatiestap verplicht om een eindgebruiker de OCR-resultaten te laten valideren en evt. corrigeren.

Acties:
  • 0 Henk 'm!

  • Armageddon_2k
  • Registratie: September 2002
  • Laatst online: 15-09 16:26

Armageddon_2k

Trotse eigenaar: Yamaha R6

Ik denk dat dit een stukje maatwerk gaat worden. Dit kan je zo niet 1-2-3 even downloaden, configgen en klaar. Vaak heb je programma's die net even dat stukje missen wat jij nodig hebt.

Heb je toevallig een klein beetje verstand van .NET? Dan wel VB of C#?
Het is namelijk prima mogelijk om gebruik te maken van de Microsoft Office hulpprgramma's.
Daar zit een OCR tool bij, welke een goed omschereven API heeft, ook zien er een bak aan voorbeelden van te vinden op het internet.

[ Voor 8% gewijzigd door Armageddon_2k op 01-07-2011 13:57 ]