Toon posts:

[OCR] OCR en documentherkenning

Pagina: 1
Acties:

Onderwerpen


Acties:
  • 0Henk 'm!

  • Scheffer
  • Registratie: Maart 2008
  • Laatst online: 07-12-2021
Hallo,

Na wat topics doorzocht te hebben is dit volgens mij de juiste plaats voor mijn vraag. Mocht dit niet zo zijn dan mijn excuses!!

Ik heb op zoek naar een programma welke gescande pdf's doorzoekbaar maakt en de juiste bestandsnaam geeft, en dit dan allemaal automatisch. Ik heb al veel producten gezien maar bij de meeste houd het helaas op na de OCR, op het moment aan het kijken naar ABBYY Recognition Server 3.0 maar deze kan volgens mij niet op een voorgedefinieerde plek in het document naar overeenkomsten zoeken.

Hieronder is het wat beter geformuleerd wat voor een soort programma is zoek:

Doel: D.m.v. software gescande documenten doorzoekbaar maken en de juiste bestandnaam geven zodat een ander programma (zelf geschreven in vb.net) het bestand op de juiste plek in het netwerk kan zetten.

Netwerkscanner: Scant het document naar PDF en zet het in de ‘IN’ map.

Programma:
  • Kijkt in de ‘IN’ map en als hier documenten zijn worden deze d.m.v OCR doorzoekbaar gemaakt.
  • Er moet gekeken worden (d.m.v. voorgedefinieerde sjablonen) om welk document het gaat en op welke plekken de benodigde gegevens staan, zie Afbeelding 1. (Het liefst iets waarbij je sjablonen kunt aanmaken en naar een bepaalde tekst op een bepaald gebied in het document kunt zoeken, komt dit niet overeen dan moet het programma verder gaan met het vergelijken met sjabloon 2, enz, enz)
  • [**]Uitvoermogelijkheid 1: Als het document(PDF) [b]niet[/b] voldoet aan 1 van de sjablonen word deze in de map ‘EXEPTIONS’ geplaatst en zal deze handmatig een bestandsnaam gegeven moeten worden.
  • [**]Uitvoermogelijkheid 2: Als het document(PDF) [b]wel[/b] voldoet aan 1 van de sjablonen wordt aan de hand van de gevonden gegevens automatisch de bestandsnaam gecorrigeerd en in de map ‘OUT’ geplaatst.
Afbeelding 1:

Waar de grenzen liggen van de mogelijkheden? Op het punt waar je fantasie ophoudt!


Acties:
  • 0Henk 'm!

  • dajappie
  • Registratie: Januari 2005
  • Laatst online: 14:41
Veel OCR-software (bv. Kofax Ascent) kan prima formulieren matchen tegen gescande documenten. Je maakt dan een configuratie waarin je een (gescande) template invoert, de te herkennen velden definieert op vorm en locatie, waarna de OCR-software zelf de benodigde informatie van je gescande documenten afhaalt. Vaak wordt daar afhankelijk van de gehaalde herkenningsgraad al dan niet een handmatige validatiestap verplicht om een eindgebruiker de OCR-resultaten te laten valideren en evt. corrigeren.

Acties:
  • 0Henk 'm!

  • Armageddon_2k
  • Registratie: September 2002
  • Laatst online: 08:38

Armageddon_2k

Trotse eigenaar: Yamaha R6

Ik denk dat dit een stukje maatwerk gaat worden. Dit kan je zo niet 1-2-3 even downloaden, configgen en klaar. Vaak heb je programma's die net even dat stukje missen wat jij nodig hebt.

Heb je toevallig een klein beetje verstand van .NET? Dan wel VB of C#?
Het is namelijk prima mogelijk om gebruik te maken van de Microsoft Office hulpprgramma's.
Daar zit een OCR tool bij, welke een goed omschereven API heeft, ook zien er een bak aan voorbeelden van te vinden op het internet.

[Voor 8% gewijzigd door Armageddon_2k op 01-07-2011 13:57]



Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee