• nielsgeode
  • Registratie: Juli 2003
  • Laatst online: 23-01 17:39
Ik heb een paar duizend bladzijden text gescand die belabberd herkend worden door OCR software. Voor mijn eigen gemak bewaar ik daarom een jpg kopie van elke bladzijde. Probleem is alleen dat je die dingen nooit perfect recht op de scanner legt en elke bladzijde dus een beetje gedraaid is.

Is er software om automatisch elke pagina te laten draaien en weer als jpg op te slaan zodat de text mooi horizontaal is? Ik heb gezocht en gezocht met google maar niks gevonden :/

  • Noork
  • Registratie: Juni 2001
  • Niet online

  • nielsgeode
  • Registratie: Juli 2003
  • Laatst online: 23-01 17:39
Nee helaas :(
Ik heb het geprobeerd maar het werkt niet. Ik heb 1 blz geupload als voorbeeld. Misschien dat het helpt voor mensen die een idee hebben :)

http://i36.tinypic.com/x35o5t.jpg

Verwijderd

Je OCR software moet hier automatisch goed mee om gaan me dunkt?

  • nielsgeode
  • Registratie: Juli 2003
  • Laatst online: 23-01 17:39
Verwijderd schreef op zondag 20 juli 2008 @ 10:32:
Je OCR software moet hier automatisch goed mee om gaan me dunkt?
Ik scan altijd in photoshop via file ==> import ==> epson twain 5. Lekker simpel en eenvoudig zondat dat de software van alles met je afbeeldingen doet die je niet altijd wilt :) Liever heb ik volledige controle en doe ik dit soort bewerkingen achteraf met een apart programma.

  • maleadt
  • Registratie: Januari 2006
  • Laatst online: 26-01 20:38
nielsgeode schreef op zondag 20 juli 2008 @ 10:40:
[...]


Ik scan altijd in photoshop via file ==> import ==> epson twain 5. Lekker simpel en eenvoudig zondat dat de software van alles met je afbeeldingen doet die je niet altijd wilt :) Liever heb ik volledige controle en doe ik dit soort bewerkingen achteraf met een apart programma.
Dat doet er toch niet toe? Het moment dat je de reeds gescande jpg in de OCR software voert (vb ABBYY Finereader) zal die eerst alles danig roteren dat de tekst goed leesbaar is. De software doet dan ook niks met je jpg, die blijft intact, maar herkenning wordt op een gemodificeerde variant in het geheugen uitgevoerd.

  • nielsgeode
  • Registratie: Juli 2003
  • Laatst online: 23-01 17:39
MALEADt schreef op zondag 20 juli 2008 @ 10:56:
[...]


Dat doet er toch niet toe? Het moment dat je de reeds gescande jpg in de OCR software voert (vb ABBYY Finereader) zal die eerst alles danig roteren dat de tekst goed leesbaar is. De software doet dan ook niks met je jpg, die blijft intact, maar herkenning wordt op een gemodificeerde variant in het geheugen uitgevoerd.
Klopt, daar gebruik ik Omnipage voor :)
Probleem is echter: er zitten veel formules in de tekst met subscript en superscript en het is Duits (met Ringel S), dat wordt allemaal niet herkend :( Daarom wil ik een jpg versie (dus pixels en niet naar tekst omgezet) bewaren. Het is dan mooier om die dingen wel zodanig te roteren dat de tekst ook horizinaal loopt en niet schuin :P

Of heb je een oplossing voor de herkenning van Hg22+ ? :P

  • Noork
  • Registratie: Juni 2001
  • Niet online
Het lijkt me gewoon wat te specialistisch werk voor gewone OCR. Ik heb het zelf net even getest met de OCR in Acrobat 8. De tekst wordt op zich herkend, recht gemaakt, alleen de speciale tekens worden niet herkend. Ringel S wordt een hoofdletter B. En de sub/superscript tekens worden gezien als normale tekens.

b.v.
Coutinhoit Tho,s[(U02)2ISis0131• 3 H2O

Ik denk dat hier weinig aan valt te doen.

Uit een recentie van FineReader 6.
If you have material with as many superscripts, subscripts, and special symbols as the typical academic article, it is really faster to retype it

[ Voor 19% gewijzigd door Noork op 20-07-2008 11:46 ]


  • nielsgeode
  • Registratie: Juli 2003
  • Laatst online: 23-01 17:39
Noork schreef op zondag 20 juli 2008 @ 11:45:
Het lijkt me gewoon wat te specialistisch werk voor gewone OCR. Ik heb het zelf net even getest met de OCR in Acrobat 8. De tekst wordt op zich herkend, recht gemaakt, alleen de speciale tekens worden niet herkend. Ringel S wordt een hoofdletter B. En de sub/superscript tekens worden gezien als normale tekens.

b.v.
Coutinhoit Tho,s[(U02)2ISis0131• 3 H2O

Ik denk dat hier weinig aan valt te doen.

Uit een recentie van FineReader 6.

[...]
Daar is echt geen beginnen aan :o Het gaat om 4500 van die formules :X

  • Savantas
  • Registratie: December 2002
  • Laatst online: 26-01 12:42
OCR programma's zijn ten opzichte van enkele jaren geleden zeer veel verbeterd, maar hangen nog we veel aan het herkennen va de basisregel. Formules hebben veel verspringingen te n opzichte hiervan (sub en superscript) en voor zover ik weet is dit nog steeds een zwakke schakel in de programma's. Ik heb wel ooit met een OCR programma gewerkt waarbij je onderdelen in blokken kon definiëren, en dan zeggen of de blokken tekst, afbeelding of formule waren. Alleen geen idee meer met welk programma dat was... En dan nog zat er aardig wat handwerk in...
Er zijn onder andere voor het Gutenberg project en voor Google's bookindex vel ontwikkelingen op herkenning van grote bulkscans, ook voor formules. Zie bvb http://www.dlib.org/dlib/march06/choudhury/03choudhury.html, ocropus en inftyproject. Hoeveel resultaat er ondertussen is zul je zelf moeten uitvinden, bvb bij inftyproject onder Demo...

Ik denk niet zwart-wit, ik denk diapositief! ( ͡° ͜ʖ ͡°)

Pagina: 1