automatisch roteren van jpg's (text scans) - Workflow, beeldbewerking en design

zondag 20 juli 2008 10:16

Acties:

Topicstarter

Ik heb een paar duizend bladzijden text gescand die belabberd herkend worden door OCR software. Voor mijn eigen gemak bewaar ik daarom een jpg kopie van elke bladzijde. Probleem is alleen dat je die dingen nooit perfect recht op de scanner legt en elke bladzijde dus een beetje gedraaid is.

Is er software om automatisch elke pagina te laten draaien en weer als jpg op te slaan zodat de text mooi horizontaal is? Ik heb gezocht en gezocht met google maar niks gevonden

zondag 20 juli 2008 10:18

Acties:

Noork

Bedoel je zoiets?
Gescande foto's automatisch uitknippen

zondag 20 juli 2008 10:31

Acties:

nielsgeode

Topicstarter

Noork schreef op zondag 20 juli 2008 @ 10:18:
Bedoel je zoiets?
Gescande foto's automatisch uitknippen

Nee helaas

Ik heb het geprobeerd maar het werkt niet. Ik heb 1 blz geupload als voorbeeld. Misschien dat het helpt voor mensen die een idee hebben

http://i36.tinypic.com/x35o5t.jpg

zondag 20 juli 2008 10:32

Acties:

Verwijderd

Je OCR software moet hier automatisch goed mee om gaan me dunkt?

zondag 20 juli 2008 10:40

Acties:

nielsgeode

Topicstarter

Verwijderd schreef op zondag 20 juli 2008 @ 10:32:
Je OCR software moet hier automatisch goed mee om gaan me dunkt?

Ik scan altijd in photoshop via file ==> import ==> epson twain 5. Lekker simpel en eenvoudig zondat dat de software van alles met je afbeeldingen doet die je niet altijd wilt

Liever heb ik volledige controle en doe ik dit soort bewerkingen achteraf met een apart programma.

zondag 20 juli 2008 10:56

Acties:

maleadt

nielsgeode schreef op zondag 20 juli 2008 @ 10:40:
[...]

Ik scan altijd in photoshop via file ==> import ==> epson twain 5. Lekker simpel en eenvoudig zondat dat de software van alles met je afbeeldingen doet die je niet altijd wilt Liever heb ik volledige controle en doe ik dit soort bewerkingen achteraf met een apart programma.

Dat doet er toch niet toe? Het moment dat je de reeds gescande jpg in de OCR software voert (vb ABBYY Finereader) zal die eerst alles danig roteren dat de tekst goed leesbaar is. De software doet dan ook niks met je jpg, die blijft intact, maar herkenning wordt op een gemodificeerde variant in het geheugen uitgevoerd.

zondag 20 juli 2008 11:11

Acties:

nielsgeode

Topicstarter

MALEADt schreef op zondag 20 juli 2008 @ 10:56:
[...]

Dat doet er toch niet toe? Het moment dat je de reeds gescande jpg in de OCR software voert (vb ABBYY Finereader) zal die eerst alles danig roteren dat de tekst goed leesbaar is. De software doet dan ook niks met je jpg, die blijft intact, maar herkenning wordt op een gemodificeerde variant in het geheugen uitgevoerd.

Klopt, daar gebruik ik Omnipage voor

Probleem is echter: er zitten veel formules in de tekst met subscript en superscript en het is Duits (met Ringel S), dat wordt allemaal niet herkend

Daarom wil ik een jpg versie (dus pixels en niet naar tekst omgezet) bewaren. Het is dan mooier om die dingen wel zodanig te roteren dat de tekst ook horizinaal loopt en niet schuin

Of heb je een oplossing voor de herkenning van Hg₂²⁺ ?

zondag 20 juli 2008 11:45

Acties:

Noork

Het lijkt me gewoon wat te specialistisch werk voor gewone OCR. Ik heb het zelf net even getest met de OCR in Acrobat 8. De tekst wordt op zich herkend, recht gemaakt, alleen de speciale tekens worden niet herkend. Ringel S wordt een hoofdletter B. En de sub/superscript tekens worden gezien als normale tekens.

b.v.
Coutinhoit Tho,s[(U02)2ISis0131• 3 H2O

Ik denk dat hier weinig aan valt te doen.

Uit een recentie van FineReader 6.

If you have material with as many superscripts, subscripts, and special symbols as the typical academic article, it is really faster to retype it

[ Voor 19% gewijzigd door Noork op 20-07-2008 11:46 ]

zondag 20 juli 2008 12:08

Acties:

nielsgeode

Topicstarter

Noork schreef op zondag 20 juli 2008 @ 11:45:
Het lijkt me gewoon wat te specialistisch werk voor gewone OCR. Ik heb het zelf net even getest met de OCR in Acrobat 8. De tekst wordt op zich herkend, recht gemaakt, alleen de speciale tekens worden niet herkend. Ringel S wordt een hoofdletter B. En de sub/superscript tekens worden gezien als normale tekens.

b.v.
Coutinhoit Tho,s[(U02)2ISis0131• 3 H2O

Ik denk dat hier weinig aan valt te doen.

Uit een recentie van FineReader 6.

[...]

Daar is echt geen beginnen aan

Het gaat om 4500 van die formules

dinsdag 22 juli 2008 10:09

Acties:

Savantas

OCR programma's zijn ten opzichte van enkele jaren geleden zeer veel verbeterd, maar hangen nog we veel aan het herkennen va de basisregel. Formules hebben veel verspringingen te n opzichte hiervan (sub en superscript) en voor zover ik weet is dit nog steeds een zwakke schakel in de programma's. Ik heb wel ooit met een OCR programma gewerkt waarbij je onderdelen in blokken kon definiëren, en dan zeggen of de blokken tekst, afbeelding of formule waren. Alleen geen idee meer met welk programma dat was... En dan nog zat er aardig wat handwerk in...
Er zijn onder andere voor het Gutenberg project en voor Google's bookindex vel ontwikkelingen op herkenning van grote bulkscans, ook voor formules. Zie bvb http://www.dlib.org/dlib/march06/choudhury/03choudhury.html, ocropus en inftyproject. Hoeveel resultaat er ondertussen is zul je zelf moeten uitvinden, bvb bij inftyproject onder Demo...

Ik denk niet zwart-wit, ik denk diapositief! ( ͡° ͜ʖ ͡°)