[PDF] karakters als afbeelding converteren naar karakters - Client software algemeen

vrijdag 16 juli 2010 14:00

Acties:

Topicstarter

Ik heb een interessante uitdaging:
Ik wil het volgende doen:

Ik ben bezig met een opdracht om een hoop producten te analyseren. Wat ik wil doen is stuklijsten creeëren en de niet interessante producten uitfilteren.

Ik kan deze stuklijsten oproepen, deze zijn opgeslagen als PDF bestanden en gegenereerd uit ik dacht een database.
Deze stuklijsten bestaan uit een kolom met een soort boomstructuur, waardoor te zien is welk onderdeel onder welke samenstelling valt. Deze informatie is belangrijk voor mijn analyse.
Naast deze kolom staan de onderdelen.

Alleen, de PDF's zijn niet netjes gemaakt. De ene PDF bestaat uit de boomstructuur als afbeelding met daarnaast de onderdelen als tekst, maar andere PDF's bestaan uit afbeeldingen.

Wat is nou mijn vraag:
Is het mogelijk een programma te draaien of iets te doen zodat de boomstructuur behouden blijft, maar de onderdeelnamen die in de PDF afbeeldingen zijn, om te zetten naar karakters?
Op die manier zou ik met een PDF-bewerker de onderdelen die niet interessant zijn grijs kunnen maken zonder àlles eerst uit te printen.

Ik wil dus uiteindelijk vanuit de "100%afbeelding-PDF" een andere PDF of document hebben zodat ik de karakters kan bewerken en de boomstructuur zichtbaar blijft. Dan kan ik de stuklijsten naar mijn wens bewerken.

Ik heb al geprobeerd om de PDF om te zetten in .doc door middel van tekstherkenning, maar dan gaat de boomstructuur verloren. Die zou ik handmatig er dan weer in moeten gaan knutselen en dat kost me te veel tijd.

vrede in rust

vrijdag 16 juli 2010 14:42

Acties:

F_J_K

Moderator CSA/PB/AI

Front verplichte underscores

Het is me niet geheel duidelijk hoe die boomstructuur er uit ziet, maar ik zou toch een OCR tool voorstellen. Neem dan wel een goede, dus niet een gratis tooltje dat met je scanner werd meegeleverd maar OmniPage of FineReader. Je kunt dan zelf aangeven welke delen van de pagina tekst zijn en wat als figuur (?) bewaard moet blijven. En natuurlijk niet printen en dan OCR'en, maar meteen de pdf OCR'en zodat zoveel mogelijk info bewaard blijft.

Het beste is natuurlijk terug te gaan naar de bron: de database.

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)

vrijdag 16 juli 2010 16:14

Acties:

Nas T

Topicstarter

F_J_K schreef op vrijdag 16 juli 2010 @ 14:42:
Het is me niet geheel duidelijk hoe die boomstructuur er uit ziet, maar ik zou toch een OCR tool voorstellen. Neem dan wel een goede, dus niet een gratis tooltje dat met je scanner werd meegeleverd maar OmniPage of FineReader. Je kunt dan zelf aangeven welke delen van de pagina tekst zijn en wat als figuur (?) bewaard moet blijven. En natuurlijk niet printen en dan OCR'en, maar meteen de pdf OCR'en zodat zoveel mogelijk info bewaard blijft.

Het beste is natuurlijk terug te gaan naar de bron: de database.

Kijk, dat is bruikbare info. Super! Je bent een held. Ik zal finereader al gaan uitproberen (trial), kijken wat ik daaruit krijg geperst.

Eerste ervaring met fine-reader:
Het begin is erg aardig. Ik kan een afbeelding openen, waaronder een PDF-document. Daarna wordt de tekst eruit gevist, die ik netjes kan bewerken. Daarnaast kan ik de boomstructuur (lijntjes van boven naar onder en naar rechts toe, met verschillende niveaus) als afbeelding aanmerken. Ik kan klungelen met de opmaak. Alleen is de boomstructuur nu niet helemaal perfect, dus ik ga kijken of ik dat goed krijg. Als ik print dan zijn lijntjes slecht zichtbaar, dus dat is niet ideaal. Ik hoop uiteindelijk een nette workflow te kunnen creëren. Zo ja, dan ga ik aanvragen of ik het product mag kopen.

Opgelost:
Ik heb wat ik wil. Ik kan de tekst bewerken, als PDF opslaan, als Word-document opslaan en in Word bewerken. De boomstructuur blijft goed en in Word kan ik de tekst naar hartelust aanpassen. Perfect.
Het gaat niet supersnel, maar de kwaliteit en bewerk-mogelijkheden zijn uitstekend.

[ Voor 38% gewijzigd door Nas T op 16-07-2010 17:00 ]

vrede in rust

donderdag 2 september 2010 14:19

Acties:

Nas T

Topicstarter

Het is weer even geleden, maar na vele pogingen van trial and error lukt het me enigszins om met Finereader om te gaan. Ik mis alleen 1 ding: De tekst wordt herkend met erg veel verschillende stijlen. Dit heeft tot gevolg dat teksten in sommige tabellen net wat breder zijn dan nodig, en de uitvoer op 2 regels komt. Of ik moet handmatig alle tabellen vergroten, of ik gebruik 1 stijl voor alle tekst.

Ik wil dit laatste doen...alleen...ik zie nergens dat dit in ABBYY Finereader mogelijk is, maar het lijkt mij niet zo heel erg fantastisch ingewikkeld. De enige mogelijkheid is om per pagina de tekst te selecteren en handmatig de stijl toe te passen. Dat is niet bepaald een lekkere workflow, het gaat om een paar honderd pagina's en het zou wel zo fijn zijn als dat ik alle pagina's overnieuw moet uitlezen, dat ik niet al het werk voor niks heb gedaan.

EDIT:
Met autohotkey werkt het nu aardig. Dit topic mag op slot.

[ Voor 3% gewijzigd door Nas T op 06-09-2010 12:13 ]

vrede in rust