Check alle échte Black Friday-deals Ook zo moe van nepaanbiedingen? Wij laten alleen échte deals zien

[Finereader] Alle tekst selecteren ipv per pagina.

Pagina: 1
Acties:

  • Nas T
  • Registratie: Januari 2003
  • Laatst online: 23-11 11:38
Ik gebruik ABBYY Finereader om PDF's te converteren naar Word om ze zodoende verder te bewerken.
Alleen tijdens de tekstherkenning worden er allerlei verschillende "stijlen" gemaakt.
Met als gevolg 20 verschillende stijlen waardoor de opmaak een zooitje wordt, omdat stukjes tekst er net wat anders uitziet met het gevolg dat tabellen worden verklungeld in Word.

Alle tekst selecteren in Word en aanpassen lost het probleem niet op, want er is wat veranderd aan de opmaak wat ik niet kan terugvinden. Om een lege opmaak te gebruiken en dan het juiste lettertype/grootte te selecteren, lost het probleem (helaas) ook niet op.

De oplossing die erg goed werkt/lijkt te werken is het selecteren van de tekst in ABBYY Finereader en dan de juiste stijl daarop toe te passen.
Alleen kan ik alleen de tekst per pagina selecteren en niet van alle pagina's tezamen. Erg lastig, want het document bestaat uit meer dan 400 pagina's en de kans bestaat dat dit meer dan eens moet gebeuren.
De vraag is hoe kan ik toch alle tekst selecteren, en niet per pagina, om mijn workflow niet te belemmeren?


Oplossingen in Word zijn uiteraard ook welkom.
Het gaat om tekst, welke lettergrootte 8,5 moet worden, arial en welke in tabellen staan (1 tabel per pagina).
Het selecteren van alle tekst en alle opmaak verwijderen leidt tot het omgooien van de tabellen, zodat het fatsoeneren leidt tot (veel) extra werk.

vrede in rust


  • F_J_K
  • Registratie: Juni 2001
  • Niet online

F_J_K

Moderator CSA/PB

Front verplichte underscores

In Word alles (ctrl-a) het juiste formaat maken werkt blijkbaar niet - en dat kan ik me best voorstellen gezien de manier waarop OCR werkt. (Heel misschien gaat het 'toevallig' beter met een concurrent zoals Omnipage, maar dat wordt een duur grapje en ik verwacht niet dat het veel beter gaat).

Een pdf heeft voor zover ik weet uit zichzelf geen kennis van de 'flow' van een heel document: het is pagina-gebasseerd. Een slim OCR-tool doet een goede poging om er weer lopende samenhangende tabellen en teksten (zinnen, paragrafen, etc) van te maken maar dat gebeurt pas na herkenning & omvorming - en blijkbaar kan je dus niet over pagina's heen instellen in Finereader.

Misschien kan je in Finereader scripts maken die het per pagina(-element) instelt, maar aangezien ik geen FR heb kan ik daar niet direct mee helpen. Kijk eens naar scripting binnen Finereader. Worst case zou je zelf met bijv. autohotkey een script kunnen maken dat het handmatig selecteren & opties instellen na doet.

Maar misschien is 400x met de hand sneller als je daar geen ervaring mee hebt..

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)


  • Nas T
  • Registratie: Januari 2003
  • Laatst online: 23-11 11:38
F_J_K schreef op zondag 05 september 2010 @ 15:21:
Worst case zou je zelf met bijv. autohotkey een script kunnen maken dat het handmatig selecteren & opties instellen na doet.
...2 zielen, 1 gedachten. Ik heb inderdaad gekeken naar scripts en ben op autohotkey uitgekomen.
Werkt na wat geklungel wel aardig, alleen is het wel een beetje "smerig" programmeren.
Om bepaalde dingen voor elkaar te krijgen, moeten er muiskliks hardgecodeerd op coördinaten geplaatst worden. Niet echt netjes en foutgevoelig, maar: het werkt aardig en creatief constructies verzinnen zodat de coördinatische muisklik altijd op de juiste plek terecht komt is ook een oplossing.

Dit topic mag wat mij betreft op slot.

vrede in rust


  • F_J_K
  • Registratie: Juni 2001
  • Niet online

F_J_K

Moderator CSA/PB

Front verplichte underscores

Neuh, zakt wel weg :)

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)