Check alle échte Black Friday-deals Ook zo moe van nepaanbiedingen? Wij laten alleen échte deals zien

Tellen PDF-bestanden met OCR-laag

Pagina: 1
Acties:

  • bierdop
  • Registratie: Juli 2000
  • Laatst online: 26-10 20:36
Voor een digitaliseringsproject zijn documenten ingescand en van een OCR-laag voorzien. Het betreft hierbij > 50.000 bestanden. Na controle blijkt dat een een gedeelte van deze bestanden geen OCR-laag bevat. Ik wil in kaart brengen hoeveel PDF-bestanden niet van OCR voorzien zijn. Om dit te doen ben ik opzoek naar een tool die het aantal pdf-bestanden telt en daarbij aangeeft of het bestand OCR bevat.

Heeft iemand enig idee of een dergelijke tool bestaat? Ik ben meerdere PDF-counters tegengekomen, maar helaas nog niet met deze OCR-tel functionaliteit.

PS: het is overigens niet de bedoeling om deze PDF-documenten direct van OCR te voorzien.

  • F_J_K
  • Registratie: Juni 2001
  • Niet online

F_J_K

Moderator CSA/PB

Front verplichte underscores

Je zou (mits de juiste kennis) iets kunnen bouwen o.b.v. de mogelijkheden om tekst te extracten. Als er geen text is om te extracten is het een plaatje, anders plaatje+OCR tekst.

Bij 50k files de moeite van het bouwen.

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)


  • bierdop
  • Registratie: Juli 2000
  • Laatst online: 26-10 20:36
Inmiddels heb ik het probleem kunnen oplossen en wel als volgt:

1) Download / schaf het programma aan, bijv. "PDF to Text Batch Converter"
2) Gebruik de zoekfunctie in windows, zoek op de geconverteerde documenten, bijv. *.txt
3) Sorteer op grootte van het zoekresultaat
4) Delete het zoekresultaat waarbij tekst daadwerkelijk ge-extract is.
5) Alle overige documenten bevatten geen tekst en daarmee dus ook geen OCR-functionaliteit.

  • F_J_K
  • Registratie: Juni 2001
  • Niet online

F_J_K

Moderator CSA/PB

Front verplichte underscores

Slimme oplossing, dank voor de update!

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)