Tellen PDF-bestanden met OCR-laag - Client software algemeen

vrijdag 14 maart 2008 13:32

Acties:

Topicstarter

Voor een digitaliseringsproject zijn documenten ingescand en van een OCR-laag voorzien. Het betreft hierbij > 50.000 bestanden. Na controle blijkt dat een een gedeelte van deze bestanden geen OCR-laag bevat. Ik wil in kaart brengen hoeveel PDF-bestanden niet van OCR voorzien zijn. Om dit te doen ben ik opzoek naar een tool die het aantal pdf-bestanden telt en daarbij aangeeft of het bestand OCR bevat.

Heeft iemand enig idee of een dergelijke tool bestaat? Ik ben meerdere PDF-counters tegengekomen, maar helaas nog niet met deze OCR-tel functionaliteit.

PS: het is overigens niet de bedoeling om deze PDF-documenten direct van OCR te voorzien.

vrijdag 14 maart 2008 17:41

Acties:

F_J_K

Moderator CSA/PB/AI

Front verplichte underscores

Je zou (mits de juiste kennis) iets kunnen bouwen o.b.v. de mogelijkheden om tekst te extracten. Als er geen text is om te extracten is het een plaatje, anders plaatje+OCR tekst.

Bij 50k files de moeite van het bouwen.

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)

dinsdag 29 april 2008 16:13

Acties:

bierdop

Topicstarter

Inmiddels heb ik het probleem kunnen oplossen en wel als volgt:

1) Download / schaf het programma aan, bijv. "PDF to Text Batch Converter"
2) Gebruik de zoekfunctie in windows, zoek op de geconverteerde documenten, bijv. *.txt
3) Sorteer op grootte van het zoekresultaat
4) Delete het zoekresultaat waarbij tekst daadwerkelijk ge-extract is.
5) Alle overige documenten bevatten geen tekst en daarmee dus ook geen OCR-functionaliteit.

dinsdag 29 april 2008 17:47

Acties:

F_J_K

Moderator CSA/PB/AI

Front verplichte underscores

Slimme oplossing, dank voor de update!

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)