Voor een digitaliseringsproject zijn documenten ingescand en van een OCR-laag voorzien. Het betreft hierbij > 50.000 bestanden. Na controle blijkt dat een een gedeelte van deze bestanden geen OCR-laag bevat. Ik wil in kaart brengen hoeveel PDF-bestanden niet van OCR voorzien zijn. Om dit te doen ben ik opzoek naar een tool die het aantal pdf-bestanden telt en daarbij aangeeft of het bestand OCR bevat.
Heeft iemand enig idee of een dergelijke tool bestaat? Ik ben meerdere PDF-counters tegengekomen, maar helaas nog niet met deze OCR-tel functionaliteit.
PS: het is overigens niet de bedoeling om deze PDF-documenten direct van OCR te voorzien.
Heeft iemand enig idee of een dergelijke tool bestaat? Ik ben meerdere PDF-counters tegengekomen, maar helaas nog niet met deze OCR-tel functionaliteit.
PS: het is overigens niet de bedoeling om deze PDF-documenten direct van OCR te voorzien.