Dat is een lastige . . .
Het PDF-formaat an-sich is vrij simpel, maar wat TS wil kan programmeertechnisch best wel een uitdaging worden. Afhankelijk van de PDF zullen er best wel programma's zijn die een eind kunnen komen.
Dat komt omdat teksten op verschillende manieren in een PDF-document zijn op te slaan:
1 - als eenvoudige ASCII string
2 - als strings bestaande uit font-character-id's
3 - als afbeelding
In het eerste geval zal het zoeken vrij simpel zijn. Decodeer (deflate) de content-objecten en de tekst wordt zichtbaar. Als het een string bestaande uit font-character-id's betreft dan ben je afhankelijk van de ToUnicode objecten voor de mapping tussen unicode-character-id en de font-character-id. Ontbreken die, dan zul je aan OCR moeten doen (of, als het telkens documenten uit dezelfde bron zijn, zelf een mapping maken). In als ze als afbeelding zijn opgeslagen, rest enkel OCR.
Het vervangen kan knap vervelend zijn. Aangezien het euroteken niet voorkomt in de ASCII-set, zit je vast aan de strings met font-character-id referenties. Ascii-strings zul je dan moeten omzetten, maar ook als de teksten die al in dat formaat staan kunnen een probleem opleveren. Het embedde font moet namelijk wel over het euroteken beschikken en het id daarvan moet bekend zijn. Als de tekst als image is opgeslagen, heb je helemaal een uitdaging.