Toon posts:

Text in PDF verwijderen

Pagina: 1

Acties:

1.395 views

vrijdag 26 mei 2017 15:50

Acties:

MikeT80

Topicstarter

Al een tijdje bezig om bepaalde tekst in PDF bestanden te verwijderen.
Adobe Acrobat kan alleen per gevonden selectie vervangen.
Dus niet alle resultaten in het totale PDF bestand.

Wie weet er een oplossing
Dus bv alle "euro" vervangen door € in een heel document

vrijdag 26 mei 2017 15:52

Acties:

Lawwie

Het beste bier, brouw je zelf!

Heb je niet het originele bestand, een word bestand? Dat maakt het bewerken een stuk makkelijker. Als je dat niet hebt zou je natuurlijk je PDF altijd nog om kunnen zetten in een word bestand, dit is vaak niet betrouwbaar maar misschien vind je wel iets wat wel werkt.

vrijdag 26 mei 2017 15:56

Acties:

MikeT80

Topicstarter

Lawwie schreef op vrijdag 26 mei 2017 @ 15:52:
Heb je niet het originele bestand, een word bestand? Dat maakt het bewerken een stuk makkelijker. Als je dat niet hebt zou je natuurlijk je PDF altijd nog om kunnen zetten in een word bestand, dit is vaak niet betrouwbaar maar misschien vind je wel iets wat wel werkt.

Nee heb alleen de PDF bestanden

Oplossing tot nu toe:
ctrl-f
waarde zoeken
per stuk het vervangen bevestigen

vrijdag 26 mei 2017 16:02

Acties:

Arie-

Zijn de pdf's encrypted? Als dat niet het geval is: openen in notepad(++) en de eurotekens vervangen voor de gewenste waarde.

vrijdag 26 mei 2017 16:05

Acties:

MikeT80

Topicstarter

Arie- schreef op vrijdag 26 mei 2017 @ 16:02:
Zijn de pdf's encrypted? Als dat niet het geval is: openen in notepad(++) en de eurotekens vervangen voor de gewenste waarde.

Lijkt het wel op; de juiste waarde is niet te vinden

vrijdag 26 mei 2017 16:12

Acties:

begintmeta

Moderator General Chat

Waarschijnlijk is de PDF gecomprimeerd, niet versleuteld.

Je zou bijvoorbeeld Softmaker FlexiPDF eens kunnen proberen, maar in principe zou je het denk ik wel moeten kunnen scripten met de diverse opensource-cli-tools die bestaan.

[ Voor 60% gewijzigd door begintmeta op 26-05-2017 16:26 ]

vrijdag 26 mei 2017 17:04

Acties:

RiDo78

begintmeta schreef op vrijdag 26 mei 2017 @ 16:12:
Je zou bijvoorbeeld Softmaker FlexiPDF eens kunnen proberen, maar in principe zou je het denk ik wel moeten kunnen scripten met de diverse opensource-cli-tools die bestaan.

Dat is een lastige . . .

Het PDF-formaat an-sich is vrij simpel, maar wat TS wil kan programmeertechnisch best wel een uitdaging worden. Afhankelijk van de PDF zullen er best wel programma's zijn die een eind kunnen komen.

Dat komt omdat teksten op verschillende manieren in een PDF-document zijn op te slaan:
1 - als eenvoudige ASCII string
2 - als strings bestaande uit font-character-id's
3 - als afbeelding

In het eerste geval zal het zoeken vrij simpel zijn. Decodeer (deflate) de content-objecten en de tekst wordt zichtbaar. Als het een string bestaande uit font-character-id's betreft dan ben je afhankelijk van de ToUnicode objecten voor de mapping tussen unicode-character-id en de font-character-id. Ontbreken die, dan zul je aan OCR moeten doen (of, als het telkens documenten uit dezelfde bron zijn, zelf een mapping maken). In als ze als afbeelding zijn opgeslagen, rest enkel OCR.

Het vervangen kan knap vervelend zijn. Aangezien het euroteken niet voorkomt in de ASCII-set, zit je vast aan de strings met font-character-id referenties. Ascii-strings zul je dan moeten omzetten, maar ook als de teksten die al in dat formaat staan kunnen een probleem opleveren. Het embedde font moet namelijk wel over het euroteken beschikken en het id daarvan moet bekend zijn. Als de tekst als image is opgeslagen, heb je helemaal een uitdaging.

vrijdag 26 mei 2017 17:07

Acties:

MikeT80

Topicstarter

RiDo78 schreef op vrijdag 26 mei 2017 @ 17:04:
[...]

Dat is een lastige . . .

Het PDF-formaat an-sich is vrij simpel, maar wat TS wil kan programmeertechnisch best wel een uitdaging worden. Afhankelijk van de PDF zullen er best wel programma's zijn die een eind kunnen komen.

Dat komt omdat teksten op verschillende manieren in een PDF-document zijn op te slaan:
1 - als eenvoudige ASCII string
2 - als strings bestaande uit font-character-id's
3 - als afbeelding

In het eerste geval zal het zoeken vrij simpel zijn. Decodeer (deflate) de content-objecten en de tekst wordt zichtbaar. Als het een string bestaande uit font-character-id's betreft dan ben je afhankelijk van de ToUnicode objecten voor de mapping tussen unicode-character-id en de font-character-id. Ontbreken die, dan zul je aan OCR moeten doen (of, als het telkens documenten uit dezelfde bron zijn, zelf een mapping maken). In als ze als afbeelding zijn opgeslagen, rest enkel OCR.

Het vervangen kan knap vervelend zijn. Aangezien het euroteken niet voorkomt in de ASCII-set, zit je vast aan de strings met font-character-id referenties. Ascii-strings zul je dan moeten omzetten, maar ook als de teksten die al in dat formaat staan kunnen een probleem opleveren. Het embedde font moet namelijk wel over het euroteken beschikken en het id daarvan moet bekend zijn. Als de tekst als image is opgeslagen, heb je helemaal een uitdaging.

Het euro teken is ook maar een voorbeeld...
Het gaat om een bepaald stuk tekst vervangen door andere tekst.

Tevens om een bepaald stuk tekst compleet te verwijderen (Vervangen door niks)

vrijdag 26 mei 2017 17:12

Acties:

begintmeta

Moderator General Chat

RiDo78 schreef op vrijdag 26 mei 2017 @ 17:04:
...
Het PDF-formaat an-sich is vrij simpel, maar wat TS wil kan programmeertechnisch best wel een uitdaging worden. Afhankelijk van de PDF zullen er best wel programma's zijn die een eind kunnen komen.

Dat komt omdat teksten op verschillende manieren in een PDF-document zijn op te slaan:
1 - als eenvoudige ASCII string
2 - als strings bestaande uit font-character-id's
3 - als afbeelding
...

Dat klopt uiteraard, het kan veel complexer zijn, ik ging voor het goede humeur maar uit van een best-case scenario. Zonder meer info over om wat voor pdfs het gaat, is het ook koffiedikkijken

vrijdag 26 mei 2017 17:52

Acties:

RoamingZombie

Watching the sheeple...

Zit er serieus geen find and replace functie op?

Edit: Versie XI moet dit kunnen:

Choose Edit > Find to open the Find dialog box. Click Replace With to expose the Replace With text box. Type the text you want to find and enter the replacement text. Click Next to locate the first instance of the word or phrase, or click Replace to automatically find and replace the first instance.

[ Voor 77% gewijzigd door RoamingZombie op 26-05-2017 17:53 ]

Ninety percent of everything is crap.

vrijdag 26 mei 2017 21:49

Acties:

PageFault

Als het font subsetted is, zitten niet alle tekens in de pdf, alleen de gebruikte. Dit zorgt er voor dat je niet zondermeer kunt vervangen.

Ik zou vanuit acrobat opslaan als een editable format en vanuit daar je aanpassingen doen en er weer een pdf van bakken.

zaterdag 27 mei 2017 08:02

Acties:

MikeT80

Topicstarter

RoamingZombie schreef op vrijdag 26 mei 2017 @ 17:52:
Zit er serieus geen find and replace functie op?

Edit: Versie XI moet dit kunnen:

Choose Edit > Find to open the Find dialog box. Click Replace With to expose the Replace With text box. Type the text you want to find and enter the replacement text. Click Next to locate the first instance of the word or phrase, or click Replace to automatically find and replace the first instance.

Klopt, maar dit is per gevonden resultaat...
Dus elke keer vervang, vervang, vervang
(Er is geen vervang alles)

[ Voor 5% gewijzigd door MikeT80 op 27-05-2017 08:12 ]

zaterdag 27 mei 2017 08:21

Acties:

MikeT80

Topicstarter

Blijkbaar ben ik niet de enige die dit wil:
A-PDF heeft verschillende tools om pdf te bewerken.
Ook een simpele tool om in heel veel bestanden tekst te vervangen:
Afbeeldingslocatie: http://www.a-pdf.com/text-replace/a-pdf-text-replace-large.jpg

Afbeeldingslocatie: http://www.a-pdf.com/text-replace/a-pdf-text-replace-large.jpg

http://www.a-pdf.com/text-replace/index.htm

zaterdag 27 mei 2017 10:59

Acties:

Creepy

Tactical Espionage Splatterer

Ik krijg nu niet het idee dat je daadwerkelijk zelf iets wil ontwikkelen. Dus waarom je je topic in Programming plaatsts is mij een raadsel. Daarnaast zou je in eerste instantie zelf opzoek moeten gaan naar software die je wilt gebruiken, en dat lijk je ook niet gedaan te hebben (je geeft dat in elk gevl nergens aan). Ik zal dan ook je topic moeten sluiten.

"I had a problem, I solved it with regular expressions. Now I have two problems". That's shows a lack of appreciation for regular expressions: "I know have _star_ problems" --Kevlin Henney

Pagina: 1

Dit topic is gesloten.