Van *.pdf naar *.txt omzetten

Pagina: 1
Acties:
  • 327 views sinds 30-01-2008
  • Reageer

Acties:
  • 0 Henk 'm!

  • Motrax
  • Registratie: Februari 2004
  • Niet online

Motrax

Profileert

Topicstarter
Zat tools, betaald of niet betaald te vinden om bestanden te converteren naar pdf, maar ik wil het juist andersom. Ik heb een aantal pdf bestanden die ik omgezet wil hebben naar .txt. Waarom? Ik heb een rocket ebook die alleen txt fatsoenlijk slikt en momenteel een kudde pdf bestanden van mijn werk die ik aan het doorlezen ben.

Maar helaas... er zijn wel tools, maar die zijn betaald, trial versies enz. Ik ga liever op de legale toer, maar tot nu toe niks gevonden.

GSview dat zo makkelijk pdf bestanden kan opdelen, kan helaas het niet exporteren naar tekst... Open Office nog niet naar gekeken, maar daar betwijfel ik van of die functionaliteit er in zit.

Wie o wie kan me helpen?

☻/
/▌
/ \ Analyseert | Modelleert | Valideert | Solliciteert | Generaliseert | Procrastineert | Epibreert |


Acties:
  • 0 Henk 'm!

  • Rone
  • Registratie: April 2002
  • Niet online

Rone

Moderator Tweaking
Easy PDF to Text Converter

[ Voor 12% gewijzigd door Rone op 01-10-2006 17:21 ]

PC1: 9800X3D + RTX 5080
PC2: 5800X3D + RTX 3080


Acties:
  • 0 Henk 'm!

  • brokenp
  • Registratie: December 2001
  • Laatst online: 14:21
Of gebruik ps2ascii vanuit Ghostscript die kan dit ook... (ook gratis)

Acties:
  • 0 Henk 'm!

  • job
  • Registratie: Februari 2002
  • Laatst online: 24-06 12:41

job

In adobe acrobat professional kan ik teksten gewoon selecteren en naar het klembord kopieren met ctr+C. Daarna is deze tekst met ctr+V natuurlijk gewoon in kladblok te zetten.

Genoeg bedrijven die adobe acrobat professional hebben, maar misschien de jouwe niet.

[ Voor 22% gewijzigd door job op 01-10-2006 17:49 ]


Acties:
  • 0 Henk 'm!

  • Motrax
  • Registratie: Februari 2004
  • Niet online

Motrax

Profileert

Topicstarter
Tool werkt... maar... maakt per pagina een nieuwe txt file. Aangezien ik een slordige 3000 pagina's heb, is dat geen optie. Hoe heb je die tool gevonden?
brokenp schreef op zondag 01 oktober 2006 @ 17:24:
Of gebruik ps2ascii vanuit Ghostscript die kan dit ook... (ook gratis)
ps2ascii, pdf2ps... maakt allemaal niet uit. GS wil niet (meer) werken op mijn systeem. Dat terwijl Ghostgum/GSview nog wel goed werkt. Foutmelding is zo standaard (geen foutmelding eigenlijk...) dat ik er niet verder mee kom. Ook het oproepen van de helpfile zorgt voor dezelfde foutmelding, ergens is er iets goed mee mis. Jammer, want ik weet dat het hier wel mee zou moeten kunnen... Ghostgum/GSview heeft de optie niet om te converteren naar .txt, wel van pdf naar ps en van ps naar pdf.
job schreef op zondag 01 oktober 2006 @ 17:48:
In adobe acrobat professional kan ik teksten gewoon selecteren en naar het klembord kopieren met ctr+C. Daarna is deze tekst met ctr+V natuurlijk gewoon in kladblok te zetten.

Genoeg bedrijven die adobe acrobat professional hebben, maar misschien de jouwe niet.
Ik kan wel vanuit een onbeveiligd document alles naar kladblok zetten, maar dan worden alle kop en voetteksten meegenomen, plus de paginanummers, of bedoel je iets anders?

☻/
/▌
/ \ Analyseert | Modelleert | Valideert | Solliciteert | Generaliseert | Procrastineert | Epibreert |


Acties:
  • 0 Henk 'm!

  • Rone
  • Registratie: April 2002
  • Niet online

Rone

Moderator Tweaking
Motrax schreef op zondag 01 oktober 2006 @ 19:03:
[...]
Hoe heb je die tool gevonden?
Dat was niet zo moeilijk. Gewoon via Google :)

[ Voor 20% gewijzigd door Rone op 01-10-2006 19:18 ]

PC1: 9800X3D + RTX 5080
PC2: 5800X3D + RTX 3080


Acties:
  • 0 Henk 'm!

  • Motrax
  • Registratie: Februari 2004
  • Niet online

Motrax

Profileert

Topicstarter
r00n schreef op zondag 01 oktober 2006 @ 19:18:
[...]

Dat was niet zo moeilijk. Gewoon via Google :)
Net iets andere zoektermen dus. Maar goed, 4-5 tooltjes later en nog steeds niks. Resultaten die terug komen zijn of van trials of van text naar pdf.

Ik begin me inmiddels mateloos te irriteren aan de marketingtermen die ik tegenkom: "Download for free". Ja duh, de download is gratis, het gebruik van het programma niet... en de trials zijn ook al beroerd, de eerste 2 pagina's van een document worden omgezet... nee daar heb je wat aan :P

[ Voor 28% gewijzigd door Motrax op 01-10-2006 19:55 ]

☻/
/▌
/ \ Analyseert | Modelleert | Valideert | Solliciteert | Generaliseert | Procrastineert | Epibreert |


Acties:
  • 0 Henk 'm!

  • Mastermind
  • Registratie: Februari 2000
  • Laatst online: 12:53
OmniFormat van Software995 kan het mee. Die converteert het met OCR dus ik heb gezien dat er soms een spatie teveel tussen staat.

http://www.google.com/sea...at&btnG=Google+zoeken&lr=

[ Voor 22% gewijzigd door Mastermind op 01-10-2006 20:00 ]


Acties:
  • 0 Henk 'm!

  • brokenp
  • Registratie: December 2001
  • Laatst online: 14:21
Waarom probeer je Ghostscript niet aan de praat te krijgen? Misschien een herinstallatie o.i.d?

Acties:
  • 0 Henk 'm!

  • Motrax
  • Registratie: Februari 2004
  • Niet online

Motrax

Profileert

Topicstarter
Mastermind schreef op zondag 01 oktober 2006 @ 19:59:
OmniFormat van Software995 kan het mee. Die converteert het met OCR dus ik heb gezien dat er soms een spatie teveel tussen staat.

http://www.google.com/sea...at&btnG=Google+zoeken&lr=
Bij dat pakket was ik inmiddels ook al aangekomen. Document van 44 pagina's wil nog wel rap worden omgezet, maar bij de grote documenten, 1 van 500 pagina's, daar ging het heeel traag mee. Maar goed, het werkt.
brokenp schreef op zondag 01 oktober 2006 @ 19:59:
Waarom probeer je Ghostscript niet aan de praat te krijgen? Misschien een herinstallatie o.i.d?
Omdat het een standaard installatie is, omdat ik een dusdanig vage foutmelding krijg (geen) dat ik er niks mee kan. GSview kan trouwens ook text extracten, maar die gaf weer een specifieke foutmelding (invalid xref entry) over een fout in het pdf bestand. Misschien dat het de beveiliging was. Ook het opknippen in kleinere bestanden werkte niet: de nieuw aangemaakte bestanden konden niet door GSview geopend worden. Het gekke is dat ik er 'vroeger' geen problemen mee had.

Maar goed. Ik ga OmniFormat eens inzetten op een wat zwaardere pc dan mijn laptop hier. Eens kijken hoe ver ik er mee kom :)

Edit:
Dit zijn ongeveer de foutmeldingen die ik krijg:
GSview 4.7 2005-03-26
Extracting text using pstotext...
**** Warning: File has an invalid xref entry: 526. Rebuilding xref table.
Couldn't get PDF page count
Unrecoverable error: invalidaccess in put
Operand stack:
false --nostringval-- --nostringval-- --nostringval-- PermitFileReading --nostringval--
Unrecoverable error: invalidaccess in put
Operand stack:
false --nostringval-- --nostringval-- --nostringval-- PermitFileReading --nostringval-- true --nostringval-- --nostringval-- --nostringval-- PermitFileReading --nostringval--
Afbeeldingslocatie: http://img515.imageshack.us/img515/1755/naamloosih0.jpg
Of uberhaupt wat direct in GS, maakt niet uit. Opvragen van helpfile is al te moeilijk, laat staan een willekeurig ander commando.

[ Voor 24% gewijzigd door Motrax op 01-10-2006 20:34 ]

☻/
/▌
/ \ Analyseert | Modelleert | Valideert | Solliciteert | Generaliseert | Procrastineert | Epibreert |


Acties:
  • 0 Henk 'm!

  • leon1e
  • Registratie: December 2000
  • Laatst online: 23:15
In mijn acrobat kan ik gewoon, save as > txt doen heb jij deze optie niet? Of praat je nu over beveiligde bestanden? De save as functie kun je ook prima aansturen met autoit, dan heb je meteen een batch oplossing :).

Acties:
  • 0 Henk 'm!

  • vandermark
  • Registratie: Augustus 2005
  • Laatst online: 10:54
leon1e schreef op zondag 01 oktober 2006 @ 21:10:
In mijn acrobat kan ik gewoon, save as > txt doen heb jij deze optie niet? Of praat je nu over beveiligde bestanden? De save as functie kun je ook prima aansturen met autoit, dan heb je meteen een batch oplossing :).
Haha dat is een goeie, die werkt bij mij ook, wat zijn we hier toch goed om elkaar simpele oplossingen te geven, pluim voor leon1e _/-\o_ _/-\o_ _/-\o_ _/-\o_ _/-\o_

STRAVA | Panasonic 5kW J Monoblock


Acties:
  • 0 Henk 'm!

  • Motrax
  • Registratie: Februari 2004
  • Niet online

Motrax

Profileert

Topicstarter
leon1e schreef op zondag 01 oktober 2006 @ 21:10:
In mijn acrobat kan ik gewoon, save as > txt doen heb jij deze optie niet? Of praat je nu over beveiligde bestanden? De save as functie kun je ook prima aansturen met autoit, dan heb je meteen een batch oplossing :).
Ik denk dat je Professional hebt, hier atm alleen maar de viewer beschikbaar. Beveiliging maakt niet zoveel uit, die kan zomaar 'verdwijnen' ;)

Ik zal morgen eens op mijn werk kijken of ik aan Professional kan komen, ik ben an sich wel tevreden met OmniFormat, maar de regelafbrekingen kunnen beter. Voor op het e-book is dit namelijk nog wel lastig lezen als de regels niet goed worden afgebroken. Ik heb daar wel weer een programma voor, maar vervolgens is er nergens meer een regelafbreking gebruikt.

Voor degenen die geinteresseerd zijn:
Afbeeldingslocatie: http://images.amazon.com/images/P/B00000JSFS.01.LZZZZZZZ.gif
Deze dus. 4 mb geheugen, accu voor ongeveer nog een uur. Heerlijk lezen voor digitale documenten.

☻/
/▌
/ \ Analyseert | Modelleert | Valideert | Solliciteert | Generaliseert | Procrastineert | Epibreert |


Acties:
  • 0 Henk 'm!

  • job
  • Registratie: Februari 2002
  • Laatst online: 24-06 12:41

job

Motrax schreef op zondag 01 oktober 2006 @ 21:18:
[...]
Ik denk dat je Professional hebt, hier atm alleen maar de viewer beschikbaar.
Kijk daarom werkte mijn optie ook niet.
Met de professional kan je gewoon delen van zinnen selecteren, en als de pdf een afbeelding is kan je deze omzetten naar tekst.

Acties:
  • 0 Henk 'm!

  • Mastermind
  • Registratie: Februari 2000
  • Laatst online: 12:53
Motrax schreef op zondag 01 oktober 2006 @ 21:18:
[...]
Ik zal morgen eens op mijn werk kijken of ik aan Professional kan komen, ik ben an sich wel tevreden met OmniFormat, maar de regelafbrekingen kunnen beter. Voor op het e-book is dit namelijk nog wel lastig lezen als de regels niet goed worden afgebroken. Ik heb daar wel weer een programma voor, maar vervolgens is er nergens meer een regelafbreking gebruikt.
Als je het txt bestand in Word laadt, kun je alle Enter-tekens ineenkeer vervangen door niks. Of bepaalde andere tekens juist wel weer door een Enter (paragraaftekens). Zo heb ik het iig gedaan.
Pagina: 1