Ik heb een paar duizend pdf bestanden welke ik wil omzetten naar excel. De pdf bestanden zijn echter redelijk moeilijk te converteren.
Het gaat om vijf kolommen met gegevens. met daarboven een kop met nutteloze info.
Wat ik al geprobeerd heb:
Copy Paste => kolomen worden gescheiden door een spatie echter in de kolommen zelf staan al spaties. Verdere verwerking dus onmogelijk
PdfGrabber => Fantastisch conversie proggie, ik was zo enthausiast dat ik het onmiddelijk heb laten aanschaffen door mijn baas. Echter deze probeerd de layout mee te nemen en plaatst de kolommen niet correct onderelkaar en alsnog gaan dus de kolommen verloren.
Adobe Acrobat Export => alle mogelijke exports geprobeerd met adobe acrobat 5 en 6. de resultaten komen bijna elke keer neer op de platte text gescheiden door spaties net als bij de copy paste test.
Ik heb heeeel veel tijd besteed aan het schrijven van een parser voor de excel files die pdfgrabber aanmaakt. dit lukt aardig echter er zijn zoveel kleine inconsistenties in in de hoofd pdf file dat dit toch niet goed gaat worden.
Wie o wie kan er nog meer methodes bedenken om de originele data weer uit de pdf te toveren?
(de copy paste optie werkt nog het beste als de spaties tussen de kolommen maar een ander teken zouden worden zoals een ; of een tab)
en nee het is echt niet mogelijk om aan andere files te komen dan de pdf files. Het programma dat deze pfd files genereert kan niet iets anders generen
Het gaat trouwens om Onderdeellijsten gegenereerd uit een ontwerp applicatie.
Het gaat om vijf kolommen met gegevens. met daarboven een kop met nutteloze info.
Wat ik al geprobeerd heb:
Copy Paste => kolomen worden gescheiden door een spatie echter in de kolommen zelf staan al spaties. Verdere verwerking dus onmogelijk
PdfGrabber => Fantastisch conversie proggie, ik was zo enthausiast dat ik het onmiddelijk heb laten aanschaffen door mijn baas. Echter deze probeerd de layout mee te nemen en plaatst de kolommen niet correct onderelkaar en alsnog gaan dus de kolommen verloren.
Adobe Acrobat Export => alle mogelijke exports geprobeerd met adobe acrobat 5 en 6. de resultaten komen bijna elke keer neer op de platte text gescheiden door spaties net als bij de copy paste test.
Ik heb heeeel veel tijd besteed aan het schrijven van een parser voor de excel files die pdfgrabber aanmaakt. dit lukt aardig echter er zijn zoveel kleine inconsistenties in in de hoofd pdf file dat dit toch niet goed gaat worden.
Wie o wie kan er nog meer methodes bedenken om de originele data weer uit de pdf te toveren?
(de copy paste optie werkt nog het beste als de spaties tussen de kolommen maar een ander teken zouden worden zoals een ; of een tab)
en nee het is echt niet mogelijk om aan andere files te komen dan de pdf files. Het programma dat deze pfd files genereert kan niet iets anders generen
Het gaat trouwens om Onderdeellijsten gegenereerd uit een ontwerp applicatie.