Toon posts:

(meta)data extractie uit PDFs met python3

Pagina: 1

Acties:

227 views
Reageer

zaterdag 5 december 2015 00:06

Acties:

Boudewijn

omdat het kan

Topicstarter

Hoi

Voor een speelprojectje wil ik data uit PDFs halen in Python. Omdat Python2 wat mij betreft niet meer kan heb ik voorkeur voor Python3. Hier heb ik wat libs voor gevonden, maar niets echt goeds, want: niet python3, vooral voor pdf-generatie bedoeld.

Data extractie? Yup, ik wil in een django-interface metadata van de PDF verwerken (titel, auteur etc) en de PDF naar tekst omzetten en er dan dingen mee doen. Het aanmaken van PDFs is niet relevant voor mijn taak.
Ook wil ik dit direct in Python doen, pdfminer maakt een plaintext file voor je, dat is op zich aardig maar niet helemaal de bedoeling op dit moment. Na het parsen wil ik regexes gebruiken om te matchen op bijvoorbeeld IP-adressen.

Goed, ik heb gevonden:
[ul]
• PyPDF: Jammer, werkt niet op Python3.
• pdfrw: de auteur geeft hier aan dat het niet zijn bedoelign is: http://stackoverflow.com/...pdf-in-python-using-pdfrw
• textminer: geen Python objecten, maar gewoon plaintext. Dit kan ik evt wel parsen, maar dingen als line-endings is hier irritant, die breken je regex gewoon compleet. Dan heb ik liever een python string die bij printing al dan niet afgebroken wordt.
• Slate: dit schijnt ook niet vlekkeloos te installeren oor Python3. Ik ga er zo eens naar kijken. Die borkt ook op pdfminer als dep, met python2 problemen.
• Wellicht is pypdf2 ook nog wat : https://www.binpress.com/...ting-pdfs-with-python/167

Ik kan me niet voorstellen dat ik de enige ben met deze wensen. Heeft iemand een goede tip voor een handig Python library?

[ Voor 4% gewijzigd door Boudewijn op 05-12-2015 00:36 ]

Reageer