[CF] text uit PDF-files lezen? - Softwareontwikkeling

woensdag 5 mei 2004 10:05

Acties:

Verwijderd

Topicstarter

Is er een manier (liefst met ColdFusion) om text uit PDF's te lezen?

Vast wel, want Google lukt het ook... Ben alleen al een week op zoek, zonder echt resultaat. Heb htdig gezien maar dat is weer wat overkill. Ook heb ik wat koopoplossingen (ColdFusion tags) gezien, maar -guess what?- het moet gratis.

Misschien anders een oplossing met PHP ofzo?

woensdag 5 mei 2004 10:10

Acties:

djexplo

Google:
http://www.google.nl/sear...=UTF-8&oe=UTF-8&hl=nl&lr=
http://www.google.nl/sear...-8&oe=UTF-8&q=pdf2txt&lr=

'if it looks like a duck, walks like a duck and quacks like a duck it's probably a duck'

woensdag 5 mei 2004 10:12

Acties:

djexplo

Verwijderd schreef op 04 februari 2002 @ 17:27:
Je hebt pfd2html en pdftohtml, de ene maakt een zut png's aan, en de ander converteert echt naar html, maar extract geen plaatjes, dat moet je dan met pdf images doen.

Maar PDF is niet echt bedoelt om weer omgezet te worden, alleen om geprint te worden of iets dergelijks.

'if it looks like a duck, walks like a duck and quacks like a duck it's probably a duck'

woensdag 5 mei 2004 10:15

Acties:

Verwijderd

Je kunt PDF gewoon inlezen, en dan moet je aan het strippen gaan.

Als je echt een zoek functionaliteit wilt bouwen op basis van de content in de PDF moet je eens kijken naar de geintegreerde Verity search

woensdag 5 mei 2004 10:22

Acties:

Verwijderd

Topicstarter

Ik hoef geen plaatjes en HTML, ik zou alleen de kale txt uit de PDF in een database veldje willen stoppen.

Wat betreft Verity, ik zit op CF5 op Linux en daarop kan Verity niet in PDF's kijken dus ik zal zelf wat moeten verzinnen, maar ik weet dus effe niet meer waar te beginnen!

[ Voor 25% gewijzigd door gorgi_19 op 05-05-2004 10:23 ]

woensdag 5 mei 2004 10:24

Acties:

gorgi_19

Kruimeltjes zijn weer op :9

Verwijderd schreef op 05 mei 2004 @ 10:22:
Ik hoef geen plaatjes en HTML, ik zou alleen de kale txt uit de PDF in een database veldje willen stoppen.

Wat betreft Verity, ik zit op CF5 op Linux en daarop kan Verity niet in PDF's kijken dus ik zal zelf wat moeten verzinnen, maar ik weet dus effe niet meer waar te beginnen!

HTML is in principe tekst, de tags kan je met regular expressions strippen?

Digitaal onderwijsmateriaal, leermateriaal voor hbo

woensdag 5 mei 2004 10:29

Acties:

Verwijderd

Topicstarter

Okay, I see.

Maar die ene gegeven link is ook al naar text zie ik (PDF2TXT), echter alleen geschikt voor Windows vrees ik, en mijn website met de PDF's draait op een Cobalt Linux server.

woensdag 5 mei 2004 10:30

Acties:

Verwijderd

Als je de Verity Search wilt gaan gebruiken op een linux omgeving en/of support erop wilt hebben van Macromedia dan kan je er beter niet aan gaan beginnen.

Kijk dan naar technieken die doorontwikkeld zijn. De verity engine die nu in ColdFusion zit is zwaar verouderd en werkt bijv niet meer op nieuwe linux environments (vanaf 7.2 voor Red Hat).

Tevens zijn de verity collections extreem traag als ze groter zijn dan zo'n 50 MB, je zou Lucene of een andere engine kunnen gebruiken, werken velen malen beter.

woensdag 5 mei 2004 10:38

Acties:

Verwijderd

Er zijn genoeg PDF libraries te vinden...

Zie http://www.planetpdf.com/mainpage.asp?WebPageID=450#pdflib

woensdag 5 mei 2004 11:39

Acties:

Verwijderd

Topicstarter

Thanks all!

Ik zal eens gaan kijken naar die extraction tools van Planet PDF. Bijvoorbeeld "PD Get Text". http://www.planetpdf.com/...bpageid=550&TBToolID=1892

Het zou mooi zijn als je dat via ColdFusion (of PHP) kan aansturen, dus in mijn geval dat als iemand een PDF upload, dat PD Get Text dan zijn werk gaat doen en de text uit de PDF kan halen...

edit// hmmz, ziet er niet naar uit dat dat gemakkelijk gaat lukken. kost ook geld...

[ Voor 13% gewijzigd door Verwijderd op 05-05-2004 11:41 ]

Pagina: 1

Reageer