Ik wil graag de tekst uitlezen uit een PDF. Een aantal PDF's gaan goed en een aantal niet.
Ik gebruik de functie pdf2string uit http://nl3.php.net/manual/en/ref.pdf.php
In de kern doe ik het volgende:
Bij een bepaalde PDF krijg ik er alleen maar onleesbare troep, terwijl als ik in Foxit PDF reader klik op 'text viewer', krijg ik keurig platte tekst te zien die ik kan selecteren.
Ik heb echt geen idee waar ik het zoeken moet. Heb ik bijvoorbeeld een bepaalde library nodig of moet ik een PDF openen met een bepaalde parameter?
Ik gebruik de functie pdf2string uit http://nl3.php.net/manual/en/ref.pdf.php
In de kern doe ik het volgende:
code:
1
2
3
| $fp = fopen($sourcefile, 'r'); $content = fread($fp, filesize($sourcefile)); fclose($fp); |
Bij een bepaalde PDF krijg ik er alleen maar onleesbare troep, terwijl als ik in Foxit PDF reader klik op 'text viewer', krijg ik keurig platte tekst te zien die ik kan selecteren.
Ik heb echt geen idee waar ik het zoeken moet. Heb ik bijvoorbeeld een bepaalde library nodig of moet ik een PDF openen met een bepaalde parameter?