[PHP] PDF en Word documenten uitlezen

donderdag 8 maart 2007 14:12

Acties:

Topicstarter

Ik ben bezig met het maken van een webbased knowledgebase. Voorheen werd er vaak gebruik gemaakt van PDF en Word-documenten om de kennis te delen.
Nu vraag ik me af of het mogelijk is met PHP om een bepaalde directory op te geven en als je op en bepaald onderwerp zoekt dat er dan ook in pdf- en word-documenten gezocht kan worden op de inhoud. Ofwel eigenlijk moeten deze documenten uitgelezen worden en kijken of bepaalde zoektermen hierin voorkomen.
Het moet eigenlijk op ongeveer dezelfde manier zoals Windows Desktop Search en Google Desktop dit ook kunnen doen.

Ik weet dat er in PHP vele funties zijn voor PDF, maar voor het eigenlijk "inlezen" kom ik hier niet ver mee. Ook heb ik al even gekeken naar een programma zoals pdf2txt, maar hier kan ik niet veel mee.

Heeft iemand voor mij tips of een aanwijzing hoe ik dit het makkelijkste kan aanpakken.

donderdag 8 maart 2007 14:18

Acties:

Janoz

Moderator Devschuur®

!litemod

Php

Als je, voordat je begint te zoeken naar hoe je de tekst uit word en PDF documenten kunt halen, eerst eens na gaat denken over hoe je het zoeken eigenlijk van plan bent? Probeer in eerste instantie gewoon maar eens een proof of concept in elkaar te draaien die met enkel tekstbestanden werkt.

De onderdelen van deze opdracht waar je nu heel makkelijk over heen lijkt te stappen zijn bij lange na niet zo triviaal als jij schijnbaar denkt. De huidige oplossing die je voor ogen hebt wordt compleet onwerkbaar en veel te traag.

Ken Thompson's famous line from V6 UNIX is equaly applicable to this post:
'You are not expected to understand this'

donderdag 8 maart 2007 14:19

Acties:

Gonadan

Admin Beeld & Geluid, Harde Waren

Ik denk dat je er beter aan doet om je bestanden te indexeren.
Dus je leest ze een keer uit en indexeert welke keywords je er vindt.
Als je tijdens het zoeken al je documenten moet doorspitten dan gaat het zoeken erg lang duren.

Met dingen als pdf2txt enzo moet je volgens mij best een pdf kunnen lezen.

Look for the signal in your life, not the noise.

Canon R6 | RF 24-70 f/2.8 L | 50 f/1.8 STM | 430EX II
Sigma 85 f/1.4 Art | 100-400 Contemporary
Zeiss Distagon 21 f/2.8

donderdag 8 maart 2007 14:33

Acties:

noot101

Topicstarter

Janoz schreef op donderdag 08 maart 2007 @ 14:18:
Als je, voordat je begint te zoeken naar hoe je de tekst uit word en PDF documenten kunt halen, eerst eens na gaat denken over hoe je het zoeken eigenlijk van plan bent? Probeer in eerste instantie gewoon maar eens een proof of concept in elkaar te draaien die met enkel tekstbestanden werkt.

Ik heb het al geheel werkend met een database erachter waarin ik nu zoek. en als extra wil ik nu dus door pdf en word zoeken. Maar ik kan me inderdaad wel voorstellen dat het traag gaat worden. Daarom zou ik het zoeken in word en pdf als optie willen toevoegen.

[ Voor 16% gewijzigd door noot101 op 08-03-2007 14:34 ]

donderdag 8 maart 2007 14:35

Acties:

Janoz

Moderator Devschuur®

!litemod

Php

Als je het al werkend hebt met tekstbestanden, en dus gebruikt maakt van een database/index (wat niet uit je startpost op te maken is!). Waarom lukt het je dan niet met pdf2txt?

Ken Thompson's famous line from V6 UNIX is equaly applicable to this post:
'You are not expected to understand this'

donderdag 8 maart 2007 14:41

Acties:

Noork

Volgens Google is er ook een word2text. Dus dat probleem kun je ook eenvoudig oplossen.

donderdag 8 maart 2007 15:12

Acties:

noot101

Topicstarter

Janoz schreef op donderdag 08 maart 2007 @ 14:35:
Als je het al werkend hebt met tekstbestanden, en dus gebruikt maakt van een database/index (wat niet uit je startpost op te maken is!). Waarom lukt het je dan niet met pdf2txt?

Ik denk dat dit niet helemaal duidelijk is overgekomen. Ik zoek op het moment gewoon in text die in de database staat. Ik heb dus geen index o.i.d. van tekstbestanden in de database.

Maar als ik het goed begrijp zou ik dan met pdf2txt alle pdf's moeten omzetten naar txt en deze txt's dan in de database zetten, zodat ik dan weet welke woorden in de pdf voorkomen.

donderdag 8 maart 2007 15:14

Acties:

Janoz

Moderator Devschuur®

!litemod

Php

Dat is inderdaad het standaard startpunt voor een search engine. Vervolgens wordt er vaak nog met filterlijsten en indexen gewerkt, maar dit is ook geimplementeerd in mysql zelf (fulltext search).

Ken Thompson's famous line from V6 UNIX is equaly applicable to this post:
'You are not expected to understand this'

Onderwerpen