[PHP] Documenten doorzoeken op trefwoord

Pagina: 1
Acties:

Onderwerpen


Acties:
  • 0 Henk 'm!

  • Barracuda_82
  • Registratie: September 2001
  • Laatst online: 19-12-2024

Barracuda_82

mkTime(), not war!

Topicstarter
Ik ben een uitgebreide vacature/kandidaten systeem aan het programmeren voor een recruitmentbureau. Hiermee kan een kandidaat zich via een formulier aanmelden en in het CMS van de site kan een beheerder de kandidatenbank doorzoeken.

Nu kan een kandidaat bij het aanmelden ook een C.V. uploaden. Dit mogen allerlei verschillende gangbare document zijn. Word, pdf, txt, HTML, etc.

Nu is mijn probleem dat de klant ook wil dat er op trefwoord gezocht kan worden in deze documenten. De documenten worden gewoon in een speciale directory opgeslagen.

Ik heb geen flauw idee hoe ik dit voor elkaar moet krijgen. HTML en txtlukt me natuurlijk wel, maar Word, pdf en soortgelijke documenten krijg ik niet voor elkaar. Liefste zou ik willen dat een document na het uploaden helemaal gestript wordt en dat alleen de plain tekst opgeslagen word in de database (MySQL).

Wie weet er een oplossing voor mijn probleem?

Acties:
  • 0 Henk 'm!

  • Janoz
  • Registratie: Oktober 2000
  • Laatst online: 02:21

Janoz

Moderator Devschuur®

!litemod

php zal hiervoor niet toereikend zijn ben ik bang. text en html gaat met de string functies nog wel lukken, maar voor pdf en word document zijn afaik geen voor de hand liggende implementatie mogelijkheden in php.

In principe heb je twee mogelijkheden:
1 - Beperk het formaat waarin de CV aangeleverd kan worden, desnoods door mensen zelf hun CV te laten bouwen dmv textarea's ed
2 - Gebruik een externe (eventueel zelf ontwikkelde) tool voor het indexeren van de documenten.

Ken Thompson's famous line from V6 UNIX is equaly applicable to this post:
'You are not expected to understand this'


Acties:
  • 0 Henk 'm!

Verwijderd

Ik weet niet wat het precies wil zeggen, deze comment van php.net (te vinden onder de uitleg van de functie file()) maar wellicht heb je er wat aan;

code:
1
2
3
4
5
6
7
8
i tried for quite sometime to get my pdf to attach right some of you may want to try reading it as binary first then base 64 it.

//this did not work for me with a pdf file it came in garbled
$data = chunk_split(base64_encode(implode("", file($filelocation))));
//but tis seemed to make it work correctly
$data = fread($file,filesize($filelocation));
   fclose($file);
   $data = chunk_split(base64_encode($data));

Acties:
  • 0 Henk 'm!

  • Janoz
  • Registratie: Oktober 2000
  • Laatst online: 02:21

Janoz

Moderator Devschuur®

!litemod

Bovenstaande leest alleen de binaire filedata in en base64 encode-t het. Over de daadwerkel;ijke content kun je nog helemaal niks zeggen zonder dat je daadwerkelijk die binaire data gaat interpreteren. Een pdf parser in php schrijven lijkt mij echter toch iets teveel van het goede.

Ken Thompson's famous line from V6 UNIX is equaly applicable to this post:
'You are not expected to understand this'


Acties:
  • 0 Henk 'm!

  • NMe
  • Registratie: Februari 2004
  • Laatst online: 09-09 13:58

NMe

Quia Ego Sic Dico.

Ik heb nog even zitten kijken tussen de COM-class, maar volgens mij kun je daar alleen Word files mee wegschrijven en niet inlezen. Ook voor PDF's vind ik alleen maar classes die PDF's kunnen wegschrijven, maar inlezen lijkt niet echt mogelijk te zijn. Ik vind er in elk geval niets voor, helaas. :)

'E's fighting in there!' he stuttered, grabbing the captain's arm.
'All by himself?' said the captain.
'No, with everyone!' shouted Nobby, hopping from one foot to the other.


Acties:
  • 0 Henk 'm!

  • djluc
  • Registratie: Oktober 2002
  • Laatst online: 14:28
Kan je niet zo'n RTE veld gebruiken en dan laten copy-pasten vanuit word? Dat is wel iets ingewikkelder voor de gebruiker maar toch zeker te doen. Dan krijg je gewoon (zij het brakke) HTML binnen.

Acties:
  • 0 Henk 'm!

  • xces
  • Registratie: Juli 2001
  • Laatst online: 20-09 16:56

xces

To got or not to got..

www.fckeditor.net kan MS word vertalen naar (X)HTML, maar we dwalen af?

Acties:
  • 0 Henk 'm!

  • Gomez12
  • Registratie: Maart 2001
  • Laatst online: 17-10-2023
Gewoon zoeken naar shell-progjes die word omzetten naar tekst, pdf omzetten naar etc. Deze 2 bestaan zowiezo voor linux. En dan in je dbase en de text-versie en het origineel opslaan. Dan kan je de text-versie doorzoeken en kan de originele versie getoond worden.

Acties:
  • 0 Henk 'm!

  • PrisonerOfPain
  • Registratie: Januari 2003
  • Laatst online: 26-05 17:08
Gomez12 schreef op woensdag 22 juni 2005 @ 18:06:
Gewoon zoeken naar shell-progjes die word omzetten naar tekst, pdf omzetten naar etc.
doc2txt en pdf2txt zijn daar inderdaad geschikt voor. Misschien is het ook waard om even naar mnogosearch te kijken :)

Acties:
  • 0 Henk 'm!

  • stfn345
  • Registratie: Januari 2000
  • Laatst online: 17:59
anders gebruik je gewoon lekker grep :P met shell progjes idd.. zoals Gomez zegt..

`grep <tekst> <filename of wildcard>`;
Pagina: 1