[php] teksten vergelijken + overeenkomsten tellen / markeren

Pagina: 1
Acties:

Onderwerpen


Verwijderd

Topicstarter
Dag mensen,

ik ben al een tijdje aan het kijken hoe ik het volgende voor elkaar moet krijgen maar ik heb nog niet de juiste oplossing gevonden.

Ik wil middels php 2 teksten met elkaar vergelijken, overeenkomsten markeren en vervolgens aangeven hoeveel woorden overeenkomen. Enigszins vergelijkbaar met datgene wat copyscape doet.

Ik ben al bezig geweest met str_compare e.d. maar dat gaf me nog niet de juiste resultaten.

Nu zat ik zelf te denken aan similar_text. Deze returned een percentage van overeenkomsten.
Vervolgens zou ik woorden kunnen tellen m.b.v. count(explode(" ",$str)); o.i.d. en deze vermenigvuldigen met het percentage van similar_text.
Dat voelt alleen niet helemaal correct aan.

Waar ik ook tegen aan loop is de relevantie van de resultaten.
Ik kan een originele tekst bijv. exploden... waarbij dan het lidwoord ' de ' eruit komt.
Vervolgens kan dan dat woord gezocht en geteld worden in een tweede tekst... maar hoe relevant is dat woordje dan in de context?

Ik hoor graag hoe jullie hier tegenaan kijken!

  • orf
  • Registratie: Augustus 2005
  • Nu online

orf

Met twee functies moet je heel ver kunnen komen:

str_word_count() (let op de optionele argumenten)
array_intersect()

Acties:
  • 0 Henk 'm!

  • Krooswijk.com
  • Registratie: Mei 2000
  • Laatst online: 17-08-2024
Zomaar een paar dingetjes waar je rekening mee kunt houden:
- Simpelweg een lijst met common words aan maken die je niet meeneemt.
- Korte woorden (bv length<3) niet meenemen.
- Rekening houden met diacrieten die in de ene tekst wel en in de andere niet voorkomen.
- Rekening houden met spelfouten kan met Levenhstein edit distance algoritme.
- ...

Het gaat er volgende mij dus om, of woorden met betekenis in beide teksten voorkomen en om op basis daarvan een relevantie percentage te bepalen. Zou hier zelf eerst goed omschrijven wat je precies wil meenemen, daar wat testjes mee uitvoeren en kijken of de uitkomst percentages (ook t.o.v. elkaar) correct zijn. De php functies die daar verder meekomen lijken daarna wel makkelijk te vinden.