Ik ben bezig met m'n eigen zoekmachinetje en heb nu een spider die de html van bepaalde sites download. Maar nu zou ik graag de "brood tekst" van een webpagina willen hebben. Maar een pagina bestaat niet alleen uit tekst, er staan overal linkjes, plaatjes, enzovoorts.
Dat heb ik opgelost door gewoon alle tags te filteren en dan blijft de tekst over die geen link is en de eigenlijke brood tekst. Maar nu staat er op webpagina's ook tekst zoals:
"Kijk hier eens mijn nieuwe links"
(daaronder allemaal links)
Nu filter ik dus wel alle links eruit, maar de tekst "Kijk hier eens mijn nieuwe links" blijft staan, maar die tekst is geen deel van de brood tekst, dus die moet er eigenlijk ook uit. Nu weet ik dat google automatisch kan detecteren waar de broodtekst begint en eindigt.
Heeft iemand een idee hoe ik dat kan doen?
[edit] Voor de mensen die niet weten wat brood tekst is, dat is de eigenlijke content van een pagina. Kijk naar:
http://www.nu.nl/news/514...rlijk_volgen_agenten.html
Brood tekst begint bij "Man opgepakt voor hinderlijk volgen agenten" en eindigt bij "justitie moet beslissen wat er met de man gaat gebeuren."
Dat heb ik opgelost door gewoon alle tags te filteren en dan blijft de tekst over die geen link is en de eigenlijke brood tekst. Maar nu staat er op webpagina's ook tekst zoals:
"Kijk hier eens mijn nieuwe links"
(daaronder allemaal links)
Nu filter ik dus wel alle links eruit, maar de tekst "Kijk hier eens mijn nieuwe links" blijft staan, maar die tekst is geen deel van de brood tekst, dus die moet er eigenlijk ook uit. Nu weet ik dat google automatisch kan detecteren waar de broodtekst begint en eindigt.
Heeft iemand een idee hoe ik dat kan doen?
[edit] Voor de mensen die niet weten wat brood tekst is, dat is de eigenlijke content van een pagina. Kijk naar:
http://www.nu.nl/news/514...rlijk_volgen_agenten.html
Brood tekst begint bij "Man opgepakt voor hinderlijk volgen agenten" en eindigt bij "justitie moet beslissen wat er met de man gaat gebeuren."
[ Voor 20% gewijzigd door Verwijderd op 19-04-2005 16:03 ]