[algemeen] Brood tekst filteren uit webpagina? - Softwareontwikkeling

dinsdag 19 april 2005 16:00

Acties:

Verwijderd

Topicstarter

Ik ben bezig met m'n eigen zoekmachinetje en heb nu een spider die de html van bepaalde sites download. Maar nu zou ik graag de "brood tekst" van een webpagina willen hebben. Maar een pagina bestaat niet alleen uit tekst, er staan overal linkjes, plaatjes, enzovoorts.

Dat heb ik opgelost door gewoon alle tags te filteren en dan blijft de tekst over die geen link is en de eigenlijke brood tekst. Maar nu staat er op webpagina's ook tekst zoals:
"Kijk hier eens mijn nieuwe links"
(daaronder allemaal links)

Nu filter ik dus wel alle links eruit, maar de tekst "Kijk hier eens mijn nieuwe links" blijft staan, maar die tekst is geen deel van de brood tekst, dus die moet er eigenlijk ook uit. Nu weet ik dat google automatisch kan detecteren waar de broodtekst begint en eindigt.

Heeft iemand een idee hoe ik dat kan doen?

[edit] Voor de mensen die niet weten wat brood tekst is, dat is de eigenlijke content van een pagina. Kijk naar:
http://www.nu.nl/news/514...rlijk_volgen_agenten.html
Brood tekst begint bij "Man opgepakt voor hinderlijk volgen agenten" en eindigt bij "justitie moet beslissen wat er met de man gaat gebeuren."

[ Voor 20% gewijzigd door Verwijderd op 19-04-2005 16:03 ]

dinsdag 19 april 2005 16:05

Acties:

Alarmnummer

-= Tja =-

[alg]
In welke taal zet je de zoekmachine op? En wat voor features gaan erin komen? Maak je gebruik van een eigen geschreven zoekengine? Of maak je gebruik van een bestaande?

dinsdag 19 april 2005 16:14

Acties:

Verwijderd

Topicstarter

Hallo alarmnummer, de taal is niet zo belangrijk, het gaat me meer om hoe je theoretisch het aanpakt, code kan ik zelf wel verzinnen

De zoekmachine zoekt hoofdzakelijk door engelse woorden. Ik maak gebruik van een nog te schrijven zoekmachine, ik ben nu met de spider/parser bezig die tekst levert aan de zoekmachine. Het zoekmachine deel is dus eigenlijk nog niet aan de orde, het gaat mij meer om hoe je broodtekst kunt detecteren uit een willekeurige webpagina, niet hoe een zoekmachine om gaat met de tekst.

dinsdag 19 april 2005 16:17

Acties:

flashin

Ik denk niet dat dat eenvoudig is.. Niet iedere website heeft dezelfde opbouw qua html (zoals wel zou moeten), dus is het lastig(/misschien onmogelijk) om te weten wat inhoudelijk is en wat niet.

Wel zou je iets kunnen maken voor de websites die het semantisch wel goed aanpakken, wat er gelukkig steeds meer worden

dinsdag 19 april 2005 16:20

Acties:

Alarmnummer

-= Tja =-

Verwijderd schreef op dinsdag 19 april 2005 @ 16:14:
Hallo alarmnummer, de taal is niet zo belangrijk, het gaat me meer om hoe je theoretisch het aanpakt, code kan ik zelf wel verzinnen

Ok.. maar van taal tot taal zijn er al bestaande basis oplossingen. Ik ben zelf op dit moment bezig om een platform over Lucene heen te bouwen omdat ik niet geinteresseerd ben in alle lowlevel details

De zoekmachine zoekt hoofdzakelijk door engelse woorden. Ik maak gebruik van een nog te schrijven zoekmachine, ik ben nu met de spider/parser bezig die tekst levert aan de zoekmachine. Het zoekmachine deel is dus eigenlijk nog niet aan de orde, het gaat mij meer om hoe je broodtekst kunt detecteren uit een willekeurige webpagina, niet hoe een zoekmachine om gaat met de tekst.

Het was algemene interesse (vandaar ook [alg] erboven). Het was niet zozeer een opmerking over de broodtekst.

Ik zou eerlijk gezegd niet weten hoe de broodtekst eruit gefilterd wordt. Maar moet ook eerlijk toegeven dat ik op dit moment ook nog geen crawlers/spiders hebt gemaakt, maar alleen filescanners voor filesystemen.

dinsdag 19 april 2005 16:22

Acties:

Verwijderd

Topicstarter

Hallo flashin, het is inderdaad een niet gemakkelijk probleem. Het is wel eigenlijk wel de bedoeling dat het met de meest verschrikkelijke webpagina's werkt

Ik weet dat er een wetenschap is die zich bezig houd met dit soort zaken, zoals tekst analyzeren, maar officiele namen (en trefwoord) weet ik niet, dus google bied ook niet veel hulp.

dinsdag 19 april 2005 16:24

Acties:

dusty

Celebrate Life!

Broodtekst zoals google voor zijn nieuws service gebruikt is omdat elke site zijn eigen filter toegewezen krijgt, er is dus iemand geweest die naar elke site heeft gekeken en aan de hand daarvan heeft bepaald waar de begin en einde van broodtekst is.

Zover ik weet gebruikt google de gehele pagina voor de zoekmachine zelf, en is de broodtekst alleen van toepassing op hun nieuwssite.

Back In Black!
"Je moet haar alleen aan de ketting leggen" - MueR

dinsdag 19 april 2005 16:24

Acties:

Alarmnummer

-= Tja =-

Verwijderd schreef op dinsdag 19 april 2005 @ 16:22:
Hallo flashin, het is inderdaad een niet gemakkelijk probleem. Het is wel eigenlijk wel de bedoeling dat het met de meest verschrikkelijke webpagina's werkt

Ik weet dat er een wetenschap is die zich bezig houd met dit soort zaken, zoals tekst analyzeren, maar officiele namen (en trefwoord) weet ik niet, dus google bied ook niet veel hulp.

Wat je wel zou kunnen doen is de pagina`s na afloop (dus na het inlezen) met elkaar vergelijken en de stukken droppen die op iedere pagina voorkomen.

dinsdag 19 april 2005 16:25

Acties:

Verwijderd

Topicstarter

Alarmnummer schreef op dinsdag 19 april 2005 @ 16:20:
[...]

Ok.. maar van taal tot taal zijn er al bestaande basis oplossingen. Ik ben zelf op dit moment bezig om een platform over Lucene heen te bouwen omdat ik niet geinteresseerd ben in alle lowlevel details

Ik zou eerlijk gezegd niet weten hoe de broodtekst eruit gefilterd wordt. Maar moet ook eerlijk toegeven dat ik op dit moment ook nog geen crawlers/spiders hebt gemaakt, maar alleen filescanners voor filesystemen.

Klopt, ik heb lucene al vaak gebruikt, de syntax is erg krachtig en het is ook nog makkelijk te gebruiken. Ik heb wel eens spiders en crawlers gemaakt, maar dat was voor een gestructureerde data, die kun je parsen of deze houd zich aan regels (h1 = hoge prio, enz).
Toch bedankt voor je hulp!

dinsdag 19 april 2005 16:37

Acties:

djluc

Kan je dit niet baseren op de lengte van zinnen/alinea's? Dat lijkt me een redelijk algemene benadering. Een zin als "Hier de links:" Heeft dan geen kans tegenover een echte alinea tekst.

dinsdag 19 april 2005 16:39

Acties:

Alarmnummer

-= Tja =-

djluc schreef op dinsdag 19 april 2005 @ 16:37:
Kan je dit niet baseren op de lengte van zinnen/alinea's? Dat lijkt me een redelijk algemene benadering. Een zin als "Hier de links:" Heeft dan geen kans tegenover een echte alinea tekst.

Maar het kan wel veel belangrijke informatie bevatten. Ik zou echt een selectie doen op termen die op alle pagina`s voorkomen. Van die termen weet je toch dat ze nooit een zinnig zoekresultaat opleveren.

Neem de deelverzameling met termen die op alle pagina`s voorkomen. Alle termen die aan het einde overblijven zijn je niet brood termen (dus onzin termen).

[ Voor 22% gewijzigd door Alarmnummer op 19-04-2005 16:41 ]

dinsdag 19 april 2005 17:00

Acties:

Verwijderd

Topicstarter

Bedoel je met termen veel gebruikte woorden zoal lidwoorden e.d. of "check this out!" soort woorden? Dat zou kunnen, maar ik ben bang dat je teveel of juist te weinig weg filtert dan, kijk maar eens naar:

http://www.nu.nl/news/514...rlijk_volgen_agenten.html

Nu wil ik het verhaaltje over de agenten hebben. Maar rechts staat een stukje over elvis en een stukje over Secretaressedag, dat wil ik liever niet aan m'n zoekmachine geven, want iemand die dan zoekt op "elvis" wat toch een goed woord is die krijgt een verhaaltje over agenten te zien.

dinsdag 19 april 2005 17:03

Acties:

Verwijderd

Topicstarter

djluc schreef op dinsdag 19 april 2005 @ 16:37:
Kan je dit niet baseren op de lengte van zinnen/alinea's? Dat lijkt me een redelijk algemene benadering. Een zin als "Hier de links:" Heeft dan geen kans tegenover een echte alinea tekst.

Dat is inderdaad een goed idee, maar zou deze methode niet een inleiding/introductie er uit filteren? Hier moet ik nog een goed over nadenken!

dinsdag 19 april 2005 17:05

Acties:

Alarmnummer

-= Tja =-

Verwijderd schreef op dinsdag 19 april 2005 @ 17:00:
Bedoel je met termen veel gebruikte woorden zoal lidwoorden e.d.

Geen lidwoorden. Die kan er door een standaard filter wel uit gefilterd worden.

of "check this out!" soort woorden? Dat zou kunnen, maar ik ben bang dat je teveel of juist te weinig weg filtert dan, kijk maar eens naar:

Het hoeft geen absolute wegfiltering te zijn. Je zou de term-count ook omlaag kunnen brengen. Stel dat je op een pagina zit met in de kop het woord aap. En in de brood tekst het woord aap. Op alle pagina`s staat dus in de kop het woord aap.. maar op 1 pagina staat het ook in de brood tekst. Als je dan van alle pagina`s gaat bepalen hoe vaak het woord aap erin voorkomt, hiervan de laagste waarde neemt en dit van alle pagina`s aftrekt. Dan zal je dus op geen enkele pagina het woord aap nog tegenkomen, behalve op die pagina waar het ook in de broodtekst staat.

dinsdag 19 april 2005 17:06

Acties:

faabman

Kun je niet beter de hele tekst van een pagina overnemen en op de semantische betekenis van de html tags gaan bekijken aan welke teksten je de meeste waarden toekent? Dat is de manier waarop google gedeeltelijk werkt...

Op zoek naar een baan als Coldfusion webdeveloper? Mail me!

dinsdag 19 april 2005 17:36

Acties:

Tomatoman

Fulltime prutser

Voordat je verder gaat moet je je realiseren dat iedere oplossing die je verzint nadelen zal hebben en er bij een hoop sites een zootje van zal maken. Dat vraag is dan ook wat je een acceptabel resultaat verzint. Wil je dat je filter in 99% van de gevallen de 'juiste' broodtekst vindt, dan kun je bij voorbaat ophouden, dat gaat je nooit lukken. Vind je 85% acceptabel, dan kun je best een serieuze poging wagen.

Vertel eens iets over wat je een acceptabel resultaat vindt. Dit is bepalend voor de oplossingsrichting.

Een goede grap mag vrienden kosten.

dinsdag 19 april 2005 18:58

Acties:

Verwijderd

Topicstarter

Alarmnummer schreef op dinsdag 19 april 2005 @ 17:05:
Het hoeft geen absolute wegfiltering te zijn. Je zou de term-count ook omlaag kunnen brengen. Stel dat je op een pagina zit met in de kop het woord aap. En in de brood tekst het woord aap. Op alle pagina`s staat dus in de kop het woord aap.. maar op 1 pagina staat het ook in de brood tekst. Als je dan van alle pagina`s gaat bepalen hoe vaak het woord aap erin voorkomt, hiervan de laagste waarde neemt en dit van alle pagina`s aftrekt. Dan zal je dus op geen enkele pagina het woord aap nog tegenkomen, behalve op die pagina waar het ook in de broodtekst staat.

Dat klinkt interessant, ik ga hier naar kijken.

faabman, als de meeste pagina's rekening hielden met het gebruik van oa. h1 tm h6 dan zou dan een mooie oplossing zijn geweest, maar helaas niet iedereen is zo netjes.

tomatoman, ik ga natuurlijk voor de 100%, maar als dat niet mogelijk is (wat blijkt) dan is 85% wel goed, met welke methode behaal je dat?

dinsdag 19 april 2005 19:18

Acties:

dusty

Celebrate Life!

Verwijderd schreef op dinsdag 19 april 2005 @ 18:58:
[...]
tomatoman, ik ga natuurlijk voor de 100%, maar als dat niet mogelijk is (wat blijkt) dan is 85% wel goed, met welke methode behaal je dat?

Dat hangt natuurlijk af van wat voor zoekmachine je aan het maken bent. Is het een globale zal je dus een globale oplossing moeten gebruiken, ben je een meer specifieke zoekmachine aan het bouwen ( zoals nieuws ) kan je dus een meer specifieke methode gebruiken.

Back In Black!
"Je moet haar alleen aan de ketting leggen" - MueR

dinsdag 19 april 2005 19:19

Acties:

Verwijderd

Ik zat er zelf ook al aan te denken om zoiets te gaan maken. Maar nog geen zin gehad om te starten. Ik zat er zelf aan te denken om alle niet gewenste content uit een pagina weg te filteren en daar door bijna alleen de broodtekst over te houden.

Voor het detecteren van niet-broodtekst was ik het volgende van plan:
1) Op basis van ad-block list advertenties filteren. Host-files met ad- en counter-servers zijn vrij op internet verkrijgbaar.
2) Meerdere pagina's van een site met elkaar vergelijken. Als op alle pagina's op (ongeveer) dezelfde (DOM)-positie de zelfde afbeelding of tekst komt zijn dit wellicht logo's, menu's, footers etc.
3) Daarna lege cellen, div's, span's etc filteren om zo min mogelijk meuk over te houden.
4) Een GUI maken om het systeem te leren wat weg mag.
5) Database van standaard html-fragments/javascripts (bv die Macromedia preloaders) maken die gefilterd mogen worden.

dinsdag 19 april 2005 19:20

Acties:

Verwijderd

Topicstarter

dusty schreef op dinsdag 19 april 2005 @ 19:18:
[...]

Dat hangt natuurlijk af van wat voor zoekmachine je aan het maken bent. Is het een globale zal je dus een globale oplossing moeten gebruiken, ben je een meer specifieke zoekmachine aan het bouwen ( zoals nieuws ) kan je dus een meer specifieke methode gebruiken.

Zou je misschien een paar methodes kunnen opnoemen, of een paar trefwoorden kunnen geven waarmee ik met google aan de gang kan?

dinsdag 19 april 2005 19:26

Acties:

Verwijderd

Topicstarter

Verwijderd schreef op dinsdag 19 april 2005 @ 19:19:
Ik zat er zelf ook al aan te denken om zoiets te gaan maken. Maar nog geen zin gehad om te starten. Ik zat er zelf aan te denken om alle niet gewenste content uit een pagina weg te filteren en daar door bijna alleen de broodtekst over te houden.

Voor het detecteren van niet-broodtekst was ik het volgende van plan:
1) Op basis van ad-block list advertenties filteren. Host-files met ad- en counter-servers zijn vrij op internet verkrijgbaar.
2) Meerdere pagina's van een site met elkaar vergelijken. Als op alle pagina's op (ongeveer) dezelfde (DOM)-positie de zelfde afbeelding of tekst komt zijn dit wellicht logo's, menu's, footers etc.
3) Daarna lege cellen, div's, span's etc filteren om zo min mogelijk meuk over te houden.
4) Een GUI maken om het systeem te leren wat weg mag.
5) Database van standaard html-fragments/javascripts (bv die Macromedia preloaders) maken die gefilterd mogen worden.

Dank je voor je puntjes, ik zal ze kort beantwoorden:
1. alle plaatjes gaan bij mij al meteen naar de prullebak

2. dat ga ik toch ook een keer proberen, dit punt werd al eerder in de thread aangegeven. Het probleem wat je hier moet omzeilen is dat bij dynamisch gegeneerde pagina net een lettertje of woordje anders kan zijn. Dus dan moet ik iets van fuzzy matching implementeren, maar ik weet niet of dat wel het goede is, want fuzzy matching is volgens mij alleen voor woorden die hetzelfde betekenen/klinken.
3. ik filter al alle tags

misschien later een apart pad voor h1 en soortgelijke tags.
4. oei, handmatig tunen, voor de echt die hards

5. zie puntje 4.

dinsdag 19 april 2005 19:33

Acties:

Gomez12

En puntje 3.1 hoort als extra notitie denk ik bij : een beetje pagina met absolute div heeft maar een absolute div met een hoofdtekst. Hier kunnen wel relatieve divs inzitten, maar ik denk dat 99% van de pagina's (als ze absolute divs gebruiken) maar een absoluut div heeft met een broodtekst. En als je op 1 pagina deze div vind kan je op de rest van de pagina de andere divs wegflikkeren, want de broodtekst hoeft niet altijd in dezelfde div te zitten ( denk aan review / news divs )

Maar zowiezo niet alle tags wegflikkeren, hoe krom ze ook gebruikt zijn, ze kunnen nog best iets zeggen over de tekst. H1 is "altijd" belangrijker dan H6.

En goede logging bijhouden / sites bannen want als je ziet dat mensen 50x op onzin.nl uitkomen dan werkt en jouw zoekmachine verkeerd ( of webmaster van onzin.nl heeft verkeerde tags staan ) en de mensen kunnen niet vinden wat ze zoeken, dus eruit met die site.

En als laatste tip : kijk eens goed naar google cache, want dit is volgens mij hoe google spidert, dus kijk gewoon wat er in de cache zelf staat.

[ Voor 38% gewijzigd door Gomez12 op 19-04-2005 19:41 ]

dinsdag 19 april 2005 19:38

Acties:

Verwijderd

Verwijderd schreef op dinsdag 19 april 2005 @ 19:26:
2. dat ga ik toch ook een keer proberen, dit punt werd al eerder in de thread aangegeven. Het probleem wat je hier moet omzeilen is dat bij dynamisch gegeneerde pagina net een lettertje of woordje anders kan zijn. Dus dan moet ik iets van fuzzy matching implementeren, maar ik weet niet of dat wel het goede is, want fuzzy matching is volgens mij alleen voor woorden die hetzelfde betekenen/klinken.

Fuzzy algoritmes werken in het algemeen met kansen ipv true/false vandaar ook de naam fuzzy. Ik heb op mijn werk een algoritme gemaakt dan op basis van woordeindes bepaald (ion, ing, ong, ijn, eaux etc) welke taal een stuk tekst kan hebben en dat werk vrij aardig.

Eenzelfde soort algoritme kun je verzinnen om te bepalen of iets broodtekst of overig is. Je zou bijvoorbeeld woorden als "zie, ook, klik, hier, copyright, menu, ga, naar, reageer" kunnen tellen en kijken hoeveel procent dat is van het teksfragment waar ze in staan en op basis daar van bepalen of iets wel of niet weg moet. Ook de verhouding lidwoorden en bijwoorden versus zelfstandige naamwoorden versus werkwoorden zegt iets over de tekst. In menu-tekst komen meestal weinig tot geen lid-en bij-woorden voor.

Ik zou overigens niet meteen alle tags wegsmijten, want dan heb je geen referentiekader meer voor welke tekst bij elkaar hoort en dan wordt bepalen of een bepaalde tekst broodtekst is of niet lastig. Bijvoorbeeld teksten in een smalle kolom zijn meestal navigatie-teksten. Maar als je alle tags weggooid heb je geen manier om te zien dat de kolom smal is.

dinsdag 19 april 2005 22:16

Acties:

Tomatoman

Fulltime prutser

Ik denk dat je een heel aardig resultaat kunt bereiken (> 85% correct beoordeeld

) als je gebruikmaakt van een database met eerdere beoordelingen en een combinatie van eenvoudige beoordelingscriteria. Ieder beoordelingscriterium levert een score op. Een positieve score duidt op broodtekst, een negatieve score op het tegendeel. De totaalscore van alle criteria levert de uiteindelijke classificatie op.

Die eenvoudige beoordelingscriteria laten zich gemakkelijk in de vorm van fuzzy logic gieten om de betrouwbaarheid te verhogen. Als je de database vult met representatieve pagina's die je eenmalig handmatig beoordeelt heb je bovendien een mooie trainingsset voor de fuzzy logic.

Je kunt bovendien een paar knock-outcriteria toevoegen om een eerste selectie te maken voordat je het beoordelingssysteem aan het werk zet om een pagina te beoordelen. In het diagram hieronder heb ik zo'n criterium toegevoegd in de vorm van het aantal woorden in het document. Dit knock-outcriterium classificeert pagina's met heel veel of juist heel weinig woorden direct en werkt als een soort filter om het beoordelingssysteem niet onnodig veel werk te laten doen.

Afbeeldingslocatie: http://img226.echo.cx/img226/390/beslissysteem4cz.gif

Afbeeldingslocatie: http://img226.echo.cx/img226/390/beslissysteem4cz.gif

Een goede grap mag vrienden kosten.

woensdag 20 april 2005 13:24

Acties:

Verwijderd

Topicstarter

Ik moest je reactie 2 keer lezen voordat ik het begreep, maar nu snap ik het helemaal en het lijkt me een goede oplossing. Ik ga hem denk ik implementeren. Bedankt voor de duidelijke uitleg! $_/-\o_$

woensdag 20 april 2005 20:05

Acties:

H!GHGuY

Try and take over the world...

kun je niet gewoon de eigenschappen van html gebruiken?

tekst zet je meestal binnen <p></p> tags, dus je weet dat je die tekst als 1 geheel moet beschouwen.
daarbinnen kun je dan gaan filterenen met een filtersysteem zoals die van tomatoman.
dan houd je nog over: 1 pagina met enkele alinea's tekst. is de tekst te weinig om een broodtekst te kunnen zijn, dan gooi je alsnog de hele pagina weg (je houdt wel bij dat ie geindexeerd is natuurlijk)

ook kun je <h> tags extra waarden geven/apart behandelen

voor pagina's die met tabellen werken voor pagina-layout, kun je op basis van de grote van de inhoud van een cel beslissen of welke aandacht eraan besteed wordt:
1-2 woorden => kernwoorden die de tekst kort beschrijven
3-x woorden => meestal nutteloze en weinigzeggende tekst (evt scannen op kernwoorden)
x+1 -oneindig => belangrijke tekst die bekeken moet worden.

net door de markup van HTML kun je veel 'meta'-informatie uit de pagina halen.

[ Voor 8% gewijzigd door H!GHGuY op 20-04-2005 20:05 ]

ASSUME makes an ASS out of U and ME

woensdag 20 april 2005 21:10

Acties:

gorgi_19

Kruimeltjes zijn weer op :9

HIGHGuY schreef op woensdag 20 april 2005 @ 20:05:
kun je niet gewoon de eigenschappen van html gebruiken?

tekst zet je meestal binnen
tags, dus je weet dat je die tekst als 1 geheel moet beschouwen.
daarbinnen kun je dan gaan filterenen met een filtersysteem zoals die van tomatoman.
dan houd je nog over: 1 pagina met enkele alinea's tekst. is de tekst te weinig om een broodtekst te kunnen zijn, dan gooi je alsnog de hele pagina weg (je houdt wel bij dat ie geindexeerd is natuurlijk)

ook kun je tags extra waarden geven/apart behandelen

voor pagina's die met tabellen werken voor pagina-layout, kun je op basis van de grote van de inhoud van een cel beslissen of welke aandacht eraan besteed wordt:
1-2 woorden => kernwoorden die de tekst kort beschrijven
3-x woorden => meestal nutteloze en weinigzeggende tekst (evt scannen op kernwoorden)
x+1 -oneindig => belangrijke tekst die bekeken moet worden.

net door de markup van HTML kun je veel 'meta'-informatie uit de pagina halen.

Lees de draad eens?

Ik ben bezig met m'n eigen zoekmachinetje en heb nu een spider die de html van bepaalde sites download. Maar nu zou ik graag de "brood tekst" van een webpagina willen hebben. Maar een pagina bestaat niet alleen uit tekst, er staan overal linkjes, plaatjes, enzovoorts.

Oftewel: hij heeft er geen invloed op met de opmaak?

Digitaal onderwijsmateriaal, leermateriaal voor hbo

zaterdag 23 april 2005 15:02

Acties:

H!GHGuY

Try and take over the world...

gorgi_19 schreef op woensdag 20 april 2005 @ 21:10:
[...]

Lees de draad eens?

[...]

Oftewel: hij heeft er geen invloed op met de opmaak?

hij zegt nu dat hij eerst alle html tags filtert
en dan verder kijkt...

Verwijderd schreef op dinsdag 19 april 2005 @ 16:00:Dat heb ik opgelost door gewoon alle tags te filteren en dan blijft de tekst over die geen link is en de eigenlijke brood tekst.

ik zeg: gebruik eerst de tags om de tekst die je wil te isoleren, en verwijder ze dan pas.

ASSUME makes an ASS out of U and ME

Pagina: 1

Reageer