[PHP] body probleem

Pagina: 1
Acties:

Onderwerpen


Acties:
  • 0 Henk 'm!

Verwijderd

Topicstarter
Beste mede-tweakers,

Nu ik vorder met mijn zoekmachine zit ik nu met het volgende probleem.

Elke keer dat er een nieuwe pagina wordt opgehaald door mijn script haal hij alles netjes uit elkaar en haalt hij ook netjes de body tussen de <body> en </body> tags op. Het probleem wat ik nu heb is dat ik wel heel leuk de body in me database heb staan maar die moet voor de tijd gestript worden van alle html tags, eventuele <script> en <style> blokken enzovoort.

De kernvraag is nu: Hoe doe ik dit zo snel mogelijk op een effectieve manier?

P.s de reden waarom ik dit wil is 1. De database wordt kleiner. 2. Om zo een samenvatting van de site te kunnen geven bij de resultaten waar het woord gevonden wordt.

Alvast bedankt.

Acties:
  • 0 Henk 'm!

  • Pathogen
  • Registratie: April 2004
  • Laatst online: 15-09 10:06

Pathogen

Shoop Da Whoop

ff gokje hoor, k weet niet of het werkt:
code:
1
2
$body="blabla<bla>bla";
$body = str_replace("<*>", "", $body";


OK ten eerste als het werkt werkt het maar op 1 vervanging nu
ten tweede weet ik niet of die functie wildcards wel accepteert...

Maar het is volgens mij wel de richting waar je in kna gaan zoeken

Acties:
  • 0 Henk 'm!

  • Spider.007
  • Registratie: December 2000
  • Niet online

Spider.007

* Tetragrammaton

---
Prozium - The great nepenthe. Opiate of our masses. Glue of our great society. Salve and salvation, it has delivered us from pathos, from sorrow, the deepest chasms of melancholy and hate


Acties:
  • 0 Henk 'm!

  • Pathogen
  • Registratie: April 2004
  • Laatst online: 15-09 10:06

Pathogen

Shoop Da Whoop


Acties:
  • 0 Henk 'm!

Verwijderd

Topicstarter
PHP:
1
2
3
4
5
6
function CleanBody() {
     $body[2] = str_replace("\n"," ",$body[2]);
     $body[2] = str_replace("\t"," ",$body[2]);
     $body[2] = str_replace("\r"," ",$body[2]);
     $body[2] = strip_tags($body[2]);
}


Deze functie had ik al, alleen had ik het idee dat dit niet de beste manier was. Maar volgens de antwoorden op mijn vraag door jullie blijkt het dus wel oke te zijn :). Ik heb het ook geprobeerd met een regexp op te lossen maar dat lukte niet echt.


- Nu ik toch een topic open heb... Weet iemand hoe ik snel een <frame src="blaat.html"> uit een pagina kan vissen zodat ik de content van die pagina ook opsla in de database?

[ Voor 23% gewijzigd door Verwijderd op 07-04-2004 09:19 ]


Acties:
  • 0 Henk 'm!

  • Spider.007
  • Registratie: December 2000
  • Niet online

Spider.007

* Tetragrammaton

---
Prozium - The great nepenthe. Opiate of our masses. Glue of our great society. Salve and salvation, it has delivered us from pathos, from sorrow, the deepest chasms of melancholy and hate


Acties:
  • 0 Henk 'm!

Verwijderd

Topicstarter
dank u zeer :)

Acties:
  • 0 Henk 'm!

  • NMe
  • Registratie: Februari 2004
  • Laatst online: 09-09 13:58

NMe

Quia Ego Sic Dico.

Verwijderd schreef op 07 april 2004 @ 09:18:
PHP:
1
2
3
4
5
6
function CleanBody() {
     $body[2] = str_replace("\n"," ",$body[2]);
     $body[2] = str_replace("\t"," ",$body[2]);
     $body[2] = str_replace("\r"," ",$body[2]);
     $body[2] = strip_tags($body[2]);
}
Je werkt met een global? Das echt vies joh, geef het gewoon als parameter door. Verder is dit een optie:
PHP:
1
2
3
4
function CleanBody($txt) {
     $txt = preg_replace("/[\t\r\n]/"," ",$txt);
     $txt = strip_tags($txt);
}
Verwijderd schreef op 07 april 2004 @ 09:18:
Ik heb het ook geprobeerd met een regexp op te lossen maar dat lukte niet echt.
PHP:
1
preg_replace("/<([A-Z][A-Z0-9]*)[^<>]*>(.*?)</\1>/i","", $txt);

Dat zou het ook gedaan moeten hebben volgens mij.

'E's fighting in there!' he stuttered, grabbing the captain's arm.
'All by himself?' said the captain.
'No, with everyone!' shouted Nobby, hopping from one foot to the other.

Pagina: 1