[PHP] Frame src uit webpagina

Pagina: 1
Acties:

Onderwerpen


Acties:
  • 0 Henk 'm!

Verwijderd

Topicstarter
Omdat ik nu enige tijd bezig benmet mijn zoekmachine heb ik nu het volgende probleem. Ik heb een database met daarin ongeveer >30.000 adressen van webpagina's . Die worden geindexeerd door mij. Bij elke pagina haal ik ook een gedeelte van de content op dat tussen de <body></body> tags staat. Wanneer een pagina een index.html achter haar url heeft staan waarin frames staan krijg ik dus alleen een frame src en bijna geen body terug.

Voorbeeld:
code:
1
2
3
4
5
6
7
8
9
10
11
<FRAMESET ROWS="25%,25%,25%,25%">  

    <FRAME SRC="frame1.htm"> 

    <FRAME SRC="frame2.htm">

    <FRAME SRC="frame3.htm">

    <FRAME SRC="frame4.htm">

  </FRAMESET>


Wat ik nu aan jullie wil vragen is, hoe zouden jullie het aanpakken om die content daar uit te krijgen? Ik zit te denken aan een expressie die de src van alle frames ophaalt en die vervolgens naloopt zoals mijn script dat bij elke pagina telkens doet.

PHP:
1
while (ereg("([<frameset]^.*)(.*)[<\/frameset>]$)",$content,$src)) { (niks) }


Is wat ik nu heb, maar dit werkt niet zoals het zou moeten :)

Iemand die mij kan helpen met die probleem?

Alvast bedankt

Acties:
  • 0 Henk 'm!

  • Spider.007
  • Registratie: December 2000
  • Niet online

Spider.007

* Tetragrammaton

PHP:
1
2
3
<?
while (ereg("([<frameset]^.*)(.*)[<\/frameset>]$)",$content,$src)) { (niks) }
?> 
Ziet er goed uit :) Waarom werkt hij niet dan? Zijn er geen alternatieven om dit soort tekst eruit te vissen?

---
Prozium - The great nepenthe. Opiate of our masses. Glue of our great society. Salve and salvation, it has delivered us from pathos, from sorrow, the deepest chasms of melancholy and hate


Acties:
  • 0 Henk 'm!

Verwijderd

Topicstarter
Waar nu staat "(niks)" heb ik vervangen door

PHP:
1
echo $src[0];


Om te zien wat ik terug kreeg van de expressie. Maar hij zet totaal niks in de array. ($content zit wel vol met gegevens).

Als er een andere manier is zou ik die heel graag willen weten want ik zit nu wel even vast op dit probleem :)

Acties:
  • 0 Henk 'm!

Verwijderd

Topicstarter
niemand? :(

Acties:
  • 0 Henk 'm!

  • Pietb
  • Registratie: Maart 2001
  • Niet online
Volgens mij kan je met Snoopy dit wel oplossen...

Acties:
  • 0 Henk 'm!

  • PrisonerOfPain
  • Registratie: Januari 2003
  • Laatst online: 26-05 17:08
kijk eens naar ssprinf als het met een regexp niet wil.
Pagina: 1