Omdat ik nu enige tijd bezig benmet mijn zoekmachine heb ik nu het volgende probleem. Ik heb een database met daarin ongeveer >30.000 adressen van webpagina's . Die worden geindexeerd door mij. Bij elke pagina haal ik ook een gedeelte van de content op dat tussen de <body></body> tags staat. Wanneer een pagina een index.html achter haar url heeft staan waarin frames staan krijg ik dus alleen een frame src en bijna geen body terug.
Voorbeeld:
Wat ik nu aan jullie wil vragen is, hoe zouden jullie het aanpakken om die content daar uit te krijgen? Ik zit te denken aan een expressie die de src van alle frames ophaalt en die vervolgens naloopt zoals mijn script dat bij elke pagina telkens doet.
Is wat ik nu heb, maar dit werkt niet zoals het zou moeten
Iemand die mij kan helpen met die probleem?
Alvast bedankt
Voorbeeld:
code:
1
2
3
4
5
6
7
8
9
10
11
| <FRAMESET ROWS="25%,25%,25%,25%"> <FRAME SRC="frame1.htm"> <FRAME SRC="frame2.htm"> <FRAME SRC="frame3.htm"> <FRAME SRC="frame4.htm"> </FRAMESET> |
Wat ik nu aan jullie wil vragen is, hoe zouden jullie het aanpakken om die content daar uit te krijgen? Ik zit te denken aan een expressie die de src van alle frames ophaalt en die vervolgens naloopt zoals mijn script dat bij elke pagina telkens doet.
PHP:
1
| while (ereg("([<frameset]^.*)(.*)[<\/frameset>]$)",$content,$src)) { (niks) } |
Is wat ik nu heb, maar dit werkt niet zoals het zou moeten
Iemand die mij kan helpen met die probleem?
Alvast bedankt