H!,

Ik ben wat aan het testen met dmoz.org en heb deze vraag al ergens anders gevraagt maar geen antwoord gekregen dus probeer ik het hier.
Ik wil alle url's die in het bestand zitten van Dmoz.org
Dit is een xml RDF bestand van 1.7 GB
Ik heb een php script geschreven die de file leest en dan de urls er uit haalt , maar dat werkt niet.
//-- wat ik met php doe is
$adres = "2.xml";
if ($fp = fopen($adres, "r")){
// xml-file in delen binnenhalen en samenvoegen
$inhoud = "";
do {
$data = fread($fp, 8192);
if (strlen($data) == 0) {
break;
}
$inhoud .= $data;
} while(true);
fclose($fp);
en dan de $inhoud strippen tot ik de url heb.
//--
Maar dit werkt dus niet met 1.7GB
Ik zou geholpen zijn als:
- er een andere manier is binnen php om de url eruit te halen.
- de file in stukken kan verdelen
- misschien helemaal geen php gebruiken
Stukje voorbeeld code van dmoz:
==========================================================
<?xml version='1.0' encoding='UTF-8' ?>
<RDF xmlns:r="http://www.w3.org/TR/RDF/"
xmlns:d="http://purl.org/dc/elements/1.0/"
xmlns="http://dmoz.org/rdf">
<Topic r:id="Top/Arts/Movies/Titles/1/10_Rillington_Place">
<catid>205108</catid>
<link r:resource="http://www.britishhorrorfilms.co.uk/rillington.shtml"/>
<link r:resource="http://www.shoestring.org/mmi_revs/10-rillington-place.html"/>
<link r:resource="http://www.tvguide.com/movies/database/ShowMovie.asp?MI=22983"/>
<link r:resource="http://us.imdb.com/title/tt0066730/"/>
</Topic>
<ExternalPage about="http://www.britishhorrorfilms.co.uk/rillington.shtml">
<d:Title>British Horror Films: 10 Rillington Place</d:Title>
<d:Description>Review which looks at plot especially the shocking features of it.</d:Description>
<topic>Top/Arts/Movies/Titles/1/10_Rillington_Place</topic>
</ExternalPage>
</ExternalPage>
</RDF>
====================================================
Ik ben wat aan het testen met dmoz.org en heb deze vraag al ergens anders gevraagt maar geen antwoord gekregen dus probeer ik het hier.
Ik wil alle url's die in het bestand zitten van Dmoz.org
Dit is een xml RDF bestand van 1.7 GB
Ik heb een php script geschreven die de file leest en dan de urls er uit haalt , maar dat werkt niet.
//-- wat ik met php doe is
$adres = "2.xml";
if ($fp = fopen($adres, "r")){
// xml-file in delen binnenhalen en samenvoegen
$inhoud = "";
do {
$data = fread($fp, 8192);
if (strlen($data) == 0) {
break;
}
$inhoud .= $data;
} while(true);
fclose($fp);
en dan de $inhoud strippen tot ik de url heb.
//--
Maar dit werkt dus niet met 1.7GB
Ik zou geholpen zijn als:
- er een andere manier is binnen php om de url eruit te halen.
- de file in stukken kan verdelen
- misschien helemaal geen php gebruiken
Stukje voorbeeld code van dmoz:
==========================================================
<?xml version='1.0' encoding='UTF-8' ?>
<RDF xmlns:r="http://www.w3.org/TR/RDF/"
xmlns:d="http://purl.org/dc/elements/1.0/"
xmlns="http://dmoz.org/rdf">
<Topic r:id="Top/Arts/Movies/Titles/1/10_Rillington_Place">
<catid>205108</catid>
<link r:resource="http://www.britishhorrorfilms.co.uk/rillington.shtml"/>
<link r:resource="http://www.shoestring.org/mmi_revs/10-rillington-place.html"/>
<link r:resource="http://www.tvguide.com/movies/database/ShowMovie.asp?MI=22983"/>
<link r:resource="http://us.imdb.com/title/tt0066730/"/>
</Topic>
<ExternalPage about="http://www.britishhorrorfilms.co.uk/rillington.shtml">
<d:Title>British Horror Films: 10 Rillington Place</d:Title>
<d:Description>Review which looks at plot especially the shocking features of it.</d:Description>
<topic>Top/Arts/Movies/Titles/1/10_Rillington_Place</topic>
</ExternalPage>
</ExternalPage>
</RDF>
====================================================
// - bla la