[php/?] urls uit tekst bestand downloaden - Softwareontwikkeling

maandag 20 september 2010 19:20

Acties:

Topicstarter

Op een server heb ik de beschikking over een tekst bestand/feed welke allemaal urls bevat naar bestanden op een andere server. Nu moet ik de bestanden allemaal downloaden naar de server toe op dagelijkse basis en al bestaande bestanden moeten overgeslagen worden. Nu kan ik zoiets met php maken en dan via een cronjob. Echter weet ik dan niet of de max_execution_time overschreden wordt. Het gaat namelijk over zo'n 4000 a 5000 bestanden a 150mb per stuk. Daarnaast moet je dan in php met file_get_contents de bestanden in een string lezen, wat ook niet echt fijn is volgens mij, omdat hij dan eerst 150mb in een string zet en dan pas opslaat.

Ik ben dus eigenlijk op zoek naar iets wat dit kan vervangen. Daarnaast heb ik geen toegang tot de server waar de bestanden op staan, omdat deze van een partner is welke geen toegang gaat verlenen. Ik moet de bestanden echt over http:// downloaden. Weet iemand hier misschien een oplossing voor? Bijvoorbeeld een soort van shell script wat alles ook makkelijk aan kan.

maandag 20 september 2010 19:21

Acties:

NMe

Quia Ego Sic Dico.

wget?

'E's fighting in there!' he stuttered, grabbing the captain's arm.
'All by himself?' said the captain.
'No, with everyone!' shouted Nobby, hopping from one foot to the other.

maandag 20 september 2010 19:24

Acties:

CodeCaster

Stop AI Slop

Ik zou iets als curl nemen. Ik neem aan dat het jouw server is, dus de max_execution_time kun je gewoon verhogen.

Anders moet je in een shell-scriptje wget aanroepen met de juiste parameters. Met iets als dit moet dat lukken (uitgaand van Bash als ik de bron moet geloven):

while read line
do
wget $line
done

* CodeCaster mept NMe

[ Voor 7% gewijzigd door CodeCaster op 20-09-2010 19:39 ]

maandag 20 september 2010 19:37

Acties:

RSD

Topicstarter

wget -i <file> download alle urls in het tekstbestand die gescheiden zijn door een newline. Ik zoek alleen nog iets dat hij controleert of het bestand al bestaat.

maandag 20 september 2010 19:38

Acties:

Voutloos

Ben je niet gewoon rsync aan het nabouwen?

{signature}

maandag 20 september 2010 19:39

Acties:

CodeCaster

Stop AI Slop

quote: http://www.gnu.org/softwa...ons.html#Download-Options
When running Wget without ‘-N’, ‘-nc’, ‘-r’, or ‘-p’, downloading the same file in the same directory will result in the original copy of file being preserved and the second copy being named ‘file.1’. If that file is downloaded yet again, the third copy will be named ‘file.2’, and so on. (This is also the behavior with ‘-nd’, even if ‘-r’ or ‘-p’ are in effect.) When ‘-nc’ is specified, this behavior is suppressed, and Wget will refuse to download newer copies of ‘file’.

maandag 20 september 2010 19:46

Acties:

RSD

Topicstarter

Maar als het bestand halverwege gestopt wordt met downloaden is deze niet helemaal compleet en zou deze dus wel verder gedownload moeten worden. Hiervoor is het commando '-c' volgens mij.

Ik ga dit morgen even testen. Nu heb ik even geen toegang. Het volgende zou dus een oplossing zijn:

wget -c -nc -i <file.txt>

Weet iemand nu al toevallig of dit gaat werken? Dan slaap ik wat rustiger straks, in file.txt staan dus urls naar bestanden die gedownload moeten worden ;-)

Heb het zelf toch kunnen testen: wget -c -i <file.txt> is voldoende ;-)

Het lijkt inderdaad op een soort van rsync, maar dit heeft verder geen extra installatie nodig aan de remote kant!

[ Voor 17% gewijzigd door RSD op 20-09-2010 19:54 ]

woensdag 22 september 2010 00:43

Acties:

CMG

offtopic:
Ben wel benieuwd wat voor soort data het om gaat, 0.75TB per dag aan dataverkeer is niet mis, als dat elke dag nieuwe data is...

NKCSS - Projects - YouTube

woensdag 22 september 2010 08:36

Acties:

HuHu

CMG schreef op woensdag 22 september 2010 @ 00:43:

offtopic:
Ben wel benieuwd wat voor soort data het om gaat, 0.75TB per dag aan dataverkeer is niet mis, als dat elke dag nieuwe data is...

Afbeeldingslocatie: http://www.palestars.com/images/gallery/download_internet.gif

woensdag 22 september 2010 09:05

Acties:

Woy

Moderator Devschuur®

RSD schreef op maandag 20 september 2010 @ 19:37:
wget -i <file> download alle urls in het tekstbestand die gescheiden zijn door een newline. Ik zoek alleen nog iets dat hij controleert of het bestand al bestaat.

Het gaat hier in PRG over het zelf programmeren van applicaties. Op deze manier is het gewoon een scriptrequest en dat staan we hier niet toe. We zijn geen afhaal balie voor kant en klare tools. Ik zie in je topic verder ook niet wat je allemaal al geprobeerd/gezocht hebt, en wat daar niet mee wilde lukken. Zie ook De Quickstart

Deze gaat in ieder geval op slot.

“Build a man a fire, and he'll be warm for a day. Set a man on fire, and he'll be warm for the rest of his life.”