Check alle échte Black Friday-deals Ook zo moe van nepaanbiedingen? Wij laten alleen échte deals zien

[php/?] urls uit tekst bestand downloaden

Pagina: 1
Acties:
  • 474 views

  • RSD
  • Registratie: Maart 2001
  • Laatst online: 08-02-2017
Op een server heb ik de beschikking over een tekst bestand/feed welke allemaal urls bevat naar bestanden op een andere server. Nu moet ik de bestanden allemaal downloaden naar de server toe op dagelijkse basis en al bestaande bestanden moeten overgeslagen worden. Nu kan ik zoiets met php maken en dan via een cronjob. Echter weet ik dan niet of de max_execution_time overschreden wordt. Het gaat namelijk over zo'n 4000 a 5000 bestanden a 150mb per stuk. Daarnaast moet je dan in php met file_get_contents de bestanden in een string lezen, wat ook niet echt fijn is volgens mij, omdat hij dan eerst 150mb in een string zet en dan pas opslaat.

Ik ben dus eigenlijk op zoek naar iets wat dit kan vervangen. Daarnaast heb ik geen toegang tot de server waar de bestanden op staan, omdat deze van een partner is welke geen toegang gaat verlenen. Ik moet de bestanden echt over http:// downloaden. Weet iemand hier misschien een oplossing voor? Bijvoorbeeld een soort van shell script wat alles ook makkelijk aan kan.

  • NMe
  • Registratie: Februari 2004
  • Laatst online: 20-11 11:59

NMe

Quia Ego Sic Dico.

wget?

'E's fighting in there!' he stuttered, grabbing the captain's arm.
'All by himself?' said the captain.
'No, with everyone!' shouted Nobby, hopping from one foot to the other.


  • CodeCaster
  • Registratie: Juni 2003
  • Niet online

CodeCaster

Can I get uhm...

Ik zou iets als curl nemen. Ik neem aan dat het jouw server is, dus de max_execution_time kun je gewoon verhogen.

Anders moet je in een shell-scriptje wget aanroepen met de juiste parameters. Met iets als dit moet dat lukken (uitgaand van Bash als ik de bron moet geloven):
while read line
do
wget $line
done


* CodeCaster mept NMe

[ Voor 7% gewijzigd door CodeCaster op 20-09-2010 19:39 ]

https://oneerlijkewoz.nl
Op papier is hij aan het tekenen, maar in de praktijk...


  • RSD
  • Registratie: Maart 2001
  • Laatst online: 08-02-2017
wget -i <file> download alle urls in het tekstbestand die gescheiden zijn door een newline. Ik zoek alleen nog iets dat hij controleert of het bestand al bestaat.

  • Voutloos
  • Registratie: Januari 2002
  • Niet online
Ben je niet gewoon rsync aan het nabouwen? ;)

{signature}


  • CodeCaster
  • Registratie: Juni 2003
  • Niet online

CodeCaster

Can I get uhm...

When running Wget without ‘-N’, ‘-nc’, ‘-r’, or ‘-p’, downloading the same file in the same directory will result in the original copy of file being preserved and the second copy being named ‘file.1’. If that file is downloaded yet again, the third copy will be named ‘file.2’, and so on. (This is also the behavior with ‘-nd’, even if ‘-r’ or ‘-p’ are in effect.) When ‘-nc’ is specified, this behavior is suppressed, and Wget will refuse to download newer copies of ‘file’.
:)

https://oneerlijkewoz.nl
Op papier is hij aan het tekenen, maar in de praktijk...


  • RSD
  • Registratie: Maart 2001
  • Laatst online: 08-02-2017
Maar als het bestand halverwege gestopt wordt met downloaden is deze niet helemaal compleet en zou deze dus wel verder gedownload moeten worden. Hiervoor is het commando '-c' volgens mij.

Ik ga dit morgen even testen. Nu heb ik even geen toegang. Het volgende zou dus een oplossing zijn:

wget -c -nc -i <file.txt>

Weet iemand nu al toevallig of dit gaat werken? Dan slaap ik wat rustiger straks, in file.txt staan dus urls naar bestanden die gedownload moeten worden ;-)

Heb het zelf toch kunnen testen: wget -c -i <file.txt> is voldoende ;-)

Het lijkt inderdaad op een soort van rsync, maar dit heeft verder geen extra installatie nodig aan de remote kant!

[ Voor 17% gewijzigd door RSD op 20-09-2010 19:54 ]


  • CMG
  • Registratie: Februari 2002
  • Laatst online: 10-12-2024

CMG

offtopic:
Ben wel benieuwd wat voor soort data het om gaat, 0.75TB per dag aan dataverkeer is niet mis, als dat elke dag nieuwe data is...

NKCSS - Projects - YouTube


  • HuHu
  • Registratie: Maart 2005
  • Niet online
CMG schreef op woensdag 22 september 2010 @ 00:43:
offtopic:
Ben wel benieuwd wat voor soort data het om gaat, 0.75TB per dag aan dataverkeer is niet mis, als dat elke dag nieuwe data is...
Afbeeldingslocatie: http://www.palestars.com/images/gallery/download_internet.gif

  • Woy
  • Registratie: April 2000
  • Niet online

Woy

Moderator Devschuur®
RSD schreef op maandag 20 september 2010 @ 19:37:
wget -i <file> download alle urls in het tekstbestand die gescheiden zijn door een newline. Ik zoek alleen nog iets dat hij controleert of het bestand al bestaat.
Het gaat hier in PRG over het zelf programmeren van applicaties. Op deze manier is het gewoon een scriptrequest en dat staan we hier niet toe. We zijn geen afhaal balie voor kant en klare tools. Ik zie in je topic verder ook niet wat je allemaal al geprobeerd/gezocht hebt, en wat daar niet mee wilde lukken. Zie ook De Quickstart

Deze gaat in ieder geval op slot.

“Build a man a fire, and he'll be warm for a day. Set a man on fire, and he'll be warm for the rest of his life.”

Pagina: 1

Dit topic is gesloten.