Wget gebruiken om pdf's te downloaden - Linux en overige clients

maandag 19 maart 2012 13:51

Acties:

Topicstarter

Op de website van mijn werkgever staan handboeken welke regelmatig aangepast worden. Via de website, na inloggen, kan ik stuk voor stuk die handboeken gewoon downloaden. Nu wil ik echter met Wget dat "automatisch" voor elkaar krijgen, maar ik loop tegen wat problemen aan.

Het gaat om een X aantal PDF's op een paar plekken op hun server. De format van die boeken is:

code:

1	Handboek-incl-revisionX.pdf

Waarbij de "X" steeds oploopt na een update van dat boek.

Ik heb voor elkaar om met Wget een specifieke PDF op de server te verkrijgen, inclusief "inloggen":

code:

1	wget --user=user --password=wachtwoord https://www8.xxx.com/xxx/xx/manuals/handboek%20Incl%20Revision%201.pdf --no-check-certificate

(uiteraard wat aangepast vanwege veiligheid.)
Hij geeft in de output "error401 UnAuthorized" aan, met als vervolg "reusing existing connection to..." maar download wel de bedoelde PDF.
http://i40.tinypic.com/1535elt.jpg

Ik heb het ook voor elkaar om een lijst van PDF's, opgenomen in een list.txt bestandje door Wget te laten downloaden door middel van

code:

1	-i list.txt

Wederom geeft hij de "401 UnAuthorized" aan, maar ook nu krijg ik alle PDF's op de lijst gewoon binnen.

Op zich doet dit wat ik voor ogen had, maar ik wil het me makkelijker maken. Als er een handboek aangepast wordt, gaat de filename van "InclRevision01" naar "InclRevision02". Ik moet dan handmatig in mijn list.txt alle filenames aanpassen naar de huidige.

Wat ik dus liever heb, is dat Wget alle PDF's op de serverfolder download zonder dat ik een naam moet opgeven. Op die locatie staan alleen de PDF's die ik ook daadwerkelijk wil en met de optie -N lijkt hij alleen de PDF's te dowloaden die werkelijk nieuwer zijn dan diegenen die al op mijn HDD staan om zo onnodig dataverbruik te vermijden.

Via de manual kwam ik op de "-A.pdf" optie om alle pdf's op een opgegeven locatie te downloaden, maar dat geeft problemen.

Wat fout gaat aan:

code:

1	wget -A.pdf https://www8.xxx.com/xxx/xx/boeken/ --user:user --password=wachtwoord --no-check-certificate

is dat hij uit een diepere folder (/boeken/forms) een "all documents.aspx" gaat downloaden.

Het grote verschil in output is dat ook hier Wget komt met de "401 UnAuthorized", "reusing connection to...", maar dan volgt met een "302 redirect", waarna hij de diepere folder (/forms) laat zien waar hij die .aspx uithaalt.
http://i39.tinypic.com/iwqatk.jpg

Hoe krijg ik het nu voor elkaar dat hij uit de folder met de PDF's dus alle PDF's weghaalt zonder de naam te specificeren?

maandag 19 maart 2012 20:22

Acties:

CAPSLOCK2000

zie teletekst pagina 888

Ik weet het niet zeker, maar misschien is de optie "--level" wel wat je zoekt.

This post is warranted for the full amount you paid me for it.

dinsdag 20 maart 2012 21:07

Acties:

Thc_Nbl

je moet de referer meegeven van je site, dan zou het moeten werken.

ehhh.. noppes

dinsdag 20 maart 2012 22:31

Acties:

CyBeR

💩

Die 401 is om je login-gegevens niet te lekken aan servers die er helemaal niet om vragen, en om erachter te komen wat voor authenticatie die server eigenlijk wel niet van je wil.

[ Voor 33% gewijzigd door CyBeR op 20-03-2012 22:35 ]

All my posts are provided as-is. They come with NO WARRANTY at all.

woensdag 21 maart 2012 17:48

Acties:

Fly-guy

Topicstarter

CyBeR schreef op dinsdag 20 maart 2012 @ 22:31:
Die 401 is om je login-gegevens niet te lekken aan servers die er helemaal niet om vragen, en om erachter te komen wat voor authenticatie die server eigenlijk wel niet van je wil.

Ok, dus dat is niet onderdeel van het probleem...(?)

Thc_Nbl schreef op dinsdag 20 maart 2012 @ 21:07:
je moet de referer meegeven van je site, dan zou het moeten werken.

CAPSLOCK2000 schreef op maandag 19 maart 2012 @ 20:22:
Ik weet het niet zeker, maar misschien is de optie "--level" wel wat je zoekt.

Mmm, zal eens naar beide kijken. Vraag me wel af waarom een referer nodig zou zijn voor alle PDF's maar niet voor elke PDF afzonderlijk. En voor zover ik uit de manual kan lezen zou hij zonder --level wel de "diepte" in gaan, maar uit elke folder wel de juiste bestanden halen alvorens de diepere folder in te gaan en dat is nu net iets wat hij niet doet...

[ Voor 55% gewijzigd door Fly-guy op 21-03-2012 17:51 ]

woensdag 21 maart 2012 17:49

Acties:

CyBeR

💩

Fly-guy schreef op woensdag 21 maart 2012 @ 17:48:
[...]

Ok, dus dat is niet onderdeel van het probleem...(?)

Inderdaad. Wat ik wilde zeggen dus, is dat dat gedrag normaal is.

All my posts are provided as-is. They come with NO WARRANTY at all.