Op de website van mijn werkgever staan handboeken welke regelmatig aangepast worden. Via de website, na inloggen, kan ik stuk voor stuk die handboeken gewoon downloaden. Nu wil ik echter met Wget dat "automatisch" voor elkaar krijgen, maar ik loop tegen wat problemen aan.
Het gaat om een X aantal PDF's op een paar plekken op hun server. De format van die boeken is:
Waarbij de "X" steeds oploopt na een update van dat boek.
Ik heb voor elkaar om met Wget een specifieke PDF op de server te verkrijgen, inclusief "inloggen":
(uiteraard wat aangepast vanwege veiligheid.)
Hij geeft in de output "error401 UnAuthorized" aan, met als vervolg "reusing existing connection to..." maar download wel de bedoelde PDF.
http://i40.tinypic.com/1535elt.jpg
Ik heb het ook voor elkaar om een lijst van PDF's, opgenomen in een list.txt bestandje door Wget te laten downloaden door middel van
Wederom geeft hij de "401 UnAuthorized" aan, maar ook nu krijg ik alle PDF's op de lijst gewoon binnen.
Op zich doet dit wat ik voor ogen had, maar ik wil het me makkelijker maken. Als er een handboek aangepast wordt, gaat de filename van "InclRevision01" naar "InclRevision02". Ik moet dan handmatig in mijn list.txt alle filenames aanpassen naar de huidige.
Wat ik dus liever heb, is dat Wget alle PDF's op de serverfolder download zonder dat ik een naam moet opgeven. Op die locatie staan alleen de PDF's die ik ook daadwerkelijk wil en met de optie -N lijkt hij alleen de PDF's te dowloaden die werkelijk nieuwer zijn dan diegenen die al op mijn HDD staan om zo onnodig dataverbruik te vermijden.
Via de manual kwam ik op de "-A.pdf" optie om alle pdf's op een opgegeven locatie te downloaden, maar dat geeft problemen.
Wat fout gaat aan:
Het grote verschil in output is dat ook hier Wget komt met de "401 UnAuthorized", "reusing connection to...", maar dan volgt met een "302 redirect", waarna hij de diepere folder (/forms) laat zien waar hij die .aspx uithaalt.
http://i39.tinypic.com/iwqatk.jpg
Hoe krijg ik het nu voor elkaar dat hij uit de folder met de PDF's dus alle PDF's weghaalt zonder de naam te specificeren?
Het gaat om een X aantal PDF's op een paar plekken op hun server. De format van die boeken is:
code:
1
| Handboek-incl-revisionX.pdf |
Waarbij de "X" steeds oploopt na een update van dat boek.
Ik heb voor elkaar om met Wget een specifieke PDF op de server te verkrijgen, inclusief "inloggen":
code:
1
| wget --user=user --password=wachtwoord https://www8.xxx.com/xxx/xx/manuals/handboek%20Incl%20Revision%201.pdf --no-check-certificate |
(uiteraard wat aangepast vanwege veiligheid.)
Hij geeft in de output "error401 UnAuthorized" aan, met als vervolg "reusing existing connection to..." maar download wel de bedoelde PDF.
http://i40.tinypic.com/1535elt.jpg
Ik heb het ook voor elkaar om een lijst van PDF's, opgenomen in een list.txt bestandje door Wget te laten downloaden door middel van
code:
1
| -i list.txt |
Wederom geeft hij de "401 UnAuthorized" aan, maar ook nu krijg ik alle PDF's op de lijst gewoon binnen.
Op zich doet dit wat ik voor ogen had, maar ik wil het me makkelijker maken. Als er een handboek aangepast wordt, gaat de filename van "InclRevision01" naar "InclRevision02". Ik moet dan handmatig in mijn list.txt alle filenames aanpassen naar de huidige.
Wat ik dus liever heb, is dat Wget alle PDF's op de serverfolder download zonder dat ik een naam moet opgeven. Op die locatie staan alleen de PDF's die ik ook daadwerkelijk wil en met de optie -N lijkt hij alleen de PDF's te dowloaden die werkelijk nieuwer zijn dan diegenen die al op mijn HDD staan om zo onnodig dataverbruik te vermijden.
Via de manual kwam ik op de "-A.pdf" optie om alle pdf's op een opgegeven locatie te downloaden, maar dat geeft problemen.
Wat fout gaat aan:
code:
is dat hij uit een diepere folder (/boeken/forms) een "all documents.aspx" gaat downloaden.1
| wget -A.pdf https://www8.xxx.com/xxx/xx/boeken/ --user:user --password=wachtwoord --no-check-certificate |
Het grote verschil in output is dat ook hier Wget komt met de "401 UnAuthorized", "reusing connection to...", maar dan volgt met een "302 redirect", waarna hij de diepere folder (/forms) laat zien waar hij die .aspx uithaalt.
http://i39.tinypic.com/iwqatk.jpg
Hoe krijg ik het nu voor elkaar dat hij uit de folder met de PDF's dus alle PDF's weghaalt zonder de naam te specificeren?