Nee, ik bedoel te zeggen dat ik dit topic discutabel vind, of althans te weinig aanknopingspunten zie dat dat niet zo is, en dus geen hulp verstrek.
Kenners weten veel trukjes om het probleem van de TS te omzeilen, maar in veel situaties worden dit soort massa-download acties wel ingebouwd, tenzij het niet de bedoeling is dat je dat doet.
De GGZ perikelen twee posts boven mij, en de eerdere vraag om meer specifieke informatie zijn niet beantwoord, dus dit lijkt mij een topic om een beetje voorzichtig mee om te springen.
Ik geef dus geen tips omdat ik de startpost (nog) niet vertrouw.
Edit naar aanleiding van DM van TS
(Ik heb wel gevraagd of hij het hier ook even kan verduidelijken, maar ik kan geen DMS gaan openbaren)
(Het gaat gewoon om een mol die wat politiedossiers wil hebben)
(Nee, grapje. Volgens mij is de TS wel te goedertrouw. Hij moet zelf maar even wat posten)
4.000 bestanden op de hand downloaden en verwerken (elders opslaan, in ander systeem hangen) is vragen om problemen. Het zal best dat 95% of iets meer op de goede plek terecht komt, maar je zal een nacontrole moeten doen om een 100% score te halen, en ik neem aan dat het oude systeem verdwijnt, dus op een gegeven moment -als de stekker eruit gaat- moet je 100% zeker weten dat je alle bestanden hebt, en goed verwerkt hebt.
In een fulltime werkweek zitten minder dan 4.000 minuten, dus als je er één per minuut doet moet je meer tijd incalculeren. Al gauw acht werkdagen. Eigenlijk moet de server beheerder dit dus gewoon in orde maken. Vanaf de kant van de database zou de informatie door een tijdelijk script veel sneller omgezet moeten kunnen worden in de eindproducten.
Daarnaast -als de urls een logische opbouw hebben, en je de volgende kunt raden, kun je een downloadmanager inzetten. Ik heb in de beginjaren van Fok! als grap ooit een keer in een uur tijd alle users gedownload met een downloadmanager, omdat de url's heel simpel zijn:
https://fok.nl/users/### waarbij die ### gewoon alle getallen tussen 1 en 5600 waren (lang geleden).
Als de urls geen logische opbouw hebben, en daar ga ik een beetje vanuit, wordt het gissen. Er zijn vanaf de pagina met alle namen twee clicks nodig, en die tweede pagina... Als die een link geeft naar een bestand op de server, maar zonder logische naam, zou je met een lokaal PHP script wel iets kunnen. Die voer je de pagina met alle namen, en hij ontrafelt de links met regex oid, haalt de pagina's op, en download alles. Helaas wordt dit ingewikkelder als je ingelogd moet zijn, en dit kun je niet zonder kennis. Ook is de kans aanwezig dat de download via AJAX gearrangeerd wordt, en dan heb je de scripts op de pagina zlef nodig om te kunnen downloaden. Dan kan dit sowieso niet. Daarnaast is de kans groot dat je na enkele downloads opeens geblocked wordt wegens het opvragen van teveel pagina's. Ik heb recent heel Funda en Jaap proberen leeg te halen om in een lokale database te proppen, en die sites hebben ook beveiliging tegen crawlers. Ze hebben door dat een non-human in rap tempo informatie aan het binnenharken is.
Ik denk dus dat je hogerhand de keuze voor moet leggen. Handwerk is veel tijd en onbetrouwbaar, laat ze we serverbeheerder inschakelen om daar met een scriptje jullie probleem op te lossen. Is veiliger en goedkoper, vermoedelijk.
[Voor 63% gewijzigd door TomsDiner op 19-02-2021 23:26]