Ik zoek een (online?) tool die m'n site compleet kan crawlen en een lijst kan maken van alle URLs waarop een PDF te vinden is, en de bestandsnaam van die PDF.
Achtergrond: ik werk aan een nogal flinke site die stikt van de PDF's waarvan een deel verouderd is; echter aangezien jarenlang meerdere mensen aan de site gewerkt hebben is het nogal een doolhof; pagina voor pagina rondklikken is bijna niet aan te beginnen. De bestandsnaam van de PDF's kan me echter vertellen of het een 'oude' PDF betreft, als ik daarbij de URL van de linkende pagina heb weet ik welke pagina's gefixt moeten worden.
Eventueel kan ik ook zelf een crawlertje hosten (op een simpel LAMP hostingpakketje).
Kan iemand me een zetje in de goede richting geven?
Achtergrond: ik werk aan een nogal flinke site die stikt van de PDF's waarvan een deel verouderd is; echter aangezien jarenlang meerdere mensen aan de site gewerkt hebben is het nogal een doolhof; pagina voor pagina rondklikken is bijna niet aan te beginnen. De bestandsnaam van de PDF's kan me echter vertellen of het een 'oude' PDF betreft, als ik daarbij de URL van de linkende pagina heb weet ik welke pagina's gefixt moeten worden.
Eventueel kan ik ook zelf een crawlertje hosten (op een simpel LAMP hostingpakketje).
Kan iemand me een zetje in de goede richting geven?