Ik ben al een hele tijd aan het brainstormen over een manier om alle mogelijke paden naar een bepaalde webpagina te vinden, vanaf een bepaalde startpagina (meestal de home van een website).
Hier bestaan vast diverse technieken voor, maar ik wil het wiel ook niet weer gaan heruitvinden. Neem als voorbeeld een bepaald artikel op amazon.com. Hiervoor zijn diverse mogelijkheden om uiteindelijk op dit item uit te komen. En ik wil weten welke allemaal...
Eén manier is het crawlen van de webpagina en er op die manier alle mogelijke links uit filteren waarin de bepaalde pagina voorkomt. Ik heb me laten vertellen dat dit heel wat werk met zich mee brengt als je dit deftig wil laten werken voor elk mogelijke beschikbare website.
Om dan nog maar niet te spreken over de hardware die het nodig heeft en de tijd om dit te bereiken
De bedoeling is om hier uiteindelijk een implementatie voor te gaan voorzien (in Java), en ik heb dan ook een eerste blik geworpen op het Nutch project. Maar heb eigenlijk totaal geen zicht over hoeveel werk we hier precies spreken... Heeft iemand daar een goed zicht op, die hij ook goed kan onderbouwen
Lijkt me dus een hele opgave te zijn.
Ik heb er iig een hele tijd over zitten denken, maar ben nog niet tot een goed besluit gekomen.
Alle hints zijn meer dan welkom!!
Externe programma's die het werk voor me doen mag natuurlijk ook
Ik wil voorlopig nog alle opties even open houden
Hier bestaan vast diverse technieken voor, maar ik wil het wiel ook niet weer gaan heruitvinden. Neem als voorbeeld een bepaald artikel op amazon.com. Hiervoor zijn diverse mogelijkheden om uiteindelijk op dit item uit te komen. En ik wil weten welke allemaal...
Eén manier is het crawlen van de webpagina en er op die manier alle mogelijke links uit filteren waarin de bepaalde pagina voorkomt. Ik heb me laten vertellen dat dit heel wat werk met zich mee brengt als je dit deftig wil laten werken voor elk mogelijke beschikbare website.
Om dan nog maar niet te spreken over de hardware die het nodig heeft en de tijd om dit te bereiken
De bedoeling is om hier uiteindelijk een implementatie voor te gaan voorzien (in Java), en ik heb dan ook een eerste blik geworpen op het Nutch project. Maar heb eigenlijk totaal geen zicht over hoeveel werk we hier precies spreken... Heeft iemand daar een goed zicht op, die hij ook goed kan onderbouwen
Lijkt me dus een hele opgave te zijn.
Externe programma's die het werk voor me doen mag natuurlijk ook
Ik wil voorlopig nog alle opties even open houden