Hi,
Ik ben bezig met een (PHP) 'hobby' webapplicatie waarbij ik zoveel mogelijk geautomatiseert wil hebben. Een van de onderdelen is de spider/indexer. Deze spider navigeert en indexeert netjes over de links die het tegenkomt, rekeninghoudend met serverload en robots.txt.
Echter is er een potentieel probleem:
Als de spider een link tegenkomt naar www.een18plussite.com, dan gaat deze natuurlijk ook gewoon geindexeerd worden (inclusief weer links naar andere sites). Iets wat ik toch enigszins wil voorkomen. Wellicht ga ik sowieso nog een handmatige controle doen op de URL's (en dan alleen kijken naar domeinnamen), maar het zou toch wel handig zijn als dit grotendeels vanzelf kon - zonder al te veel false positives.
Nu kwam ik de Google safe browsing API tegen, maar die gaat alleen over phishing/malware sites. Verder heb ik niet echt wat kunnen vinden behalve software om je internet verbinding 'schoon' te houden voor kinderogen
.
Uiteraard kan ik gewoon zoeken op bepaalde keywords, maar de kans op fouten is enorm. Wellicht zat ik nog te denken aan een verhouding "foute woorden" tov. de totale content.
Heeft iemand suggesties? Of al eens iets hiervoor bedacht?
Ik ben bezig met een (PHP) 'hobby' webapplicatie waarbij ik zoveel mogelijk geautomatiseert wil hebben. Een van de onderdelen is de spider/indexer. Deze spider navigeert en indexeert netjes over de links die het tegenkomt, rekeninghoudend met serverload en robots.txt.
Echter is er een potentieel probleem:
Als de spider een link tegenkomt naar www.een18plussite.com, dan gaat deze natuurlijk ook gewoon geindexeerd worden (inclusief weer links naar andere sites). Iets wat ik toch enigszins wil voorkomen. Wellicht ga ik sowieso nog een handmatige controle doen op de URL's (en dan alleen kijken naar domeinnamen), maar het zou toch wel handig zijn als dit grotendeels vanzelf kon - zonder al te veel false positives.
Nu kwam ik de Google safe browsing API tegen, maar die gaat alleen over phishing/malware sites. Verder heb ik niet echt wat kunnen vinden behalve software om je internet verbinding 'schoon' te houden voor kinderogen
Uiteraard kan ik gewoon zoeken op bepaalde keywords, maar de kans op fouten is enorm. Wellicht zat ik nog te denken aan een verhouding "foute woorden" tov. de totale content.
Heeft iemand suggesties? Of al eens iets hiervoor bedacht?