Ik heb de instructies op http://www.archive.org/about/faqs.php # The_Wayback_Machine gevolgd.
En mijn site toegevoegde aan http://www.dmoz.org/
Is er iets mis met mijn robots.txt-?
User-agent: *
# disallow all files in these directories
Disallow: /map1/
Disallow: /map2/
Disallow: /map3/
Disallow: /map4/
Disallow: /map5/
Disallow: /map6/
Disallow: /map7/
Disallow: /map8/
Disallow: /map9/
Disallow: /map10/
User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.extension$
Disallow: /*.extension$
Disallow: /*.txt$
# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*
# allow adsense bot on entire site
User-agent: Mediapartners-Google*
Disallow: /*?*
# allow archiving site
User-agent: ia_archiver
Disallow:
En hoe voorkom ik directory browsen?
Iedereen kan nu mijn mappen lezen die ik wil beschermen in www.domein.com/robots.txt.
En het robots.txt is geïndexeerd als tekstbestand op http://web.archive.org/web/*hh_/www.domein.com/robots.txt
Hoe kan ik dit verwijderen en voorkomen dat dit opnieuw wordt geïndexeerd?
(Disallow:/*.txt$)
Is er ook een andere User-agent als Googlebot waaraan ik moet denken in mijn robots.txt?
En mijn site toegevoegde aan http://www.dmoz.org/
Is er iets mis met mijn robots.txt-?
User-agent: *
# disallow all files in these directories
Disallow: /map1/
Disallow: /map2/
Disallow: /map3/
Disallow: /map4/
Disallow: /map5/
Disallow: /map6/
Disallow: /map7/
Disallow: /map8/
Disallow: /map9/
Disallow: /map10/
User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.extension$
Disallow: /*.extension$
Disallow: /*.txt$
# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*
# allow adsense bot on entire site
User-agent: Mediapartners-Google*
Disallow: /*?*
# allow archiving site
User-agent: ia_archiver
Disallow:
En hoe voorkom ik directory browsen?
Iedereen kan nu mijn mappen lezen die ik wil beschermen in www.domein.com/robots.txt.
En het robots.txt is geïndexeerd als tekstbestand op http://web.archive.org/web/*hh_/www.domein.com/robots.txt
Hoe kan ik dit verwijderen en voorkomen dat dit opnieuw wordt geïndexeerd?
(Disallow:/*.txt$)
Is er ook een andere User-agent als Googlebot waaraan ik moet denken in mijn robots.txt?