Zeg, wijsneus met je gaapsmiley, dat mocht wel een heel stuk genuanceerder. Ja, google zal een robots.txt (doorgaans) respecteren maar voor elke crawler die een robots.txt respecteert zijn er zeker 10 die dat niet doen en dan nog eens een handvol die
juist alles wat je in een robots.txt mikkert gaan indexeren om te zien of er nog iets leuks te halen valt (zgn. malafide/kwaadaardige crawlers).
Een robots.txt maakt bepaalde zaken écht niet op magische wijze niet-indexeerbaar. Daarvoor dien je een fatsoenlijk mechanisme te gebruiken (of dat een .htaccess is of een ip-restrictie of een login of you_name_it is andere koek). Een robots.txt is niet veel meer dan een "dit-en-dat niet indexeren a.u.b.".
The Robot Exclusion Standard, also known as the Robots Exclusion Protocol or robots.txt protocol, is a convention to prevent cooperating web crawlers and other web robots from accessing all or part of a website which is otherwise publicly viewable.
...
Robots that choose to follow the instructions try to fetch this file and read the instructions before fetching any other file from the web site.
...
Disadvantages
The protocol is purely advisory. It relies on the cooperation of the web robot, so that marking an area of a site out of bounds with robots.txt does not guarantee privacy. Some web site administrators have tried to use the robots file to make private parts of a website invisible to the rest of the world, but the file is necessarily publicly available and its content is easily checked by anyone with a web browser, thus the locations of the private parts are obvious to outsiders, making this an insecure strategy.
emphasis mine
Het is leuk om Google 'buiten de deur te houden' (en in hoeverre een robots.txt nog gerespecteerd wordt nadat een file van diverse plaatsen gelinkt is weet ik niet) maar buiten Google, Bing en nog een paar anderen heb je nul komma nul "garantie" (voor zover je die dus überhaupt zou hebben).
[
Voor 45% gewijzigd door
RobIII op 19-09-2011 19:14
]
There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.
Je eigen tweaker.me redirect
Over mij