het bestand
robots.txt wordt gedownload door de zoekmachines, en bepaald aan de hand van dat bestand waar die wel of niet mag komen.
Dit is op basis van directory-niveau. Even als voorbeeld van de frontpage, bijvoorbeeld:
Disallow: /pricewatch/
Dat houd in dat de zoemachines dus niet de pricewatch in mogen. Maar er is ook een onderdeel nieuws. Waar de zoekmachines dus wel mag komen.
Met de meta-tag, bepaal je op pagina-niveau wat er wel en niet mag. Het gebruik van deze meta-tags geeft je iets meer controle over wat wel en niet mag. Je kan dus zeggen dat er wel geindexeerd mag worden, maar links niet gevolgd mogen worden. Of wel indexeren, links wel volgen, maar niet cachen. De laatste optie gebruik ik op al mijn pagina's. Want ik ben van mening, als een pagina niet beschikbaar is, heeft dat een reden, en dan is het ook niet de bedoeling dat die pagina via de cache nog te zien is.
Ik gebruik zowel een robots.txt als meta-tags. Ik gebruik een CMS, en de hele site loopt over 1 bestand, te weten index.php. Ik moet dus op pagina-niveau bepalen wat een zoekmachine mag doen. In m'n robots.txt blokkeer ik een aantal bestanden, met name m'n XML-feeds, omdat ik laatste zag dat de zoekmachines die ook doorzochten. Op zich is dat niet erg, maar als iemand iets zocht wat op m'n site stond, en dus ook in m'n feeds, werd er in 70% van de gevallen m'n feeds als results gegeven. En die feeds zijn dus niet bedoeld om door een browser geopend te worden.
Ook de bestanden die ik als downloads aanbied die in een apparte directory staan heeft een zoekmachine niets te schaften. Maar een PDF of een Word-doc is niet een HTML-bestand, dus daar kan je geen meta-tags aan toevoegen.
Hoop dat het zo een beetje duidelijk is voor je