Hoe robots.txt te gebruiken op website* - Softwareontwikkeling

donderdag 23 november 2006 15:45

Acties:

Topicstarter

Er heb op forum gezocht en via google.
Maar ik heb toch nog een paar vragen.

Als je robots.txt gebruik moet je dan nog een meta tag zetten of niet?
Bij sommige lees ik dat moet en bij andere weer van niet.

Nog een raar iets is de naam.
Moet het nou robot.txt of robots.txt zijn of is allebij goed?

Alvast bedankt voor de informatie.

donderdag 23 november 2006 15:47

Acties:

Verwijderd

Geloof wel dat je dat in de meta moet zetten, anders word het niet herkend door zoekmachines, verder maakt de naam geloof ik niet uit (kan het mis hebben) maar dit is wat ik mij vaag kan herinneren. probeer anders; www.phphulp.nl

donderdag 23 november 2006 15:49

Acties:

Verwijderd

Volgens mij is het robots.txt

http://en.wikipedia.org/wiki/Robots_Exclusion_Standard

En gebruik van robots/META zou ik zo niet weten... maar denk dat het niet zo uitmaakt.

donderdag 23 november 2006 15:50

Acties:

BBrunekreeft

Dus...

Het is robots.txt en je hoeft niets in je headers te zetten.
De crawlers van zoekmachines vragen dit bestand automatisch op uit de root directory van je website.

[ Voor 4% gewijzigd door BBrunekreeft op 23-11-2006 15:50 ]

donderdag 23 november 2006 15:50

Acties:

Osiris

Ik heb nérgens een meta-tag over robots.txt staan en toch worden diverse van m'n sites die op m'n server gehost worden bezocht voor `robots.txt` door (o.a.) Google, Yahoo en MSN. Levert ze allemaal een prachtige 404 File Not Found-error op, maar ze staan tóch in m'n access-log te zoeken naar dat ding

donderdag 23 november 2006 15:54

Acties:

vitrix

Topicstarter

Dank jullie wel voor jullie snelle reacties.
Had al robots.txt zonder meta tag dus ik hoef gelukkig niets te veranderen.

donderdag 23 november 2006 17:03

Acties:

BtM909

Watch out Guys...

vitrix, zou je voortaan in je topics aan kunnen geven waar je heb gezocht, wat je hebt gevonden en waarom je die vragen nog steeds hebt. Je topicstart, maar ook je eigen inbreng geven mij nl. totaal niet de indruk dat je zelf enige moeite hebt gedaan (iets wat we wel degelijk van onze lieve users verwachten).

Simpelweg zoeken op robots.txt geeft mij al genoeg hits en die query uitbreiden met "how to use robots.txt" levert mij kant en klare oplossingen

Daarnaast wil ik je ook vragen om voortaan iets langer over je topictitels te denken. Simpelweg robots.txt zegt niks over je eigenlijk probleem. Je titel zou eigenlijk de probleemomschrijving dusdanig moeten beschrijven.

Ace of Base vs Charli XCX - All That She Boom Claps (RMT) | Clean Bandit vs Galantis - I'd Rather Be You (RMT)
You've moved up on my notch-list. You have 1 notch
I have a black belt in Kung Flu.

vrijdag 24 november 2006 09:18

Acties:

vitrix

Topicstarter

Ok sorry voor de begin topic en de titel.

Ik had op google gezocht en hier op tweakers zelf.
Als je op robot.txt zoek dan krijg je ook enorm veel hits.
Nergens wordt er gezet van je moet robots.txt gebruiken of juist robot.txt
Dus begon te twijfelen of het nou robot of robots moest zijn omdat het op geen enkele site werdt verbeterd en ik op allebij sites met informatie kreeg.
Ik zag ook hier op forum dat iemand de html gebruikte maar ik kon er niet op uit maken of je dat nou er bij moest doen of dat het niet hoefde.

vrijdag 24 november 2006 09:24

Acties:

frickY

Dat is gek, want bij mij is de eerste hit direct raak; Een robots.txt bestand maken

Ook bij de informatie voor Webmasters op Google wordt het uitgebreid omschreven; http://www.google.com/sup...in/answer.py?answer=40360

[ Voor 25% gewijzigd door frickY op 24-11-2006 09:28 ]

vrijdag 24 november 2006 09:33

Acties:

vitrix

Topicstarter

Met het in deel 1 beschreven hulpprogramma Hello Engines! wordt dit robot.txt automatisch aangemaakt. De inhoud van dit bestand zorgt ervoor dat de robot van de zoekmachines automatisch wordt doorverwezen naar de rest van uw webpagina, wanneer deze robot uw website gaat indexeren.

http://www.microsoft.com/...internet/zoektermen2.aspx

Dit staat op een site van microsoft heb gevonden door een hit met zoeken naar robot.txt

Maar het is mij nu duidelijk dat het dus robotS.txt is =]

[ Voor 6% gewijzigd door vitrix op 24-11-2006 09:38 ]

vrijdag 24 november 2006 09:44

Acties:

RaZ

Funky Cold Medina

het bestand robots.txt wordt gedownload door de zoekmachines, en bepaald aan de hand van dat bestand waar die wel of niet mag komen.

Dit is op basis van directory-niveau. Even als voorbeeld van de frontpage, bijvoorbeeld:
Disallow: /pricewatch/

Dat houd in dat de zoemachines dus niet de pricewatch in mogen. Maar er is ook een onderdeel nieuws. Waar de zoekmachines dus wel mag komen.

Met de meta-tag, bepaal je op pagina-niveau wat er wel en niet mag. Het gebruik van deze meta-tags geeft je iets meer controle over wat wel en niet mag. Je kan dus zeggen dat er wel geindexeerd mag worden, maar links niet gevolgd mogen worden. Of wel indexeren, links wel volgen, maar niet cachen. De laatste optie gebruik ik op al mijn pagina's. Want ik ben van mening, als een pagina niet beschikbaar is, heeft dat een reden, en dan is het ook niet de bedoeling dat die pagina via de cache nog te zien is.

Ik gebruik zowel een robots.txt als meta-tags. Ik gebruik een CMS, en de hele site loopt over 1 bestand, te weten index.php. Ik moet dus op pagina-niveau bepalen wat een zoekmachine mag doen. In m'n robots.txt blokkeer ik een aantal bestanden, met name m'n XML-feeds, omdat ik laatste zag dat de zoekmachines die ook doorzochten. Op zich is dat niet erg, maar als iemand iets zocht wat op m'n site stond, en dus ook in m'n feeds, werd er in 70% van de gevallen m'n feeds als results gegeven. En die feeds zijn dus niet bedoeld om door een browser geopend te worden.

Ook de bestanden die ik als downloads aanbied die in een apparte directory staan heeft een zoekmachine niets te schaften. Maar een PDF of een Word-doc is niet een HTML-bestand, dus daar kan je geen meta-tags aan toevoegen.

Hoop dat het zo een beetje duidelijk is voor je

Ey!! Macarena \o/