Google: foutmelding verwijderen website - Softwareontwikkeling

dinsdag 26 april 2005 03:18

Acties:

Topicstarter

Via de pagina http://www.google.com/remove.html wilde ik pagina's uit de Google-index verwijderen. Daartoe heb ik zoals de aanwijzingen daar aangeven mijn robots.txt aangepast naar:

code:

1 2	User-Agent: * Disallow: /

Vervolgens heb ik via een invulveld de url naar mijn robots.txt opgegeven. Echter bij dit invulveld krijg ik de volgende foutmelding:

The following rule applies to a URL that is outside the jurisdiction of this robots.txt file:
DISALLOW /

Hoe krijg ik het voor elkaar dat mijn robots.txt wel wordt gelezen?

Cogito ergo dubito

dinsdag 26 april 2005 03:40

Acties:

Verwijderd

Staat de robots.txt wel in de root van je server?

dinsdag 26 april 2005 03:59

Acties:

r0b

Net nog even geprobeerd, en hier werkt het gewoon goed.
Dus even extra checken of robots.txt wel op de goeie locatie staat.

dinsdag 26 april 2005 05:15

Acties:

Boelie-Boelie

Topicstarter

Het staat in de root van een persoonlijke homepageruimte, in generieke taal:
http://home.provider.nl/username/robots.txt

edit:
Edit 1: Ook even gevalideerd bij Searchengineworld, voor het geval dat ik 'm verkeerd zou hebben geupload (bin/ASCII), maar ook die leest 'm perfect (en zonder fouten).

edit:
Edit 2: Wordt de root altijd gezien als het domein zelf, d.w.z. in dit geval home.provider.nl? Want in dat geval heb ik natuurlijk geen toegang tot de root en is het antwoord dus dat ik geen gebruik kan maken van disallow all

Zou ik wel raar vinden, ik kan immers wel bepaalde dirs uitsluiten m.b.v. robots.txt

[ Voor 81% gewijzigd door Boelie-Boelie op 26-04-2005 05:43 ]

Cogito ergo dubito

dinsdag 26 april 2005 09:25

Acties:

Spruit_elf

Intentionally left blank

moet het dan neit

code:

1 2	User-Agent: * Disallow: /username/

oid zijn? aangezien google waarschijnlijk idd het domein zelf als root ziet

Those who danced were thought to be quite insane by those who could not hear the music.

woensdag 27 april 2005 02:51

Acties:

Coen Rosdorff

robots.txt wordt enkel in de root van de server gezocht.

code:

1	http://home.provider.nl/robots.txt

Andere dingen zul je in de head van je html moeten regelen. Elke pagina voorzien van

HTML:

1	<META NAME="robots" CONTENT="noindex, nofollow">

moet werken

woensdag 27 april 2005 15:23

Acties:

Boelie-Boelie

Topicstarter

Dat met die meta-tags zou ook moeten werken, maar mijn probleem was dat ik Google expliciet mijn gehele site wilde laten deïndexeren. Op de meta-tag-manier heb je de kans dat niet alles gedeïndexeerd wordt (doordat er wellicht ook orphan-pagina's zijn).

Inmiddels heb ik het dan maar opgelost door gewoon alles te deleten en aan te geven dat de site dood is. Gaat nog een stuk sneller ook, is binnen vijf werkdagen geregeld (tegenover vijf à zeven weken via robots.txt).

Thnx anywayz voor de reacties.

Cogito ergo dubito