Check alle échte Black Friday-deals Ook zo moe van nepaanbiedingen? Wij laten alleen échte deals zien

Robots.txt en Googlebot

Pagina: 1
Acties:
  • 158 views sinds 30-01-2008
  • Reageer

  • Ro3lm
  • Registratie: Januari 2008
  • Laatst online: 20-11 16:34
Hallo,

Even de situatie schetsen. Ik maak een gesloten webapplicatie die alleen maar toegankelijk is voor mijn klanten. Dus ik wil ook niet dat dit geïndexeerd wordt door een of andere zoekmachine. (Ook Googlebot niet).

Nu heb ik een agendamodule in mijn pakket zitten en hiermee kan je ics-bestanden delen met andere applicatie.

Nu kreeg ik de vraag binnen dat ze hun agenda willen inladen in google Calendar en deze zo op hun eigen website plaatsen omdat dit niet mogelijk is met mijn agenda-module.

Dit zou perfect gaan was het niet dat ik robots.txt gebruik
code:
1
2
User-agent: *
Disallow: /


Door dit te gebruiken wordt dus ook mijn ics geblokkeerd in google Calendar.

Is er een manier om te zeggen dat google Calendar toegang krijgt tot die ene link waarmee ik het ics-bestand stream, maar dat google dit niet kan indexeren want deze informatie hoort niet thuis in de zoekmachine.

Dit heb ik al geprobeerd maar heeft geen effect
code:
1
2
User-agent: Googlebot
Allow: /modules/Calendar/deepLink.php

  • Bosmonster
  • Registratie: Juni 2001
  • Laatst online: 19-11 09:49

Bosmonster

*zucht*

Maar als die webapplicatie alleen toegankelijk is voor klanten gaat geen enkele user-agent daarbij komen toch? Ik neem dan even aan dat het beveiligd is met een username/password bijvoorbeeld of op ip-basis?

  • Ro3lm
  • Registratie: Januari 2008
  • Laatst online: 20-11 16:34
Dat klopt.

Het is beveiligd met username & password maar als je intern de ics-link aanvraagt dan krijg je een link met je inloggegevens gecodeerd in de link verwerkt. Zodoende dat als men naar deze link surft men inlogt, de gegevens ophaalt en terug uitlogt.

  • RM-rf
  • Registratie: September 2000
  • Laatst online: 08:53

RM-rf

1 2 3 4 5 7 6 8 9

Ro3lm schreef op vrijdag 18 januari 2008 @ 11:06:

.... dan krijg je een link met je inloggegevens gecodeerd in de link verwerkt.
*brrr*

en dat wil je vervolgens opeens wél door google laten indexeren?
(los ervan dat het dus kennelijk ook in iets als browser-history vermeld blijft)

Kun je niet betere een seperate export-functionaliteit creeren voor die agenda-data
en ophouden te vertrouwen op robots.txt voor schijn-beveiliging, dat is daar niet voor geschikt

[ Voor 8% gewijzigd door RM-rf op 18-01-2008 11:23 ]

Intelligente mensen zoeken in tijden van crisis naar oplossingen, Idioten zoeken dan schuldigen


  • Ro3lm
  • Registratie: Januari 2008
  • Laatst online: 20-11 16:34
en dat wil je vervolgens opeens wél door google laten indexeren?
(los ervan dat het dus kennelijk ook in iets als browser-history vermeld blijft)
Dit wil ik juist niet.
Kun je niet betere een seperate export-functionaliteit creeren voor die agenda-data
en ophouden te vertrouwen op robots.txt voor schijn-beveiliging, dat is daar niet voor geschikt
Wat bedoel je hiermee. Ik gebruik robots.txt niet voor beveiliging. Ik wil alleen dat google calendar een bestand van mijn webserver kan aflezen maar dat hij de rest van die pagina's die daarop staan niet kan indexeren?

  • ThunderNet
  • Registratie: Juni 2004
  • Laatst online: 19-11 14:18

ThunderNet

Flits!

Ro3lm schreef op vrijdag 18 januari 2008 @ 11:27:
[...]

Dit wil ik juist niet.


[...]

Wat bedoel je hiermee. Ik gebruik robots.txt niet voor beveiliging. Ik wil alleen dat google calendar een bestand van mijn webserver kan aflezen maar dat hij de rest van die pagina's die daarop staan niet kan indexeren?
Dan zet je toch de dingen waar hij niet in mag in beveiligde omgeving? En waar hij wel bij mag publiekelijk beschikbaar?

Heb je liever vooraf, of achteraf, dat ik zeg dat ik geen flauw idee heb wat ik doe?


  • Ro3lm
  • Registratie: Januari 2008
  • Laatst online: 20-11 16:34
Ja en dat is nu mijn vraag hoe kan ik niet die robots.txt aanduiden dat Googlebot die file mag zien en alle andere files niet want op de website van google heb ik iets gevonden maar dit werkt helemaal niet.
code:
1
2
User-agent: Googlebot
Allow: /modules/Calendar/deepLink.php

  • ThunderNet
  • Registratie: Juni 2004
  • Laatst online: 19-11 14:18

ThunderNet

Flits!

Ro3lm schreef op vrijdag 18 januari 2008 @ 11:33:
Ja en dat is nu mijn vraag hoe kan ik niet die robots.txt aanduiden dat Googlebot die file mag zien en alle andere files niet want op de website van google heb ik iets gevonden maar dit werkt helemaal niet.
code:
1
2
User-agent: Googlebot
Allow: /modules/Calendar/deepLink.php
Als je ze achter een beveiligde map zet, kan google ze niet zien, dus dat hoef je ook niet aan te geven. Immers de googlebot heeft de juiste credentials niet.

Heb je liever vooraf, of achteraf, dat ik zeg dat ik geen flauw idee heb wat ik doe?


  • Ro3lm
  • Registratie: Januari 2008
  • Laatst online: 20-11 16:34
ok,
Thnx. Ik ga dat eens proberen

  • André
  • Registratie: Maart 2002
  • Laatst online: 19-11 11:08

André

Analytics dude

code:
1
2
3
4
5
6
User-agent: Googlebot
Disallow: /
Allow: /modules/Calendar/deepLink.php

User-agent: *
Disallow: /

Zoiets dan.

Verwijderd

-snip-

[ Voor 97% gewijzigd door Verwijderd op 07-04-2009 15:28 ]


  • RM-rf
  • Registratie: September 2000
  • Laatst online: 08:53

RM-rf

1 2 3 4 5 7 6 8 9

Overigens, je kunt gewoon ook je applicatie contact laten maken met de betreffende Google Calender:
Google biedt daarvoor een direkt API.. op die manier kun je zowel entries doorsturen naar hun google Calender, maar ook zelf nieuwe entries uitlezen en zelf toevoegen.

http://code.google.com/su...?answer=78451&topic=12025

verder, Googlebot ondersteund wel ook Allow (welke niet standaard is en niet door alle spiders herkend wordt)...
ze geven zelf aan dat je eerst disallow moet doen en dan Allow

als het niet functioneerd kan gewoonweg zijn dat een oude versie van robots.txt zich nog in de cache van google bevind..
Google developer Tools biedt een mogelijk dit te testen en ook de berechtiging van je robots.txt te testen:
http://www.google.de/supp...in/answer.py?answer=35237

Intelligente mensen zoeken in tijden van crisis naar oplossingen, Idioten zoeken dan schuldigen


  • André
  • Registratie: Maart 2002
  • Laatst online: 19-11 11:08

André

Analytics dude

Zoals RM-rf al aangeeft zit er bij de Google Webmaster Tools een robots.txt validator waarmee je makkelijk kunt testen wat wel en niet werkt ;)

Daarin kun je ook zien dat Google allow wel accepteert.
Pagina: 1