[Google] Indexeren van directories

Pagina: 1
Acties:

Onderwerpen


Acties:
  • 0 Henk 'm!

  • Cryothic
  • Registratie: September 2001
  • Laatst online: 04-09-2024
Ik zit in de volgende situatie:

2 websites, delen dezelfde assets-folder.

Website 1 is publiekelijk beschikbaar.
Website 2 is alleen intern beschikbaar (en dus niet van buitenaf op te vragen)

Nou blijkt echter, dat files die in de asset-folder staan, en waar naar (op dit moment) niet gelinkt wordt vanaf de Publieke website opeens te vinden zijn via Google.

Als ik de asset-folder (of een sub-folder daarvan) zelf in m'n browser probeer te openen (http:www.website.nl/assets bijvoorbeeld), krijg ik heel mooi een 403.14 - Forbidden melding.

Is het mogelijk dat Google, ondanks dat ik een 403.14 krijg, wel die folder kan indexeren?

Ik heb zelf namelijk het vermoeden dat iemand op de publieke website simpelweg (per ongeluk) een file gekoppeld heeft, en dat ie toen geindexeerd zijn.
Overige content van de afgeschermde website is ook niet te vinden via google.

Acties:
  • 0 Henk 'm!

  • NMe
  • Registratie: Februari 2004
  • Laatst online: 12-07 23:36

NMe

Quia Ego Sic Dico.

Google kan niet indexeren wat niet beschikbaar is. Dus iemand heeft die assets gewoon ergens publiekelijk gelinkt, ja. :)

'E's fighting in there!' he stuttered, grabbing the captain's arm.
'All by himself?' said the captain.
'No, with everyone!' shouted Nobby, hopping from one foot to the other.


Acties:
  • 0 Henk 'm!

  • Flowmo
  • Registratie: November 2002
  • Laatst online: 19-06 12:59
Met een robots.txt kan je zelf ook aangeven welke bestanden allemaal wel en niet geindexeerd mogen worden. Stel dat die niet-publieke bestanden in een map /assets/private staan, dan kan je met een robots.txt vertellen dat die folder niet geindexeerd mag worden.

Acties:
  • 0 Henk 'm!

  • NMe
  • Registratie: Februari 2004
  • Laatst online: 12-07 23:36

NMe

Quia Ego Sic Dico.

Hou daarbij wel in de gaten dat hoewel de meeste (zo niet alle) grote zoekmachines en crawlers hier netjes mee omgaan, dit niet per se hoeft te gelden door de minder goed opgezette of zelfs malafide crawlers. Robots.txt is dus absoluut geen beveiliging maar een manier om crap uit Google te filteren.

'E's fighting in there!' he stuttered, grabbing the captain's arm.
'All by himself?' said the captain.
'No, with everyone!' shouted Nobby, hopping from one foot to the other.


Acties:
  • 0 Henk 'm!

  • Bosmonster
  • Registratie: Juni 2001
  • Laatst online: 09-07 22:57

Bosmonster

*zucht*

En neemt sowieso niet weg dat als de directory-index niet toegankelijk is, Google alsnog weinig kan met die directory, met of zonder robots.txt.

Acties:
  • 0 Henk 'm!

  • Cryothic
  • Registratie: September 2001
  • Laatst online: 04-09-2024
Dus de conclusie is eigenlijk, aangezien de directory-index niet toegankelijk is, moet de url ooit gevonden zijn op een pagina die (tijdelijk) publiek heeft gestaan?

De pagina zelf kan ik met google niet vinden, maar ik kan me voorstellen dat die uit de resultaten gegooid wordt als die niet meer beschikbaar is.

Als ik trouwens met een robots.txt aangeef dat ie /assets/website2/ bijvoorbeeld niet mag indexeren, indexeert ie dan alsnog wel de linkjes in de content daar naartoe?
Of slaat ie die dan ook meteen over?

[ Voor 24% gewijzigd door Cryothic op 29-06-2011 10:05 ]


Acties:
  • 0 Henk 'm!

  • Wolfboy
  • Registratie: Januari 2001
  • Niet online

Wolfboy

ubi dubium ibi libertas

Ik verdenk google er ook nog wel van dat ze automatisch nieuwe urls scrapen als iemand deze opent met de Google Toolbar geinstalleerd ;)

Het zal niet de eerste keer zijn dat een url zomaar opeens publiekelijk beschikbaar komt terwijl ik zeker weet dat er nooit een publieke link heen was.

Blog [Stackoverflow] [LinkedIn]


Acties:
  • 0 Henk 'm!

  • Bosmonster
  • Registratie: Juni 2001
  • Laatst online: 09-07 22:57

Bosmonster

*zucht*

Wolfboy schreef op woensdag 29 juni 2011 @ 11:02:
Ik verdenk google er ook nog wel van dat ze automatisch nieuwe urls scrapen als iemand deze opent met de Google Toolbar geinstalleerd ;)

Het zal niet de eerste keer zijn dat een url zomaar opeens publiekelijk beschikbaar komt terwijl ik zeker weet dat er nooit een publieke link heen was.
Dit sowieso. "Don't be evil" moet je bij Google met een korrel zout ter grootte van de Mount Everest nemen. Ze leven van het op grijze wijze verzamelen van gegevens.

Verder kun je met link: in Google zoeken naar pagina's die linken naar een resource. Daar zou je ook eens mee kunnen kijken.

Acties:
  • 0 Henk 'm!

  • Cryothic
  • Registratie: September 2001
  • Laatst online: 04-09-2024
de term link:http://www.website.nl/assets/file.pdf levert 0 resultaten op.
Dus die bron is denk ik al weg.

Ik heb geen idee of de klant Google Toolbar heeft.
Pagina: 1