[Google] Indexeren van directories

dinsdag 28 juni 2011 16:42

Acties:

why?

Topicstarter

Ik zit in de volgende situatie:

2 websites, delen dezelfde assets-folder.

Website 1 is publiekelijk beschikbaar.
Website 2 is alleen intern beschikbaar (en dus niet van buitenaf op te vragen)

Nou blijkt echter, dat files die in de asset-folder staan, en waar naar (op dit moment) niet gelinkt wordt vanaf de Publieke website opeens te vinden zijn via Google.

Als ik de asset-folder (of een sub-folder daarvan) zelf in m'n browser probeer te openen (http:www.website.nl/assets bijvoorbeeld), krijg ik heel mooi een 403.14 - Forbidden melding.

Is het mogelijk dat Google, ondanks dat ik een 403.14 krijg, wel die folder kan indexeren?

Ik heb zelf namelijk het vermoeden dat iemand op de publieke website simpelweg (per ongeluk) een file gekoppeld heeft, en dat ie toen geindexeerd zijn.
Overige content van de afgeschermde website is ook niet te vinden via google.

dinsdag 28 juni 2011 16:43

Acties:

NMe

Quia Ego Sic Dico.

Google kan niet indexeren wat niet beschikbaar is. Dus iemand heeft die assets gewoon ergens publiekelijk gelinkt, ja.

'E's fighting in there!' he stuttered, grabbing the captain's arm.
'All by himself?' said the captain.
'No, with everyone!' shouted Nobby, hopping from one foot to the other.

dinsdag 28 juni 2011 16:50

Acties:

Flowmo

Met een robots.txt kan je zelf ook aangeven welke bestanden allemaal wel en niet geindexeerd mogen worden. Stel dat die niet-publieke bestanden in een map /assets/private staan, dan kan je met een robots.txt vertellen dat die folder niet geindexeerd mag worden.

dinsdag 28 juni 2011 16:52

Acties:

NMe

Quia Ego Sic Dico.

Hou daarbij wel in de gaten dat hoewel de meeste (zo niet alle) grote zoekmachines en crawlers hier netjes mee omgaan, dit niet per se hoeft te gelden door de minder goed opgezette of zelfs malafide crawlers. Robots.txt is dus absoluut geen beveiliging maar een manier om crap uit Google te filteren.

'E's fighting in there!' he stuttered, grabbing the captain's arm.
'All by himself?' said the captain.
'No, with everyone!' shouted Nobby, hopping from one foot to the other.

dinsdag 28 juni 2011 16:59

Acties:

Bosmonster

*zucht*

En neemt sowieso niet weg dat als de directory-index niet toegankelijk is, Google alsnog weinig kan met die directory, met of zonder robots.txt.

woensdag 29 juni 2011 09:58

Acties:

Cryothic

why?

Topicstarter

Dus de conclusie is eigenlijk, aangezien de directory-index niet toegankelijk is, moet de url ooit gevonden zijn op een pagina die (tijdelijk) publiek heeft gestaan?

De pagina zelf kan ik met google niet vinden, maar ik kan me voorstellen dat die uit de resultaten gegooid wordt als die niet meer beschikbaar is.

Als ik trouwens met een robots.txt aangeef dat ie /assets/website2/ bijvoorbeeld niet mag indexeren, indexeert ie dan alsnog wel de linkjes in de content daar naartoe?
Of slaat ie die dan ook meteen over?

[ Voor 24% gewijzigd door Cryothic op 29-06-2011 10:05 ]

woensdag 29 juni 2011 11:02

Acties:

Wolfboy

ubi dubium ibi libertas

Ik verdenk google er ook nog wel van dat ze automatisch nieuwe urls scrapen als iemand deze opent met de Google Toolbar geinstalleerd

Het zal niet de eerste keer zijn dat een url zomaar opeens publiekelijk beschikbaar komt terwijl ik zeker weet dat er nooit een publieke link heen was.

Blog [Stackoverflow] [LinkedIn]

woensdag 29 juni 2011 11:04

Acties:

Bosmonster

*zucht*

Wolfboy schreef op woensdag 29 juni 2011 @ 11:02:
Ik verdenk google er ook nog wel van dat ze automatisch nieuwe urls scrapen als iemand deze opent met de Google Toolbar geinstalleerd

Het zal niet de eerste keer zijn dat een url zomaar opeens publiekelijk beschikbaar komt terwijl ik zeker weet dat er nooit een publieke link heen was.

Dit sowieso. "Don't be evil" moet je bij Google met een korrel zout ter grootte van de Mount Everest nemen. Ze leven van het op grijze wijze verzamelen van gegevens.

Verder kun je met link: in Google zoeken naar pagina's die linken naar een resource. Daar zou je ook eens mee kunnen kijken.

woensdag 29 juni 2011 12:12

Acties:

Cryothic

why?

Topicstarter

de term link:http://www.website.nl/assets/file.pdf levert 0 resultaten op.
Dus die bron is denk ik al weg.

Ik heb geen idee of de klant Google Toolbar heeft.

Onderwerpen