Toon posts:

[Google] Indexeren van directories

Pagina: 1
Acties:

Onderwerpen


  • Cryothic
  • Registratie: September 2001
  • Laatst online: 07-03 08:01
Ik zit in de volgende situatie:

2 websites, delen dezelfde assets-folder.

Website 1 is publiekelijk beschikbaar.
Website 2 is alleen intern beschikbaar (en dus niet van buitenaf op te vragen)

Nou blijkt echter, dat files die in de asset-folder staan, en waar naar (op dit moment) niet gelinkt wordt vanaf de Publieke website opeens te vinden zijn via Google.

Als ik de asset-folder (of een sub-folder daarvan) zelf in m'n browser probeer te openen (http:www.website.nl/assets bijvoorbeeld), krijg ik heel mooi een 403.14 - Forbidden melding.

Is het mogelijk dat Google, ondanks dat ik een 403.14 krijg, wel die folder kan indexeren?

Ik heb zelf namelijk het vermoeden dat iemand op de publieke website simpelweg (per ongeluk) een file gekoppeld heeft, en dat ie toen geindexeerd zijn.
Overige content van de afgeschermde website is ook niet te vinden via google.

  • NMe
  • Registratie: Februari 2004
  • Laatst online: 22-05 17:03

NMe

Quia Ego Sic Dico.

Google kan niet indexeren wat niet beschikbaar is. Dus iemand heeft die assets gewoon ergens publiekelijk gelinkt, ja. :)

'E's fighting in there!' he stuttered, grabbing the captain's arm.
'All by himself?' said the captain.
'No, with everyone!' shouted Nobby, hopping from one foot to the other.


  • Flowmo
  • Registratie: November 2002
  • Laatst online: 26-05 23:05
Met een robots.txt kan je zelf ook aangeven welke bestanden allemaal wel en niet geindexeerd mogen worden. Stel dat die niet-publieke bestanden in een map /assets/private staan, dan kan je met een robots.txt vertellen dat die folder niet geindexeerd mag worden.

  • NMe
  • Registratie: Februari 2004
  • Laatst online: 22-05 17:03

NMe

Quia Ego Sic Dico.

Hou daarbij wel in de gaten dat hoewel de meeste (zo niet alle) grote zoekmachines en crawlers hier netjes mee omgaan, dit niet per se hoeft te gelden door de minder goed opgezette of zelfs malafide crawlers. Robots.txt is dus absoluut geen beveiliging maar een manier om crap uit Google te filteren.

'E's fighting in there!' he stuttered, grabbing the captain's arm.
'All by himself?' said the captain.
'No, with everyone!' shouted Nobby, hopping from one foot to the other.


  • Bosmonster
  • Registratie: Juni 2001
  • Laatst online: 13-01 10:59

Bosmonster

*zucht*

En neemt sowieso niet weg dat als de directory-index niet toegankelijk is, Google alsnog weinig kan met die directory, met of zonder robots.txt.

  • Cryothic
  • Registratie: September 2001
  • Laatst online: 07-03 08:01
Dus de conclusie is eigenlijk, aangezien de directory-index niet toegankelijk is, moet de url ooit gevonden zijn op een pagina die (tijdelijk) publiek heeft gestaan?

De pagina zelf kan ik met google niet vinden, maar ik kan me voorstellen dat die uit de resultaten gegooid wordt als die niet meer beschikbaar is.

Als ik trouwens met een robots.txt aangeef dat ie /assets/website2/ bijvoorbeeld niet mag indexeren, indexeert ie dan alsnog wel de linkjes in de content daar naartoe?
Of slaat ie die dan ook meteen over?

[Voor 24% gewijzigd door Cryothic op 29-06-2011 10:05]


  • Wolfboy
  • Registratie: Januari 2001
  • Niet online

Wolfboy

ubi dubium ibi libertas

Ik verdenk google er ook nog wel van dat ze automatisch nieuwe urls scrapen als iemand deze opent met de Google Toolbar geinstalleerd ;)

Het zal niet de eerste keer zijn dat een url zomaar opeens publiekelijk beschikbaar komt terwijl ik zeker weet dat er nooit een publieke link heen was.

Blog [Stackoverflow] [LinkedIn]


  • Bosmonster
  • Registratie: Juni 2001
  • Laatst online: 13-01 10:59

Bosmonster

*zucht*

Wolfboy schreef op woensdag 29 juni 2011 @ 11:02:
Ik verdenk google er ook nog wel van dat ze automatisch nieuwe urls scrapen als iemand deze opent met de Google Toolbar geinstalleerd ;)

Het zal niet de eerste keer zijn dat een url zomaar opeens publiekelijk beschikbaar komt terwijl ik zeker weet dat er nooit een publieke link heen was.
Dit sowieso. "Don't be evil" moet je bij Google met een korrel zout ter grootte van de Mount Everest nemen. Ze leven van het op grijze wijze verzamelen van gegevens.

Verder kun je met link: in Google zoeken naar pagina's die linken naar een resource. Daar zou je ook eens mee kunnen kijken.

  • Cryothic
  • Registratie: September 2001
  • Laatst online: 07-03 08:01
de term link:http://www.website.nl/assets/file.pdf levert 0 resultaten op.
Dus die bron is denk ik al weg.

Ik heb geen idee of de klant Google Toolbar heeft.
Pagina: 1


Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee