Googlebot -> Genereerd (te?) veel dataverkeer*

Pagina: 1
Acties:

  • Saus
  • Registratie: September 2000
  • Niet online
Helleu,

Vandaag viel het me op dat Googlebot vanaf 12 uur vanmiddag (eerste moment dat het me opviel) tot zojuist niets anders aan het doen is dan:
Guest 08 Feb 2005 12:01 08 Feb 2005 12:01 Searching forums 66.249.65.113
Guest 08 Feb 2005 11:59 08 Feb 2005 11:59 Searching forums 66.249.65.113
Guest 08 Feb 2005 11:59 08 Feb 2005 11:59 Searching forums 66.249.65.113
Guest 08 Feb 2005 11:59 08 Feb 2005 11:59 Searching forums 66.249.65.113
Guest 08 Feb 2005 11:59 08 Feb 2005 11:59 Searching forums 66.249.65.113
Guest 08 Feb 2005 11:58 08 Feb 2005 11:58 Searching forums 66.249.65.113
Guest 08 Feb 2005 11:58 08 Feb 2005 11:58 Searching forums 66.249.65.113
Guest 08 Feb 2005 11:58 08 Feb 2005 11:58 Searching forums 66.249.65.113
Guest 08 Feb 2005 11:58 08 Feb 2005 11:58 Searching forums 66.249.65.113
Guest 08 Feb 2005 11:58 08 Feb 2005 11:58 Searching forums 66.249.65.113
Guest 08 Feb 2005 11:57 08 Feb 2005 11:57 Searching forums 66.249.65.113
Guest 08 Feb 2005 11:57 08 Feb 2005 11:57 Searching forums 66.249.65.113
Guest 08 Feb 2005 11:57 08 Feb 2005 11:57 Searching forums 66.249.65.113
Guest 08 Feb 2005 11:57 08 Feb 2005 11:57 Searching forums 66.249.65.113
Guest 08 Feb 2005 11:56 08 Feb 2005 11:56 Searching forums 66.249.65.113
Guest 08 Feb 2005 11:56 08 Feb 2005 11:56 Searching forums 66.249.65.113
en zo door tot:
Guest 08 Feb 2005 22:36 08 Feb 2005 22:36 Searching forums 66.249.65.113
Guest 08 Feb 2005 22:36 08 Feb 2005 22:36 Searching forums 66.249.65.113
Guest 08 Feb 2005 22:36 08 Feb 2005 22:36 Searching forums 66.249.65.113
Guest 08 Feb 2005 22:35 08 Feb 2005 22:35 Searching forums 66.249.65.113
Guest 08 Feb 2005 22:35 08 Feb 2005 22:35 Searching forums 66.249.65.113
Guest 08 Feb 2005 22:35 08 Feb 2005 22:35 Searching forums 66.249.65.113
Guest 08 Feb 2005 22:34 08 Feb 2005 22:34 Searching forums 66.249.65.113
Guest 08 Feb 2005 22:34 08 Feb 2005 22:34 Searching forums 66.249.65.113
Guest 08 Feb 2005 22:33 08 Feb 2005 22:33 Searching forums 66.249.65.113
Guest 08 Feb 2005 22:32 08 Feb 2005 22:32 Searching forums 66.249.65.113
Guest 08 Feb 2005 22:32 08 Feb 2005 22:32 Searching forums 66.249.65.113
Guest 08 Feb 2005 22:32 08 Feb 2005 22:32 Searching forums 66.249.65.113
Guest 08 Feb 2005 22:32 08 Feb 2005 22:32 Searching forums 66.249.65.113
Guest 08 Feb 2005 22:31 08 Feb 2005 22:31 Searching forums 66.249.65.113
Nou is het forum helemaal afgeschermd, dus ik vind het wel grappig dat ie zolang blijft hangen. Je kunt er anonymous niet op, en het forum is met 8 gebruikers en 16000 posts ook niet zo bijster groot (om miljoenen keren een post te doorzoeken).

Nou deed ik ff een zoekactie op Googlebot en stuitte ik op dit topic:
Dataverkeer van googlebot

En wilde ik toch even meedelen dat ik nu op 8 februari dataverkeerstechnisch toch al ver over de helft (3 kwart) ben van wat ik normaal doe (nu wil ik niet zeggen dat zijn 5% op 600gb waar is, maar helemaal kul hoeft het niet te zijn). Terwijl het forum verkeer met maar 200 post'jes (februari) welke alleen tekst bevatten niet schokkend veel anders is dan andere maanden.

Iemand een verklaring waarom Google zo'n moeite heeft met dit simpele phpbb forumke?

  • Saus
  • Registratie: September 2000
  • Niet online
Is nu net opgehouden, dus 11 uur en 40 minuten bezig geweest in totaal!

  • Kuhlie
  • Registratie: December 2002
  • Niet online
Saus schreef op dinsdag 08 februari 2005 @ 22:47:
Nou is het forum helemaal afgeschermd, dus ik vind het wel grappig dat ie zolang blijft hangen. Je kunt er anonymous niet op
Waarom zet je /forum/ dan niet in je robots.txt?

  • R4NCOR
  • Registratie: December 2000
  • Laatst online: 19-02 14:34

R4NCOR

eigenlijk gewoon Niels

Heb em bij een paar van mijn sites ook eens voorbij zien komen :) En dan inderdaad ook tientallen hits per minuut en dat uren lang. Heel vreemd eigenlijk, lijkt me niet erg efficient :?

  • swampy
  • Registratie: Maart 2003
  • Laatst online: 12-02 18:26

swampy

Coconut + Swallow = ?

Dus hij is ongeveer 12 uur bezig geweest met "je mag niet anoniem lezen" te indexeren... mmmm onhandig. Maar ja wat daar tegen te doen!

[ Voor 24% gewijzigd door swampy op 08-02-2005 23:58 ]

There is no place like ::1


  • zeroxcool
  • Registratie: Januari 2001
  • Laatst online: 20-02 14:43
De reden zou ik niet weten. Wat ik dan wel even zou doen is in je robots.txt een 'Disallow: /forum' oid. toevoegen.

zeroxcool.net - curity.eu


  • Saus
  • Registratie: September 2000
  • Niet online
Jah jah, ik ken robots ;) Maar voor mij is het niet interesant, want er is niets te zien en om nou te zeggen dat ik het schokkend vind dat ie 100mb van mijn dataverkeer heeft afgesnoept :D

Maar toch bedankt voor die tip!

Ik was meer benieuwd of mensen (zoals R4NCOR) het vaker hadden gehad en of G-Bot dus altijd zo lang (grondig ;)) te werk gaat of niet (bij iedere site).........

  • André
  • Registratie: Maart 2002
  • Laatst online: 20-02 09:23

André

Analytics dude

Misschien ook handig om google hier eens over te informeren, misschien zijn ze wel op de hoogte van een bug in de googlebot :)

  • Jimbolino
  • Registratie: Januari 2001
  • Laatst online: 13-02 16:07

Jimbolino

troep.com

zelfde "probleem" hier ook gehad

gewoon ff ip gebanned, toen was ie zo weg :)

The two basic principles of Windows system administration:
For minor problems, reboot
For major problems, reinstall


Verwijderd

Kan je niet een scriptje schrijven die de browser versie achterhaald en indien het de googlebot is naar een erg kleine pagina of zelfs naar google.com te laten verwijzen?

  • Paul_
  • Registratie: Juni 2001
  • Laatst online: 13-11-2021
@Saus

Ik heb exact het verschijnsel mogen bewonderen de afgelopen dagen. Ik heb 2 internetdomeinen met op beide domeinen staat alleen een forum (1tje in gebruik, de ander niet actief wel online). Het viel me bij het forum dat ik gebruik op dat er ineens heel veel gasten waren van googlebot. En het dataverkeer is van een 50mb / dag naar 100mb / dag gegaan.

Het vreemde nu is dat de googlebot ook op het niet in gebruik zijnde domein/forum rond snuffelde. Het dataverkeer van het domein was dan ook
1 februari 0 byte
2 februari 0 byte
3 februari 0 byte
4 februari 0 byte

Maar sinds 5 februari begint het dataverkeer op te lopen:

6 februari 7697 kbyte
7 februari 73334 kbyte
8 februari 108094 kbyte

En met de statistieken pagina van mijn server kan ik zien dat alles door de googlebots is gedaan, dus niet door bezoekers want die zijn er simpel weg niet. Toch vreemd dat google 108mb dataverkeer weet te genereren op een domein dat alleen 1 phpbb forum host waar exact 4 berichten op staan.

Op domeinen waar ik geen phpbb forum host heb ik geen extreme dataverkeerstatistieken gezien.

Maar ik laat google lekker zijn gang gaan. Hopenlijk indexeert het dan een keer mijn hele site.

[ Voor 6% gewijzigd door Paul_ op 09-02-2005 17:21 ]


  • Xandrios
  • Registratie: Februari 2001
  • Laatst online: 16-02 21:14
Titeledit :)

Dit is idd wel extreem veel. Het lijkt erop dat er ergens in een standaard phpbb install een soort loopje zit qua linkjes, waar googlebot in blijft hangen?

Zelf geen problemen ondervonden nog btw.

  • Paul_
  • Registratie: Juni 2001
  • Laatst online: 13-11-2021
Xandrios schreef op woensdag 09 februari 2005 @ 17:25:
Titeledit :)

Dit is idd wel extreem veel. Het lijkt erop dat er ergens in een standaard phpbb install een soort loopje zit qua linkjes, waar googlebot in blijft hangen?

Zelf geen problemen ondervonden nog btw.
Ik denk nu dat het met de sessie id van phpbb te maken heeft.
Het is alleen bij mijn domeinen met een phpbb forum. Maar het lijkt nu rustig.

Verwijderd

Hier exact hetzelfde probleem, verschillende domeinen die phpbb gebruiken (op dezelfde server) krijgen allemaal flink wat requests van googlebot te verwerken, vaak meer dan 10 hits per minuut en alleen naar de index.php. Totaal over 3 dagen ongeveer 1 gb aan dataverkeer. Ik heb ook teruggekeken in de logs, soms wel wat requests van googlebot, maar nooit zo extreem veel. Het is wel dezelfde ip-range, dus het lijkt me vrij waarschijnlijk dat het echt van google af komt.

Heb tijdelijk de ip's waarvan ze komen maar even geblokkeerd en google gemaild. Heb ook al reactie gehad, met het verzoek tot wat logfiles, dus heb die direct opgestuurd.

  • Saus
  • Registratie: September 2000
  • Niet online
Ik ben wel benieuwd wat die te melden hebben eigenlijk :). Heb zelf ff geen tijd om logfiles te gaan opsnorren en het te gaan verpakken in een netjes meeltje.


hahahaha google vond het nog niet genoeg, we zijn weer van start gegaan!:
Guest 10 Feb 2005 12:56 10 Feb 2005 12:56 Searching forums 66.249.65.243
Guest 10 Feb 2005 12:55 10 Feb 2005 12:55 Searching forums 66.249.65.243
Guest 10 Feb 2005 12:54 10 Feb 2005 12:54 Searching forums 66.249.65.243
Guest 10 Feb 2005 12:53 10 Feb 2005 12:53 Searching forums 66.249.65.243
Guest 10 Feb 2005 12:52 10 Feb 2005 12:52 Searching forums 66.249.65.243
Guest 10 Feb 2005 12:51 10 Feb 2005 12:51 Searching forums 66.249.65.243

[ Voor 66% gewijzigd door Saus op 10-02-2005 12:57 ]


  • Paul_
  • Registratie: Juni 2001
  • Laatst online: 13-11-2021
@saus

Hoeveel dataverkeer genereren de googlebots bij jou? Mijn niet actieve forum heeft nu 8 verschillende IP bezoeken gehad deze maand met het volgende dataverkeer:

83.899kbyte crawl-66-249-65-225.googlebot.com
77.296kbyte crawl-66-249-65-68.googlebot.com
56.055kbyte crawl-66-249-65-176.googlebot.com
21.018kbyte crawl-66-249-65-15.googlebot.com
15.971kbyte crawl-66-249-65-211.googlebot.com
6.596kbyte crawl-66-249-66-229.googlebot.com
994kbyte ccxxxxx-a.groni1.gr.home.nl
135kbyte wpxx-xx.skyaccess.nl

Verwijderd

Thank you for your reply. From the log snippet you provided, we can see
that these sites use session IDs. As you have observed, session IDs can
cause problems for our robots. Please disable session IDs for Googlebot so
that our robots may crawl your sites more efficiently.
Het komt er dus op neer dat alle sites die session IDs gebruiken zich maar moeten aanpassen aan een probleem van Googlebot.

Verwijderd

Verwijderd schreef op donderdag 10 februari 2005 @ 16:09:
[...]


Het komt er dus op neer dat alle sites die session IDs gebruiken zich maar moeten aanpassen aan een probleem van Googlebot.
Uhm ja is ook niet zo'n probleem toch :? Een wellicht fundamentele bug in een geavanceerde robot als Googlebot wegpoetsen lijkt me veel intensiever dan ff een robots.txt aanmaken met 2 regels tekst... Toch?

[ Voor 5% gewijzigd door Verwijderd op 10-02-2005 17:06 ]


  • Saus
  • Registratie: September 2000
  • Niet online
Verwijderd schreef op donderdag 10 februari 2005 @ 17:05:
[...]

Uhm ja is ook niet zo'n probleem toch :? Een wellicht fundamentele bug in een geavanceerde robot als Googlebot wegpoetsen lijkt me veel intensiever dan ff een robots.txt aanmaken met 2 regels tekst... Toch?
Ja alsof iedere site zich moet gaan aanpassen omdat Googlebot dataverkeer slurpt. Lijkt me een beetje de omgekeerde wereld.

Heel internet aanpassen voor Google :D (Epic wordt al werkelijkheid ;))


@Paul:

Heel snel gezien:
17532 crawl-66-249-65-176.googlebot.com
9513 crawl-66-249-65-113.googlebot.com
3769 crawl-66-249-65-205.googlebot.com
2889 crawl-66-249-65-36.googlebot.com

Maakt:
33703Kbytes, 33mb dus valt toch wel weer mee als ik het zo bekijk...........

[ Voor 22% gewijzigd door Saus op 10-02-2005 18:12 ]


  • Paul_
  • Registratie: Juni 2001
  • Laatst online: 13-11-2021
Jan schreef op donderdag 10 februari 2005 @ 17:05:
Uhm ja is ook niet zo'n probleem toch :? Een wellicht fundamentele bug in een geavanceerde robot als Googlebot wegpoetsen lijkt me veel intensiever dan ff een robots.txt aanmaken met 2 regels tekst... Toch?
Het kan je tientallen-honderden bezoekers per dag schelen. Ik ga mijn forum zo veranderen dat de structuur net zoals hier bij GoT is.
Pagina: 1