Website gehackt, Google zoekresultaten "verpest"

Pagina: 1
Acties:

Onderwerpen


Acties:
  • 0 Henk 'm!

  • posttoast
  • Registratie: April 2000
  • Laatst online: 23:39
Ergens vorige week is een website die ik een tijd geleden gebouwd heb (www.eurocollege.nl) gehackt. Hoe het precies gebeurd is is mij niet helemaal duidelijk, maar waarschijnlijk heeft iemand op de een of andere manier FTP-toegang tot de server gekregen.

Degene die dit gedaan heeft heeft een robots.txt op de server geplaatst met een volledige HTML-pagina als inhoud. Ik wist niet dat dit überhaupt iets uit zou halen, maar Google is vervolgens die content gaan indexeren in plaats van de echte content. Ook de "in cache" pagina van Google toonde de inhoud van die robots.txt (wat overigens een <h1> was met wat YouPorn teksten en verder een verzameling willekeurige Engelse woorden). Fetch as Googlebot uit de Webmaster Tools liet dan ook deze content zien en niet de echte site.

Uiteindelijk heb ik de robots.txt verwijderd, het FTP wachtwoord aangepast en met de Google Webmaster Tools de cache weg laten gooien. Fetch as Googlebot geeft nu netjes weer de juiste content weer. Maar: de zoekresultaten tonen nog steeds de titel "Youporn - Porno Video for You!!!". Dat het even wat tijd kost is natuurlijk logisch, maar ik kan me niet voorstellen dat Google er een week over doet voor de pagina opnieuw geïndexeerd is. Daarom hier de vraag: wat kan ik verder nog doen?

Op het Google Support forum loopt ook een draadje (opgezet door een medewerker van de school) over dit onderwerp. Hier reageert een aantal mensen op, maar ik kan eigenlijk niet zoveel met de antwoorden. Maar goed, waarschijnlijk zijn dit dan ook geen Tweakers ;)

Ik hoop dat iemand mij kan helpen :)

[ Voor 4% gewijzigd door posttoast op 02-05-2010 11:41 ]

omniscale.nl


Acties:
  • 0 Henk 'm!

  • RetroTycoon
  • Registratie: Juli 2008
  • Laatst online: 18-09 14:25
Vooral nieuwe, vervangende content plaatsen is bij mij tot nu toe in zulke gevallen (ongewenste resultaten uitroeien) het meest effectief gebleken. Succes :)

Acties:
  • 0 Henk 'm!

  • remco_k
  • Registratie: April 2002
  • Laatst online: 22:40

remco_k

een cassettebandje was genoeg

Google komt periodiek langs je website. En afhankelijk of je regelmatig updates doet (nieuws plaatst) komt google vanzelf vaker langs (en daar hangen natuurlijk wat meer 'voorwaarden' aan). Doe (of deed) je dat niet, dan kan het inderdaad zomaar 1 week of langer duren voordat google de contents van je website weer heeft bijgewerkt. Daar is op dit moment m.i. niets aan te doen en kan je eigenlijk alleen maar afwachten tot het vanzelf gebeurd.

[ Voor 15% gewijzigd door remco_k op 02-05-2010 13:01 ]

Alles kan stuk.


Acties:
  • 0 Henk 'm!

  • posttoast
  • Registratie: April 2000
  • Laatst online: 23:39
Dank voor jullie reacties.

Op dat Google forum zegt iemand dit:
Het verschil zit in de UA, met google krijg je een 500 fout met een hele UA gaat het goed (zoiets schiet natuurlijk niet op en zeker niet als je hier om hulp gaat vragen ) bovendien laat laatste zien dat de site geen gebruik maakt van gzip maar de paginas gechunked uitgeeft.
Gaat dat nog ergens over?

omniscale.nl


Acties:
  • 0 Henk 'm!

  • remco_k
  • Registratie: April 2002
  • Laatst online: 22:40

remco_k

een cassettebandje was genoeg

Trouwens, als ik alle resultaten van die website opvraag met: http://www.google.nl/sear...site%3Awww.eurocollege.nl
Is er op dit moment maar 1 pagina die geindexeerd is als p0rn rommel.

Alles kan stuk.


Acties:
  • 0 Henk 'm!

  • Voutloos
  • Registratie: Januari 2002
  • Niet online
posttoast schreef op zondag 02 mei 2010 @ 13:01:
Dank voor jullie reacties.

Op dat Google forum zegt iemand dit:

[...]

Gaat dat nog ergens over?
Dat onderscheid maken op basis van user agent is wel redelijk stom, elke user agent verdient een goede response. Dat laatste punt over transfer encoding is offtopic interessant doen; het klinkt leuk, maar boeit nu totaal niet.

{signature}


Acties:
  • 0 Henk 'm!

  • posttoast
  • Registratie: April 2000
  • Laatst online: 23:39
remco_k schreef op zondag 02 mei 2010 @ 13:04:
Trouwens, als ik alle resultaten van die website opvraag met: http://www.google.nl/sear...site%3Awww.eurocollege.nl
Is er op dit moment maar 1 pagina die geindexeerd is als p0rn rommel.
Jep, de homepage inderdaad.
Voutloos schreef op zondag 02 mei 2010 @ 13:13:
[...]
Dat onderscheid maken op basis van user agent is wel redelijk stom, elke user agent verdient een goede response. Dat laatste punt over transfer encoding is offtopic interessant doen; het klinkt leuk, maar boeit nu totaal niet.
OK, maar waar wordt dat onderscheid gemaakt? Ik doe het niet (althans, niet bewust). Is dat een Apache instelling? WebReus (de hostingprovider) is niet bepaald behulpzaam in deze overigens, dus ik voel een verhuizing aankomen.

omniscale.nl


Acties:
  • 0 Henk 'm!

  • Soultaker
  • Registratie: September 2000
  • Laatst online: 01:47
Ik weet niet waar dat verhaal over Internal Server Errors vandaan komt maar als ik met een Googlebot User-Agent string de pagina bezoek krijg ik gewoon de goede pagina te zien. edit: Ah, als je alleen "Google" als User-Agent invult gaat het inderdaad niet goed. Geen idee waar dat aan ligt; zonder User-Agent gaat 't wel goed...

Het is wel zo dat hackers soms pagina's op zo'n manier aanpassen dat alleen aan search bots de links worden voorgeschoteld. Daarmee voorkomen ze dat de rechtmatige eigenaar ontdekt dat z'n site gehackt is. Dat is vanuit PHP eenvoudig te doen door ofwel de User-Agent te checken (dat lijkt niet te gebeuren) of door IP-adressen te whitelisten (wat lastiger is, omdat niet alle IP adressen van zoekbots bekend zijn). Heb je al gecontroleerd of alle originele bestanden weer op de server staan zonder aanpassingen?

Vooralsnog zou ik er van uitgaan dat alles weer goed is en Google simpelweg wat tijd nodig heeft om de boel weer goed te indexeren. Dat kan even duren.

[ Voor 8% gewijzigd door Soultaker op 02-05-2010 15:11 ]


Acties:
  • 0 Henk 'm!

  • posttoast
  • Registratie: April 2000
  • Laatst online: 23:39
Soultaker schreef op zondag 02 mei 2010 @ 15:07:
Ik weet niet waar dat verhaal over Internal Server Errors vandaan komt maar als ik met een Googlebot User-Agent string de pagina bezoek krijg ik gewoon de goede pagina te zien. edit: Ah, als je alleen "Google" als User-Agent invult gaat het inderdaad niet goed. Geen idee waar dat aan ligt; zonder User-Agent gaat 't wel goed...

Het is wel zo dat hackers soms pagina's op zo'n manier aanpassen dat alleen aan search bots de links worden voorgeschoteld. Daarmee voorkomen ze dat de rechtmatige eigenaar ontdekt dat z'n site gehackt is. Dat is vanuit PHP eenvoudig te doen door ofwel de User-Agent te checken (dat lijkt niet te gebeuren) of door IP-adressen te whitelisten (wat lastiger is, omdat niet alle IP adressen van zoekbots bekend zijn). Heb je al gecontroleerd of alle originele bestanden weer op de server staan zonder aanpassingen?

Vooralsnog zou ik er van uitgaan dat alles weer goed is en Google simpelweg wat tijd nodig heeft om de boel weer goed te indexeren. Dat kan even duren.
Ik heb van de week al de hele server leeggegooid en alle bestanden vanaf de testserver opnieuw erop gezet. Dat probleem zou er dus niet moeten zijn. Maar hoe het dan komt dat je met "Google" als user agent geen goed resultaat krijgt snap ik niet. Hoe test je dat precies?

omniscale.nl


Acties:
  • 0 Henk 'm!

  • Soultaker
  • Registratie: September 2000
  • Laatst online: 01:47
$ nc www.eurocollege.nl 80
Invoer:
GET / HTTP/1.0
Host: www.eurocollege.nl
User-Agent: Google

Uitvoer:
HTTP/1.1 500 Internal Server Error
Date: Sun, 02 May 2010 14:10:03 GMT
Server: Apache/2.0.54 (Fedora)
Last-Modified: Sun, 09 Nov 2008 21:38:17 GMT
ETag: "32e10154-4ee-76dfe440"
Accept-Ranges: bytes
Content-Length: 1262
Connection: close
Content-Type: text/html

<HTML>
<HEAD>
<TITLE>500 Internal Server Error</TITLE>
etc.


Hoewel dit niet goed is, weet ik niet of 't iets met je huidige probleem te maken heeft...

Acties:
  • 0 Henk 'm!

  • posttoast
  • Registratie: April 2000
  • Laatst online: 23:39
Dank, heb het zelf ook even geprobeerd. Het gebeurt op meerdere sites die ik bij WebReus gehost heb staan. Op andere servers (niet bij WebReus dus) gaat het wel goed. Betekent dit dan dat ze bij WebReus lopen te prutsen?

omniscale.nl


Acties:
  • 0 Henk 'm!

  • André
  • Registratie: Maart 2002
  • Laatst online: 12-09 14:32

André

Analytics dude

Geldt ook voor mijn sites die bij webreus staan, vaag.

Acties:
  • 0 Henk 'm!

  • posttoast
  • Registratie: April 2000
  • Laatst online: 23:39
Ik heb ze maar (weer eens) een mail gestuurd.

omniscale.nl


Acties:
  • 0 Henk 'm!

Verwijderd

Is inderdaad vaag (zit ook bij Webreus), maar als je een Host: header meestuurt wat Google vast wel doet werkt 't wel.

Acties:
  • 0 Henk 'm!

  • Soultaker
  • Registratie: September 2000
  • Laatst online: 01:47
Die Host: header heeft er niets mee te maken. ;) Het ging om de User-Agent string.

Overigens is dit in de praktijk ook niet echt problematisch (de Googlebot stuurt een wél werkende User-Agent string mee, niet simpelweg "Google") maar het blijft een curieus fenomeen.

Acties:
  • 0 Henk 'm!

  • Wolfboy
  • Registratie: Januari 2001
  • Niet online

Wolfboy

ubi dubium ibi libertas

Niet om je heel erg te ontmoedigen, maar dit soort content kan (als er geen vervangende content is) maanden in de google index blijven hangen. Je beste gok is dus zoveel mogelijk spul nieuwe content te genereren (wel echte content, anders schiet je er nog niets mee op) en hopen dat het dan snel verdwijnt.

Blog [Stackoverflow] [LinkedIn]


Acties:
  • 0 Henk 'm!

  • Fish
  • Registratie: Juli 2002
  • Niet online

Fish

How much is the fish

Soultaker schreef op zondag 02 mei 2010 @ 18:01:
Die Host: header heeft er niets mee te maken. ;) Het ging om de User-Agent string.

Overigens is dit in de praktijk ook niet echt problematisch (de Googlebot stuurt een wél werkende User-Agent string mee, niet simpelweg "Google") maar het blijft een curieus fenomeen.
deze wellicht ?

GET / HTTP/1.0
Host: www.eurocollege.nl
User-Agent: Googlebot/1.0 (googlebot@googlebot.com http://googlebot.com/ googlebot.com/)

en dan krijg je genoeg terug

Iperf


Acties:
  • 0 Henk 'm!

  • posttoast
  • Registratie: April 2000
  • Laatst online: 23:39
Wolfboy schreef op zondag 02 mei 2010 @ 18:33:
Niet om je heel erg te ontmoedigen, maar dit soort content kan (als er geen vervangende content is) maanden in de google index blijven hangen. Je beste gok is dus zoveel mogelijk spul nieuwe content te genereren (wel echte content, anders schiet je er nog niets mee op) en hopen dat het dan snel verdwijnt.
Hoe komt dat dan eigenlijk? Deze troep heeft er hoogstens een dag op gestaan, normaal duurt het toch geen maanden voor een site opnieuw wordt geïndexeerd? En wat bedoel je met "vervangende content"? Die is er nu in principe toch (gewoon de normale site)?

omniscale.nl


Acties:
  • 0 Henk 'm!

  • Fish
  • Registratie: Juli 2002
  • Niet online

Fish

How much is the fish

neuh hoor zoek maar eens op pas gestarte tweaker topics ..

Die vind je soms net zo hard bovenaan zodra je een search voor iemand anders probeert
e.g

http://www.google.nl/sear...ei=2bbdS4bwONuk-Ab_kvX3Bg
;)

Iperf


Acties:
  • 0 Henk 'm!

  • Mad Marty
  • Registratie: Juni 2003
  • Laatst online: 01:08

Mad Marty

Je bent slimmer als je denkt!

Maar GoT wordt ook wel iets vaker bezocht door de Googlebot dan een website met content die niet zo vaak verandert natuurlijk.

Rail Away!


Acties:
  • 0 Henk 'm!

  • Fish
  • Registratie: Juli 2002
  • Niet online

Fish

How much is the fish

lijkt me dat een school/college ook best in die categorie kan vallen

Iperf


Acties:
  • 0 Henk 'm!

  • Wolfboy
  • Registratie: Januari 2001
  • Niet online

Wolfboy

ubi dubium ibi libertas

posttoast schreef op zondag 02 mei 2010 @ 19:04:
[...]

Hoe komt dat dan eigenlijk? Deze troep heeft er hoogstens een dag op gestaan, normaal duurt het toch geen maanden voor een site opnieuw wordt geïndexeerd? En wat bedoel je met "vervangende content"? Die is er nu in principe toch (gewoon de normale site)?
Het grote probleem is dat Google enorm veel servers heeft en dat het daardoor in sommoge gevallen heel lang kan duren (weken/maanden) voor alles overal heen gesynchroniseerd is. De resultaten in Google images bijvoorbeeld zie je maar heel zelden updaten en kan ook heel goed maanden out of date zijn.

De normale site komt waarschijnlijk binnenkort wel weer in Google te staan, maar het kan flink lang duren voor de resultaten echt overal weg zijn ;) Je beste kans is dan ook zoveel nieuwe/verse content toe te voegen dat niemand meer de oude content kan vinden.
fish schreef op zondag 02 mei 2010 @ 19:31:
neuh hoor zoek maar eens op pas gestarte tweaker topics ..

Die vind je soms net zo hard bovenaan zodra je een search voor iemand anders probeert
e.g

http://www.google.nl/sear...ei=2bbdS4bwONuk-Ab_kvX3Bg
;)
Dat klopt, Google is tegenwoordig goed bezig met het toevoegen van nieuwe content. Maar... dat is het "erbij plakken" van nieuwe content. Dat wil niet zeggen dat het de oude content direct vervangt ;)

Blog [Stackoverflow] [LinkedIn]


Acties:
  • 0 Henk 'm!

  • remco_k
  • Registratie: April 2002
  • Laatst online: 22:40

remco_k

een cassettebandje was genoeg

fish schreef op zondag 02 mei 2010 @ 19:31:
neuh hoor zoek maar eens op pas gestarte tweaker topics ..

Die vind je soms net zo hard bovenaan zodra je een search voor iemand anders probeert
e.g

http://www.google.nl/sear...ei=2bbdS4bwONuk-Ab_kvX3Bg
;)
Zoals gezegd, GoT is een site die heel dynamisch is. Google weet/leert dat en past zijn 'bezoeken' daarop aan. Ik zie hetzelfde fenomeen op verschillende websites die ik beheer. Op 1 van de sites wordt regelmatig nieuws geplaatst, meerdere keren per dag. Als ik in de logs ervan kijk, zie ik google soms meerdere malen per uur langskomen - nieuw geplaatst nieuws is vaak binnen 15 minuten geindexeerd. Op een andere website waar b.v. om de dag wat nieuws verschijnt moet ik gewoon heel goed kijken om uberhaubt een spoor van google in de logs te vinden. Het is gewoon slim bedacht. :)

De webste van de TS daarintegen lijkt meer een statisch geheel te zijn. Google heeft dat ook geleerd en heeft zijn bezoek cylcus daarop aangepast. Logisch en terecht. Alleen is dat nu een nadeel.
fish schreef op zondag 02 mei 2010 @ 19:36:
lijkt me dat een school/college ook best in die categorie kan vallen
Als ze regelmatig (b.v. dagelijks) nieuwe content zoals nieuws plaatsen wel ja. :)

Misschien nog een tip voor de TS: maak eens een robots.txt met wat zinnige gegevens erin. Meld die aan bij google voor de webmaster tools. Wellicht dat je op die manier een bezoekje van de bot bespoedigd.

[ Voor 17% gewijzigd door remco_k op 02-05-2010 20:09 ]

Alles kan stuk.


Acties:
  • 0 Henk 'm!

  • Wolfboy
  • Registratie: Januari 2001
  • Niet online

Wolfboy

ubi dubium ibi libertas

fish schreef op zondag 02 mei 2010 @ 18:47:
[...]

deze wellicht ?

GET / HTTP/1.0
Host: www.eurocollege.nl
User-Agent: Googlebot/1.0 (googlebot@googlebot.com http://googlebot.com/ googlebot.com/)

en dan krijg je genoeg terug
Waarom doe je HTTP/1.0 als je wel een host header meestuurt? Beetje tegenstrijdig :P
fish schreef op zondag 02 mei 2010 @ 19:36:
lijkt me dat een school/college ook best in die categorie kan vallen
Hangt volledig van de relevantie van de site (en de pagina's die naar je site linken) af. Voor zover mogelijk zal Google in ieder geval alle belangrijke pagina's zo vaak mogelijk opnieuw indexeren. Maar als een compleet niet belangrijke pagina geindexeerd wordt... dan heb je vaak wel een probleem. Kan best lang duren voor het verdwijnt ;)

Blog [Stackoverflow] [LinkedIn]


Acties:
  • 0 Henk 'm!

  • Frash
  • Registratie: Mei 2002
  • Laatst online: 19:24
Wat ik in jouw scenario zou doen is:

1) Een Google XML sitemap maken (evt. met sitemap generator) met alle pagina's die je opnieuw geindexeerd wilt hebben' van de website en een changefreq van hourly of always.
2) De sitemap toevoegen in Google Webmaster Central
3) De sitemap een paar keer per dag pingen
4) De crawl rate op z'n hoogst zetten in Google Webmaster Central om te zorgen dat Google genoeg ruimte heeft om de nodige pagina's te crawlen.
5) De sitemap toevoegen aan robots.txt met 'Sitemap: http://www.eurocollege.nl/sitemap.xml'. Dit zodat ook andere zoekmachines de sitemap herkennen zonder ze toe te hoeven voegen.

[ Voor 14% gewijzigd door Frash op 02-05-2010 20:26 ]


Acties:
  • 0 Henk 'm!

  • posttoast
  • Registratie: April 2000
  • Laatst online: 23:39
Bedankt voor al jullie reacties. Ik heb in ieder geval alles gedaan wat Frash zegt.

Toch vervelend dat er geen "noodprocedure" is bij Google voor dit soort situaties. Dit is natuurlijk niet echt goed voor zo'n school.

Die Ralf gaat in dat topic op het Google forum ook gewoon door trouwens. Nu komt ie hier mee:
Wat op jullie server gebeurd heb ik geen inzicht in, ik constateer alleen iets wat eerder wel werkte en nu niet meer. Tussentijds gaan de ontwikkelingen gewoon door zoals links naar jullie site en ook naar sites van derden met display:none zoals op twindisc . com met als linktekst pornhub en youporn. Het is behoorlijk heftig wat hier gaande, de manier van bezoekers omleiden op sommige sites is nu niet eens meer te achterhalen.
Gaat dit nog ergens over? Is dit een gevalletje aluminium hoedjes en chemtrails, of betekent dit ook nog echt iets?

[ Voor 60% gewijzigd door posttoast op 02-05-2010 20:44 ]

omniscale.nl


Acties:
  • 0 Henk 'm!

  • Fish
  • Registratie: Juli 2002
  • Niet online

Fish

How much is the fish

kun je niet het een en ander aan shizzle fixen in de webmaster tools

https://www.google.com/ac...bmasters%2Ftools%2F&hl=en

(http://www.webmasterworld.com/webmaster/3620493.htm)

Iperf


Acties:
  • 0 Henk 'm!

  • posttoast
  • Registratie: April 2000
  • Laatst online: 23:39
Daar zit ik al een paar dagen in rond te klikken :)

Mocht er iets in zitten waarmee ik dat kan fixen dan hoor ik het graag.

omniscale.nl


Acties:
  • 0 Henk 'm!

  • André
  • Registratie: Maart 2002
  • Laatst online: 12-09 14:32

André

Analytics dude

In de Google Webmaster Tools -> Siteconfiguratie -> Crawlertoegang -> URL verwijderen -> Nieuwe aanvraag. Je kunt dat aangeven dat de cache-info verouderd is of niet klopt. Daarmee kun je het proces flink bespoedigen ;)

https://www.google.com/webmasters/tools/removals

/edit
reactie op hieronder: je kunt alleen de cache verwijderen ;)

[ Voor 11% gewijzigd door André op 02-05-2010 21:42 ]


Acties:
  • 0 Henk 'm!

  • Wolfboy
  • Registratie: Januari 2001
  • Niet online

Wolfboy

ubi dubium ibi libertas

Het enige dat je in de webmastertools kan doen is alles verwijderen na het spul allemaal in de robots.txt verwijderd te hebben... maar dan ben je al je geindexeerde pagina's en al je pagerank kwijt. Lijkt me niet de bedoeling iig.

Blog [Stackoverflow] [LinkedIn]


Acties:
  • 0 Henk 'm!

  • wow7
  • Registratie: Oktober 2009
  • Laatst online: 17:24
Frash schreef op zondag 02 mei 2010 @ 20:21:
Wat ik in jouw scenario zou doen is:

1) Een Google XML sitemap maken (evt. met sitemap generator) met alle pagina's die je opnieuw geindexeerd wilt hebben' van de website en een changefreq van hourly of always.
2) De sitemap toevoegen in Google Webmaster Central
3) De sitemap een paar keer per dag pingen
4) De crawl rate op z'n hoogst zetten in Google Webmaster Central om te zorgen dat Google genoeg ruimte heeft om de nodige pagina's te crawlen.
5) De sitemap toevoegen aan robots.txt met 'Sitemap: http://www.eurocollege.nl/sitemap.xml'. Dit zodat ook andere zoekmachines de sitemap herkennen zonder ze toe te hoeven voegen.
Dat lijk me geen goed idee , de google index via xml geeft ook bestands namen weer en is onveilig en totaal nutteloos, google op stemap.xml ( cache kan ook nog ) leest netjes je hele bestands structuur uit..

Precies wat een hacker nodig heeft een volledige index van je page, je kan beter een goede meta data en meta content in de pagina verwerken en er zijn tooltjes genoeg te vinden om de site te laten indexeren handmatig zodat ie ook update. Beetje SEO doet wonderen op een site. Als je bv met mod-rewrite ( php ) werk word die functie ook overbodig om je bestanden onzichtbaar te maken.

Blader hier maar eens een beetje doorheen http://www.seohandleiding...vals-spelen.html#more-138 en er staan ook nog andere goede topics op die site.

Acties:
  • 0 Henk 'm!

  • Frash
  • Registratie: Mei 2002
  • Laatst online: 19:24
wow7 schreef op zondag 02 mei 2010 @ 21:34:
[...]


Dat lijk me geen goed idee , de google index via xml geeft ook bestands namen weer en is onveilig en totaal nutteloos, google op stemap.xml ( cache kan ook nog ) leest netjes je hele bestands structuur uit..
offtopic:
Wat jij voorsteld is 'security by obscurity'; bestanden die niet gezien mogen verbergen in plaats van afschermen. Met een goed CMS kun je goede sitemaps maken om Google indexatiehints te geven, wat dus ook dankbaar gedaan wordt door grote SEO jongens als yoast en seomoz.

Ik zie echter dat de site al een sitemap heeft en dat de frontpage een changefreq op weekly heeft. Ik zou die op hourly zetten omdat Google nu op een dwaalspoor wordt gezet. Vervolgens even paar keer pingen op de sitemap ping URL.

Acties:
  • 0 Henk 'm!

  • posttoast
  • Registratie: April 2000
  • Laatst online: 23:39
@Frash: Ik heb die sitemap net gemaakt en zal hem op hourly zetten inderdaad. Bestanden die niet gezien mogen worden op die server kunnen ook niet gezien worden, dus alles mag gewoon in de sitemap staan. Wat bedoel je met de "sitemap ping URL"?

@André: Wat betreft de cache verwijderen met de Webmaster Tools, dat heb ik van de week gedaan. Werkte prima: de cache is nu weg. Maar die gekke titel staat er wel nog steeds.

omniscale.nl


Acties:
  • 0 Henk 'm!

  • Frash
  • Registratie: Mei 2002
  • Laatst online: 19:24
posttoast schreef op zondag 02 mei 2010 @ 21:47:
@Frash: Ik heb die sitemap net gemaakt en zal hem op hourly zetten inderdaad. Bestanden die niet gezien mogen worden op die server kunnen ook niet gezien worden, dus alles mag gewoon in de sitemap staan. Wat bedoel je met de "sitemap ping URL"?

@André: Wat betreft de cache verwijderen met de Webmaster Tools, dat heb ik van de week gedaan. Werkte prima: de cache is nu weg. Maar die gekke titel staat er wel nog steeds.
Deze URL elke keer aanroepen als de site is veranderd (of elke 10 minuten door een cronjob):

http://www.google.com/web...ocollege.nl%2Fsitemap.xml

Acties:
  • 0 Henk 'm!

  • André
  • Registratie: Maart 2002
  • Laatst online: 12-09 14:32

André

Analytics dude

posttoast schreef op zondag 02 mei 2010 @ 21:47:
@André: Wat betreft de cache verwijderen met de Webmaster Tools, dat heb ik van de week gedaan. Werkte prima: de cache is nu weg. Maar die gekke titel staat er wel nog steeds.
Met cache bedoel ik eigenlijk de snippet, dus het hele resultaat. Ik heb in het verleden al tientallen keren succesvol een aanvraag gedaan waarbij Google een pagina snel opnieuw geïndexeerd heeft.

Acties:
  • 0 Henk 'm!

  • posttoast
  • Registratie: April 2000
  • Laatst online: 23:39
André schreef op zondag 02 mei 2010 @ 22:13:
[...]

Met cache bedoel ik eigenlijk de snippet, dus het hele resultaat. Ik heb in het verleden al tientallen keren succesvol een aanvraag gedaan waarbij Google een pagina snel opnieuw geïndexeerd heeft.
Wat bedoel je daar precies mee? Als ik het helemaal wil laten verwijderen, dan denied hij dat omdat ik geen noindex/nofollow in mijn robots.txt heb staan.

Die vage tekst in de cache is nu weer terug trouwens: http://www.google.nl/search?q=eurocollege

Op de server staat niets vaags. Hoe kan dit nou?

[ Voor 13% gewijzigd door posttoast op 03-05-2010 19:16 ]

omniscale.nl


Acties:
  • 0 Henk 'm!

  • André
  • Registratie: Maart 2002
  • Laatst online: 12-09 14:32

André

Analytics dude

Ik heb het verzoek voor je ingediend ;) Als het goed is zal het nu snel aangepast zijn.

Acties:
  • 0 Henk 'm!

  • posttoast
  • Registratie: April 2000
  • Laatst online: 23:39
Wow, dank! :D

Nog even uit interesse: waar en hoe heb je dat verzoek ingediend?

[ Voor 72% gewijzigd door posttoast op 03-05-2010 23:48 ]

omniscale.nl


Acties:
  • 0 Henk 'm!

  • posttoast
  • Registratie: April 2000
  • Laatst online: 23:39
Ik snap er niets van: vanmorgen leek het even goed te gaan en nu gaat het toch weer mis...

Oeps, sorry voor de trap, ik had een edit willen doen

[ Voor 27% gewijzigd door posttoast op 04-05-2010 10:45 ]

omniscale.nl


Acties:
  • 0 Henk 'm!

  • Wolfboy
  • Registratie: Januari 2001
  • Niet online

Wolfboy

ubi dubium ibi libertas

posttoast schreef op maandag 03 mei 2010 @ 19:13:
Die vage tekst in de cache is nu weer terug trouwens: http://www.google.nl/search?q=eurocollege

Op de server staat niets vaags. Hoe kan dit nou?
Zoals ik al zei, cache ;)
Google heeft heel veel servers en het kan dus best zjin dat je nu opeens op een andere server terecht komt.

Blog [Stackoverflow] [LinkedIn]


Acties:
  • 0 Henk 'm!

  • Frash
  • Registratie: Mei 2002
  • Laatst online: 19:24
Wolfboy schreef op dinsdag 04 mei 2010 @ 11:12:
[...]
Zoals ik al zei, cache ;)
Google heeft heel veel servers en het kan dus best zjin dat je nu opeens op een andere server terecht komt.
Idd, dit effect kun je hier vinden.

Acties:
  • 0 Henk 'm!

  • posttoast
  • Registratie: April 2000
  • Laatst online: 23:39
Frash schreef op dinsdag 04 mei 2010 @ 12:01:
[...]

Idd, dit effect kun je hier vinden.
Interessant, dit kende ik nog niet. Wel balen, want zo te zien wordt bijna overal nog dat pornoverhaal getoond als ik op "eurocollege" zoek.

omniscale.nl


Acties:
  • 0 Henk 'm!

  • remco_k
  • Registratie: April 2002
  • Laatst online: 22:40

remco_k

een cassettebandje was genoeg

Frash schreef op zondag 02 mei 2010 @ 20:21:
...
3) De sitemap een paar keer per dag pingen
...
Het is enigszins offtopic maar ik wil je bedanken voor die tip. :)
Blijkbaar heb ik deze methode over het hoofd gezien toen ik de sitemap implementatie voor een website aan het maken was.
Nu ping ik de nieuws-sitemap op het moment dat er nieuws wordt gepost en dat werkt verdraait mooi! Binnen c.a. 1 minuut zie ik dan de google crawler voorbijkomen op de url van de nieuws-sitemap en wordt vrijwel direct geindexeerd. :)

Alles kan stuk.


Acties:
  • 0 Henk 'm!

  • posttoast
  • Registratie: April 2000
  • Laatst online: 23:39
@Frash (en de rest): ik heb die site nog eens geprobeerd waarop je kunt testen met meerdere Google servers. Daar zie ik het inderdaad op een paar plekken min of meer goed gaan. Min of meer, omdat er daar iets anders aan de hand lijkt te zijn. Een subpagina toont hier ook ineens de foute content. Moet ik me zorgen maken over de inhoud van de server? Hoe verzeker ik me er van dat er geen verborgen meuk meer op staat? Of is er niets aan de hand en moet ik gewoon nog geduld hebben? Zo ja: hoe lang kan dit nog duren?

Hier een screenshot van het effect dat ik bedoel:
Screenshot Google

omniscale.nl


Acties:
  • 0 Henk 'm!

  • Frash
  • Registratie: Mei 2002
  • Laatst online: 19:24
posttoast schreef op woensdag 05 mei 2010 @ 00:06:
@Frash (en de rest): ik heb die site nog eens geprobeerd waarop je kunt testen met meerdere Google servers. Daar zie ik het inderdaad op een paar plekken min of meer goed gaan. Min of meer, omdat er daar iets anders aan de hand lijkt te zijn. Een subpagina toont hier ook ineens de foute content. Moet ik me zorgen maken over de inhoud van de server? Hoe verzeker ik me er van dat er geen verborgen meuk meer op staat? Of is er niets aan de hand en moet ik gewoon nog geduld hebben? Zo ja: hoe lang kan dit nog duren?
Ik zou mij hier geen zorgen over maken. Google kiest het geografische meest voordelige datacentrum voor haar bezoekers, dit kan heel goed 'na-ijlen' zijn in een ander land. Voor de zekerheid kun je alsnog de crawl speed in Webmaster Central omhoog gooien, mocht je dat nog niet gedaan hebben. Dit ism met een degelijke sitemap (zorg dat lastmod dates ook echt kloppen, laat ze anders weg gezien ze optioneel zijn) moet je site vers in Google houden.
Pagina: 1