[SEO] google crawling tijdens onderhoud

vrijdag 3 juni 2011 12:05

Acties:

Topicstarter

Veel van de pagina's van mijn website/webshop worden niet goed in google's index opgenomen. Dit komt doordat er bij veel pagina's geen eigen unieke titel is en de meta-tags niet goed zijn gevuld. Voor beide elementen heb ik een script gemaakt die voor elke pagina een unieke titel, meta-description en meta-keywords aanmaakt. Dit script maakt gebruik van een xml-connectie. Ook de content voor de webshop wordt via deze xml-connectie opgehaald.
Nu heb ik het idee dat er 's nachts onderhoud aan 'de andere kant' van die xml-connectie uitgevoerd wordt. Dat komt aardig overeen met de tijd dat google langskomt om mijn website eens te bekijken. Gevolg: Google ziet slechte pagina's die lang laden en uiteindelijk geen content, titel en meta-tags hebben. Helemaal fout dus.
Wat kan ik hieraan doen? Volgens mij zijn er twee oplossingsrichtingen:
1. Kijken of het onderhoud aan de xml-connectie op een ander tijdstip of op een andere manier uitgevoerd kan worden. Hier heb ik geen controle over want 'de andere kant' is niet van mij.
2. Google vertellen dat er tussen [tijdstip] en [tijdstip] onderhoud uitgevoerd wordt en dat google beter een andere keer, maar wel zsm, langs kan komen.
Mijn voorkeur gaat uit naar optie 2. Ik kan alleen geen manier vinden hoe ik dit uit kan voeren. Ik heb alleen een '503 Service Unavailable' optie gevonden voor robots.txt. Deze geldt volgens mij alleen voor een langere periode en niet voor een aantal uur 's nachts.

3 leuke cadeautips voor een theeliefhebber!

vrijdag 3 juni 2011 12:09

Acties:

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

juhet schreef op vrijdag 03 juni 2011 @ 12:05:
Gevolg: Google ziet slechte pagina's die lang laden en uiteindelijk geen content, titel en meta-tags hebben. Helemaal fout dus.
Wat kan ik hieraan doen?

Zorgen dat Google wél pagina's ziet. What else

Wat je kunt doen is zorgen dat je zaken cached overdag; als je 's nachts dan time-outs of geen response of weet-ik-het krijg van "de andere kant" dan stuur je de cached versie. Maar wat nog beter is is zorgen dat je weet wat er aan de hand is (je gokt nu op onderhoud) en daar proberen iets aan te doen. Log wat zaken tijdens het ophalen van de data van 'de andere kant' en kijk dan in de logs over een dag of een paar dagen. Meten == weten. Als nou blijkt dat "de andere kant" tussen, zeg, 01:00 en 03:00 op z'n gat ligt (en ze kunnen/willen er niets aan doen) dan zul je moeten zorgen dat je gaat cachen of nog beter: een lokale "kopie" krijgt van de zaken die je "aan de andere kant" telkens gaat halen.

juhet schreef op vrijdag 03 juni 2011 @ 12:05:
Ik heb alleen een '503 Service Unavailable' optie gevonden voor robots.txt.

Een 503 is een HTTP statuscode en heeft niets van doen met een robots.txt

[ Voor 33% gewijzigd door RobIII op 03-06-2011 12:14 ]

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij

vrijdag 3 juni 2011 12:29

Acties:

juhet

Topicstarter

Die pagina's cachen is volgens mij teveel werk. Het gaat om vele duizenden pagina's (voor zover ik nu weet meer dan 35.000). Cachen zou wel goed werken als het om minder pagina's zou gaan, denk ik.
Ik zal logs bij gaan houden van google's activiteiten en van de xml-connectie. Daarna kan ik met zekerheid zeggen dat het ligt aan een vorm van onderhoud (oid) aan de andere kant van de xml-connectie.

3 leuke cadeautips voor een theeliefhebber!

zaterdag 4 juni 2011 23:46

Acties:

Verwijderd

Het beste is toch denk ik om na te gaan waarom de XML connectie niet altijd optimaal werkt. Elke nacht onderhoud lijkt me ook zowat.

Cachen van zoveel pagina's zou opzich geen probleem moeten zijn als je het goed codeert. Echter niet de optimale oplossing lijkt me.

Verder kun je wel in de Webmaster hulpprogramma's diverse instellingen aanpassen voor het crawlen van je site. O.a. de crawlsnelheid e.d.

Meta keywords hebben overigens geen invloed meer op Google zijn ranking of indexing.

[ Voor 12% gewijzigd door Verwijderd op 04-06-2011 23:47 . Reden: caching ]

zondag 5 juni 2011 00:32

Acties:

Voutloos

juhet schreef op vrijdag 03 juni 2011 @ 12:29:
Die pagina's cachen is volgens mij teveel werk. Het gaat om vele duizenden pagina's (voor zover ik nu weet meer dan 35.000).

O ja, dat is waar ook. Als je iets automatiseert, wordt het teveel werk bij grote aantallen.

Goed, dat is misschien iets te cynisch.

Maar ik begrijp je opzet niet helemaal en volgens mij noem je een aantal losse problemen. Dat je bijvoorbeeld met een script een pagina update (titel/meta fixen) is iets dat je in een separaat proces doet en dat is iets dat een eindgebruiker (of crawler) nooit hoeft te merken bijvoorbeeld.

Overigens wat betreft cachen: Communicatie met een ander systeem (je xml connectie) is eigenlijk per definitie traag en foutgevoelig, en dus al gauw interessant om te cachen.

[ Voor 11% gewijzigd door Voutloos op 05-06-2011 00:34 ]

{signature}

Onderwerpen