Toon posts:

[SEO] google crawling tijdens onderhoud

Pagina: 1
Acties:

Onderwerpen


Acties:
  • 0Henk 'm!

  • juhet
  • Registratie: November 2007
  • Laatst online: 08:42
Veel van de pagina's van mijn website/webshop worden niet goed in google's index opgenomen. Dit komt doordat er bij veel pagina's geen eigen unieke titel is en de meta-tags niet goed zijn gevuld. Voor beide elementen heb ik een script gemaakt die voor elke pagina een unieke titel, meta-description en meta-keywords aanmaakt. Dit script maakt gebruik van een xml-connectie. Ook de content voor de webshop wordt via deze xml-connectie opgehaald.
Nu heb ik het idee dat er 's nachts onderhoud aan 'de andere kant' van die xml-connectie uitgevoerd wordt. Dat komt aardig overeen met de tijd dat google langskomt om mijn website eens te bekijken. Gevolg: Google ziet slechte pagina's die lang laden en uiteindelijk geen content, titel en meta-tags hebben. Helemaal fout dus.
Wat kan ik hieraan doen? Volgens mij zijn er twee oplossingsrichtingen:
1. Kijken of het onderhoud aan de xml-connectie op een ander tijdstip of op een andere manier uitgevoerd kan worden. Hier heb ik geen controle over want 'de andere kant' is niet van mij.
2. Google vertellen dat er tussen [tijdstip] en [tijdstip] onderhoud uitgevoerd wordt en dat google beter een andere keer, maar wel zsm, langs kan komen.
Mijn voorkeur gaat uit naar optie 2. Ik kan alleen geen manier vinden hoe ik dit uit kan voeren. Ik heb alleen een '503 Service Unavailable' optie gevonden voor robots.txt. Deze geldt volgens mij alleen voor een langere periode en niet voor een aantal uur 's nachts.

3 leuke cadeautips voor een theeliefhebber!


Acties:
  • 0Henk 'm!

  • RobIII
  • Registratie: December 2001
  • Laatst online: 23:10

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

juhet schreef op vrijdag 03 juni 2011 @ 12:05:
Gevolg: Google ziet slechte pagina's die lang laden en uiteindelijk geen content, titel en meta-tags hebben. Helemaal fout dus.
Wat kan ik hieraan doen?
Zorgen dat Google wél pagina's ziet. What else :?
Wat je kunt doen is zorgen dat je zaken cached overdag; als je 's nachts dan time-outs of geen response of weet-ik-het krijg van "de andere kant" dan stuur je de cached versie. Maar wat nog beter is is zorgen dat je weet wat er aan de hand is (je gokt nu op onderhoud) en daar proberen iets aan te doen. Log wat zaken tijdens het ophalen van de data van 'de andere kant' en kijk dan in de logs over een dag of een paar dagen. Meten == weten. Als nou blijkt dat "de andere kant" tussen, zeg, 01:00 en 03:00 op z'n gat ligt (en ze kunnen/willen er niets aan doen) dan zul je moeten zorgen dat je gaat cachen of nog beter: een lokale "kopie" krijgt van de zaken die je "aan de andere kant" telkens gaat halen.
juhet schreef op vrijdag 03 juni 2011 @ 12:05:
Ik heb alleen een '503 Service Unavailable' optie gevonden voor robots.txt.
Een 503 is een HTTP statuscode en heeft niets van doen met een robots.txt

[Voor 33% gewijzigd door RobIII op 03-06-2011 12:14]

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Roses are red Violets are blue, Unexpected ‘{‘ on line 32.

Over mij


Acties:
  • 0Henk 'm!

  • juhet
  • Registratie: November 2007
  • Laatst online: 08:42
Die pagina's cachen is volgens mij teveel werk. Het gaat om vele duizenden pagina's (voor zover ik nu weet meer dan 35.000). Cachen zou wel goed werken als het om minder pagina's zou gaan, denk ik.
Ik zal logs bij gaan houden van google's activiteiten en van de xml-connectie. Daarna kan ik met zekerheid zeggen dat het ligt aan een vorm van onderhoud (oid) aan de andere kant van de xml-connectie.

3 leuke cadeautips voor een theeliefhebber!


Anoniem: 77516

Het beste is toch denk ik om na te gaan waarom de XML connectie niet altijd optimaal werkt. Elke nacht onderhoud lijkt me ook zowat.

Cachen van zoveel pagina's zou opzich geen probleem moeten zijn als je het goed codeert. Echter niet de optimale oplossing lijkt me.

Verder kun je wel in de Webmaster hulpprogramma's diverse instellingen aanpassen voor het crawlen van je site. O.a. de crawlsnelheid e.d.

Meta keywords hebben overigens geen invloed meer op Google zijn ranking of indexing.

[Voor 12% gewijzigd door Anoniem: 77516 op 04-06-2011 23:47. Reden: caching]


Acties:
  • 0Henk 'm!

  • Voutloos
  • Registratie: Januari 2002
  • Niet online
juhet schreef op vrijdag 03 juni 2011 @ 12:29:
Die pagina's cachen is volgens mij teveel werk. Het gaat om vele duizenden pagina's (voor zover ik nu weet meer dan 35.000).
O ja, dat is waar ook. Als je iets automatiseert, wordt het teveel werk bij grote aantallen.

Goed, dat is misschien iets te cynisch. :P Maar ik begrijp je opzet niet helemaal en volgens mij noem je een aantal losse problemen. Dat je bijvoorbeeld met een script een pagina update (titel/meta fixen) is iets dat je in een separaat proces doet en dat is iets dat een eindgebruiker (of crawler) nooit hoeft te merken bijvoorbeeld.

Overigens wat betreft cachen: Communicatie met een ander systeem (je xml connectie) is eigenlijk per definitie traag en foutgevoelig, en dus al gauw interessant om te cachen.

[Voor 11% gewijzigd door Voutloos op 05-06-2011 00:34]

{signature}



Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee