Google accepteert sitemap maar deels?

Pagina: 1
Acties:

Acties:
  • 0 Henk 'm!

  • maleadt
  • Registratie: Januari 2006
  • Laatst online: 26-09 11:56
Hallo,

Om Google en co wat wegwijs te maken op mijn bescheiden homepage, heb ik een robots.txt en sitemap.xml toegevoegd. De robots.txt moet verwijzen naar de bijhorende sitemap, en ziet er als volgt uit:
code:
1
2
3
User-Agent: *
Disallow: /folder_die_bots_niet_horen_te_zien/
Sitemap: http://maleadt.no-ip.org:8080/sitemap.xml


De sitemap wordt automatisch gegenereerd, via een aaneenschakeling van 2 plugins (1 voor Wordpress, en 1 voor de wiki), die beide een sitemap conform de regels opstelt. Het resultaat is dit.

Het probleem is echter wat google doet met de sitemap: hij negeert vrolijk 38 van de 43 urls! Volgens de details althans die ik op webmastertools.google.com vind:
code:
1
2
Totale aantal URL's in sitemap: 43
Geïndexeerde URL's in sitemap: 5


Als ik een google query uitvoer die alle pagina's van mijn site toont, krijg ik iets meer resultaten, maar nog niet allemaal. Elke url in de sitemap die naar een deel van mijn blog wijst, wordt niet geindexeerd...

En ik kan maar niet vinden aan wat dat ligt :/ De URL's kloppen volledig, de /blog/ directory bevat geen htaccess die de bot tegenhoudt, requests naar een blog page leveren een mooie HTTP 200 op (en geen redirect naar een andere pagina), het formaat van de URL's is identiek in de sitemap.xml, ...

Wat ik zelf vreemd vind, is dat alle Wiki pagina's (gegenereerd door plugin A) te vinden zijn in Google, maar alle pagina's van mijn blog (gegenereerd door plugin B), en manuaal toegevoegde url's (via de GUI van plugin B) nergens terug te vinden zijn. Het doet me vermoeden dat het formaat van wat beide plugins genereren, verschillend zou moeten zijn, maar helaas kan ik geen verschillen vinden (zelfde endlines, beide gebruiken tabs en geen spaties, datum formaat is hetzelfde, alle entries komen overeen, .......).

Een link die bijvoorbeeld niet door Google aanvaard wordt, is: http://maleadt.no-ip.org:8080/blog/?p=12

Vandaar deze topic :P Alle reacties zijn welkom
maleadt

offtopic:
Niet letten op de misplaatste H2, moet ik vanavond nog eens fixen :+

[ Voor 5% gewijzigd door maleadt op 29-11-2008 16:06 . Reden: Toevoeging van een URL. ]


Acties:
  • 0 Henk 'm!

  • Spider.007
  • Registratie: December 2000
  • Niet online

Spider.007

* Tetragrammaton

Negeert Google niet gewoon alle URL's met GET variabelen erin? Dit zou je via een rewrite in je webserver op kunnen lossen.

---
Prozium - The great nepenthe. Opiate of our masses. Glue of our great society. Salve and salvation, it has delivered us from pathos, from sorrow, the deepest chasms of melancholy and hate


Acties:
  • 0 Henk 'm!

  • maleadt
  • Registratie: Januari 2006
  • Laatst online: 26-09 11:56
Ik denk het niet, want er komen veel sites in Google's lijst voor met dergelijke GET variabelen.

[ Voor 4% gewijzigd door maleadt op 29-11-2008 16:10 . Reden: Schrijffouten. ]


Acties:
  • 0 Henk 'm!

  • McKaamos
  • Registratie: Maart 2002
  • Niet online

McKaamos

Master of the Edit-button

Uit de broncode van de blogpagina:
<meta name='robots' content='noindex,nofollow' />

* McKaamos doet een gokje dat Google dat leest en dus niet indexeert en links niet verder opneemt.

Iemand een Tina2 in de aanbieding?


Acties:
  • 0 Henk 'm!

  • maleadt
  • Registratie: Januari 2006
  • Laatst online: 26-09 11:56
McKaamos schreef op zaterdag 29 november 2008 @ 16:40:
Uit de broncode van de blogpagina:
<meta name='robots' content='noindex,nofollow' />
* maleadt slaat zich op het voorhoofd :$

Komt ervan, de focus teveel bij de plugins leggen. De oorzaak lag gewoon bij de pagina's zelf. Verklaart inderdaad ook waarom de manueel toegevoegde pagina's genegeerd werden: ze maken gebruik van het Wordpress framework.

Snel even de meta tags verwijderen en de sitemap opnieuw submitten O-)

[ Voor 9% gewijzigd door maleadt op 29-11-2008 16:50 ]


Acties:
  • 0 Henk 'm!

  • posttoast
  • Registratie: April 2000
  • Nu online
Wat is eigenlijk de meerwaarde van een sitemap wanneer je een goed gestructureerde site hebt? Google kan dan toch sowieso al overal bij?

omniscale.nl


Acties:
  • 0 Henk 'm!

  • maleadt
  • Registratie: Januari 2006
  • Laatst online: 26-09 11:56
Je kan prioriteiten per pagina instellen, eveneens datums van laatste wijziging en updatefrequentie. In short: maken dat Google efficiënter en sneller up-to-date data van je site zal hebben.
Het is eveneens ook een must als je gebruikt maak van flash menu's oid.

Daarnaast weet ik ook niet zeker hoe groot Google's "crawl depth" is. Niet dat ik hier nu last van zou kunnen hebben, maar ik kan me inbeelden dat anders diep geneste pagina's nooit door Google zouden bezocht worden.

Acties:
  • 0 Henk 'm!

  • posttoast
  • Registratie: April 2000
  • Nu online
OK, dank :)

omniscale.nl


Acties:
  • 0 Henk 'm!

  • McKaamos
  • Registratie: Maart 2002
  • Niet online

McKaamos

Master of the Edit-button

MALEADt schreef op zaterdag 29 november 2008 @ 16:49:
[...]


* maleadt slaat zich op het voorhoofd :$

Komt ervan, de focus teveel bij de plugins leggen. De oorzaak lag gewoon bij de pagina's zelf. Verklaart inderdaad ook waarom de manueel toegevoegde pagina's genegeerd werden: ze maken gebruik van het Wordpress framework.

Snel even de meta tags verwijderen en de sitemap opnieuw submitten O-)
*grinnik* :+

Graag gedaan hoor ;) neem aan dat je nu alle pagina's indexed hebt ;)

Iemand een Tina2 in de aanbieding?


Acties:
  • 0 Henk 'm!

  • maleadt
  • Registratie: Januari 2006
  • Laatst online: 26-09 11:56
Lig nu nog een beetje in de knoop met Google, die geen zin heeft om mijn pagina's eens opnieuw binnen te halen. Nuja, "lastmod" op vandaag gezet, "changefreq" op always, en morgen eens opnieuw kijken.

Merci voor de oplossing, ik ben vrij zeker dat het hieraan zal liggen :)

Acties:
  • 0 Henk 'm!

  • RobIII
  • Registratie: December 2001
  • Niet online

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

(overleden)
MALEADt schreef op zaterdag 29 november 2008 @ 18:27:
Lig nu nog een beetje in de knoop met Google, die geen zin heeft om mijn pagina's eens opnieuw binnen te halen. Nuja, "lastmod" op vandaag gezet, "changefreq" op always, en morgen eens opnieuw kijken.

Merci voor de oplossing, ik ben vrij zeker dat het hieraan zal liggen :)
Tjee, een beetje geduld kan geen kwaad. Het kan rustig een paar dagen en misschien wel weken duren voordat zo'n wijziging doordringt. Die changefreq is ook niet meer dan een hint voor google hoe vaak een pagina zou wijzigen; het is daarmee niet gezegd dat 'ie daarom maar iedere dag even langs komt. Dat is afhankelijk van veel meer factoren.

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij


Acties:
  • 0 Henk 'm!

  • maleadt
  • Registratie: Januari 2006
  • Laatst online: 26-09 11:56
Ja dat begrijp ik best hoor, het is ook geen danig groot gemis natuurlijk. Maar Google scant nog vrij snel, en daardoor had ik er wel baat bij om die specifieke variabelen (die ingesteld stonden op chanefreq monthly, en lastmod enkele dagen geleden) wat te forceren :)

Acties:
  • 0 Henk 'm!

  • 2playgames
  • Registratie: Februari 2005
  • Laatst online: 01-06 15:19
Ik heb laatst een vrij lege site vervangen door een hele nieuwe, waarbij google de verandering na 3 dagen doorhad. Inmiddels ziet ie verandering al binnen 1 dag, dus hij komt vaker langs als je site goed is.

Acties:
  • 0 Henk 'm!

Verwijderd

Zo lang je pagina maar genoeg autoriteit heeft zal Google gerust tienduizenden pagina's indexeren.

Een andere toegevoegde waarde van een sitemap is dat je Google meteen op de hoogte kunt stellen van nieuw toegevoegde pagina's, waar Google dat normaal tijdens het crawlen zelf zou moeten ontdekken en het soms dus wel even kan duren voor men je pagina 'per ongeluk' tegenkomt, zeker bij grote websites.

Overigens is het niet heel vreemd dat na het submitten van een sitemap niet meteen alle pagina's worden geïndexeerd. Zeker bij grotere sitemaps kan Google hier wel een paar dagen tot weken voor uittrekken, waar ook weer geldt dat hoe meer autoriteit je website heeft, hoe meer prioriteit Google toekent aan het indexeren van de pagina's van je site.
Pagina: 1