Ik weet niet goed of dit best bij programming of internet marketing hoort, maar aangezien dit eerder een implementatievraag is, gok ik op programming.
Ik heb een aantal vragen over wat de beste strategie is bij het genereren en bijwerken van een XML sitemap op een dynamische site. Met een dynamische site bedoel ik dat er frequent items (urls) toegevoegd en verwijderd worden.
Stel dat ik een URL aan de sitemap wil toevoegen. De meest naieve manier van werken lijkt me de sitemap geheel opnieuw genereren (vanuit een database bvb, al dan niet op een bepaald tijdsinterval). Dit heeft als voordeel dat eventuele verwijderde URLs ook uit de sitemap verwijderd worden. Deze manier van werken is echter niet efficiënt als je een groot aantal pagina's hebt.
Een ander probleem is de file modified date van de sitemap(s). Stel dat een sitemap in 10 delen is opgesplitst (gepagineerd), dan is het niet gewenst dat de file modified date telkens gereset wordt naar de datum van het opnieuw genereren. Deze file modified date is belangrijk voor het genereren van de sitemap index (lastmod).
Een betere manier lijkt me de nieuwe URLs gewoonweg toevoegen aan de bestaande sitemap. Op die manier blijven de file modified dates intact. Het grootste probleem bij deze aanpak lijkt me het verwijderen van specifieke URLs. De gehele sitemap zou dan afgelopen moeten worden wat niet echt efficiënt is.
Als ik naar bestaande libraries kijk om sitemaps te genereren (PHP), lijkt geen enkele het toevoegen van URLs te ondersteunen; enkel opnieuw genereren. Moest ik zelf een systeem programmeren die wel URLs kan toevoegen zodat de timestamps intact blijven, kan het dan kwaad dat ik verwijderde URLs in de sitemap laat zitten? Geeft google mij een penalty bij 404s in de sitemap? Hoe doen andere grote dynamische sites (zoals Tweakers) dit?
Ik heb een aantal vragen over wat de beste strategie is bij het genereren en bijwerken van een XML sitemap op een dynamische site. Met een dynamische site bedoel ik dat er frequent items (urls) toegevoegd en verwijderd worden.
Stel dat ik een URL aan de sitemap wil toevoegen. De meest naieve manier van werken lijkt me de sitemap geheel opnieuw genereren (vanuit een database bvb, al dan niet op een bepaald tijdsinterval). Dit heeft als voordeel dat eventuele verwijderde URLs ook uit de sitemap verwijderd worden. Deze manier van werken is echter niet efficiënt als je een groot aantal pagina's hebt.
Een ander probleem is de file modified date van de sitemap(s). Stel dat een sitemap in 10 delen is opgesplitst (gepagineerd), dan is het niet gewenst dat de file modified date telkens gereset wordt naar de datum van het opnieuw genereren. Deze file modified date is belangrijk voor het genereren van de sitemap index (lastmod).
Een betere manier lijkt me de nieuwe URLs gewoonweg toevoegen aan de bestaande sitemap. Op die manier blijven de file modified dates intact. Het grootste probleem bij deze aanpak lijkt me het verwijderen van specifieke URLs. De gehele sitemap zou dan afgelopen moeten worden wat niet echt efficiënt is.
Als ik naar bestaande libraries kijk om sitemaps te genereren (PHP), lijkt geen enkele het toevoegen van URLs te ondersteunen; enkel opnieuw genereren. Moest ik zelf een systeem programmeren die wel URLs kan toevoegen zodat de timestamps intact blijven, kan het dan kwaad dat ik verwijderde URLs in de sitemap laat zitten? Geeft google mij een penalty bij 404s in de sitemap? Hoe doen andere grote dynamische sites (zoals Tweakers) dit?