XHTML beter voor zoekmachines dan HTML - Softwareontwikkeling

dinsdag 13 juli 2004 23:57

Acties:

Analytics dude

Topicstarter

Ik heb onlangs een site omgezet van HTML prut naar XHTML 1.0 en een van HTML 4.01 naar XHTML 1.0. En in een korte tijd kwam ik bij veel zoekmachines met beide sites veel hoger in de resultaten, en hadden de zoekmachines veel meer woorden op de sites geindexeerd. Dit kon ik zien aan het feit dat de sites ook door veel meer andere woorden gevonden werden dan voorheen.

Mijn verklaring: XHTML bestaat uit tags die altijd een begin- en een eindtag hebben of tags die zichzelf al eindigen (bijv: <br />). Hierdoor is het voor een zoekbot heel duidelijk hoe het document in elkaar steekt omdat alle tags keurig op de juiste plaats worden afgesloten (en er niet ergens een <h1> niet afgesloten word waardoor de bot 'denkt' dat de hele pagina een header is). Een zoekbot hoeft dus geen fout-tolerantie te hebben.

Hebben andere mensen dit verschijnsel ook zelf meegemaakt (of juist niet natuurlijk) na het omzetten van een pagina naar XHTML? Zijn er mensen die andere verklaringen hebben?

Ps. Nee dit gaat niet over mijn eigen site of die van mijn volleybalclub

voor het geval dat mensen daar code uit gaan quoten/analseren.

woensdag 14 juli 2004 00:28

Acties:

crisp

Devver

Pixelated

[00:15] <crisp> Andre: wat wil je bereiken met je topic? dat we allemaal zeggen: "ja, dat klopt"?
[00:15] <Andre> crisp: nou bijvoorbeeld
[00:15] <Andre> dan weet ik zeker dat wat ik denk dat het is ook echt waar is
[00:16] <crisp> zo'n zoekrobot gaat natuurlijk ook uit van semantiek; een h1 zegt meer dan een div
[00:16] <Andre> aan jouw reactie te merken is mijn gedachtengang niet gek

[00:16] <Andre> idd
[00:17] <crisp> google geeft al toe weinig waarde te hechten aan meta-tags als de inhoud van de pagina daar niet mee strookt
[00:17] <Andre> maar in discussies over standaards enzo had ik het zoekmachine argument nog niet gehoord
[00:17] <Andre> i know
[00:18] <crisp> er zijn toch wel een paar zoekmachine draadjes geweest waarin het argument dat semantiek belangrijk is voor je ranking wel geneomd is
[00:18] <crisp> genoemd
[00:18] <Andre> maar daar was het semantiek argument ook voor het feit dat alles met de juiste elementen moest gebeuren
[00:19] <Andre> en het verschil tussen HTML4.01 en XHTML1.0 voor zoekmachines had ik ook nog niet gelezen/gezien
[00:19] <crisp> de juiste elementen gebruiken voort je content is juist de juiste semantische waarde toekennen aan je content. Net als het gebruik van leestekens in een zin zeg maar.
[00:20] <crisp> XHTML of HTML zegt niet zoveel; je zegt zelf dat je van tagsoup naar logische ordening bent gegaan - da's een veel groter verschil
[00:21] <Andre> ik zeg 2 dingen: van tagsoup naar xhtml en van html naar xhtml
[00:21] <Andre> en bij beiden zag ik een verbetering
[00:21] <crisp> dus je wil zeggen dat je in het 2e geval alleen de DTD hebt gewijzigd?
[00:21] <Andre> nee
[00:22] <Andre> ook tags veranderd, /> bij img in enzo
[00:23] <crisp> ik denk dat het correct afsluiten van tags wel bijdraagt simpelweg omdat het makkelijker geparsed kan worden, maar ik heb geen flauw idee hoe een zoekrobot zeg maar je document inleest en beoordeelt
[...]
[00:25] <Andre> dan is het blijkbaar zo dat die zoekrobots weinig of geen fout-tolerantie hebben
[00:25] <crisp> dat zou kunnen ja
[00:25] <msalters> -1 pruts0r

[00:25] <Andre> hmm, toch slecht van die bots
[00:25] <Andre> en aan de andere kant ook wel weer goed
[00:25] <msalters> Neu, geeft aan hoeveel tijd aan page besteed is
[00:25] <ele> crisp:

[00:26] <crisp> mwa, xhtml-compliant sites verdienen gewoon een hogere ranking - misschien haalt zo'n bot de pagina wel door de validator en bepaald aan de hand daarvan de ranking

[00:27] <gorgi_19> dat doet google iig niet
[00:27] <Andre>

[00:27] <Andre> crisp: zie je hoe lang we hier over kunnen lullen

moet vast wel een topic over ontstaan
[00:27] <Andre> maar nu ga ik pitten
[00:27] <Andre> :W
[00:27] * Andre has quit IRC (Quit: )
[00:27] <crisp> copy-paste chatlog

Intentionally left blank

woensdag 14 juli 2004 00:40

Acties:

BtM909

Watch out Guys...

André schreef op 13 juli 2004 @ 23:57:
... (en er niet ergens een <h1> niet afgesloten word waardoor de bot 'denkt' dat de hele pagina een header is). Een zoekbot hoeft dus geen fout-tolerantie te hebben.

Ik denk dat hier het hele eiereten in zit. Google-bots (en vast ook andere bots) geven waarschijnlijk ook bepaalde rankingpunten als je <h1> tag redelijk overeenkomt met content (bijvoorbeeld in een <p> / meta tag) en juist strafpunten als je content in bepaalde tags (wederom de <h1> tag) te veel content bevatten.

Xhtml forceert je bepaalde attributen ook in te laten vullen en kan me zo voorstellen dat id-naamgevingen en alt en titles ook wel meespelen?

_{mocht dit verhaal dubieus / wazig klinken, dan heeft dat er meer mee te maken dat ik eigenlijk allang had moeten slapen}

[ Voor 13% gewijzigd door BtM909 op 14-07-2004 00:40 ]

Ace of Base vs Charli XCX - All That She Boom Claps (RMT) | Clean Bandit vs Galantis - I'd Rather Be You (RMT)
You've moved up on my notch-list. You have 1 notch
I have a black belt in Kung Flu.

woensdag 14 juli 2004 07:52

Acties:

Verwijderd

Klinkt niet wazig

Wat je zegt klopt ook volgens mijn eigen bevindingen/onderzoek waar ik een paar maanden aan besteed hebt. Het ligt denk ik niet zozeer aan je (X)HTML versie, maar meer aan het gebruik en de toepassing van de bouwstenen (en de attributen daarvan) van (X)HTML. Maar goed, als ik hier op door ga krijgen we weer info die in heel veel andere draadjes al geplaatst is over zoekmachines en ranking

woensdag 14 juli 2004 08:14

Acties:

André

Analytics dude

Topicstarter

crisp schreef op 14 juli 2004 @ 00:28:
[00:27] <crisp> copy-paste chatlog

ik zag wel dat je het zei, maar had niet gezien dat je het gedaan had

[ Voor 7% gewijzigd door André op 14-07-2004 08:14 ]

woensdag 14 juli 2004 10:42

Acties:

Verwijderd

HTML is ook gewoon machine-readable. Niet minder dan dat XHTML dat is, naar mijn mening. Hoewel niet elke tag expliciet afgesloten hoeft te worden is

code:

<tr>
    <td>1
    <td>2
</tr>
niet slechter dan
<tr>
    <td>1</td>
    <td>2</td>
</tr>

omdat in HTML sommige tags (zoals de TD) impliciet mogen worden afgesloten. In de specs vind je dan Start tag: required, End tag: optional.
http://www.w3.org/TR/html4/struct/tables.html#edef-TD

Als XHTML dus beter scoort dan de originele HTML dan komt dat denk ik omdat die HTML semantisch incorrect was. Het verschil tussen een valid HTML en een valid XHTML document met exact dezelfde semantiek is vermoed ik verwaarloosbaar.

woensdag 14 juli 2004 16:50

Acties:

oh,when?

...

crisp schreef op 14 juli 2004 @ 00:28:
[00:15] <crisp> Andre: wat wil je bereiken met je topic? dat we allemaal zeggen: "ja, dat klopt"?

Ja dat klopt! Als we allemaal standaard X en CSS Y combineren met Accesibility standard Z dan verbeteren we de wereld, mooi he?

"You're only as good, as what you did last week."

woensdag 14 juli 2004 20:23

Acties:

Anders

BtM909 schreef op 14 juli 2004 @ 00:40:
Ik denk dat hier het hele eiereten in zit.

Als dat zo zou zijn, zou dat betekenen dat de oude site barstensvol niet-afgesloten tags zat. Klopt dat, topicstarter?

Ik spoor veilig of ik spoor niet.

woensdag 14 juli 2004 20:30

Acties:

André

Analytics dude

Topicstarter

Anders schreef op 14 juli 2004 @ 20:23:
[...]

Als dat zo zou zijn, zou dat betekenen dat de oude site barstensvol niet-afgesloten tags zat. Klopt dat, topicstarter?

In die ene site zaten wel wat niet afgesloten tags ja: <p> en <br> en <input> tags vooral. En tekst gewoon los in de <body> en niet in een <p> bijvoorbeeld.

woensdag 14 juli 2004 21:33

Acties:

djluc

Ik ben op dit moment ook bezig om een website fatsoenlijk binnen de zoekmachines te plaatsen. Ik ben tot de conclusie gekomen dat deze aan vrijwel alle eigenschappen hier voldoet: frames, tagsoep, misbruik van tabellen enzovoorts.

* djluc heeft weer een flinke klus...

woensdag 14 juli 2004 21:37

Acties:

Blaise

Ik denk niet dat het aan die afgesloten tags ligt. Als browsers missende tags goed kunnen interpreteren dan kunnen zoekmachines dat ook.

Ik denk eerder dat het te maken heeft met beter semantisch gebruik van tags. Waarschijnlijk worden mensen zich daar bewust van als ze zich gaan verdiepen in xhtml.

Bovendien word je tegenwoordig ook wel dood gegooid met die semantiek als het over goede (x)html gaat. Maar dat terzijde eigenlijk

woensdag 14 juli 2004 21:41

Acties:

André

Analytics dude

Topicstarter

Blaise schreef op 14 juli 2004 @ 21:37:
Ik denk niet dat het aan die afgesloten tags ligt. Als browsers missende tags goed kunnen interpreteren dan kunnen zoekmachines dat ook.

Ik denk dat een browser heel wat beter een pagina interpreteerd dan een zoekbot. Anders zou de code van de zoekbot net zo geavanceerd moeten zijn als een browser en zou hij ook een fouttolerantie moeten hebben. En ik denk niet dat dat zo is want anders zou een zoekbot er veels te lang over doen om een site te indexeren.

woensdag 14 juli 2004 21:44

Acties:

djluc

Ik denk eerder dat het te maken heeft met beter semantisch gebruik van tags.

Uit ervaring kan ik dit in ieders geval bevestigen. Of afgesloten tags nadelig werken echter niet. Dat bewijzen is ook vrij lastig.

woensdag 14 juli 2004 21:46

Acties:

Verwijderd

Gewoon de website aanmelden en de aanmelding onderhouden is ook al voldoende. Als jij je website over reizen aanmeld met de zoektermen "reizen,zon,strand,zee,topless" moet je niet verwachten hoog in de rankings te komen

Het hele search engine ranking is een leuk strategisch spelletje geworden. Al is je semantiek zo geil, de juist wijze van aanmelden achterhaald het wel.

woensdag 14 juli 2004 21:48

Acties:

André

Analytics dude

Topicstarter

Maar hoe kun je je aanmelding 'onderhouden' dan?

woensdag 14 juli 2004 22:24

Acties:

AkaXakA

Just Kidding...

Hoeft niet. gebeurd vanzelf wel, check je logs maar.

Wat wel help (in google) zijn inbound links, oftewel mensen die naar jou site linken.

Lees over hoe een blogger de SEO won voor meer info:

http://www.hunterhost.com...itude-ultramarine-02.html

http://www.akaxaka.tk/ - "Knowledge is power. Power corrupts. Study hard, be evil." - 4 Jaar GoT en nog steeds niet evil: er moet een verband zijn...

woensdag 14 juli 2004 22:25

Acties:

André

Analytics dude

Topicstarter

AkaXakA schreef op 14 juli 2004 @ 22:24:
Hoeft niet. gebeurd vanzelf wel, check je logs maar.

Dat weet ik, daarom stel ik die vraag ook

woensdag 14 juli 2004 22:32

Acties:

Verwijderd

André schreef op 14 juli 2004 @ 21:48:
Maar hoe kun je je aanmelding 'onderhouden' dan?

Dat weet ik, daarom stel ik die vraag oo

Blijkbaar ben je niet zo op de hoogte

Dus weet je het niet, maar ik leg het je graag uit

Dmv software pakketten die je website analyseren, keyword analyses maken met de huidige top in de zoekmachines in het achterhoofd, en adh hiervan je website heraanmelden

Je krijgt dan een rapportage van het software pakket met alle keywords, rendement, etc.

En nog leuker het schijnt echt te werken

[ Voor 24% gewijzigd door Verwijderd op 14-07-2004 22:35 ]

woensdag 14 juli 2004 23:00

Acties:

BtM909

Watch out Guys...

Anders schreef op 14 juli 2004 @ 20:23:
[...]

Als dat zo zou zijn, zou dat betekenen dat de oude site barstensvol niet-afgesloten tags zat. Klopt dat, topicstarter?

Dat zeg ik niet, goed lezen

. Stel je hebt het volgende:

code:

1
2
3

<div>Welkom op BtM909's site</div>
Stoer | Menu | met | Links
[img]"woei.jpg"[/img]

vs.

code:

<h1>Welkom op BtM909's site</h1> //blijkbaar belangrijk, want H1
<ol>
  <li>Stoer</li>
  <li>Menu</li>
  <li>met</li>
  <li>Links</li>
</ol>
[img]"woei.jpg"[/img]

Ondanks dat beide valide HTML is, zou ik als google-bot (ik verwacht eigenlijk dat deze spider bijster intelligent is) de tweede hoger ranken. Een spider zal heus geen punten geven voor juiste semantiek, maar volgend op het feit dat je XHTML gaat gebruiken, dan ga je meer en beter gebruik maken van bijvoorbeeld je attributen.

Google rankt sites (naast het feit dat andere sites naar je linken met de juiste keywords in de links) natuurlijk ook op relevantie. 300 keer koffie in je meta tag zetten, werkt allang niet meer. Maar wat als je 1x koffie als meta-tag hebt. Vervolgens je domein mee hebt (koffie.com) je <h1> tag die waarde bevat en regelmatig het woord voorkomt in de tekst....

Ik denk dat 300x koffie wordt genegeerd omdat het in 1 html-tag voorkomt (in 't ergste geval je body). Maak je beter gebruik van semantiek (verschillende paragrafen, of beter / verplicht gebruik van je attributen), dan komen herhalingen minder vaak voor (per tag).

Take that for a brainwave

[ Voor 18% gewijzigd door BtM909 op 14-07-2004 23:01 ]

Ace of Base vs Charli XCX - All That She Boom Claps (RMT) | Clean Bandit vs Galantis - I'd Rather Be You (RMT)
You've moved up on my notch-list. You have 1 notch
I have a black belt in Kung Flu.

woensdag 14 juli 2004 23:11

Acties:

André

Analytics dude

Topicstarter

Verwijderd schreef op 14 juli 2004 @ 22:32:

Blijkbaar ben je niet zo op de hoogte Dus weet je het niet, maar ik leg het je graag uit

Dmv software pakketten die je website analyseren, keyword analyses maken met de huidige top in de zoekmachines in het achterhoofd, en adh hiervan je website heraanmelden Je krijgt dan een rapportage van het software pakket met alle keywords, rendement, etc.

En nog leuker het schijnt echt te werken

Ik ben wel op de hoogte van het feit wat AkaXakA verteld (dat google je aanmelding onderhoud), maar wat jij mij nu verteld is inderdaad nieuw voor mij (dat je zelf ook je aanmelding onderhoud).

Ik ben er overigens wel op tegen, zoekmachineverneuking noem ik dat.

[ Voor 7% gewijzigd door André op 14-07-2004 23:16 ]

woensdag 14 juli 2004 23:26

Acties:

Verwijderd

André schreef op 14 juli 2004 @ 23:11:
[...]
Ik ben er overigens wel op tegen, zoekmachineverneuking noem ik dat.

Het levert mij wel elke avond een stukje vlees op, voor een goed doel zeggen we maar