ampersand geeft problemen bij w3 validation - Softwareontwikkeling

donderdag 2 maart 2006 19:31

Acties:

Topicstarter

Hey luitjes,

Bij het valideren bij http://validator.w3.org/detailed.html klapte hij eruit vanwege het gebruik van een ampersand (&-teken). Gelukkig was de rest van m'n code in orde

Weet iemand of dit echt nadelige gevolgen heeft bij de indexering van zoekmachines? Zijn er andere dingen die hiermee misschien in conflict komen?

Ik ben al bezig alle &-tekens te vervangen door & amp;... beter voorkomen dan genezen

groet,
Jeff

[ Voor 3% gewijzigd door kalechinees op 02-03-2006 19:32 ]

donderdag 2 maart 2006 19:40

Acties:

Verwijderd

ik denk niet dat zoekmachines er last van hebben, sommige exotische browsers misschien wel, maar dit hoort bij standaard errorhandling vind ik

maar naturlijk moet je het vervangen allemaal, een losse & hoort niet in je html voor te komen

donderdag 2 maart 2006 19:41

Acties:

Skaah

Zeker in een link? Gewoon & van maken. Dat werkt heel goed.

donderdag 2 maart 2006 19:42

Acties:

Erkens

Fotograaf

Skaah schreef op donderdag 02 maart 2006 @ 19:41:
Zeker in een link? Gewoon & van maken. Dat werkt heel goed.

& bedoel je

react convert het automagisch voor je

donderdag 2 maart 2006 23:32

Acties:

André

Analytics dude

Zoekmachines doen er iig niet moeilijk over

donderdag 2 maart 2006 23:47

Acties:

Osiris

André schreef op donderdag 02 maart 2006 @ 23:32:
Zoekmachines doen er iig niet moeilijk over

offtopic:

Helaas niet, als zoekmachines nou alleen 100% valid HTML zouden indexeren, dan zou dat een hele bende Frontpage-bagger schelen

vrijdag 3 maart 2006 10:53

Acties:

CaptBiele

No Worries!

en dan blijft er niets meer van het web over...

vrijdag 3 maart 2006 10:59

Acties:

RM-rf

1 2 3 4 5 7 6 8 9

Osiris schreef op donderdag 02 maart 2006 @ 23:47:
[...]

offtopic:
Helaas niet, als zoekmachines nou alleen 100% valid HTML zouden indexeren, dan zou dat een hele bende Frontpage-bagger schelen

nee, voor een geautomatiseerde editor is het eenvoudig om zulke validatie-regeltjes na te volgen ...
het zijn juist de veelal op eigen kennis werkende 'lagere' editors, of zelf geprogrammeerde systemen die onjuiste code genereren ....

Of HTML-code valideert zegt niks erover of de inhoud ook zinnig is... een zoekmachine heeft enkel verantwoordelijkheid om voor de zoekers zinnige informatie op de query aan te leveren ..
die moeten geen morele eisen gaan stellen over het valideren van HTML-code.

Intelligente mensen zoeken in tijden van crisis naar oplossingen, Idioten zoeken dan schuldigen

vrijdag 3 maart 2006 11:17

Acties:

JHS

Splitting the thaum.

RM-rf schreef op vrijdag 03 maart 2006 @ 10:59:
[...] Of HTML-code valideert zegt niks erover of de inhoud ook zinnig is... een zoekmachine heeft enkel verantwoordelijkheid om voor de zoekers zinnige informatie op de query aan te leveren ..
die moeten geen morele eisen gaan stellen over het valideren van HTML-code.

Het voert wat ver hier, maar je zou kunnen stellen dat als zoekmachines valide HTML zouden afdwingen door invalide (

) HTML niet mee te nemen er semantisch betere pagina's op het internet zouden verschijnen, waardoor de zoekresultaten verbeteren. Het mag dan wel niet zo zijn dat validatie aangeeft dat iets semantisch goed is opgebouwt, maar als iets een enorme hoop errors heeft neemt de kans wel (flink) af.

Verder is het niet echt een zinnige suggestie, natuurlijk, omdat je alle oude informatie sowieso ontoegankelijk maakt en het web (dus) sloopt. Maar ik denk dat het ook een beetje als een grapje was bedoelt

.

DM!

vrijdag 3 maart 2006 11:20

Acties:

André

Analytics dude

JHS schreef op vrijdag 03 maart 2006 @ 11:17:
[...]
Het voert wat ver hier, maar je zou kunnen stellen dat als zoekmachines valide HTML zouden afdwingen door invalide () HTML niet mee te nemen er semantisch betere pagina's op het internet zouden verschijnen, waardoor de zoekresultaten verbeteren. Het mag dan wel niet zo zijn dat validatie aangeeft dat iets semantisch goed is opgebouwt, maar als iets een enorme hoop errors heeft neemt de kans wel (flink) af.

Ook met semantisch correcte sites kun je flink spammen (beter zelfs) dus ik vind dat zoekmachines daar helemaal niet op moeten letten.

En wat als je een p vergeet af te sluiten, word je dan niet meer geindexeerd?

vrijdag 3 maart 2006 11:57

Acties:

JHS

Splitting the thaum.

André schreef op vrijdag 03 maart 2006 @ 11:20:
[...] Ook met semantisch correcte sites kun je flink spammen (beter zelfs) dus ik vind dat zoekmachines daar helemaal niet op moeten letten.

Dat snap ik eerlijkgezegd niet

. In welke relatie staat spammen tot het beter begrijpen van wat wat doet op de pagina en het dus beter kunnen analyseren van wat welke rank zou moeten krijgen?

En wat als je een p vergeet af te sluiten, word je dan niet meer geindexeerd?

Natuurlijk niet, dat zou onzin zijn, en niet alleen omdat je p niet hoeft af te sluiten

. Maar je zou je wel iets kunnen voorstellen bij een enorme(re) bonus voor (meer) validerende pagina's

.

DM!

vrijdag 3 maart 2006 12:03

Acties:

Verwijderd

Je kunt ook punt komma ( ; ) gebruiken ipv van het en ( & ) teken toch (in urls tenminste)?

[ Voor 3% gewijzigd door Verwijderd op 03-03-2006 12:04 ]

vrijdag 3 maart 2006 12:07

Acties:

André

Analytics dude

JHS schreef op vrijdag 03 maart 2006 @ 11:57:
[...]
Dat snap ik eerlijkgezegd niet . In welke relatie staat spammen tot het beter begrijpen van wat wat doet op de pagina en het dus beter kunnen analyseren van wat welke rank zou moeten krijgen?

Jij beweerde dat er betere pagina's zouden verschijnen in de zoekmachines als alleen gevalideerde sites opgenomen zouden worden. En ik beweer dat dat niet zo hoeft te zijn omdat de echte vervuiling in de zoekmachines de spam is en niet zozeer de ongevalideerde pagina's

En het echte spammen gebeurd tegenwoordig steeds meer op een nettere manier door op een semantisch goede manier bepaalde keywords in heel veel diverse tags te stuffen. Als zoekmachines puur naar validatie zouden kijken zouden ze die pagina's goedkeuren en meer op waarde schatten dan een waardevolle ongevalideerde site.

vrijdag 3 maart 2006 12:08

Acties:

Erkens

Fotograaf

Verwijderd schreef op vrijdag 03 maart 2006 @ 12:03:
Je kunt ook punt komma ( ; ) gebruiken ipv van het en ( & ) teken toch (in urls tenminste)?

al gebruik je de letter E daarvoor

zolang de server begrijpt dat hij daarop moet splitten is het goed.

vrijdag 3 maart 2006 12:12

Acties:

Verwijderd

Erkens schreef op vrijdag 03 maart 2006 @ 12:08:
[...]

al gebruik je de letter E daarvoor
zolang de server begrijpt dat hij daarop moet splitten is het goed.

ah is dus een server/phpinstelling (blijkbaar alleen gelezen wat ik op dat moment kon gebruiken

): ik had het van hier ooit: http://www.w3.org/QA/2005/04/php-session

vrijdag 3 maart 2006 12:17

Acties:

JHS

Splitting the thaum.

André schreef op vrijdag 03 maart 2006 @ 12:07:
[...] Jij beweerde dat er betere pagina's zouden verschijnen in de zoekmachines als alleen gevalideerde sites opgenomen zouden worden.

Dat heb ik nergens gesuggereerd. Alleen dat áls je semantisch verantwoorde pagina's zóú kunnen afdwingen (op welke manier dan ook) dat dat je zoekresultaten zou kunnen verbeteren.

En ik beweer dat dat niet zo hoeft te zijn omdat de echte vervuiling in de zoekmachines de spam is en niet zozeer de ongevalideerde pagina's

Stel dat álle pagina's semantisch gezien in orde waren, dan zou het toch ook makkelijker zijn die spammende pagina's eruit te halen, aangezien er meer zicht komt op de inhoud

?

Als zoekmachines puur naar validatie zouden kijken zouden ze die pagina's goedkeuren en meer op waarde schatten dan een waardevolle ongevalideerde site.

Zoals ik al aangaf, in de praktijk is mijn argument niet zoveel waard

.

DM!

vrijdag 3 maart 2006 12:17

Acties:

Fuzzillogic

Cool

Sterker nog, het zou fijn zijn als zoekmachines zelf ook eens een beetje op correcte HTML gaan letten. Typerend voorbeeld: ik gebruikte voor een webapplicatie de parameter 'reg', welke middels een GET werd doorgegeven. Dus: http://example.com/?id=3&reg=18. Prima. Werkt prachtig. Google indexeert de pagina. En rara wat verschijnt er in de HTML van de results page van google? Juist: http://example.com/?id=3&reg=18. Sja.

Vervolgens komt er een arme donder langs met een verouderde en incapabele browser (in de volksmond bekend als IE6) en klikt op die link in de google results page. Het werkt niet! Wat blijkt: de betreffende browser denkt slim te zijn en 'ziet' die URI als http://example.com/?id=®=18.

Moraal van het verhaal: escape je HTML gewoon braaf, maar houd er rekening mee dat niet iedereen en alles dat doet

vrijdag 3 maart 2006 12:21

Acties:

Erkens

Fotograaf

Nexxennium schreef op vrijdag 03 maart 2006 @ 12:17:
Sterker nog, het zou fijn zijn als zoekmachines zelf ook eens een beetje op correcte HTML gaan letten. Typerend voorbeeld: ik gebruikte voor een webapplicatie de parameter 'reg', welke middels een GET werd doorgegeven. Dus: http://example.com/?id=3&reg=18. Prima. Werkt prachtig. Google indexeert de pagina. En rara wat verschijnt er in de HTML van de results page van google? Juist: http://example.com/?id=3&reg=18. Sja.

Dat is toch goed? de URL is toch ook http://example.com/?id=3&reg=18 en niet http://example.com/?id=3&reg=18

Vervolgens komt er een arme donder langs met een verouderde en incapabele browser (in de volksmond bekend als IE6) en klikt op die link in de google results page. Het werkt niet! Wat blijkt: de betreffende browser denkt slim te zijn en 'ziet' die URI als http://example.com/?id=®=18.

afaik heeft IE6 totaal geen problemen hiermee?

vrijdag 3 maart 2006 12:27

Acties:

Fuzzillogic

Cool

Erkens schreef op vrijdag 03 maart 2006 @ 12:21:
Dat is toch goed? de URL is toch ook http://example.com/?id=3&reg=18 en niet http://example.com/?id=3&reg=18

Ik heb het over de platte HTML code. Dus de eerste is dan helemaal niet goed, de ampersand moet escapet worden.

afaik heeft IE6 totaal geen problemen hiermee?

IE6 vereist de ; op het einde van een entity niet. Da's fout. En daarom gaat-ie hier de mist in, omdat-ie &reg leest als ®

_{Grrr! GoT escapet zelf ook al niet! Snie handig als je juist entities wilt tonen jongens}

vrijdag 3 maart 2006 14:07

Acties:

crisp

Devver

Pixelated

E6 vereist de ; op het einde van een entity niet. Da's fout.

Nee, dat is niet altijd fout:

quote: http://www.w3.org/TR/html4/charset.html#h-5.3
Note. In SGML, it is possible to eliminate the final ";" after a character reference in some cases (e.g., at a line break or immediately before a tag). In other circumstances it may not be eliminated (e.g., in the middle of a word). We strongly suggest using the ";" in all cases to avoid problems with user agents that require this character to be present.

Maar in dit geval doet IE het inderdaad wel fout

maar die ampersand had inderdaad encoded moeten zijn, dan speelt dit hele probleem ook niet...

[ Voor 10% gewijzigd door crisp op 03-03-2006 14:08 ]

Intentionally left blank