Doctype in Nederlands?

Pagina: 1
Acties:
  • 110 views sinds 30-01-2008
  • Reageer

  • SURFivor
  • Registratie: Maart 2004
  • Niet online
Aangezien ik erg geïnteresseerd ben in webstandaarden, vroeg ik me bij het bezoek van http://www.gigadesign.be het volgende af. In hun broncode is de volgende doctype te vinden

code:
1
2
3
4
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//DUT"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="DUT" >

Ik heb nog nooit een doctype gezien met een DUT ipv een EN. Op Google kan ik ook niks vinden over doctypes in andere talen maar ik ga ervan uit dat ze met DUT Dutch bedoelen.

Kan iemand mij hier meer over vertellen?

[ Voor 7% gewijzigd door SURFivor op 21-04-2005 19:22 ]


  • pasta
  • Registratie: September 2002
  • Laatst online: 04-04 23:18

pasta

Ondertitel

DUT lijkt me niet echt valid. NL (of iets in die trend) lijkt me meer in de richting :)

Signature


  • André
  • Registratie: Maart 2002
  • Laatst online: 06-05 11:13

André

Analytics dude

http://www.w3.org/WAI/ER/IG/ert/iso639.htm

DUT is wel degelijk toegestaan net als NLA :) Het is gewoon de 3-letter representatie van Nederlands.

[ Voor 33% gewijzigd door André op 21-04-2005 19:32 ]


Verwijderd

bijna André,
http://www.ietf.org/rfc/rfc1766.txt

dut is een 3letterige appendix, in de dtd moet gewoon NL EN staan, in het lang (of xml:lang) attribuut kan iets als nl-DUT

zie ook http://www.w3.org/TR/html401/struct/dirlang.html#langcodes en
http://www.oasis-open.org/cover/iso639a.html

[ Voor 32% gewijzigd door Verwijderd op 21-04-2005 19:48 ]


  • Steephh
  • Registratie: Juni 2003
  • Laatst online: 04-05 15:17
Modbreak: knipkansloze reply :/

[ Voor 88% gewijzigd door curry684 op 21-04-2005 23:12 ]

_@/'


  • André
  • Registratie: Maart 2002
  • Laatst online: 06-05 11:13

André

Analytics dude

Verwijderd schreef op donderdag 21 april 2005 @ 19:35:
bijna André,
http://www.ietf.org/rfc/rfc1766.txt

dut is een 3letterige appendix, in de dtd moet gewoon NL staan, in het lang (of xml:lang) attribuut kan iets als nl-DUT

zie ook http://www.w3.org/TR/html401/struct/dirlang.html#langcodes
Aha, maar ik dacht ook dat hij de xml:lang bedoelde, ik zie nu pas de DUT in de doctype ;)

Verwijderd

als lang attribuut zou het zo kunnen:
HTML:
1
<html xml:lang="nl-DUT">

maar niet zonder die "nl"

Verwijderd

André schreef op donderdag 21 april 2005 @ 19:36:
[...]
Aha, maar ik dacht ook dat hij de xml:lang bedoelde, ik zie nu pas de DUT in de doctype ;)
en ik zag dat ik een typefout maakte, in het doctype moet gewoon altijd EN staan, niks anders

edit:
wtf? da's de eerste keer dat ik de edit knop mis :P

[ Voor 10% gewijzigd door Verwijderd op 21-04-2005 19:54 ]


  • SURFivor
  • Registratie: Maart 2004
  • Niet online
dus in de DOCTYPE moet altijd EN staan? :)

[ Voor 62% gewijzigd door curry684 op 21-04-2005 23:12 . Reden: quote van kansloze reply weg ]


Verwijderd

http://www.w3.org/TR/xhtml1/#strict
puntje 4

ja dus

[ Voor 10% gewijzigd door Verwijderd op 21-04-2005 20:10 ]


Verwijderd

http://hsivonen.iki.fi/wannabe/

Derde van onder: "Changes //EN at the end of the public identifier in the doctype to the language code of the language the page is written in."

(DUT is overigens een geldige code, maar RFC3066 zegt dat je beter (should) 'nl' kunt gebruiken.)

Verwijderd

dut is een 3letterige appendix, in de dtd moet gewoon NL EN staan, in het lang (of xml:lang) attribuut kan iets als nl-DUT
Volgens RFC3066 moet dat dus "nl-NL" zijn. De drie letterige codes, DUT en NLA voor Nederlands bijvoorbeeld (zie ISO 639), zijn "deprecated" als er een equivalente twee letterige code bestaat, 'nl' voor Nederlands.

Verwijderd

uit rfc1766 ( http://www.ietf.org/rfc/rfc1766.txt ) haal ik:
The following registrations are predefined:

In the primary language tag:

- All 2-letter tags are interpreted according to ISO standard
639, "Code for the representation of names of languages" [ISO
639].
dus als primary tag zijn alleen de 2 letterige toegestaan, denk dat daar iedereen het wel over eens is.

in de subtag(s) mag meer:
In the first subtag:

- All 2-letter codes are interpreted as ISO 3166 alpha-2
country codes denoting the area in which the language is
used.

- Codes of 3 to 8 letters may be registered with the IANA by
anyone who feels a need for it, according to the rules in
chapter 5 of this document.
in rfc 3066 die Anne aanhaalt: http://www.ietf.org/rfc/rfc3066.txt

haal ik dat 3 lettercodes ook in de primairy tag mogen, alleen voor html en x(ht)ml geldt rfc 1766

http://www.w3.org/TR/2000/REC-xml-20001006#sec-lang-tag en
http://www.w3.org/TR/html401/types.html#type-langcode

(ja, ik zie die note, maar volgens mij wordt er bedoelt dat er dus in deze spec 1766 aangehouden wordt en in toekomstige specs eventueel een opvolger komt (3066)

wat er nou eigenlijk wel en niet in die subtag(s) mag begin ik me nu ook af te vragen

toevoeging: 2 letterige landencodes mogen dus gewoon, zoals Anne aangeeft, nl-NL is ok, dat staat zeg maar naast nl-BE en en-US en en-GB, maar dingen als DUT en NLA zijn taalcodes (uit iso639), geen landencodes, dus of ze onder het tweede bovenstaande puntje vallen (3 tot 8 letterige codes) vraag ik me af

[ Voor 22% gewijzigd door Verwijderd op 22-04-2005 19:40 ]


  • Cubix
  • Registratie: Juni 2001
  • Niet online
Eventjes los van hoe het zou moeten: wie of wat maakt gebruik van die language instellingen?

Zoekmachines?

Verder zou ik geen voordelen kunnen bedenken.

Verwijderd

speech syntesizers?

Verwijderd

RFC1766 is obsolete. (Het is een fout in de HTML4 specificatie. Er had "or newer" bij moeten staan.) Zie RFC3066 sectie 2.3 punt 2 over het niet gebruiken van de 3 letterige code
When a language has both an ISO 639-1 2-character code and an ISO 639-2 3-character code, you MUST use the tag derived from the ISO 639-1 2-character code.
Het is dus geen eens should, maar must.

(Die fout zit overigens niet in de oude XML spec die jij aanhaalt: "[IETF RFC 1766], Tags for the Identification of Languages, or its successor" dus dat verhaal klopt niet.

(Zie overigens ook van een tijdje terug: https://bugzilla.mozilla.org/show_bug.cgi?id=285463)

[ Voor 3% gewijzigd door Verwijderd op 23-04-2005 00:19 ]


Verwijderd

waar haal je dan vandaan dat ie obsolete is? uiteraard heb je helemaal gelijk als het zo is, maar ik kan het niet terug vinden, alleen een call voor discussion en suggestion.

Verwijderd

Euh, bovenaan RFC3066 wellicht?
Obsoletes: 1766

  • AkaXakA
  • Registratie: Januari 2001
  • Laatst online: 27-03 16:12

AkaXakA

Just Kidding...

Hehe doctype..Oops, dit dus:
code:
1
<html xml:lang="nl">


ok, dus het kan..maar wat schiet je/iemand/de mensheid ermee op?

[ Voor 50% gewijzigd door AkaXakA op 23-04-2005 17:03 ]

http://www.akaxaka.tk/ - "Knowledge is power. Power corrupts. Study hard, be evil." - 4 Jaar GoT en nog steeds niet evil: er moet een verband zijn...


Verwijderd

hoho, niet in het doctype, dat mag sowieso niet (de dtd is in het engels), 't gaat hier om de waarde van een lang of xml:lang attribuut

@Anne, ja maar bij status of this memo vind ik niet terug dat het al een officiele rec is, maar een request for comments.

overigens staat wel in 1766 dat de status vermeld wordt in std 1 ( http://rfc.net/std1.html ) en daar komt alleen 3066 terug en niet 1766, dus in dat kader is 3066 wel de huidige en moet deze dus voor x(ht)ml toegepast worden, waarbij html nog steeds alleen refereert naar 1766

[ Voor 4% gewijzigd door Verwijderd op 23-04-2005 12:18 ]


Verwijderd

ok, dus het kan..maar wat schiet je/iemand/de mensheid ermee op?
Je hebt http://hsivonen.iki.fi/wannabe/ gelezen, right? Het is namelijk niet correct.

Verwijderd

@Anne, ja maar bij status of this memo vind ik niet terug dat het al een officiele rec is, maar een request for comments.
Als hij dingen obsolete is hij officieler dan de specificatie daarvoor. Als het een internet standaard is wordt dat bovenaan vermeld, zoals bij http://www.ietf.org/rfc/rfc3986. Dus dat verhaal klopt niet echt.
dus in dat kader is 3066 wel de huidige en moet deze dus voor x(ht)ml toegepast worden
Voor XML (en XHTML) was er al geen twijfel.
waarbij html nog steeds alleen refereert naar 1766
Zoals ik al zei, een fout welke ook gecorrigeerd is in de volgende versie.

Verwijderd

volgens mij is het een bcp met een call voor comments, en geen std. nu weet ik alleen niet of je dus een bcp nu al als successor van een std mag beschouwen. Als ik naar std1 kijk waar 1766 niet eens (meer) in voorkomt lijkt het me wel, alleen hard overtuigd ben ik nog niet.

Als het dus niet (nu al) als successor mag worden beschouwd dan geldt voor html als x(ht)ml gewoon nog 1766, in het andere geval voor x(ht)ml zeker 3066, voor html denk ik nog steeds 1766 (ook al staat het fout in de spec dan), als in de volgende versie (bedoel je html5?) dat anders staat, is dat gewoon van toepassing op die versie.

Ik denk niet dat je een bepaalde standaard (html 4.01) nu nog kan verruimen door 3066 toe te laten, dat zou compatibiliteitsproblemen op kunnen leveren.

overigens staat in de rfc index ook:
1766 Tags for the Identification of Languages. H. Alvestrand. March
1995. (Format: TXT=16966 bytes) (Obsoleted by RFC3066, RFC3282)
(Status: PROPOSED STANDARD)

[ Voor 21% gewijzigd door Verwijderd op 23-04-2005 12:36 ]


Verwijderd

volgens mij is het een bcp met een call voor comments, en geen std.
Ik zeg ook niet dat 3066 een standaard is, maar 1766 is dat net zomin. Bij 3986 staat bovenaan "STD: 66" wat duidt op 'internet standaard 66'.
Als het dus niet (nu al) als successor mag worden beschouwd
Euhm, de nieuwe XML spec verwijst naar 3066, alles wijst er op dat 3066 een update is en jij wilt volhouden dat het niet zo is omdat je bepaalde dingen denkt te halen uit een introductie tekstje?
Ik denk niet dat je een bepaalde standaard (html 4.01) nu nog kan verruimen door 3066 toe te laten, dat zou compatibiliteitsproblemen op kunnen leveren.
|Juist als oudere 'standaarden' van toepassing blijven creeer je problemen.

Verwijderd

ik zeg niet dat het niet zo is, ik krijg ondertussen ook het idee dat het wel zo is, maar dat wil ik graag zeker weten, en zekerheid heb ik niet. Ik leg gewoon alles naast elkaar wat ik aan documentatie vind.

als een UA er (volgens 1766) vanuit gaat dat de primary language tag uit 2 letters bestaat en na een tijdje wordt gezegd dat er een foutje in de spec stond, waardoor 3066 nu eigenlijk toch wel van toepassing is. Dan zou je bijvoorbeeld "elx" (elamite, whatever that is) kunnen opvatten als "el" (grieks) en heb je dus een probleem.

Het is dan natuurlijk niet de slimste UA, maar als je er (volgens) de spec vanuit gaat dat alleen de eerste 2 letters de primary tag vormen heb je een probleem als blijkt dat ineens 3 letterige codes ook worden toegestaan. Het lijkt me dus niet wenselijk om in bestaande specs te gaan rommelen, ook al is het om oude foutjes te corrigeren. In nieuwe specs is dit uiteraard geen probleem en in de xml spec is dit, zoals je aangeeft al gecorrigeerd

[ Voor 5% gewijzigd door Verwijderd op 23-04-2005 13:09 . Reden: ambiguiteit eruit ]


Verwijderd

Dan zou je de UA sowieso al non-compliant zijn. Als de tag bestaat uit 3 karakters en hij pakt de eerste twee... (Wat gebeurt er bij RTL, pakt hij dan de laatste twee?)

Verwijderd

volgens de specs (ook al zit daar dan een foutje in) is iets anders als een 2 letterige primary tag gewoon fout imho, als je nu 3 letterige primary tags gaat toestaan is dat vragen om problemen lijkt me. Ik denk dat je je voor html dan ook gewoon moet houden aan 1766 en voor x(ht)ml aan 3066 (er van uitgaande dat 3066 idd de huidige rec is, wat me ondertussen wel plausibel lijkt)

overigens heeft rtl er natuurlijk niks mee te maken, we hebben het hier over een attribuut waarde

Verwijderd

ook dat is nog een draft
NOTE: The HTML specification still recommends the use of RFC 1766 for identifying language. There is a planned erratum in place for the HTML specification, so you should use RFC 3066 despite what the HTML specification currently says.

A proposed successor to RFC 3066 is currently being developed, but it aims to retain backwards compatibility with tags created using RFC 3066.
ook hier wordt nog eens gezegd het erratum er nog niet is, dus ik ben er nog steeds niet van overtuigd dat we op dit moment 3066 moeten naleven.

overigens wel een interessant document, die kende ik nog niet.

Note dat ook hier wordt gezegd dat je de 2 letterige moet gebruiken als ie er is, dus om maar de TS definitief te beantwoorden:

- gebruik nl ipv nla of dut
- in een doctype declaration hoort niks anders dan EN

Verwijderd

ook dat is nog een draft
Ja, maar wel een huidige en in overeenstemming met implementaties en algemeen gebruik. (Zoiets als CSS2.1.)
Note dat ook hier wordt gezegd dat je de 2 letterige moet gebruiken als ie er is
Dat zegt RFC3066 ook.

Wat is je probleem eigenlijk? Welke onderdelen van RFC1766 zijn dermate niet compatible met RFC3066 dat de laatste die overal gebruikt wordt en geimplementeerd is niet gebruikt zou mogen worden?

  • AkaXakA
  • Registratie: Januari 2001
  • Laatst online: 27-03 16:12

AkaXakA

Just Kidding...

Blech, het blijft maar bij mierenneuken, dus ik herhaal me vraag:

Wat schiet je/iemand/de mensheid ermee op?

Het nut ervan dus. Heel fundamenteel, gebeurt er nog iets met deze xml metadata? Zijn er applicaties die er baat bij hebben? Helpt het zoekmachines? Helpt het een site een relevantere notering te krijgen? Helpt het screenreaders?

PS. Had dus idd niet alles gelezen.

http://www.akaxaka.tk/ - "Knowledge is power. Power corrupts. Study hard, be evil." - 4 Jaar GoT en nog steeds niet evil: er moet een verband zijn...


Verwijderd

zooo, dat was een lekkere discussie, even samenvatten. De reden dat ik er zo op door ging is dat ik even alle documenten op tafel willen hebben.

• de html spec verwijst naar rfc1766
• de x(ht)ml spec verwijst naar rfc1766 of zijn opvolger
• de opvolger van rfc1766 is te vinden in std1 (zie "status of this memo" in rfc 1766).
• in std1 komt rfc 1766 niet eens (meer) voor, alleen rfc3066
• ook de rfc index laat ons weten dat rfc3066 de opvolger is van rfc1766 (als het gaat om language tags)
• in rfc1766 zijn alleen 2 letterige primary language codes toegestaan (die zijn gespecificeerd in iso639-1) en "i" en "x"
• in rfc3066 naast deze ook de 3 letterige code uit iso639-2
• ook staat in rfc3066 dat als er een 2 letterige variant bestaat die gebruik moet worden in favor of de 3 letterige code

dus om op de TS terug te komen:
xml:lang="dut" is niet goed, want er is een 2 letterige code voor (nl), verder is een 3 letterige code in html in mijn opinie (Anne denkt hier anders over) in principe ook niet correct omdat dit niet kan volgens rfc1766. Feit is wel dat je dan een heel hoop talen gewoon niet kan toepassen in html.

Ook levert het over het algemeen geen problemen op als je stiekum toch 3 letterige codes gebruikt (alleen als er geen 2 letterige voorhanden is dus), dus ik zou het gewoon doen. Ook weet Anne te melden dat voor html5 dit wel correct in de planning staat (waar dus naar 3066 (en eventueel diens opvolger) verwezen wordt.


Ten overvloede nog even dat het wijzigen van //EN in de doctype declaration natuurlijk compleet uit den boze is, zie bijvoorbeeld puntje 4 van dit document voor xhtml heb je dus uit die 3 doctypes te kiezen. Het eerste gedeelte (de Formal Public Identifier) is een unieke identifier voor de DTD, vandaar. De DTD is ook in het engels en dat blijft ie, ongeacht de taal van je html document.

Zie ook de link die Anne al gaf: http://hsivonen.iki.fi/wannabe/ (en lees voor de gein de andere puntjes ook nog even door :P)

en wat schiet de mens er mee op
• zoekmachines indexeren op taal
• speech synthesizer kiezen een bepaalde taal
• als je de taal niet kent is het handig als erbij staat wat het is om het juiste woordenboek te pakken
• je zou automatische taalkeuze selectie kunnen maken

[ Voor 7% gewijzigd door Verwijderd op 23-04-2005 17:28 ]

Pagina: 1