UTF-8 hoeveel ondersteuning is ervoor bij web & email?

Pagina: 1
Acties:

  • chem
  • Registratie: Oktober 2000
  • Laatst online: 20-02 10:01

chem

Reist de wereld rond

Topicstarter
Een klant wil een site in "tig" talen, en daar zitten dan ook een sloot aziatische talen bij, maar ook cyrilische etc. Het probleem is dus de encoding; welke charset voor welke taal en hoe laat je dat allemaal samenwerken?

Ik hoor van diverse mensen, en lees in (oude, '00 ed.) artikelen dat in bv china en met name korea, en tegenwoordig in mindere mate in japen utf-8 daar weinig tot niet ondersteund wordt. Ik vind het lastig om me daar iets bij voor te stellen; gebruiken ze daar een browser die wij niet kennen? Zijn er cijfers over de ondersteuning van utf-8? Hoe serieus moet je dit nemen?

Een andere optie die me veel meer tijd gaat kosten dan utf-8 support in React, is het maken van een interne utf-8 opslaglaag met per-client de boel transcoden naar andere charsets (en bij input weer omzetten naar utf-8). Heeft iemand ervaring met meerdere charsets in 1 applicatie? Mogelijk ook waarbij bv een gebruikersnaam (of voor-/achternaam) in diverse charsets door elkaar getoond worden?

Naast het web verhaal zit je ook met mailclients die in, zo schijnt het, mindere mate met utf-8 werken. Is het raadzaam om dan dmv MIME een dubbele variant te sturen? Kunnen dergelijke mailclients wel een interface aanbieden om een andere variant te tonen?

Klaar voor een nieuwe uitdaging.


Verwijderd

Ik hoor van diverse mensen, en lees in (oude, '00 ed.) artikelen dat in bv china en met name korea, en tegenwoordig in mindere mate in japen utf-8 daar weinig tot niet ondersteund wordt.
Eerlijk gezegd lijkt me dat stug. UTF-8 ondersteunt alles wat Unicode te bieden heeft, en is de defacto standaard voor XML en alle webbrowsers die ik ken.

Net even op wikipedia gekeken, en zag:
The Internet Engineering Task Force (IETF) requires all Internet protocols to identify the encoding used for character data with UTF-8 as at least one supported encoding.
Lastige zin (voor mij tenminste :)), maar ik lees hieruit dat ieder internet protocol op z'n minst UTF-8 moet ondersteunen. Maar ja, wikipedia is niet heilig, en in hoeverre de IETF iets kan afdwingen is ook maar de vraag...

  • Maurits van Baerle
  • Registratie: Maart 2001
  • Niet online
Verwijderd schreef op vrijdag 12 mei 2006 @ 19:32:
[...]

Eerlijk gezegd lijkt me dat stug. UTF-8 ondersteunt alles wat Unicode te bieden heeft, en is de defacto standaard voor XML en alle webbrowsers die ik ken.
Maar het zou toch kunnen dat ze helemaal geen Unicode gebruiken maar sets als iso-2022-jp (voor Japans) bijvoorbeeld. Er zijn ook zat Amerikaanse programma's die niets anders dan iso-8859-1 begrijpen. Als je bij Chinese restaurants kijkt zie je die soms PC's gebruiken met DOS (ofzoiets) die een Chinese karakterset hebben, het lijkt me sterk dat die Unicode ondersteunen. Ik kan me bijvoorbeeld een mailclient die alleen Chinees (en geen Unicode) ondersteunt nog best voorstellen eigenlijk.

Overigens heb ik nu een WLan SSID in het chinees Japans in mijn netwerkomgeving, heel apart.
Edit: Nog eens goed gekeken, het is Japans.

[ Voor 26% gewijzigd door Maurits van Baerle op 12-05-2006 19:51 ]

Het grote: DAB+ digitale radio topic / IPv6 topic / OpenWRT topic


  • eghie
  • Registratie: Februari 2002
  • Niet online

eghie

Spoken words!

Bijvoorbeeld Japans, en ook andere talen, heeft ook nog eens 3 type encoding (naast UTF-8), EUC-JP, SHIFT-JIS en ISO-2022-JP. Nu gebruiken veel Japanse sites die ik ken SHIFT-JIS, dus geen UTF-8. Ik kan me trouwens best voorstellen dat niet alle software alle charsets zou ondersteunen, maar dat is niet het veelgebruikte zooi. De bekende mail programma's en browsers ondersteunen naar mijn weten allemaal wel UTF-8.

Ik ben zelf ook wel benieuwd naar hoe je goede meertalige sites maakt. Je zou eens op dat domein, als daar nu een oude site op draait iig, eens de HTTP_ACCEPT_CHARSET header kunnen monitoren.

Nu is de karakterset nog niet eens het enige probleem. Met hoe de datum/tijd wordt weergegeven, valuta's, scheidingsteken, etc, zit je ook nog mee.

Wou je er ook nog een CMS voor bouwen, dan moet dezelfde pagina dus in meerdere talen vertaald kunnen worden. Dit zou ik dan doen met een select boxje, waarin je de taal kunt kiezen die je wilt toevoegen. Dit alles opslaan in de database onder 1 pagina ID, zodat je weet dat de vertalingen enzo bij dezelfde pagina horen.

Je zou er dan nog voor kunnen kiezen, niet vertaalde zooi, nog kunnen laten vertalen door een vertaal engine en dat aangeven, zodat je de bezoeker nog enigzins de mogelijkheid geeft om de site in z'n gewenste te kunnen bekijken.

Nog een goede site van w3c: FAQ: International & multilingual web sites

[ Voor 44% gewijzigd door eghie op 12-05-2006 21:50 ]


  • djc
  • Registratie: December 2001
  • Laatst online: 08-09-2025

djc

Wat ik ervan gezien heb is de beste aanpak in dit soort gevallen om op de grenzen van je applicatie de encoding aan te passen. Gebruik intern sowieso UTF-8 (omdat dit volgens mij in de meeste gevallen het beste werkt als je ondersteuning voor alle mogelijke karakters nodig hebt), maar converteer zonodig bij input/output naar een lokale target encoding. Daardoor hoef je in principe maar op twee plekken de conversie te maken, en kun je in de rest van je applicatie op UTF-8 rekenen.

Rustacean


Verwijderd

Toevallig ben ik vandaag ook beziggeweest met een soortgelijk vraagstuk; je kunt er -zoals hierboven al wordt gesuggereerd- volgens mij gewoon van uitgaan dat utf-8 praktisch overal wordt ondersteund.

[ Voor 3% gewijzigd door Verwijderd op 13-05-2006 01:10 ]


  • Spider.007
  • Registratie: December 2000
  • Niet online

Spider.007

* Tetragrammaton

Het punt is natuurlijk het gebrek aan bewijs. Meerdere mensen hier zeggen dat je er vanuit kan gaan dat UTF-8 overal wordt ondersteund; zolang daar echter geen concrete cijfers over bekend zijn weet je _niets_ over de ondersteuning van UTF-8 in landen als China & Japan.
eghie schreef op vrijdag 12 mei 2006 @ 21:23:
[...]

Ik ben zelf ook wel benieuwd naar hoe je goede meertalige sites maakt. Je zou eens op dat domein, als daar nu een oude site op draait iig, eens de HTTP_ACCEPT_CHARSET header kunnen monitoren.

[...]
Alleen Firefox stuurt dat mee; de rest van de browsers laten het een beetje afweten; vandaar ook dit topic. Als alle browsers zouden sturen welke charsets ze ondersteunen zou dit probleem snel opgelost zijn ;)

---
Prozium - The great nepenthe. Opiate of our masses. Glue of our great society. Salve and salvation, it has delivered us from pathos, from sorrow, the deepest chasms of melancholy and hate


  • André
  • Registratie: Maart 2002
  • Laatst online: 20-02 09:23

André

Analytics dude

http://twiki.org/cgi-bin/...JapaneseAndChineseSupport
http://www.webmasterworld.com/forum32/1141.htm

In deze artikelen wordt gesuggereerd dat UTF-8 prima zou moeten werken dan. Heb je geen connecties daar die dat voor je kunnen testen?

  • eghie
  • Registratie: Februari 2002
  • Niet online

eghie

Spoken words!

Spider.007 schreef op maandag 15 mei 2006 @ 10:19:
Het punt is natuurlijk het gebrek aan bewijs. Meerdere mensen hier zeggen dat je er vanuit kan gaan dat UTF-8 overal wordt ondersteund; zolang daar echter geen concrete cijfers over bekend zijn weet je _niets_ over de ondersteuning van UTF-8 in landen als China & Japan.

[...]

Alleen Firefox stuurt dat mee; de rest van de browsers laten het een beetje afweten; vandaar ook dit topic. Als alle browsers zouden sturen welke charsets ze ondersteunen zou dit probleem snel opgelost zijn ;)
Ow, ik wist niet dat IE ze niet mee stuurde, maar ik heb net even gecontrolleerd en inderdaad IE stuurt hem niet mee. Opera en FF iig wel. Maar ja, aangezien IE waarschijnlijk ook ondersteund moet worden, lijkt het me inderdaad handig om een ander iets te verzinnen.

Je zou Microsoft kunnen bellen met de vraag of alle versies van IE vanaf IE6 het ondersteunen.

Is er geen manier om een soort van controlle script te bouwen? Iets met Javascript ofzo? Ik zou niet weten hoe trouwens, want je kunt geloof ik niet echt controlleren hoe je pagina's wordt gerenderd.

Er is ook zo'n site waarin je je site kunt checken op rendering in verschillende browsers. Je zou daar eens wat kunnen testen met UTF-8 geencodeerde sites.


Ik vraag anders wel een connectie uit Japan of hij mischien even kan controlleren of het goed werkt.

[ Voor 13% gewijzigd door eghie op 15-05-2006 10:52 ]


  • chem
  • Registratie: Oktober 2000
  • Laatst online: 20-02 10:01

chem

Reist de wereld rond

Topicstarter
Maar het blijft allemaal gokwerk; ik snap ook wel dat het gros van de aziaten hun reet afvegen met copyright-laws en gewoon XP zetten op hun pentium II - en dat iets van, zeg, 90-95% van de requests door een utf-8 compatible browser opgevraagd zullen worden, en 90% van de mailclients het aankan.

Ik moet de klant echter wel kunnen vertellen met enige zekerheid dat, bv., 2% van de bezoekers niet de pagina's zal kunnen bekijken en dat het hem een kostenbesparing oplevert van x%.

Er is dus, helaas, niemand bekend met statistieken hierover? Desnoods een wereldwijde verdeling? Of een overzicht van het gebruik van mailclients?

Klaar voor een nieuwe uitdaging.


  • PrisonerOfPain
  • Registratie: Januari 2003
  • Laatst online: 23-12-2025
Voor email clients: http://en.wikipedia.org/wiki/Comparison_of_e-mail_clients en browsers word gedeeltelijk gedocumenteerd op http://en.wikipedia.org/wiki/Unicode_and_HTML alleen blijkt er niet erg veelover te vinden te zijn.
Pagina: 1