[.Net] Mail - Unicode mail geeft chinese tekens bij reply - Softwareontwikkeling

maandag 18 augustus 2008 15:12

Acties:

CMD+Z

Topicstarter

Ik heb met wat hangen en wurgen nu voor elkaar dat ik geen rare tekens meer in de mailclient (Outlook) krijg (unicode overal doorvoeren), maar als mensen de nu verder perfecte mail replyen of forwarden dan staat er ineens een lading chinees bovenin het mailtje (letterlijk).

Als ik in gmail kijk, dan zie ik de HTML body als tekst met overal spaties tussendoor.

code:

1	< f o n t f a c e = " a r i a l " s i z e = " 2 " > G e a c h t e < b r / > S c h i e l e b l e v f ø d t i T u l l n a n d e r D o n a u

Waar zit hem dat in? Hij lijkt toch nog alleen maar één byte tegelijk te gebruiken in gmail, waardoor de tweede steeds leeg is ofzo?

iOS developer

maandag 18 augustus 2008 15:15

Acties:

Cascade

Als je unicode byte voor byte zichtbaar maakt als normale characters krijg je dit soort dingen, chars met spaties om-en-om.

Is de encoding wel goed ingesteld in de header van je mailtje? En is het niet handiger op UTF-8 te gebruiken?

maandag 18 augustus 2008 15:27

Acties:

BikkelZ

CMD+Z

Topicstarter

Ja alsof Google het niet helemaal meer snapt en maar voor UTF-8 gaat?

Dit staat er in de header:

code:

1	content-type: text/html; charset=utf-16

Wel/niet goed?

De reden dat ik voor Unicode ga omdat de kans bestaat dat dit soort berichten ook ergens in China gelezen moeten kunnen worden (wat ironisch genoeg nu ook het geval is

)

iOS developer

maandag 18 augustus 2008 16:18

Acties:

TeeDee

CQB 241

Je zegt UTF-8 maar ik zie toch echt charset=utf-16 staan.

Heart..pumps blood.Has nothing to do with emotion! Bored

maandag 18 augustus 2008 17:08

Acties:

BikkelZ

CMD+Z

Topicstarter

Dat was de truc dus, op het einde geen Unicode maar UTF-8 kiezen. Beetje verwarrend!

iOS developer

maandag 18 augustus 2008 18:52

Acties:

Cascade

Het zijn twee dingen:

- Unicode is de standaard voor de karakterset, welke karakters mogelijk zijn (ongeveer 1 miljoen verschillende), met elk karakter zijn eigen 'nummer'.

- UTF-8 en UTF-16 zijn coderingen voor die karakterset (Unicode Transformation Format), hoe je ze codeert en opslaat in een verzameling bits. Alle karakters van Unicode passen in UTF-8/-16 maar er zijn andere coderingen die maar een deel aankunnen (UTF-7 en UCS-2 bv.).

Nu is het wel zo dat een encoding met UTF ook een (subset van) Unicode charset impliceert, om het verwarrend te maken.

De codering moet er zijn als je informatie gaat overdragen (je mailtje) en de ontvanger moet weten hoe die informatie weer te lezen is (de charset= in je header).

Dan heb je nog webbrowsers en webapplicaties die het door elkaar halen en niet goed ondersteunen. Ik las ergens dat GMail het prima kan, maar problemen heeft bij weergave in Internet Explorer... Heb je toevallig IE6 gebruikt?

maandag 18 augustus 2008 20:31

Acties:

MSalters

UTF-7 kan wel alle Unicode karakters aan, via hetzelfde "surrogate" mechanisme als UTF-16.

Maar het probleem van de TS is inderdaad een weggever. Hij stuurt UTF-16 (2*8 bits) per karakter. ASCII karakters zijn U+0000 tot U+007F, dus elke tweede byte is 00. De bytes daartussen zijn identiek aan de bytes in ASCII.

Het is in dit geval goed voorstelbaar dat je mail envelope de correcte charset (UTF16) heeft, maar dat in de HTML zelf toch UTF8 staat.

Man hopes. Genius creates. Ralph Waldo Emerson
Never worry about theory as long as the machinery does what it's supposed to do. R. A. Heinlein

maandag 18 augustus 2008 22:23

Acties:

BikkelZ

CMD+Z

Topicstarter

Ik was zelf in de overtuiging dat alle unicode twee bytes was en UTF-8 geen officiele unicode. Je komt de termen door elkaar tegen (tenslotte had ik de mail special op Unicode gezet).

iOS developer

dinsdag 19 augustus 2008 10:02

Acties:

Icelus

BikkelZ schreef op maandag 18 augustus 2008 @ 22:23:
Ik was zelf in de overtuiging dat alle unicode twee bytes was en UTF-8 geen officiele unicode. Je komt de termen door elkaar tegen (tenslotte had ik de mail special op Unicode gezet).

In principe is Unicode een 21-bit-code, maar er zal altijd een transformatie naar bijvoorbeeld UTF-xxx nodig zijn om de karakters (code points) op te slaan.
Wanneer een programma of documentatie het over Unicode heeft bedoelen ze meestal UTF-16. Vooral oude Windows documentatie gebruikt dit omdat pas vanaf Windows XP intern UTF-16 wordt gebruikt (daarvoor werd eigenlijk UCS-2 gebruikt).

[ Voor 3% gewijzigd door Icelus op 19-08-2008 10:06 ]

Developer Accused Of Unreadable Code Refuses To Comment

dinsdag 19 augustus 2008 10:08

Acties:

Salandur

Software Engineer

iets over encodings:

The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) - Joel on Software

BikkelZ schreef op maandag 18 augustus 2008 @ 22:23:
Ik was zelf in de overtuiging dat alle unicode twee bytes was en UTF-8 geen officiele unicode. Je komt de termen door elkaar tegen (tenslotte had ik de mail special op Unicode gezet).

overigens is utf-8 een officiele encoding

[ Voor 43% gewijzigd door Salandur op 19-08-2008 10:09 ]

Assumptions are the mother of all fuck ups | iRacing Profiel