html: automatisch gegenereerde charset door ide, correct? - Softwareontwikkeling

dinsdag 3 mei 2005 21:40

Acties:

Verwijderd

Topicstarter

Macromedia maakt voor nieuwe html 4 documenten een meta tag aan met daarin charset=iso-8859-1, mijn vraag is, is dat gebaseerd op de instellingen van mijn OS (Windows XP) of zet ie dat er standaard in?

Want ik weet eigenlijk niet met welke encoding ik bestanden aanmaak (bijvoorbeeld als ik een nieuw txt-bestand maakt, of zoals in Dreamweaver een html-bestand). Kun je dat achterhalen/instellen in Windows XP? Ik ging er van uit dat het utf-8 was. Want ik wil graag zeker weten dat de encoding goed aangegeven is in die meta-tags, ik vind het al lastig genoeg met die encoding.

dinsdag 3 mei 2005 21:48

Acties:

Verwijderd

http://annevankesteren.nl/2004/12-utf-8
http://annevankesteren.nl/archives/2004/06/utf-8

dinsdag 3 mei 2005 22:07

Acties:

Verwijderd

Topicstarter

Mocht je dus je huidige ISO-8859-1 of ISO-8859-15 om willen zetten in UTF-8 dan is het veranderen van de HTTP header (of META element equivalent) waarschijnlijk niet genoeg. Je zult daadwerkelijk het document opnieuw moeten coderen als er karakters in voorkomen die buiten US-ASCII vallen

Maar in welk formaat wordt nu een nieuw document aangemaakt. Want wellicht is het document juist utf-8 als ik het aanmaak? Vanaf windows 2000 is er volgens mij 'ondersteuning' voor utf-8, maar het kan net zo goed zij dat nieuwe bestanden in die 1252 encoding gemaakt worden (ms een beetje kennende)

dinsdag 3 mei 2005 22:29

Acties:

Verwijderd

Dat hangt van je editor af. Je moet je editor zodanig instellen dat de codering UTF-8 is. Dat kan bij de meeste editors bij opties of op het moment dat je het bestand opslaat.

dinsdag 3 mei 2005 22:32

Acties:

Verwijderd

Ik begrijp je vraag niet helemaal. Je maakt met bepaalde software een bestand aan. Die software bepaald je codering van je bestand. Afhankelijk hoe complex de software is (als het buiten het OS gebied treedt).

Windows zelf ondersteund geloof ik tot 2 byte karakters, terwijl de default value iso-8859-1 is. Maar daar heb je geen last van tenzij je bestandsnamen of window captions meer dan die twee bytes bevatten.

dinsdag 3 mei 2005 22:44

Acties:

Verwijderd

Topicstarter

Verwijderd schreef op dinsdag 03 mei 2005 @ 22:32:
Ik begrijp je vraag niet helemaal.

Wil eigenlijk twee dingen weten:

Welke encoding krijgen bestanden standaard in Windows? iig dus geen UTF-8, maar met editors kun je dat aanpassen (want alleen de metatag aanpassen is niet genoeg voor html)

Hoe kan ik erachter komen, als ik al een bestand heb (willekeurig wat voor bestand) welke encoding het nu heeft? Dat weet ik (nog) niet. Maar heb het gevoel dat dat niet uit de bytes op te maken zou zijn.

woensdag 4 mei 2005 00:11

Acties:

André

Analytics dude

Bestanden hebben standaard de encoding die je OS gebruikt. Dit kun je overrulen met een editor naar bijvoorbeeld UTF-8. Maar dan moet je ook zorgen dat dat bestand op het web ook als UTF-8 geserveerd word door de server en door middel van je headers

woensdag 4 mei 2005 00:16

Acties:

Verwijderd

windows geeft bestanden geen encoding, voor windows is alles bytes, of die nou per 1, 2, 3 of 4 bij elkaar horen boeit niet, dat is alleen interessant voor een editor.

Als een editor iets saved als utf-8 is dat prima te lezen door een iso-zoveel editor, alleen staat er gewoon poep.

woensdag 4 mei 2005 10:44

Acties:

Verwijderd

Copy&paste werkt geloof ik op UTF-16 in Windows (2 bytes), maar dat maakt verder niks uit. UTF-8 bestanden zijn te herkennen aan o.a. de BOM en aan de karakters zelf. Online is ergens een algoritme te vinden om ze te traceren. Dit geldt ook voor andere UTF karakter coderingen. ISO-8859-1 is geloof ik ook nog wel te achterhalen, maar het is bijna onmogelijk om het voor elke codering te doen... Het beste wat je kunt doen is een bestand openen in een text editor en dan opslaan als UTF-8.