Maison > interface Web > tutoriel HTML > Explication détaillée du codage linguistique du jeu de caractères en HTML

Explication détaillée du codage linguistique du jeu de caractères en HTML

黄舟
Libérer: 2017-07-22 13:31:51
original
3096 Les gens l'ont consulté

Faites attention à l'importance de l'encodage du langage HTML

  • Table des matières


  1. Importance du codage du jeu de caractères

  2. Où est le jeu de caractères en HTML

  3. balise charset

  4. Type d'encodage

  5. introduction charset utf-8

  6. Introduction au jeu de caractères GB2312

  7. Encodage de page Web recommandé

  8. Compatibilité des pages Web grâce à l'encodage

1. L'importance de l'encodage - TOP

L'encodage peut provoquer des pages Web tronquées lorsque les internautes utilisent IE, et peut également conduire à un piratage de compatibilité p+css.

2. Position de codage - TOP

3. Style de codage HTML - TOP

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
Copier après la connexion


Vous peut changer l'encodage de la page Web en changeant utf-8 dans charset=utf-8.
Généralement, lorsque nous écrivons des fichiers CSS, nous devons également utiliser @charset "utf-8" en haut du fichier CSS pour définir le type d'encodage de ce fichier CSS. Généralement, le code source HTML et l'encodage des fichiers CSS doivent être unifiés. S'ils ne le sont pas, cela entraînera des problèmes de compatibilité tels que des piratages CSS, des pages tronquées et une mise en page chaotique.

4. Types d'encodage HTML couramment utilisés - TOP

Les deux types d'encodage HTML les plus couramment utilisés en Chine sont utf-8 et gb2312. Généralement, ces deux types peuvent répondre aux besoins nationaux d’encodage de pages Web. Bien entendu, ces deux types de codage sont également utilisés dans les programmes et les bases de données pour traiter les pages Web et stocker les types de données.

5. UTF-8 a les caractéristiques suivantes : - TOP

  1. Les caractères UCS U+0000 à U+007F (ASCII) sont codés. en octets 0x00 à 0x7F (compatible ASCII). Cela signifie que les fichiers contenant uniquement des caractères ASCII 7 bits sont les mêmes dans les encodages ASCII et UTF-8.

  2. Tous> Le caractère UCS ; U+007F est codé sous la forme d'une chaîne de plusieurs octets, chacun avec un ensemble de bits d'indicateur. Par conséquent, les octets ASCII (0x00-0x7F) ne peuvent faire partie d'aucun autre caractère.

  3. . Le premier octet d'une chaîne multi-octets représentant un caractère non-ASCII est toujours compris entre 0xC0 et 0xFD et indique le nombre d'octets que contient le caractère. Le reste de la chaîne multi-octets est tous compris entre 0x80 et 0xBF. . Cela rend la resynchronisation très facile et rend l'encodage sans frontières et rarement affecté par les octets manquants

  4. peut être codé dans tous les possibles. Les 231 codes UCS

  5. <.>Les caractères codés en UTF-8 peuvent théoriquement mesurer jusqu'à 6 octets, mais les caractères BMP 16 bits ne font que 3 octets maximum.

  6. L'ordre des octets Bigendian UCS-4 les chaînes sont prédéterminées.

  7. Les octets 0xFE et 0xFF ne sont jamais utilisés dans l'encodage UTF-8.

GB2312 a les caractéristiques suivantes -

6. 🎜>TOP

La norme GB2312 contient un total de 6763 caractères chinois, dont 3755 caractères chinois de premier niveau et des caractères chinois de deuxième niveau. Il y a 3008 caractères chinois en même temps, GB2312 en comprend 682 ; caractères pleine chasse, y compris les lettres latines, les lettres grecques, les lettres japonaises hiragana et katakana et les lettres cyrilliques russes.

L'émergence du GB2312 répond essentiellement aux besoins de traitement informatique des caractères chinois. Les caractères chinois qu'il contient ont couvert 99,75% de la fréquence d'utilisation. Dans GB2312, les caractères chinois collectés sont « partitionnés » et chaque zone contient 94 caractères/symboles chinois. Cette représentation est également appelée code de localisation.

Les zones 01-09 sont des symboles spéciaux.

Les zones 16 à 55 sont des caractères chinois de premier niveau, triés par pinyin.

Les zones 56 à 87 sont des caractères chinois de deuxième niveau, triés par radical/trait.

Les districts 10-15 et 88-94 ne sont pas codés.

Par exemple, le caractère « ah » est le premier caractère chinois du GB2312 et son code de localisation est 1601. Dans les programmes utilisant GB2312, la structure d'octets utilise généralement la méthode de stockage EUC afin que Compatible avec ASCII. Chaque caractère et symbole chinois est représenté par deux octets. Le premier octet est appelé « octet de poids fort » et le deuxième octet est appelé « octet de poids faible ». L'"octet de poids fort" utilise 0xA1-0xF7 (ajoutez 0xA0 à l'indicatif régional de la zone 01-87) et "l'octet de poids faible" utilise 0xA1-0xFE (ajoutez 01-94 à 0xA0). Par exemple Le mot « ah » est stocké sous la forme 0xB0A1 dans la plupart des programmes. (Comparez avec le code d'emplacement : 0xB0=0xA0+16, 0xA1=0xA0+1).

Ainsi, la décimale de l'indicatif régional des caractères chinois dans l'encodage GB2312 est de 176 à 247, et le code binaire est de 161 à 255. La raison pour laquelle 6763 est stocké est inférieure à 82*94=6768, car l'indicatif régional est 215 et le code binaire est 215. Il existe cinq codes entre 250 et 254 sans codage de caractères chinois, donc 6768-5=6763.

Le codage GB2312 peut être facilement compris comme un langage commun en Chine.

7. Encodage du jeu de caractères recommandé -

TOP

UTF-8 peut être facilement compris et le chinois traditionnel peut utiliser cet encodage. La Chine continentale utilise ce codage.

8. Erreurs de compatibilité des pages Web causées par l'encodage : - TOP

Si l'encodage est mixte, la page Web sera tronquée, ce qui est également appelé incompatible, surtout en cas de mélange d'encodage. est utilisé dans la ligne de commentaires CSS entraînera un hack CSS.

J'espère que vous n'oublierez jamais de déclarer l'encodage de la page Web lors de la création de pages Web à l'avenir.

Les utilisateurs qui ont consulté cette page ont également consulté le contenu suivant :
1. Les différences et les relations entre UTF-8 GBK UTF8 GB2312
2. Comment choisir l'encodage html
3. paramètres

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal