Les caractères chinois codés en UTF8 occupent 3 octets. En codage UTF-8, un caractère chinois équivaut à trois octets et un signe de ponctuation chinois occupe trois octets, tandis qu'en codage Unicode, un caractère chinois (y compris le chinois traditionnel) équivaut à deux octets. UTF-8 utilise 1 à 4 octets pour coder chaque caractère. Un caractère US-ASCIl n'a besoin que de 1 octet pour coder. Le latin, le grec, le cyrillique, l'arménien et l'hébreu avec des signes diacritiques, l'arabe, le syriaque et d'autres lettres nécessitent 2 octets. codage.
L'environnement d'exploitation de ce tutoriel : système Windows 7, ordinateur Dell G3.
Combien d'octets occupent les caractères chinois codés en UTF-8 ?
En encodage UTF-8 : un caractère chinois équivaut à trois octets, et la ponctuation chinoise occupe trois octets.
Un caractère anglais équivaut à un octet et la ponctuation anglaise occupe un octet.
Encodage Unicode : un mot anglais équivaut à deux octets et un caractère chinois (y compris le chinois traditionnel) équivaut à deux octets. La ponctuation chinoise occupe deux octets et la ponctuation anglaise occupe deux octets.
UTF-8 utilise 1 à 4 octets pour encoder chaque caractère :
1. Un caractère US-ASCIl n'a besoin que de 1 octet pour encoder (la plage Unicode est U+0000~U+007F).
2. Les lettres latines, grecques, cyrilliques, arméniennes, hébraïques, arabes, syriaques et autres lettres avec des signes diacritiques nécessitent un codage sur 2 octets (la plage Unicode est U+0080~U +07FF).
3. Les caractères dans d'autres langues (y compris les caractères chinois, japonais et coréens, les caractères d'Asie du Sud-Est, les caractères du Moyen-Orient, etc.) incluent les caractères les plus couramment utilisés et utilisent un codage sur 3 octets.
4. D'autres caractères de langue rarement utilisés utilisent un codage sur 4 octets.
Connaissances étendues :
UTF-8 (8 bits, Universal Character Set/Unicode Transformation Format) est un codage de caractères de longueur variable pour Unicode. Il peut être utilisé pour représenter n'importe quel caractère de la norme Unicode, et le premier octet de son codage est toujours compatible avec ASCII, de sorte que le logiciel d'origine qui traite les caractères ASCII peut continuer à être utilisé sans ou avec seulement quelques modifications. Par conséquent, il est progressivement devenu le codage préféré pour les e-mails, les pages Web et autres applications qui stockent ou transmettent du texte.
Jeu de caractères :
Règles d'encodage UTF-8 : S'il n'y a qu'un seul octet, la valeur est 0x00-0x7F. Les octets restants sont étendus comme suit en fonction de la longueur :
UTF-8 est implémenté par 4 méthodes d'encodage, à savoir UTF8-1 / UTF8-2 / UTF8-3 / UTF8-4. Parmi eux :
UTF8-1 |
0x00-0x7F |
UTF8-2 |
0xC 2-0xDF 0x80-0xBF
|
UTF8-3 |
0xE0 0xA0-0xBF 0x80-0xBF
0xE1-0xEC 0x80-0xBF 0x80-0xBF
0xED 0x80-0x9F 0x80-0xBF
0xEE-0xEF 0x80-0xBF 0x80-0xBF
|
UTF8-4 |
0xF0 0x90-0xBF 0x80-0xBF 0x80-0xBF
0 xF1-0xF3 0x80-0xBF 0x80-0xBF 0x80 - 0xBF
0xF4 0x80-0x8F 0x80-0xBF 0x80-0xBF
|
Remarque : Chaque encodage peut avoir plusieurs plages d'encodage, des espaces sont utilisés comme séparateur. Par exemple, le premier codage UTF8-3 doit avoir une valeur de 0xE0 pour le premier octet, une plage de 0xA0-0xBF pour le deuxième octet et une plage de 0x80-0xBF pour le troisième octet.
Pour plus de connaissances connexes, veuillez visiter la rubrique FAQ !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!