Maison > Problème commun > Le jeu de caractères Unicode utilise plusieurs octets pour représenter un caractère

Le jeu de caractères Unicode utilise plusieurs octets pour représenter un caractère

青灯夜游
Libérer: 2023-01-13 00:36:05
original
14253 Les gens l'ont consulté

Le jeu de caractères Unicode utilise 2 octets pour représenter un caractère. Unicode définit un codage binaire unifié et unique pour chaque caractère dans chaque langue afin de répondre aux exigences de conversion et de traitement de texte multilingue et multiplateforme ; il peut unifier tous les textes du monde en utilisant un codage sur 2 octets.

Le jeu de caractères Unicode utilise plusieurs octets pour représenter un caractère

L'environnement d'exploitation de ce tutoriel : système Windows 7, ordinateur Dell G3.

Le jeu de caractères Unicode utilise 2 octets pour représenter un caractère.

Unicode (Unicode, Universal Code, Unicode) est un codage de caractères utilisé sur les ordinateurs. Il définit un codage binaire unifié et unique pour chaque caractère dans chaque langue afin de répondre aux exigences de conversion et de traitement de texte multilingue et multiplateforme.

Si divers encodages de texte peuvent être décrits comme des dialectes provenant de divers endroits, alors Unicode est un langage développé conjointement par des pays du monde entier.

Dans cet environnement linguistique, il n'y aura plus de conflits d'encodage de langue. Le contenu dans n'importe quelle langue peut être affiché sur le même écran. C'est le plus grand avantage d'Unicode. Cela signifie que tout le texte du monde est codé uniformément sur 2 octets. De cette façon, avec un codage unifié comme celui-ci, 2 octets suffisent pour accueillir la plupart du texte dans toutes les langues du monde.

Le nom scientifique d'Unicode est "Jeu de caractères codés universels à plusieurs octets", appelé UCS.

Les premiers standards Unicode s'appelaient UCS-2 et UCS-4. UCS-2 est codé sur deux octets et UCS-4 est codé sur 4 octets. Ce qui est actuellement utilisé est UCS-2, qui est un codage sur 2 octets, et UCS-4 a été développé pour éviter que 2 octets ne soient insuffisants à l'avenir.

UCS-4 est divisé en 2^7=128 groupes selon l'octet le plus élevé, le bit le plus élevé étant 0. Chaque groupe est divisé en 256 plans selon l'octet suivant le plus élevé. Chaque plan est divisé en 256 lignes selon le troisième octet, et chaque ligne comporte 256 points de code (cellules). Le plan 0 du groupe 0 est appelé BMP (Basic Multilingual Plane). UCS-2 est obtenu en supprimant les deux premiers octets zéro du BMP d'UCS-4.

Pour plus de connaissances connexes, veuillez visiter la colonne FAQ !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal