Le jeu de caractères Unicode utilise 2 octets pour représenter un caractère. Unicode définit un codage binaire unifié et unique pour chaque caractère dans chaque langue afin de répondre aux exigences de conversion et de traitement de texte multilingue et multiplateforme ; il peut unifier tous les textes du monde en utilisant un codage sur 2 octets.
L'environnement d'exploitation de ce tutoriel : système Windows 7, ordinateur Dell G3.
Le jeu de caractères Unicode utilise 2 octets pour représenter un caractère.
Unicode (Unicode, Universal Code, Unicode) est un codage de caractères utilisé sur les ordinateurs. Il définit un codage binaire unifié et unique pour chaque caractère dans chaque langue afin de répondre aux exigences de conversion et de traitement de texte multilingue et multiplateforme.
Si divers encodages de texte peuvent être décrits comme des dialectes provenant de divers endroits, alors Unicode est un langage développé conjointement par des pays du monde entier.
Dans cet environnement linguistique, il n'y aura plus de conflits d'encodage de langue. Le contenu dans n'importe quelle langue peut être affiché sur le même écran. C'est le plus grand avantage d'Unicode. Cela signifie que tout le texte du monde est codé uniformément sur 2 octets. De cette façon, avec un codage unifié comme celui-ci, 2 octets suffisent pour accueillir la plupart du texte dans toutes les langues du monde.
Le nom scientifique d'Unicode est "Jeu de caractères codés universels à plusieurs octets", appelé UCS.
Les premiers standards Unicode s'appelaient UCS-2 et UCS-4. UCS-2 est codé sur deux octets et UCS-4 est codé sur 4 octets. Ce qui est actuellement utilisé est UCS-2, qui est un codage sur 2 octets, et UCS-4 a été développé pour éviter que 2 octets ne soient insuffisants à l'avenir.
UCS-4 est divisé en 2^7=128 groupes selon l'octet le plus élevé, le bit le plus élevé étant 0. Chaque groupe est divisé en 256 plans selon l'octet suivant le plus élevé. Chaque plan est divisé en 256 lignes selon le troisième octet, et chaque ligne comporte 256 points de code (cellules). Le plan 0 du groupe 0 est appelé BMP (Basic Multilingual Plane). UCS-2 est obtenu en supprimant les deux premiers octets zéro du BMP d'UCS-4.
Pour plus de connaissances connexes, veuillez visiter la colonne FAQ !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!