Combien d'octets les caractères chinois codés en utf8 occupent-ils ?-Problème commun-php.cn

Maison

Problème commun

Combien d'octets les caractères chinois codés en utf8 occupent-ils ?

青灯夜游

Feb 21, 2023 am 11:40 AM

编码字节 utf8

Les caractères chinois codés en UTF8 occupent 3 octets. En codage UTF-8, un caractère chinois équivaut à trois octets et un signe de ponctuation chinois occupe trois octets, tandis qu'en codage Unicode, un caractère chinois (y compris le chinois traditionnel) équivaut à deux octets. UTF-8 utilise 1 à 4 octets pour coder chaque caractère. Un caractère US-ASCIl n'a besoin que de 1 octet pour coder. Le latin, le grec, le cyrillique, l'arménien et l'hébreu avec des signes diacritiques, l'arabe, le syriaque et d'autres lettres nécessitent 2 octets. codage.

Combien d'octets les caractères chinois codés en utf8 occupent-ils ?

L'environnement d'exploitation de ce tutoriel : système Windows 7, ordinateur Dell G3.

Combien d'octets occupent les caractères chinois codés en UTF-8 ?

En encodage UTF-8 : un caractère chinois équivaut à trois octets, et la ponctuation chinoise occupe trois octets.

Un caractère anglais équivaut à un octet et la ponctuation anglaise occupe un octet.

Encodage Unicode : un mot anglais équivaut à deux octets et un caractère chinois (y compris le chinois traditionnel) équivaut à deux octets. La ponctuation chinoise occupe deux octets et la ponctuation anglaise occupe deux octets.

Combien doctets les caractères chinois codés en utf8 occupent-ils ?

UTF-8 utilise 1 à 4 octets pour encoder chaque caractère :

1. Un caractère US-ASCIl n'a besoin que de 1 octet pour encoder (la plage Unicode est U+0000~U+007F).

2. Les lettres latines, grecques, cyrilliques, arméniennes, hébraïques, arabes, syriaques et autres lettres avec des signes diacritiques nécessitent un codage sur 2 octets (la plage Unicode est U+0080~U +07FF).

3. Les caractères dans d'autres langues (y compris les caractères chinois, japonais et coréens, les caractères d'Asie du Sud-Est, les caractères du Moyen-Orient, etc.) incluent les caractères les plus couramment utilisés et utilisent un codage sur 3 octets.

4. D'autres caractères de langue rarement utilisés utilisent un codage sur 4 octets.

Connaissances étendues :

UTF-8 (8 bits, Universal Character Set/Unicode Transformation Format) est un codage de caractères de longueur variable pour Unicode. Il peut être utilisé pour représenter n'importe quel caractère de la norme Unicode, et le premier octet de son codage est toujours compatible avec ASCII, de sorte que le logiciel d'origine qui traite les caractères ASCII peut continuer à être utilisé sans ou avec seulement quelques modifications. Par conséquent, il est progressivement devenu le codage préféré pour les e-mails, les pages Web et autres applications qui stockent ou transmettent du texte.

Jeu de caractères :

Règles d'encodage UTF-8 : S'il n'y a qu'un seul octet, la valeur est 0x00-0x7F. Les octets restants sont étendus comme suit en fonction de la longueur :

UTF-8 est implémenté par 4 méthodes d'encodage, à savoir UTF8-1 / UTF8-2 / UTF8-3 / UTF8-4. Parmi eux :

UTF8, table d'encodage hexadécimal
UTF8-1	0x00-0x7F
UTF8-2	0xC 2-0xDF 0x80-0xBF
UTF8-3	0xE0 0xA0-0xBF 0x80-0xBF 0xE1-0xEC 0x80-0xBF 0x80-0xBF 0xED 0x80-0x9F 0x80-0xBF 0xEE-0xEF 0x80-0xBF 0x80-0xBF
UTF8-4	0xF0 0x90-0xBF 0x80-0xBF 0x80-0xBF 0 xF1-0xF3 0x80-0xBF 0x80-0xBF 0x80 - 0xBF 0xF4 0x80-0x8F 0x80-0xBF 0x80-0xBF

Remarque : Chaque encodage peut avoir plusieurs plages d'encodage, des espaces sont utilisés comme séparateur. Par exemple, le premier codage UTF8-3 doit avoir une valeur de 0xE0 pour le premier octet, une plage de 0xA0-0xBF pour le deuxième octet et une plage de 0x80-0xBF pour le troisième octet.

Pour plus de connaissances connexes, veuillez visiter la rubrique FAQ !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Combien de temps faut-il pour battre Split Fiction?

1 Il y a quelques mois By DDD

R.E.P.O. Meilleurs paramètres graphiques

2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

1 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7411

Tutoriel CakePHP

1358

Quel est le format du nom de compte de Steam

Clé d&#39;activation Win11 permanent

Afficher plus

Related knowledge

1 Mo de capacité de stockage équivaut à combien d'octets Mar 03, 2023 pm 05:42 PM

1 Mo de capacité de stockage équivaut à 2 puissance 20 octets, soit 1 048 576 octets. Mo est une unité de stockage dans les ordinateurs, prononcée comme « méga » car 1 Mo est égal à 1 024 Ko et 1 Ko est égal à 1 024 Mo (octets), donc 1 Mo est égal à 1 048 576 (1 024 * 1 024) octets.

Combien d'octets signifie 128 Mo ? Nov 29, 2022 am 10:35 AM

128 Mo fait référence à 134217728 octets ; la formule de conversion d'octets est « 1 Mo = 1024 Ko = 1048576B = 8388608 bits », ce qui signifie que 1048576 lettres anglaises et 524288 caractères chinois peuvent être enregistrés ; = 1024B.

11 techniques courantes d'encodage des caractéristiques de classification Apr 12, 2023 pm 12:16 PM

Les algorithmes d'apprentissage automatique n'acceptent que les entrées numériques, donc si nous rencontrons des caractéristiques catégorielles, nous coderons les caractéristiques catégorielles. Cet article résume 11 méthodes courantes de codage de variables catégorielles. 1. ONE HOT ENCODING La méthode d’encodage la plus populaire et la plus couramment utilisée est One Hot Enoding. Une unique variable à n observations et d valeurs distinctes est convertie en d variables binaires à n observations, chaque variable binaire est identifiée par un bit (0, 1). Par exemple : l'implémentation la plus simple après l'encodage consiste à utiliser get_dummiesnew_df=pd.get_dummies(columns=[‘Sex’], data=df)2 de pandas,

1 bit équivaut à combien d'octets Mar 09, 2023 pm 03:11 PM

1 bit équivaut à un huitième d'octet. Dans le système de nombres binaires, chaque 0 ou 1 est un bit (bit), et un bit est la plus petite unité de stockage de données ; tous les 8 bits (bit, abrégé en b) constituent un octet (Byte), donc "1 octet ( Octet) = 8 bits ». Dans la plupart des systèmes informatiques, un octet est une unité de données de 8 bits (bits). La plupart des ordinateurs utilisent un octet pour représenter un caractère, un nombre ou un autre caractère.

Combien d'octets les caractères chinois codés en utf8 occupent-ils ? Feb 21, 2023 am 11:40 AM

Les caractères chinois codés en UTF8 occupent 3 octets. En codage UTF-8, un caractère chinois équivaut à trois octets et un signe de ponctuation chinois occupe trois octets, tandis qu'en codage Unicode, un caractère chinois (y compris le chinois traditionnel) équivaut à deux octets. UTF-8 utilise 1 à 4 octets pour coder chaque caractère. Un caractère US-ASCIl n'a besoin que de 1 octet pour coder. Le latin, le grec, le cyrillique, l'arménien et l'hébreu avec des signes diacritiques, l'arabe, le syriaque et d'autres lettres nécessitent 2 octets. codage.

Combien d'octets un code ascii occupe-t-il ? Sep 07, 2023 pm 04:03 PM

Un code ASCII occupe un octet. Le code ASCII est une norme de codage utilisée pour représenter des caractères. Il utilise des nombres binaires sur 7 bits pour représenter 128 caractères différents, notamment des lettres, des chiffres, des signes de ponctuation, des caractères spéciaux, etc. Un octet est l'unité de base de l'unité de stockage informatique. Il se compose de 8 bits binaires. Chaque bit binaire peut être 0 ou 1. Un octet peut représenter 256 valeurs différentes, il peut donc représenter tous les caractères du code ASCII.

Combien d'octets un caractère ascii occupe-t-il ? Mar 09, 2023 pm 03:49 PM

Un caractère ascii occupe 1 octet. Les caractères du code ASCII sont représentés par un codage binaire 7 bits ou 8 bits dans l'ordinateur et sont stockés dans un octet, c'est-à-dire qu'un code ASCII occupe un octet. Le code ASCII peut être divisé en code ASCII standard et code ASCII étendu. Le code ASCII standard est également appelé code ASCII de base. Il utilise des nombres binaires de 7 bits (le chiffre binaire restant est 0) pour représenter toutes les lettres majuscules et minuscules. chiffres de 0 à 9. Signes de ponctuation et caractères de contrôle spéciaux utilisés en anglais américain.

4 Ko indique combien d'octets il y a dans l'unité de stockage Feb 28, 2023 pm 12:12 PM

4 Ko signifie que l'unité de stockage fait 4096 octets. Ko fait référence au kilo-octet, qui est une forme multiple d'octet d'unité de stockage de données informatiques. Un kilo-octet est basé sur la puissance de 2, c'est-à-dire qu'un kilo-octet (1 Ko) est égal à 1 024 octets (B ) ; 1024B=4096B", c'est-à-dire que 4 Ko représentent 4096 octets.