首页 常见问题 utf8编码汉字占多少字节

utf8编码汉字占多少字节

Feb 21, 2023 am 11:40 AM
编码 字节 utf8

utf8编码汉字占3个字节。在UTF-8编码中,一个中文等于三个字节,一个中文标点占三个字节;而在Unicode编码中,一个中文(含繁体)等于两个字节。UTF-8使用1~4字节为每个字符编码,一个US-ASCIl字符只需1字节编码,带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文等字母则需要2字节编码。

utf8编码汉字占多少字节

本教程操作环境:windows7系统、Dell G3电脑。

utf-8编码汉字占几个字节?

在UTF-8编码中:一个中文等于三个字节,中文标点占三个字节。

一个英文字符等于一个字节,英文标点占一个字节。

Unicode编码:一个英文等于两个字节,一个中文(含繁体)等于两个字节。中文标点占两个字节,英文标点。

1.jpg

UTF-8使用1~4字节为每个字符编码:

1、一个US-ASCIl字符只需1字节编码(Unicode范围由U+0000~U+007F)。

2、带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文等字母则需要2字节编码(Unicode范围由U+0080~U+07FF)。

3、其他语言的字符(包括中日韩文字、东南亚文字、中东文字等)包含了大部分常用字,使用3字节编码。

4、其他极少使用的语言字符使用4字节编码。

扩展知识:

UTF-8(8位元,Universal Character Set/Unicode Transformation Format)是针对Unicode的一种可变长度字符编码。它可以用来表示Unicode标准中的任何字符,而且其编码中的第一个字节仍与ASCII相容,使得原来处理ASCII字符的软件无须或只进行少部分修改后,便可继续使用。因此,它逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。

字符集:

UTF-8编码规则:如果只有一个字节则取值为0x00-0x7F。其余字节按长度进行以下拓展:

UTF-8由4种编码方式实现,即UTF8-1 / UTF8-2 / UTF8-3 / UTF8-4  。其中:

UTF8, 16进制编码表
UTF8-1
0x00-0x7F
UTF8-2
0xC2-0xDF 0x80-0xBF
UTF8-3
0xE0 0xA0-0xBF 0x80-0xBF
0xE1-0xEC 0x80-0xBF 0x80-0xBF
0xED 0x80-0x9F 0x80-0xBF
0xEE-0xEF 0x80-0xBF 0x80-0xBF
UTF8-4
0xF0 0x90-0xBF 0x80-0xBF 0x80-0xBF
0xF1-0xF3 0x80-0xBF 0x80-0xBF 0x80-0xBF
0xF4 0x80-0x8F 0x80-0xBF 0x80-0xBF

注:每种编码可能有多个编码范围,每个编码范围间,以空格作为每个字节的分隔符。例如UTF8-3的第一个编码,其第一个字节取值必须为0xE0,第二个字节范围为0xA0-0xBF,第三个字节为0x80-0xBF。

更多相关知识,请访问常见问题栏目!

以上是utf8编码汉字占多少字节的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
2 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
2 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
2 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

1MB的存储容量相当于多少字节 1MB的存储容量相当于多少字节 Mar 03, 2023 pm 05:42 PM

1MB的存储容量相当于2的20次方个字节,即1048576个字节。MB是计算机中的一种储存单位,读作“兆”;因为1MB等于1024KB,而1KB等于1024B(字节),因此1MB等于1048576(1024 *1024)个字节。

128mb是指多少字节 128mb是指多少字节 Nov 29, 2022 am 10:35 AM

128mb是指134217728字节;字节换算公式是“1MB=1024KB=1048576B=8388608bit”,其表示可以保存1048576个英文字母、524288个汉字;流量单位换算公式是1GB=1024MB,1MB=1024KB,1KB=1024B。

11个常见的分类特征的编码技术 11个常见的分类特征的编码技术 Apr 12, 2023 pm 12:16 PM

机器学习算法只接受数值输入,所以如果我们遇到分类特征的时候都会对分类特征进行编码,本文总结了常见的11个分类变量编码方法。1、ONE HOT ENCODING最流行且常用的编码方法是One Hot Enoding。一个具有n个观测值和d个不同值的单一变量被转换成具有n个观测值的d个二元变量,每个二元变量使用一位(0,1)进行标识。例如:编码后最简单的实现是使用pandas的' get_dummiesnew_df=pd.get_dummies(columns=[‘Sex’], data=df)2、

1bit等于多少字节 1bit等于多少字节 Mar 09, 2023 pm 03:11 PM

1bit等于八分之一个字节。二进制数系统中,每个0或1就是一个位(bit),位是数据存储的最小单位;每8个位(bit,简写为b)组成一个字节(Byte),因此“1字节(Byte)=8位(bit)”。在多数的计算机系统中,一个字节是一个8位(bit)长的数据单位,大多数的计算机用一个字节表示一个字符、数字或其他字符。

utf8编码汉字占多少字节 utf8编码汉字占多少字节 Feb 21, 2023 am 11:40 AM

utf8编码汉字占3个字节。在UTF-8编码中,一个中文等于三个字节,一个中文标点占三个字节;而在Unicode编码中,一个中文(含繁体)等于两个字节。UTF-8使用1~4字节为每个字符编码,一个US-ASCIl字符只需1字节编码,带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文等字母则需要2字节编码。

一个ascii码占几个字节 一个ascii码占几个字节 Sep 07, 2023 pm 04:03 PM

一个ascii码占一个字节,ascii码是一种用于表示字符的编码标准,它使用7位二进制数来表示128个不同的字符,包括字母、数字、标点符号和特殊字符等。一个字节是计算机存储单位的基本单元,它由8个二进制位组成,每个二进制位可以是0或1,一个字节可以表示256个不同的数值,因此可以表示ascii码中的所有字符。

一个ascii字符占几个字节 一个ascii字符占几个字节 Mar 09, 2023 pm 03:49 PM

一个ascii字符占1个字节。ASCII码字符在计算机中采用7位或8位二进制编码表示,并保存在一个字节中,即一个ASCII码占用一个字节。ASCII码可分为标准ASCII码和扩展ASCII码,其中标准ASCII码也叫基础ASCII码,使用7位二进制数(剩下的1位二进制为0)来表示所有的大写和小写字母,数字0到9、标点符号,以及在美式英语中使用的特殊控制字符。

4kb表示存储单元有多少个字节 4kb表示存储单元有多少个字节 Feb 28, 2023 pm 12:12 PM

4KB表示存储单元为4096个字节。KB指的是千字节,是计算机数据存贮器存储单位字节的多倍形式,一个千字节是基于2的幂次的,即一个千字节(1KB)等于1024个字节(B);因此“4KB=4*1024B=4096B”,即4KB表示4096个字节。