HTML基础教程之计算机编码(字符集)
计算机编码(字符集)——了解
为什么要有字符集,是因为计算机只能处理二进制数据。为了让计算机能识别人类语言(0-9、a-z、A-Z、特殊符号),我们就需要对这每一个字符进行“编码”。所谓“编码”就是:每一个字符,可以用不同的二进制来表示。
假设:A 用二进制表示 1000, B 用二进制表示 1001
ASCII编码:用1个字节(8位二进制)来表示所有字符,共可以表示 2^8 = 256 。
ANSI编码:其它国家,都对ASCII编码进行扩展,用于显示本国的语言。
ANSI在中文操作系统下,代表gb2312
ANSI在繁体操作系统下,代表big5
ANSI在日文操作系统下,代表JIS
……
用2个字节(16位二进制)(来表示,共可以表示 2^16 = 65536个字符。
GB2312中共收录了6763个汉字。
GBK编码:对GB2312进行扩充,收录了一些冷门字、罕见字、古汉语等。共收录2.1万个汉字。
Unicode编码:计划将世界上所有字符统一编码,用4个字节(32位二进制)来表示一个字符。
它的缺点:编码表文件太大了,不方便使用。用32位二进制表示一个字符,造成空间极大浪费。
假设:1 用Unicode编码表示 0000000000000000000000000000000000000000000000001
UTF-8:统一转换格式编码(多国语言编码)
不同的字符,它会选择合适编码来进行翻译。
如:1 可以使用ASCII中编码(8位二进制)
“国”可以使用2个字节来表示