HTML基础教程之计算机编码(字符集)

计算机编码(字符集)——了解

为什么要有字符集,是因为计算机只能处理二进制数据。为了让计算机能识别人类语言(0-9、a-z、A-Z、特殊符号),我们就需要对这每一个字符进行“编码”。所谓“编码”就是:每一个字符,可以用不同的二进制来表示。

假设:A 用二进制表示 1000, B  用二进制表示 1001

ASCII编码:用1个字节(8位二进制)来表示所有字符,共可以表示 2^8 = 256 。

ANSI编码:其它国家,都对ASCII编码进行扩展,用于显示本国的语言。

  • ANSI在中文操作系统下,代表gb2312

  • ANSI在繁体操作系统下,代表big5

  • ANSI在日文操作系统下,代表JIS

  • ……

  • 用2个字节(16位二进制)(来表示,共可以表示 2^16 = 65536个字符。

  • GB2312中共收录了6763个汉字。

  • GBK编码:对GB2312进行扩充,收录了一些冷门字、罕见字、古汉语等。共收录2.1万个汉字。

 

  • Unicode编码:计划将世界上所有字符统一编码,用4个字节(32位二进制)来表示一个字符。

它的缺点:编码表文件太大了,不方便使用。用32位二进制表示一个字符,造成空间极大浪费。

假设:1  用Unicode编码表示 0000000000000000000000000000000000000000000000001

  • UTF-8:统一转换格式编码(多国语言编码)

不同的字符,它会选择合适编码来进行翻译。

如:1 可以使用ASCII中编码(8位二进制)

“国”可以使用2个字节来表示


Weiter lernen
||
<!DOCTYPE HTML> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"> <title>这是我们的第一个页面</title> </head> <body> <h1>欢迎加入php.cn</h1> <h2>希望你能够在这里学的开心</h2> </body> </html>
einreichenCode zurücksetzen