unicode字元集採用2個位元組表示一個字元。 unicode為每種語言中的每個字元設定了統一且唯一的二進位編碼,以滿足跨語言、跨平台進行文字轉換、處理的要求;它可以將世界上所有的文字用2個位元組統一進行編碼。
本教學操作環境:windows7系統、Dell G3電腦。
unicode字元集採用2個位元組表示一個字元。
Unicode(統一碼、萬國碼、單碼)是電腦上使用的字元編碼。它為每種語言中的每個字元設定了統一且唯一的二進位編碼,以滿足跨語言、跨平台進行文字轉換、處理的要求。
如果把各種文字編碼形容為各地的方言,那麼Unicode就是世界各國合作開發的語言。
在這種語言環境下,不會再有語言的編碼衝突,在同螢幕下,可以顯示任何語言的內容,這就是Unicode的最大好處。就是將世界上所有的文字用2個位元組統一進行編碼。那樣,像這樣統一編碼,2個位元組就已經足夠容納世界上所有的語言的大部分文字了。
Unicode的學名是"Universal Multiple-Octet Coded Character Set",簡稱為UCS。
早期的Unicode標準有UCS-2、UCS-4的說法。 UCS-2用兩個位元組編碼,UCS-4用4個位元組編碼。現在用的是UCS-2,也就是2個位元組編碼,而UCS-4是為了防止將來2個位元組不夠用才開發的。
UCS-4依最高位元為0的最高位元組分成2^7=128個group。每個group再依次高位元組分為256個平面(plane)。每個平面依第3個位元組分為256行 (row),每行有256個碼位(cell)。 group 0的平面0被稱為BMP(Basic Multilingual Plane)。將UCS-4的BMP去掉前面的兩個零位元組就得到了UCS-2。
更多相關知識,請造訪常見問題欄位!
以上是unicode字符集採用幾個位元組表示一個字符的詳細內容。更多資訊請關注PHP中文網其他相關文章!