utf8編碼漢字佔3個位元組。在UTF-8編碼中,一個中文等於三個位元組,一個中文標點佔三個位元組;而在Unicode編碼中,一個中文(含繁體)等於兩個位元組。 UTF-8使用1~4位元組為每個字元編碼,一個US-ASCIl字元只需1位元組編碼,帶有變音符號的拉丁文、希臘文、西里爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文等字母則需要2位元組編碼。
本教學操作環境:windows7系統、Dell G3電腦。
utf-8編碼漢字佔幾個位元組?
在UTF-8編碼中:一個中文等於三個位元組,中文標點佔三個位元組。
一個英文字元等於一個位元組,英文標點佔一個位元組。
Unicode編碼:一個英文等於兩個字節,一個中文(含繁體)等於兩個位元組。中文標點佔兩個字節,英文標點。
UTF-8使用1~4位元組為每個字元編碼:
1、一個US-ASCIl字元只需1位元組編碼( Unicode範圍由U 0000~U 007F)。
2、帶有變音符號的拉丁文、希臘文、西里爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文等字母則需要2位元組編碼(Unicode範圍由U 0080~U 07FF)。
3、其他語言的字元(包括中日韓文字、東南亞文字、中東文字等)包含了大部分常用字,使用3位元組編碼。
4、其他極少使用的語言字元使用4位元組編碼。
擴充知識:
UTF-8(8位,Universal Character Set/Unicode Transformation Format)是針對Unicode的一種可變長度字元編碼。它可以用來表示Unicode標準中的任何字符,而且其編碼中的第一個字節仍與ASCII相容,使得原來處理ASCII字符的軟體無須或只進行少部分修改後,便可繼續使用。因此,它逐漸成為電子郵件、網頁及其他儲存或傳送文字的應用中,優先採用的編碼。
字元集:
UTF-8編碼規則:如果只有一個位元組則取值為0x00-0x7F。其餘位元組依長度進行以下拓展:
UTF-8由4種編碼方式實現,即UTF8-1 / UTF8-2 / UTF8-3 / UTF8-4 。其中:
#UTF8-1 |
##0x00- 0x7F |
UTF8-2 | 0xC2-0xDF 0x80-0xBF
|
#UTF8-3 | #0xE0 0xA0-0xBF 0x80-0xBF
#0xE1- 0xEC 0x80-0xBF 0x80-0xBF
0xED 0x80-0x9F 0x80-0xBF
0xEE-0xEF 0x80-0xBF#0xEE-0xEF 0x80-0xBF | 0x80-0xBF
UTF8-4 |
0xF0 0x90-0xBF 0x80-0xBF 0x80-0xBF
0xF1-0xF3 0x80-0xBF 0x80-0xBF 0x80-0xBF
0xF4 0x80- 0x8F 0x80-0xBF 0x80-0xBF |
註:每種編碼可能有多個編碼範圍,每個編碼範圍間,以空格作為每個位元組的分隔符號。例如UTF8-3的第一個編碼,其第一個位元組取值必須為0xE0,第二個位元組範圍為0xA0-0xBF,第三個位元組為0x80-0xBF。 更多相關知識,請造訪
常見問題###欄位! ###以上是utf8編碼漢字佔多少位元組的詳細內容。更多資訊請關注PHP中文網其他相關文章!