UTF8로 인코딩된 한자는 3바이트를 차지합니다. UTF-8 인코딩에서는 한자 1개가 3바이트이고, 중국어 구두점 1개가 3바이트를 차지하는 반면, 유니코드 인코딩에서는 한자 1개(중국어 번체 포함)가 2바이트에 해당합니다. UTF-8은 각 문자를 인코딩하는 데 1~4바이트를 사용합니다. 하나의 US-ASCIl 문자는 인코딩하는 데 1바이트만 필요합니다. 발음 구별 부호가 있는 라틴어, 그리스어, 아르메니아어 및 기타 문자는 2바이트가 필요합니다. 부호화.
이 튜토리얼의 운영 환경: Windows 7 시스템, Dell G3 컴퓨터.
UTF-8로 인코딩된 중국어 문자는 몇 바이트를 차지합니까?
UTF-8 인코딩에서 한자는 3바이트이고, 중국어 구두점은 3바이트를 차지합니다.
영문 문자 1개가 1바이트이고, 영문 구두점이 1바이트를 차지합니다.
유니코드 인코딩: 영어 단어 하나는 2바이트이고, 한자(중국어 번체 포함) 하나는 2바이트입니다. 중국어 구두점은 2바이트, 영어 구두점은 2바이트를 차지합니다.
UTF-8은 각 문자를 인코딩하는 데 1~4바이트를 사용합니다.
1. 하나의 US-ASCIl 문자는 인코딩하는 데 1바이트만 필요합니다(유니코드 범위는 U+0000~U+007F).
2. 라틴어, 그리스어, 키릴 문자, 아르메니아어, 히브리어, 아랍어, 시리아어 및 발음 구별 부호가 있는 기타 문자에는 2바이트 인코딩이 필요합니다(유니코드 범위는 U+0080~U +07FF).
3. 기타 언어(중국어, 일본어, 한국어 문자, 동남아 문자, 중동 문자 등)의 문자에는 가장 일반적으로 사용되는 문자가 포함되며 3바이트 인코딩을 사용합니다.
4. 거의 사용되지 않는 기타 언어 문자는 4바이트 인코딩을 사용합니다.
추가 지식:
UTF-8(8비트, 범용 문자 집합/유니코드 변환 형식)은 유니코드용 가변 길이 문자 인코딩입니다. 유니코드 표준의 모든 문자를 나타내는 데 사용할 수 있으며 인코딩의 첫 번째 바이트는 여전히 ASCII와 호환되므로 ASCII 문자를 처리하는 원래 소프트웨어는 약간의 수정 없이 또는 약간의 수정만으로 계속 사용할 수 있습니다. 따라서 점차 이메일, 웹 페이지 및 텍스트를 저장하거나 전송하는 기타 응용 프로그램에서 선호되는 인코딩이 되었습니다.
문자 집합:
UTF-8 인코딩 규칙: 바이트가 1개인 경우 값은 0x00-0x7F입니다. 나머지 바이트는 길이에 따라 다음과 같이 확장됩니다.
UTF-8은 UTF8-1 / UTF8-2 / UTF8-3 / UTF8-4의 4가지 인코딩 방법으로 구현됩니다. 그중:
UTF8-1 |
0x00-0x7F |
UTF8-2 |
0 xC 2-0xDF 0x80-0xBF
|
UTF8-3 |
0xE0 0xA0-0xBF 0x80-0xBF
0xE1-0xEC 0x80-0xBF 0x80-0xBF
0 xED 0x80-0x9F 0x80-0xBF
0xEE-0xEF 0x80-0xBF 0x80-0xBF
|
UTF8-4 |
0xF0 0x90-0xBF 0x80-0xBF 0x80-0xBF
0xF1-0xF3 0x80-0xBF 0x80-0xBF 0x80 - 0xBF
0xF4 0x80-0x8F 0x80-0xBF 0x80-0xBF
|
각 인코딩에는 여러 인코딩 범위가 있을 수 있습니다. 각 인코딩 범위 사이에는 공백이 각 바이트 구분 기호로 사용됩니다. 예를 들어, UTF8-3의 첫 번째 인코딩은 첫 번째 바이트에 대해 0xE0 값, 두 번째 바이트에 대해 0xA0-0xBF 범위, 세 번째 바이트에 대해 0x80-0xBF 범위를 가져야 합니다.
관련 지식이 더 궁금하시다면 FAQ 칼럼을 방문해 주세요!
위 내용은 utf8로 인코딩된 중국어 문자는 몇 바이트를 차지합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!