유니코드는 언어 간 및 플랫폼 간 텍스트 변환 및 처리 요구 사항을 달성하기 위해 각 언어의 각 문자에 대해 통합되고 고유한 이진 인코딩을 설정하는 문자 인코딩 체계입니다.
유니코드 의미
유니코드는 플랫폼, 프로그램, 언어에 상관없이 각 문자에 고유한 번호를 제공합니다. 1994년에 공식적으로 발표되었으며 문자 집합, 인코딩 체계 등을 포함하는 컴퓨터 분야의 산업 표준입니다. 유니코드는 기존 문자 인코딩 체계의 한계를 해결하기 위해 만들어졌습니다. 이는 언어 간 및 플랫폼 간 텍스트 변환 및 처리 요구 사항을 달성하기 위해 각 언어의 각 문자에 대해 통합되고 고유한 이진 인코딩을 설정합니다.
유니코드 인코딩의 발전
컴퓨터는 8비트로 설계되었습니다. 바이트이므로 1바이트는 최대 256자를 나타낼 수 있습니다. 초기에는 영어를 사용하는 서구 국가에서는 영문 대문자와 소문자, 수학 및 일부 기호를 바이트에 저장할 수 있었기 때문에 코드 테이블( ASCII). 이후 컴퓨터는 다른 나라로 퍼져나갔고, 많은 나라에서는 중국어, 일본어, 한국어 등 자국의 언어를 사용하게 됐습니다. 언어는 복잡했고, 이 문제를 해결하기 위해 각 나라는 중국만의 코드표를 만들었습니다. GB2312는 1980년에 제정되었습니다. 한자 인코딩 문자 집합에는 영어보다 한자가 많고, 1바이트로는 당연히 부족하므로 2바이트를 인코딩에 사용합니다. 그러나 서로 다른 국가에서 정의한 문자 인코딩을 사용할 수 있지만 서로 다른 국가 간에 호환되지 않는 경우가 많습니다. 컴퓨터가 다중 언어 환경(중국어 또는 기타 언어 사용)을 처리하려는 경우 다중 언어 환경을 동시에 지원하지 못할 수도 있습니다. 모든 텍스트의 인코딩을 통일하기 위해 문자가 깨지지 않도록 모든 언어를 하나의 인코딩 세트로 통합하기 위해 유니코드가 만들어졌습니다.
유니코드 인코딩은
유니코드 문자를 나타낼 때 일반적으로 U+를 사용하고 그 다음에는 16진수 그룹 다음에 오는 문자는 U+0000부터 U+FFFF까지이며 총 60,000자 이상을 지원합니다. BMP
이외의 문자는 5자리 숫자를 사용하거나 다음으로 표시해야 합니다. 16진수로 6자리입니다.
현재 유니코드 문자는 0x0000부터 0x10FFFF까지 17개의 그룹으로 나뉘며, 각 그룹을 평면(Plane)이라고 하며, 각 평면에는 65536개의 코드 포인트, 총 1114112개의 코드 포인트가 있습니다.
유니코드는 테이블과 같습니다. 각 문자는 코드 포인트라고 하는 숫자에 해당합니다. 이 숫자는 일반적으로 🎜🎜#
을 통해 사용됩니다.
으로 번역할 수 있습니다.
유니코드 인코딩 |
UTF-8 바이트 스트림#🎜 🎜##🎜 🎜# |
0~127자리 |
0xxxxxxx(7자리) | # 🎜🎜# #🎜 🎜#128-2047비트 | |
2048-65535bit | 0x000800-0x00FFFF1110xxxx 10xxxxxx 10xxxxxx(16비트)#🎜 🎜##🎜 🎜##🎜🎜 ## 🎜🎜# | 65536-1114111비트 |
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx( 21비트) | #🎜🎜 # |
위 내용은 유니코드가 뭐야?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!