유니코드 문자 집합은 2바이트를 사용하여 하나의 문자를 나타냅니다. 유니코드는 언어 간 및 플랫폼 간 텍스트 변환 및 처리에 대한 요구 사항을 충족하기 위해 각 언어의 각 문자에 대해 통합되고 고유한 바이너리 인코딩을 설정합니다. 이는 2바이트 코딩으로 전 세계의 모든 텍스트를 통합할 수 있습니다.
이 튜토리얼의 운영 환경: Windows 7 시스템, Dell G3 컴퓨터.
유니코드 문자 집합은 2바이트를 사용하여 문자를 나타냅니다.
유니코드(Unicode, Universal Code, Unicode)는 컴퓨터에서 사용되는 문자 인코딩입니다. 언어 간 및 플랫폼 간 텍스트 변환 및 처리에 대한 요구 사항을 충족하기 위해 각 언어의 각 문자에 대해 통합되고 고유한 이진 인코딩을 설정합니다.
다양한 텍스트 인코딩을 다양한 곳의 방언으로 설명할 수 있다면 유니코드는 세계 각국이 공동으로 개발한 언어입니다.
이 언어 환경에서는 더 이상 언어 인코딩 충돌이 발생하지 않습니다. 모든 언어의 콘텐츠를 동일한 화면에 표시할 수 있다는 것이 유니코드의 가장 큰 장점입니다. 이는 세상의 모든 텍스트가 2바이트를 사용하여 균일하게 인코딩된다는 의미입니다. 그런 식으로 통일된 인코딩을 사용하면 전 세계 모든 언어의 대부분의 텍스트를 수용하는 데 2바이트면 충분합니다.
유니코드의 학명은 "Universal Multiple-Octet Coded Character Set", 즉 UCS라고 합니다.
초기 유니코드 표준은 UCS-2와 UCS-4라고 불렸습니다. UCS-2는 2바이트로 인코딩되고, UCS-4는 4바이트로 인코딩됩니다. 현재 사용되고 있는 것은 2바이트 인코딩인 UCS-2이며, UCS-4는 향후 2바이트가 부족해지는 것을 방지하기 위해 개발됐다.
UCS-4는 최고 비트가 0인 최고 바이트를 기준으로 2^7=128개의 그룹으로 나뉩니다. 각 그룹은 다음으로 높은 바이트에 따라 256개의 평면으로 나뉩니다. 각 플레인은 세 번째 바이트를 기준으로 256개의 행(row)으로 나뉘며, 각 행에는 256개의 코드 포인트(셀)가 있습니다. 그룹 0의 평면 0을 BMP(Basic Multilingual Plane)라고 합니다. UCS-2는 UCS-4의 BMP에서 처음 2개의 0바이트를 제거하여 얻습니다.
더 많은 관련 지식을 알고 싶다면 FAQ 칼럼을 방문해주세요!
위 내용은 유니코드 문자 세트는 여러 바이트를 사용하여 문자를 나타냅니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!