Unicode は、言語間およびプラットフォーム間のテキスト変換と処理要件を達成するために、各言語の各文字に統一された一意のバイナリ エンコーディングを設定する文字エンコーディング スキームです
#Unicode の意味
Unicode は、プラットフォーム、プログラム、言語に関係なく、各文字に一意の番号を提供します。 1994 年に正式に発表され、文字セットやエンコーディング スキームなどを含むコンピュータ分野の業界標準です。 Unicode は、従来の文字エンコーディング スキームの制限を解決するために作成され、言語間およびプラットフォーム間のテキスト変換と処理の要件を達成するために、各言語の各文字に統一された一意のバイナリ エンコーディングを設定します。Unicode エンコーディングの開発
コンピュータを設計する場合、1 バイトとして 8 ビットが使用されるため、1 バイトで表現できます。初期の頃、英語を使用していた西欧諸国では、1 バイトに大文字と小文字の英字、数学、一部の記号を格納できたため、1 バイトをコード テーブル (ASCII) の作成に使用していました。その後、コンピューターが他の国にも普及し、多くの国が中国語、日本語、韓国語などの独自の言語を使用しました。この問題を解決するために、各国が独自のコード表を策定しました。 1980 年に GB2312 を策定 中国語の文字エンコード文字セットでは、英語よりもはるかに多くの漢字が存在するため、1 バイトでは明らかに不十分であるため、2 バイトがエンコードに使用されます。ただし、さまざまな国で定義されている文字エンコーディングを使用することはできますが、国間では互換性がないことがよくあります。コンピューターが複数の言語環境 (中国語または他の言語を使用) を処理したい場合、複数の言語環境を同時にサポートできない場合があります。すべてのテキストのエンコードを統一するために、文字化けが起こらないよう、すべての言語を 1 つのエンコードに統一する Unicode が作成されました。Unicode エンコード表現
Unicode 文字を表すときは、通常、U の後に一連の 16 進数が続きます。文字を表します。 U 0000 から U FFFF までのエンコードで、合計 60,000 を超える文字をサポートします。BMP 以外の文字は 5 桁または 6 桁の 16 進数を使用して表現する必要があります。 現在、Unicode 文字は 0x0000 から 0x10FFFF までの 17 のグループに分割されており、各グループは 65536 個のコード ポイントを持ち、合計 1114112 個あります。 Unicode はテーブルに似ており、各文字はコード ポイントと呼ばれる番号に対応します。この番号は通常は直接使用されません。異なるエンコード方式を使用するUTF-8、UTF-16、および UTF-32 は、数値をプログラム データに変換するためのエンコード スキームです。 UTFとは「UnicodeTransformation Format」の略で、
Unicode文字セット変換形式、つまりUnicodeで定義された数値をプログラムデータに変換する方法に翻訳できます。
UTF-8 バイト ストリーム |
0x000000-0x00007F | |
128-2047 桁 |
||
110xxxxx 10xxxxxx (11 桁) |
2048-65535 桁 | 0x000800-0x00FFFF |
#65536-1114111 ビット |
0x010000-0x10FFFF |
|
以上がユニコードとは何ですかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。