mysql のさまざまなエンコード形式の違いは何ですか-mysql チュートリアル-php.cn

mysql のさまざまなエンコード形式の違いは何ですか

(*-*)浩

リリース： 2020-09-16 09:52:12

オリジナル

4659 人が閲覧しました

mysql のさまざまなエンコード形式の違いは次のとおりです: ASCII エンコードは、エンコードされた文字セット内の文字のシリアル番号をコンピュータ内の文字として直接保存します; ASCII エンコードの拡張である Latin1 エンコード; UTF - 8 エンコーディングは、Unicode の可変長文字エンコーディングです。

mysql のさまざまなエンコード形式の違いは何ですか

この記事では、mysql のいくつかのエンコーディングについて説明および紹介しますが、これがすべての文字セットエンコーディングではありません。

推奨コース: mysql ビデオチュートリアル

1. 文字セットの概要

Character (文字) はさまざまです。テキストと各国の文字、句読点、図記号、数字などを含む記号の総称。

文字セットは複数の文字の集合です。文字セットには多くの種類があります。各文字セットには異なる数の文字が含まれています。一般的な文字セット名: ASCII 文字セット、GB2312 文字セット、BIG5 文字セット、 GB18030文字セット、Unicode文字セットなどコンピューターがさまざまな文字セットのテキストを正確に処理するには、コンピューターがさまざまなテキストを認識して保存できるように文字エンコーディングが必要です。

文字エンコード（文字エンコーディング）とは、文字セット内の特定の文字を、指定された文字セット内の文字にエンコードして、テキストをコンピュータに保存したり、通信ネットワークを通じて送信したりできるようにすることです。一般的な例には、ラテン文字を ASCII にエンコードすることが含まれます。これは、文字、数字、その他の記号に番号を付け、7 ビットバイナリシステムで表します。
文字順序 (照合) は、同じ文字セット内の文字間の比較規則を指します。文字の順序を決定した後でのみ、文字セット内の同等の文字と文字間のサイズ関係を定義できます。 1 つの文字に複数の文字シーケンスを含めることができます。 MySQL の文字順序の命名規則は次のとおりです。文字順序に対応する文字セット名で始まり、国名で中央 (または一般で中央)、ci、cs、または bin で終わります。 ci で終わる文字シーケンスは大文字と小文字を区別しないことを示し、cs で終わる文字シーケンスは大文字と小文字を区別することを示し、bin で終わる文字シーケンスはバイナリコード値に基づく比較を示します。

2. ASCII エンコーディング

ASCII は、コード化文字セットと文字エンコーディングの両方です。ASCII は、コード化文字セット内の文字のシリアル番号を直接格納します。コンピュータ内の文字、数値。
例: ASCII では、A 文字はテーブル内で 65 位に位置し、シリアル番号は 65 で、エンコード後の A の値は 0100 0001 になります。これは、65 を 10 進数にバイナリ変換した結果です。

3. Latin1 文字セット

Latin1 文字セットは、ASCII 文字セットに基づいて拡張されており、文字を表すために依然として 1 バイトを使用しますが、上位ビットが有効になっています. 拡張文字セットの表現範囲を指定します。

4. UTF-8 エンコーディング

UTF-8 (8 ビット Unicode Transformation Format) は、ユニバーサルコードとも呼ばれる Unicode の可変長文字エンコーディングです。。 1992年にケン・トンプソンによって作成されました。現在は RFC 3629 として標準化されています。 UTF-8 は、1 ～ 6 バイトを使用して Unicode 文字をエンコードします。
UTF-8 は可変長バイトエンコード方式です。ある文字の UTF-8 エンコードでは、1 バイトのみの場合はバイナリの最上位ビットは 0、複数バイトの場合は最上位ビットから 1 バイト目となり、連続するバイナリビットの数は 1 となります。エンコードする桁数を決定し、残りのバイトは 10 から始まります。 UTF-8は6バイトまで使用可能です。表に示すように:
1 バイト 0xxxxxxx
2 バイト 110xxxxx 10xxxxxx
3 バイト 1110xxxx 10xxxxxx 10xxxxxx
4 バイト 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5 バイト 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6 Bytes 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
したがって、UTF-8 で文字エンコーディングを表すために実際に使用できる桁数は、上の表で x で表されるビットである 31 桁までです。制御ビット (各バイトの先頭の 10 など) を除き、x で表されるビットは UNICODE エンコードに 1 対 1 で対応し、ビット順序は同じです。
実際に UNICODE を UTF-8 エンコードに変換する場合は、最初に上位 0 を削除し、その後、残りのエンコード桁に基づいて必要な UTF-8 エンコード桁の最小数を決定する必要があります。したがって、基本 ASCII 文字セット (ASCII と互換性のある UNICODE) の文字は、UTF-8 エンコードの 1 バイト (7 バイナリビット) だけで表現できます。

以上がmysql のさまざまなエンコード形式の違いは何ですかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。