HTML エンコード変換: ASCII コード、Unicode、および UTF-8
HTML は、Web ページの作成に使用されるマークアップ言語です。そのテキストには、視覚的な文字だけでなく、テキスト形式を制御するいくつかのマークアップ シンボルも含まれています。構造もスタイルも。これらのマークアップ シンボルは Web ブラウザで解析およびレンダリングされますが、通常の送信と表示を保証するには、バックグラウンドでこれらの文字を正しくエンコードおよびデコードする必要があります。この記事では、HTML で一般的に使用される 3 つのエンコード方式である ASCII、Unicode、UTF-8 を紹介し、それらを相互に変換する方法について説明します。
ASCII (American Standard Code for Information Interchange、American Standard Code for Information Interchange) コードは、最も初期の文字エンコード方式の 1 つで、一般的に 128 個の文字を組み合わせたものです。文字と記号は 7 ビットのバイナリ エンコーディングにマッピングされます。以下の図に示すように、最初の列は ASCII エンコード文字、2 列目は対応する 10 進数値、3 列目はバイナリ コードです。
#ASCII エンコードは、1 バイト (8 ビット) を使用して文字を表すシングルバイト エンコードです。 ASCII 文字セットは 128 文字のみと比較的小さく、複数の言語をサポートしていません。
Unicode は、さまざまな言語の文字と記号を含むグローバル文字セットです。そのため、インターネット上で通信する人々は特定の言語に限定されなくなります。 、ラテンアルファベット、中国語、日本語、ヘブライ語を含むすべての文字を使用できます。 Unicode エンコードでは、UTF-8、UTF-16、UTF-32 などのさまざまな保存方法を使用できます。
Unicode 文字セットには 100,000 を超える文字と記号が含まれているため、文字を表すには複数のバイトが必要です。このうち、UTF-8 エンコーディングは可変長エンコーディング方式であり、文字を表すのに 1 ~ 4 バイトを使用するため、Unicode 文字セット内のすべての文字をさまざまな ASCII コード、Latin-1、その他のエンコーディング方式で表現できます。 。 キャラクター。 UTF-8 エンコードの最初のバイトは、文字を表すために使用されるバイト数を示すために使用され、後続のバイトは 10 から始まります。
次の表は、UTF-8 エンコーディングでの中国語の文字「you」と英語の文字「A」の比較表です:
Character | UTF-8 エンコード |
---|---|
11100110 10001101 10011000 | |
01000001 |
# 将Unicode编码的字符串转换为UTF-8编码 utf8_str = "你好,世界".encode('utf-8') print(utf8_str) # 将UTF-8编码的字符串转换为Unicode编码 unicode_str = utf8_str.decode('utf-8') print(unicode_str)
b'\xe4\xbd\xa0\xe5\xa5\xbd\xef\xbc\x8c\xe4\xb8\x96\xe7\x95\x8c' 你好,世界
以上がHTMLでエンコード変換を行う方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。