実際、PHP開発における中国語コーディングは想像されているほど複雑ではありませんが、問題を特定して解決するための固定ルールはなく、さまざまな動作環境も異なります。その背後にある原理は同じです。
文字セットの知識を理解することは、文字の問題を解決するための基礎です。
PHP プログラミングにおける中国語エンコーディングの問題は、実際には非常に単純です。この問題の原因は、米国の拡張 ASCII コードなど、コンピューター情報交換用の文字エンコーディング セットを規定しているからです。 、中国のGB2312-80、日本のJISなど。この国・地域における情報処理の基盤として、文字コードセットはエンコードを統一する上で重要な役割を果たしています。文字エンコード セットは、長さに応じて、SBCS (シングルバイト文字セット) と DBCS (ダブルバイト文字セット) の 2 つのカテゴリに分類されます。初期のソフトウェア (特にオペレーティング システム) では、ローカル文字情報のコンピューター処理を解決するために、差別化を図るために、LANG やコードページなどの概念が導入されました。ただし、さまざまなローカル文字セットのコード範囲が重複しているため、相互に情報を交換するのは困難であり、ソフトウェアの各ローカライズ バージョンを個別に保守するコストは高くなります。そのため、ローカライズ作業の共通点を抽出して一貫して処理し、特殊なローカライズ処理内容を最小限にする必要があります。これは国際化 (118N) とも呼ばれます。各種言語情報はさらにロケール情報として標準化されます。処理される基礎となる文字セットは Unicode になり、これにはほぼすべてのグリフが含まれます。
現在、国際化機能を備えたソフトウェアのコア文字処理のほとんどは Unicode に基づいており、ソフトウェアの実行時に、対応するローカル文字エンコーディング設定がその時点のロケール/Lang/コードページ設定に基づいて決定され、ローカル文字が使用されます。それに応じて処理されます。処理中に、Unicode とローカル文字セットの間、または Unicode を中間として使用する 2 つの異なるローカル文字セットの間で変換する必要があります。この方法はネットワーク環境でもさらに拡張され、ネットワークの両端にある文字情報も文字セット設定に従って許容可能なコンテンツに変換する必要があります。
データベースのキャラクタ セット エンコーディングの問題
一般的なリレーショナル データベース システムはすべて、データベース キャラクタ セット エンコーディングをサポートしています。つまり、データベースの作成時に独自のキャラクタ セット設定を指定でき、データベース データは指定されたエンコーディングで保存されます。アプリケーションがデータにアクセスするとき、開始時と終了時に文字セット エンコード変換が行われます。中国語データの場合、データベースの文字エンコード設定によりデータの整合性が保証される必要があります。 GB2312、GBK、UTF-8 などはすべてオプションのデータベース文字セット エンコーディングです。もちろん ISO8859-1 (8 ビット) を選択することもできますが、それに応じて適応する必要があります
プログラムでデータを書き込む前に、まず 16 ビットの中国語文字または Unicode を 2 つの 8 ビット文字に分割し、データを読み取った後、2 つのバイトを結合して SBCS 文字を識別する必要もあります。データベース文字セットのエンコーディングとして ISO8859-1 を使用することは推奨されません。これでは、データベース自体の文字セット エンコーディング サポートが最大限に活用されないだけでなく、プログラミングの複雑さも増大します。プログラミングを行う場合、まずデータベース管理システムが提供する管理機能を使用して、中国語データが正しいかどうかを確認できます。
データベースにクエリを実行する前に、PHP プログラムはまず mysql_query("SET NAMES xxxx"); ここで、xxxx は Web ページのエンコーディング (charset=xxxx) であり、Web ページで charset=utf8 の場合は xxxx=utf8 です。 Web ページで charset=gb2312 、次に xxxx=gb2312 とすると、ほとんどすべての WEB プログラムにはデータベースに接続するための共通コードがあり、このファイルに mysql_query("SET NAMES xxxx") を追加するだけです。
SET NAMES クライアントから送信された SQL ステートメントで使用されている文字セットを示します。したがって、SET NAMES 'utf-8' ステートメントは、サーバーに「このクライアントからの将来のメッセージでは文字セット utf-8 が使用される」ことを伝えます。また、サーバーがクライアントに送り返す結果の文字セットも指定します (たとえば、SELECT ステートメントを使用する場合、列の値にどの文字セットが使用されるかを示します)。
問題を特定するときに一般的に使用される手法
中国語のエンコードの問題を特定するには、通常、最も愚かで最も効果的な方法が使用されます。それは、疑わしいと思われるプログラムによる処理後の文字列の内部コードを出力することです。文字列の内部コードを出力すると、いつ中国語の文字が Unicode に変換されるか、いつ Unicode が中国語の内部コードに再変換されるか、いつ 1 つの中国語の文字が 2 つの Unicode 文字になるか、いつ中国語の文字列が次の文字列に変換されるかを知ることができます。疑問符、いつ中国語の文字列の上位ビットが切り取られたのですか...
適切なサンプル文字列を使用すると、質問の種類を区別するのにも役立ちます。例: 「aaah aa?@aa」、および GB と GBK の両方の特徴文字を含むその他の中国語と英語の文字列。一般に、英語の文字は、どのように変換または処理しても歪みません (歪みが発生した場合は、連続する英語文字の長さを長くしてみてください)。
さまざまなアプリケーションの文字化けしたコードの問題を解決します
1) タグを使用して、ページのエンコーディングを設定します。このタグの機能は、ページのエンコーディングを宣言することです。クライアントのブラウザが表示に使用します。このページでは、xxx には GB2312、GBK、UTF-8 (UTF8 である MySQL とは異なります) などを使用できます。したがって、ほとんどのページはこのメソッドを使用して、このページを表示するときに使用するエンコーディングをブラウザーに指示し、エンコーディング エラーや文字化けを回避できます。しかし、場合によっては、この文がどの xxx であっても機能しないことがわかります。これについては後で説明します。
2) header("content-type:text/html; charset=xxx");
関数 header() は、括弧内の情報を http ヘッダーに送信します。括弧内の内容が記事に記載されているとおりであれば、最初のラベルと比較してみると、文字が似ていることがわかります。ただし、違いは、この機能がある場合、ブラウザは常に要求された xxx エンコーディングを使用し、決して従わないことです。そのため、この機能は非常に便利です。これはなぜでしょうか? 次に、http ヘッダーと HTML 情報の違いについて話さなければなりません:
前者は確実に動作するのに、後者は動作しない場合があるのはなぜでしょうか、という疑問も残ります。これが、次に Apache について話したい理由です。
3) AddDefaultCharset
Apache ルート ディレクトリの conf フォルダーには、Apache 設定ドキュメント全体 httpd.conf があります。
Webページにheader("content-type:text/html; charset=xxx")がある場合、デフォルトの文字セットが設定した文字セットに変更されるので、この機能は常に役に立ちます。 AddDefaultCharset xxx の前に「#」を追加し、この文をコメントアウトし、ページにヘッダー (「content-type...」) が含まれていない場合は、メタ タグが有効になります。
上記の優先順位は以下のとおりです:
.. header("content-type:text/html; charset=xxx")
.. AddDefaultCharset xxx
..
4) php.ini の Default_charset 設定: php.ini の
default_charset = "gb2312"
は、php のデフォルトの言語文字セットを定義します。通常、この行をコメント アウトし、必須要件とするのではなく、Web ページ ヘッダーの文字セットに基づいてブラウザが言語を自動的に選択するようにすることをお勧めします。これにより、複数の言語の Web サービスを同じサーバー上で提供できます。 。 PHP エンコードに関する質問については、次の記事も参照してください:
PHP文字列エンコーディングの問題の分析
コンテンツ内のエンコーディングを自動的に検出して変換する機能
GB2312とUTF8エンコーディングを変換するためのPHPコード
http://www.cnblogs.com/ GarfieldTom /archive/2012/11/02/2750776.html
PHP Big5 Utf-8
GB2312エンコード相互変換ソリューション
phpエンコード、コード化け問題
結論