PHP_PHP チュートリアルでの中国語コーディングについて心配しないための 4 つのヒント
PHP の中国語エンコーディングについてもう心配しないための 4 つのヒント
PHP プログラミングにおける中国語エンコーディングの問題は、実際には、それぞれの国 (または地域) がコンピューター情報を規制している理由は非常に単純です。アメリカの拡張ASCIIコード、中国のGB2312-80、日本のJISなど、交換に使用される文字エンコーディングセット。この国・地域における情報処理の基盤として、文字コードセットはエンコードを統一する上で重要な役割を果たしています。文字エンコード セットは、長さに応じて、SBCS (シングルバイト文字セット) と DBCS (ダブルバイト文字セット) の 2 つのカテゴリに分類されます。初期のソフトウェア (特にオペレーティング システム) では、ローカル文字情報のコンピューター処理を解決するために、差別化を図るために、LANG やコードページなどの概念が導入されました。ただし、さまざまなローカル文字セットのコード範囲が重複しているため、相互に情報を交換するのは困難であり、ソフトウェアの各ローカライズ バージョンを個別に保守するコストは高くなります。そのため、ローカライズ作業の共通点を抽出して一貫して処理し、特殊なローカライズ処理内容を最小限に抑える必要があります。これは国際化 (118N) とも呼ばれます。各種言語情報はさらにロケール情報として標準化されます。処理される基礎となる文字セットは Unicode になり、これにはほぼすべてのグリフが含まれます。
現在、国際化機能を備えたソフトウェアの中核となる文字処理のほとんどはUnicodeに基づいており、ソフトウェア実行時には、その時のロケール/Lang/コードページの設定に基づいて対応するローカル文字エンコード設定が決定され、ローカル文字が設定されます。それに応じて処理されます。処理中に、Unicode とローカル文字セットの間、または Unicode を中間として使用する 2 つの異なるローカル文字セットの間で変換する必要があります。この方法はネットワーク環境でもさらに拡張され、ネットワークの両端にある文字情報も文字セット設定に従って許容可能なコンテンツに変換する必要があります。
データベースの文字セットエンコーディングの問題
一般的なリレーショナル データベース システムはすべてデータベース キャラクタ セット エンコーディングをサポートしています。つまり、データベースの作成時に独自のキャラクタ セット設定を指定でき、データベース データは指定されたエンコーディングで保存されます。アプリケーションがデータにアクセスするとき、入口点と出口点の両方で文字セット エンコード変換が行われます。中国語データの場合、データベースの文字エンコード設定によりデータの整合性が保証される必要があります。 GB2312、GBK、UTF-8 などはすべてオプションのデータベース文字セット エンコーディングです。もちろん ISO8859-1 (8 ビット) を選択することもできますが、アプリケーションが書き込む前に 16 ビットの中国語文字または Unicode を分割する必要があります。データを 2 つの 8 ビット文字に分割します。データを読み取った後、2 つのバイトを結合して SBCS 文字を識別する必要があります。そのため、データベース キャラクタ セット エンコーディングとして ISO8859-1 を使用することはお勧めしません。これでは、データベース自体の文字セット エンコーディング サポートが最大限に活用されないだけでなく、プログラミングの複雑さも増大します。プログラミングを行う場合、まずデータベース管理システムが提供する管理機能を使用して、中国語データが正しいかどうかを確認できます。
PHP プログラムはデータベースにクエリを実行する前に、まず mysql_query("SET NAMES xxxx"); を実行します。ここで、xxxx は Web ページのエンコーディングです (charset=xxxx)。Web ページに charset=utf8 がある場合、xxxx=utf8、 Web ページに charset=gb2312 、 xxxx=gb2312 がある場合、ほとんどすべての WEB プログラムにはデータベースに接続するための共通コードがあり、このファイルに mysql_query("SET NAMES xxxx") を追加するだけです。
SET NAMES は、クライアントから送信された SQL ステートメントでどのような文字セットが使用されているかを示します。したがって、SET NAMES 'utf-8' ステートメントは、サーバーに「このクライアントからの今後の情報では文字セット utf-8 が使用される」ことを伝えます。また、サーバーがクライアントに送り返す結果の文字セットも指定します (たとえば、SELECT ステートメントを使用する場合、列の値にどの文字セットが使用されるかを示します)。
問題を特定するときによく使用されるテクニック
中国語のエンコーディングの問題を見つける最も愚かで効果的な方法は、疑わしいと思われるプログラムによる処理後の文字列の内部コードを出力することです。文字列の内部コードを出力すると、いつ中国語の文字が Unicode に変換されるか、いつ Unicode が中国語の内部コードに再変換されるか、いつ 1 つの中国語の文字が 2 つの Unicode 文字になるか、いつ中国語の文字列が次の文字列に変換されるかを知ることができます。疑問符、いつ中国語の文字列の上位ビットが切り取られたのですか...
適切なサンプル文字列を使用すると、問題の種類を区別するのにも役立ちます。例: 「aaah aa?@aa」、および GB と GBK の両方の特徴文字を含むその他の中国語と英語の文字列。一般に、英語の文字は、どのように変換または処理しても歪みません (歪みが発生した場合は、連続する英語文字の長さを長くしてみてください)。
各種アプリの文字化け問題を解決
1) タグを使用してページエンコーディングを設定します
このタグの目的は、クライアントのブラウザがページを表示するために使用する文字セットエンコーディングを宣言することです。xxx には、GB2312、GBK、UTF-8 (MySQL とは異なります。UTF8) などを指定できます。したがって、ほとんどのページはこのメソッドを使用して、このページを表示するときに使用するエンコーディングをブラウザーに指示し、エンコーディング エラーや文字化けを回避できます。しかし、場合によっては、この文がどの xxx であっても機能しないことがわかります。これについては後で説明します。
これは HTML 情報に属し、サーバーが HTML 情報をブラウザーに渡したことを示すだけの単なるステートメントであることに注意してください。
2) header("content-type:text/html; charset=xxx");
この関数 header() の機能は、括弧内の情報を http ヘッダーに送信することです。括弧内の内容が記事に記載されているとおりであれば、最初のラベルと比較すると、文字が似ていることがわかります。ただし、違いは、この機能がある場合、ブラウザは常に要求された xxx エンコーディングを使用し、決して従わないことです。そのため、この機能は非常に便利です。これはなぜでしょうか? 次に、http ヘッダーと HTML 情報の違いについて話さなければなりません:
httpヘッダーは、httpプロトコルを使用してブラウザにHTML情報を送信する前にサーバーによって送信される文字列です。タグはHTML情報に属しているため、header()で送信された内容が最初にブラウザに届きます。人気のポイントは、header()の優先度が高いことです(これを言えるかわかりませんが)。 PHP ページに header("content-type:text/html; charset=xxx") と header("content-type:text/html; charset=xxx") の両方がある場合、ブラウザは前者の http ヘッダーのみを認識し、メタではない。もちろん、この関数は PHP ページ内でのみ使用できます。
なぜ前者は確実に動作するのに、後者は時々動作しないのかという疑問も残ります。これが、次に Apache について話したい理由です。
3) AddDefaultCharset
Apache ルート ディレクトリの conf フォルダには、Apache 設定ドキュメント全体 httpd.conf があります。
テキスト エディタを使用して httpd.conf を開きます。行 708 (バージョンが異なる場合があります) には、AddDefaultCharset xxx (xxx はエンコード名) が含まれています。このコード行の意味: サーバー全体の Web ページ ファイルの http ヘッダーの文字セットをデフォルトの xxx 文字セットに設定します。この行があることは、各ファイルにヘッダー行 ("content-type: text/html; charset=xxx") を追加することと同じです。これで、ブラウザが utf-8 に設定されているにもかかわらず常に gb2312 を使用する理由が理解できました。
Webページにheader("content-type:text/html; charset=xxx")がある場合、デフォルトの文字セットが設定した文字セットに変更されるので、この機能は常に役に立ちます。 AddDefaultCharset xxx の前に「#」を追加し、この文をコメントアウトし、ページに header("content-type...") が含まれていない場合は、メタ タグが有効になります。
上記は優先順位の順にリストされています:
.. header("content-type:text/html; charset=xxx")
..AddDefaultCharset xxx
..
Web プログラマーの場合は、どのサーバーでも正しく表示できるように、各ページにヘッダー ("content-type: text/html; charset=xxx") を追加することをお勧めします。セックスも比較的強いです。
4) PHP.iniのdefault_charset設定:
php.iniのdefault_charset = "gb2312"は、PHPのデフォルトの言語文字セットを定義します。通常、この行をコメント アウトし、必須要件とするのではなく、Web ページ ヘッダーの文字セットに基づいてブラウザが言語を自動的に選択するようにすることをお勧めします。これにより、複数の言語の Web サービスを同じサーバー上で提供できます。 。
結論
実際、PHP開発における中国語のコーディングは想像されているほど複雑ではありません。問題を特定して解決するための固定ルールはなく、さまざまな動作環境も異なりますが、その背後にある原理は同じです。文字セットの知識を理解することは、文字の問題を解決するための基礎です。しかし、中国語の文字セットの変更により、PHP プログラミングだけでなく、中国語の情報処理の問題もしばらくは残るでしょう。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









PHP 8.4 では、いくつかの新機能、セキュリティの改善、パフォーマンスの改善が行われ、かなりの量の機能の非推奨と削除が行われています。 このガイドでは、Ubuntu、Debian、またはその派生版に PHP 8.4 をインストールする方法、または PHP 8.4 にアップグレードする方法について説明します。

Visual Studio Code (VS Code とも呼ばれる) は、すべての主要なオペレーティング システムで利用できる無料のソース コード エディター (統合開発環境 (IDE)) です。 多くのプログラミング言語の拡張機能の大規模なコレクションを備えた VS Code は、

このチュートリアルでは、PHPを使用してXMLドキュメントを効率的に処理する方法を示しています。 XML(拡張可能なマークアップ言語)は、人間の読みやすさとマシン解析の両方に合わせて設計された多用途のテキストベースのマークアップ言語です。一般的にデータストレージに使用されます

あなたが経験豊富な PHP 開発者であれば、すでにそこにいて、すでにそれを行っていると感じているかもしれません。あなたは、運用を達成するために、かなりの数のアプリケーションを開発し、数百万行のコードをデバッグし、大量のスクリプトを微調整してきました。

JWTは、JSONに基づくオープン標準であり、主にアイデンティティ認証と情報交換のために、当事者間で情報を安全に送信するために使用されます。 1。JWTは、ヘッダー、ペイロード、署名の3つの部分で構成されています。 2。JWTの実用的な原則には、JWTの生成、JWTの検証、ペイロードの解析という3つのステップが含まれます。 3. PHPでの認証にJWTを使用する場合、JWTを生成および検証でき、ユーザーの役割と許可情報を高度な使用に含めることができます。 4.一般的なエラーには、署名検証障害、トークンの有効期限、およびペイロードが大きくなります。デバッグスキルには、デバッグツールの使用とロギングが含まれます。 5.パフォーマンスの最適化とベストプラクティスには、適切な署名アルゴリズムの使用、有効期間を合理的に設定することが含まれます。

文字列は、文字、数字、シンボルを含む一連の文字です。このチュートリアルでは、さまざまな方法を使用してPHPの特定の文字列内の母音の数を計算する方法を学びます。英語の母音は、a、e、i、o、u、そしてそれらは大文字または小文字である可能性があります。 母音とは何ですか? 母音は、特定の発音を表すアルファベットのある文字です。大文字と小文字など、英語には5つの母音があります。 a、e、i、o、u 例1 入力:string = "tutorialspoint" 出力:6 説明する 文字列「TutorialSpoint」の母音は、u、o、i、a、o、iです。合計で6元があります

静的結合(静的::) PHPで後期静的結合(LSB)を実装し、クラスを定義するのではなく、静的コンテキストで呼び出しクラスを参照できるようにします。 1)解析プロセスは実行時に実行されます。2)継承関係のコールクラスを検索します。3)パフォーマンスオーバーヘッドをもたらす可能性があります。

PHPの魔法の方法は何ですか? PHPの魔法の方法には次のものが含まれます。1。\ _ \ _コンストラクト、オブジェクトの初期化に使用されます。 2。\ _ \ _リソースのクリーンアップに使用される破壊。 3。\ _ \ _呼び出し、存在しないメソッド呼び出しを処理します。 4。\ _ \ _ get、dynamic属性アクセスを実装します。 5。\ _ \ _セット、動的属性設定を実装します。これらの方法は、特定の状況で自動的に呼び出され、コードの柔軟性と効率を向上させます。
