php が Unicode をサポートしていないというのはどういう意味ですか?-PHPの問題-php.cn

ホームページ

バックエンド開発

PHPの問題

php が Unicode をサポートしていないというのはどういう意味ですか?

藏色散人

Jul 27, 2021 am 09:35 AM

php unicode

php は Unicode をサポートしていません。これは、PHP 文字列が文字のエンコード情報を保存しないことを意味します。そのため、ネイティブ操作関数は、バイナリデータがテキストにどのように対応するかを認識せず、1 つの文字がテキストに対応すると仮定することしかできません。このように、処理中に英語などの ASCII コードの場合は十分ですが、中国語などのマルチバイト文字の場合はエラーが発生します。

php が Unicode をサポートしていないというのはどういう意味ですか?

この記事の動作環境: Windows7 システム、PHP7.1 バージョン、DELL G3 コンピューター

これはどういう意味ですか? phpはUnicodeをサポートしていないのでしょうか？ PHP は Unicode エンコーディングをサポートしていないと言われるのはなぜですか?

PHP は Unicode をサポートしていない、または PHP は最下位レベルで Unicode をサポートしていないという主張をよく見かけます。 PHP のエンコードが非常に面倒で、さまざまな文字列処理関数が非常に非標準であることは知っていますが、それでも中国語は表示できます。この情報を整理するのに時間を費やしました。

例から始めましょう:

PHP スクリプトは次のとおりです。ファイルのエンコーディングが UTF-8 であると仮定します:

//文件编码UTF-8
echo strlen("中文"); // 6
echo substr("中文",0,1) // 乱码
echo substr("中文",0,3) // 中

ログイン後にコピー

これは非常に奇妙です。上記では漢字1文字を3文字とみなしているようです。これは、PHP の文字列の保存から始まります。

これを次のように要約しました。

PHP の文字列はバイトの配列で構成されます。つまり、C言語のchar a[3] = "abc"と同様に、1文字が1バイトを占有します。

さらに、テキストを保存するためのエンコード情報がありません。つまり、PHP はこれらの文字列のバイナリデータがどのエンコードに対応する必要があるのかわかりません。

さらに一歩進んで、PHP はスクリプトファイルのエンコーディングに従って文字列のエンコーディングを決定します。例: $string = " Chinese"; 、スクリプトファイルが UTF-8 の場合、中国語 UTF-8 エンコード: E4B8ADE69687 が保存されます。

さらに、前述したように、PHP は文字列のエンコード情報を保存しません。したがって、中国語が E4B8ADE69687 として保存されたとしても、文字列ネイティブ関数から見ると、それは単なる 2 進数の文字列です。したがって、PHP ネイティブ文字列関数はシングルバイト文字でのみ操作できます。バイトを文字として扱うだけです。

上記の点を理解していれば、上記のコード例も自然に理解できるでしょう:

//文件编码UTF-8
echo bin2hex("中文"); // 可以看到，"中文"对应的二进制就是：e4b8ade69687
echo strlen("中文"); // 所以按照单字节来统计长度，就是6 
echo substr("中文",0,1) // 取0到1个字节，也就是e4，并不对应某个字符的编码，所以乱码
echo substr("中文",0,3) // 取0到3个字节，刚好把`中`的编码取出来

ログイン後にコピー

同様に、ファイルのエンコーディングを GBK などに変更しても、さらに実験すると同様の結果が得られます。結果として、GBK の 1 つの漢字は 2 バイトを占有します。

これで、PHP の最下層が Unicode をサポートしていないことが基本的に理解できました。要約は次のとおりです:

PHP 文字列は文字のエンコーディング情報を保存しません。とてもネイティブ操作関数は、バイナリデータがテキストにどのように対応するかを知りません。1 つの文字が 1 バイトに対応すると仮定することしかできません。英語などの ASCII コードを処理する場合はこれで十分ですが、中国語などの [マルチバイト文字] の場合はエラーが発生します。

逆に、Unicode をサポートするいわゆる基礎となる言語に注目してみましょう:

var string = "中文"
console.log(string.length); // 2
string.substr(0,1) // 中

ログイン後にコピー

JS ではマルチバイト文字が正しく認識されることがわかります。認識され、処理されます。つまり、保存する際には、テキストのエンコード情報も保存されます。 (ここではテキストの Unicode 値が保存されていると思いますが、JS の基本原理を理解していないのでわかりません)

ここで質問があります。どうすればマルチバイトにできるのですか?文字は PHP で正しく処理されますか?答えは mbstring 拡張子です (詳細については、http://php.net/manual/zh/book.mbstring.php を参照してください)。いわゆる mbstring は、マルチバイト文字列、マルチバイト文字列です。

この拡張機能セットには、マルチバイト文字を正しく処理するために使用できる、ネイティブ文字列関数に対応する一連の関数があります。例: strlen は mb_strlen に対応します... これらの対応する関数のうち、これらは基本的にネイティブ関数と同じですが、通常は追加のオプションパラメーターであるエンコーディングがある点が異なります。

例は次のとおりです:

// 脚本类型为UTF-8
echo strlen("中文"); // 6
echo mb_strlen("中文","UTF-8"); //2  使用mb_strlen ，并传入编码 utf-8, 就会把二进制E4B8ADE69687当做utf-8的处理能正确处理
echo mb_strlen("中文"); //2  如果不传编码UTF-8,则函数会自动确定编码，文档说：如果省略，则使用内部字符编码。所以这里也当做UTF-8来处理。
echo mb_strlen("中文","GBK"); //3，如果传入编码GBK，则：e4b8ade69687会被当做gbk来处理，一个gbk字符占2字节，所以为：3

ログイン後にコピー

推奨される学習: 「PHP ビデオチュートリアル」

以上がphp が Unicode をサポートしていないというのはどういう意味ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7564

CakePHP チュートリアル

1386

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Ubuntu および Debian 用の PHP 8.4 インストールおよびアップグレードガイド Dec 24, 2024 pm 04:42 PM

PHP 8.4 では、いくつかの新機能、セキュリティの改善、パフォーマンスの改善が行われ、かなりの量の機能の非推奨と削除が行われています。このガイドでは、Ubuntu、Debian、またはその派生版に PHP 8.4 をインストールする方法、または PHP 8.4 にアップグレードする方法について説明します。

PHP 開発用に Visual Studio Code (VS Code) をセットアップする方法 Dec 20, 2024 am 11:31 AM

Visual Studio Code (VS Code とも呼ばれる) は、すべての主要なオペレーティングシステムで利用できる無料のソースコードエディター (統合開発環境 (IDE)) です。多くのプログラミング言語の拡張機能の大規模なコレクションを備えた VS Code は、

今まで知らなかったことを後悔している 7 つの PHP 関数 Nov 13, 2024 am 09:42 AM

あなたが経験豊富な PHP 開発者であれば、すでにそこにいて、すでにそれを行っていると感じているかもしれません。あなたは、運用を達成するために、かなりの数のアプリケーションを開発し、数百万行のコードをデバッグし、大量のスクリプトを微調整してきました。

PHPでHTML/XMLを解析および処理するにはどうすればよいですか？ Feb 07, 2025 am 11:57 AM

このチュートリアルでは、PHPを使用してXMLドキュメントを効率的に処理する方法を示しています。 XML（拡張可能なマークアップ言語）は、人間の読みやすさとマシン解析の両方に合わせて設計された多用途のテキストベースのマークアップ言語です。一般的にデータストレージに使用されます

JSON Web Tokens（JWT）とPHP APIでのユースケースを説明してください。 Apr 05, 2025 am 12:04 AM

JWTは、JSONに基づくオープン標準であり、主にアイデンティティ認証と情報交換のために、当事者間で情報を安全に送信するために使用されます。 1。JWTは、ヘッダー、ペイロード、署名の3つの部分で構成されています。 2。JWTの実用的な原則には、JWTの生成、JWTの検証、ペイロードの解析という3つのステップが含まれます。 3. PHPでの認証にJWTを使用する場合、JWTを生成および検証でき、ユーザーの役割と許可情報を高度な使用に含めることができます。 4.一般的なエラーには、署名検証障害、トークンの有効期限、およびペイロードが大きくなります。デバッグスキルには、デバッグツールの使用とロギングが含まれます。 5.パフォーマンスの最適化とベストプラクティスには、適切な署名アルゴリズムの使用、有効期間を合理的に設定することが含まれます。

母音を文字列にカウントするPHPプログラム Feb 07, 2025 pm 12:12 PM

文字列は、文字、数字、シンボルを含む一連の文字です。このチュートリアルでは、さまざまな方法を使用してPHPの特定の文字列内の母音の数を計算する方法を学びます。英語の母音は、a、e、i、o、u、そしてそれらは大文字または小文字である可能性があります。母音とは何ですか？母音は、特定の発音を表すアルファベットのある文字です。大文字と小文字など、英語には5つの母音があります。 a、e、i、o、u 例1 入力：string = "tutorialspoint" 出力：6 説明する文字列「TutorialSpoint」の母音は、u、o、i、a、o、iです。合計で6元があります

PHPでの後期静的結合を説明します（静的：:)。 Apr 03, 2025 am 12:04 AM

静的結合（静的：:) PHPで後期静的結合（LSB）を実装し、クラスを定義するのではなく、静的コンテキストで呼び出しクラスを参照できるようにします。 1）解析プロセスは実行時に実行されます。2）継承関係のコールクラスを検索します。3）パフォーマンスオーバーヘッドをもたらす可能性があります。

PHPマジックメソッド（__construct、__destruct、__call、__get、__setなど）とは何ですか？ Apr 03, 2025 am 12:03 AM

PHPの魔法の方法は何ですか？ PHPの魔法の方法には次のものが含まれます。1。\ _ \ _コンストラクト、オブジェクトの初期化に使用されます。 2。\ _ \ _リソースのクリーンアップに使用される破壊。 3。\ _ \ _呼び出し、存在しないメソッド呼び出しを処理します。 4。\ _ \ _ get、dynamic属性アクセスを実装します。 5。\ _ \ _セット、動的属性設定を実装します。これらの方法は、特定の状況で自動的に呼び出され、コードの柔軟性と効率を向上させます。

See all articles

php が Unicode をサポートしていないというのはどういう意味ですか?

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック