PHP の strlen と mb_strlen の違いについて説明します

WBOY
リリース: 2016-06-23 13:33:02
オリジナル
816 人が閲覧しました

PHPでは、strlenmb_strlenは文字列の長さを求める関数ですが、初心者の中にはマニュアルを読まないと違いがよくわからない人もいるかもしれません。 以下は 2 つの違いを説明する例です。

最初に例を見てください:

    //テスト中のファイルのエンコード方式は UTF8 である必要があります
  1. $str='中国語 a 文字 1 文字'
  2. echo strlen($str ).'
    ';//14
  3. echo mb_strlen($str,'utf8').'
    ';//6
  4. echo mb_strlen($str,'gbk').'< ;br>'; //8
  5. echo mb_strlen($str,'gb2312').'
    ';//10
  6. ?>

結果の分析: strlen を計算するときは、 UTF8 の漢字は長さ 3 なので、「中国語 1 文字」の長さは 3*4+2=14 となります。 mb_strlen を計算する際、内部コードが UTF8 に選択されている場合、漢字は長さ 1 として計算されます。 so " 漢字「1 文字」の長さは 6 です。

これら 2 つの関数を使用すると、中国語と英語が混在した文字列の占有率を共同で計算できます (漢字の占有率は 2、漢字の占有率は 2 です)。英語の文字は 1)

echo (strlen($str) + mb_strlen($str,'UTF8')) / 2;

たとえば、「中国語 a」の strlen($str) 値は「文字 1 文字」は 14、mb_strlen( $str) の値は 6 なので、「中国語 a 文字 1 文字」のプレースホルダーは 10 であると計算できます。 PHP の組み込みの文字列長関数 strlen は中国語の文字列を正しく処理できず、文字列が占有するバイト数のみを取得します。 GB2312 中国語エンコードの場合、strlen によって取得される値は中国語の文字数の 2 倍ですが、UTF-8 エンコードされた中国語の場合、その差は 3 倍になります (UTF-8 エンコードでは、1 つの中国語文字は 3 バイトを占めます)。

mb_strlen 関数を使用すると、この問題をより適切に解決できます。 mb_strlen の使用法は strlen と似ていますが、文字エンコーディングを指定する 2 番目のオプションのパラメーターがある点が異なります。たとえば、UTF-8 文字列 $str の長さを取得するには、mb_strlen($str,'UTF-8') を使用できます。 2 番目のパラメータを省略した場合は、PHP の内部エンコーディングが使用されます。内部エンコーディングは、mb_internal_encoding() 関数を通じて取得できます。

mb_strlen は PHP のコア関数ではないことに注意してください。これを使用する前に、php_mbstring.dll が php.ini にロードされていることを確認する必要があります。つまり、「extension=php_mbstring.dll」という行が含まれていることを確認してください。 " が存在し、コメントアウトされていない場合は、「未定義の関数の問題」が表示されます。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート