PHP で文字列の長さを計算する一般的な関数は、strlen と mb_strlen です。文字がすべて英語の場合、この 2 つは同じです。ここでは主に中国語と英語が混在した場合の 2 つの計算結果を比較します。
まず例を見てみましょう:
コードをコピーします コードは次のとおりです:
//テスト時のファイルのエンコード方式はUTF8である必要があります
$str='漢字 a';
echo strlen($str).'
';//14
echo mb_strlen($str,'utf8').'
';//6
echo mb_strlen($str,'gbk').'
';//8
echo mb_strlen($str,'gb2312').'
';//10
?>
結果分析: strlen を計算するとき、UTF8 の中国語の文字は 3 つの長さとして扱われるため、「中国語の 1 文字の文字」の長さは 3*4+2=14 になります。mb_strlen を計算するとき、選択された内部コードは UTF8 です。すると、漢字は1文字の長さとして計算されるので、「中国語1文字1文字」の長さは6になります。
これら 2 つの関数を使用すると、中国語と英語が混在した文字列の占有率を共同で計算できます (中国語の文字の占有率は 2、英語の文字の占有率は 1)
コードをコピーします コードは次のとおりです:
echo (strlen($str) + mb_strlen($str,'UTF8')) / 2;
例: 「中国語 1 文字 1 文字」の strlen($str) 値が 14、mb_strlen($str) 値が 6 である場合、「中国語 1 文字 1 文字」のプレースホルダーは次のように計算できます。 10:
PHP の組み込みの文字列長関数 strlen は、中国語の文字列を正しく処理できません。文字列が占有するバイト数のみを取得します。
GB2312 中国語エンコードの場合、strlen によって取得される値は中国語の文字数の 2 倍ですが、UTF-8 エンコードされた中国語の場合、その差は 3 倍になります (UTF-8 エンコードでは、1 つの中国語文字が 3 バイトを占有します)。
mb_strlen 関数を使用すると、この問題をより適切に解決できます。
mb_strlen の使用法は strlen と似ていますが、文字エンコーディングを指定する 2 番目のオプションのパラメーターがある点が異なります。
たとえば、UTF-8 文字列 $str の長さを取得するには、mb_strlen($str,'UTF-8') を使用できます。 2 番目のパラメータを省略した場合は、PHP の内部エンコーディングが使用されます。内部エンコーディングは、mb_internal_encoding() 関数を通じて取得できます。
注意: mb_strlen は PHP のコア関数ではありません。使用する前に php_mbstring.dll が php.ini にロードされていることを確認する必要があります。
つまり、「extension=php_mbstring.dll」という行が存在し、コメントアウトされていないことを確認してください。そうしないと、未定義の関数の問題が発生します。
http://www.bkjia.com/PHPjc/825400.html
www.bkjia.comtruehttp://www.bkjia.com/PHPjc/825400.html技術記事 PHP で文字列の長さを計算する一般的な関数は、strlen と mb_strlen です。文字がすべて英語の場合、この 2 つは同じです。ここでの主な比較は、中国語と英語を混ぜると...