今夜、フレームワークのフォーム検証クラスを書いているときに、特定の文字列の長さが指定された範囲内にあるかどうかを判断する必要がありました。当然、PHP の strlen 関数を思い出しました。
コードは次のとおりです | |
|
あなたの中国語をテストしてください
コードは次のとおりです | |
$str = 'こんにちは、世界! '; |
PHP の組み込みの文字列長関数 strlen は、中国語の文字列を正しく処理できません。文字列が占有するバイト数のみを取得します。 GB2312 の中国語エンコードの場合、strlen によって取得される値は中国語の文字数の 2 倍ですが、UTF-8 エンコードされた中国語の場合、その差は 3 倍になります (UTF-8 エンコードでは、1 つの中国語文字は 3 バイトを占有します)。
次の例は、有名な WordPress から引用したものですが、非常に正確です。また、この関数は utf-8 でエンコードされた文字列にのみ適用されることにも注意してください。
コードは次のとおりです | |
|
ただし、上記のコードはGBK/GB2312の中国語文字列をUTF-8エンコーディングで扱えないため、GBK/GB2312の中国語文字は2文字として認識され、計算される中国語文字数が2倍になるため、このようなことを考えました。方法:
コードは次のとおりです | |
$tmp = @iconv('gbk', 'utf-8', $str); |
GBK/GB2312およびUTF-8エンコーディングと互換性があります。少量のデータでテストされていますが、完全に正しいかどうかはまだ確認されていません
。