ホームページ > バックエンド開発 > PHPチュートリアル > UTF8 と「u」修飾子を使用すると、PREG_OFFSET_CAPTURE が文字数ではなくバイト数を返すのはなぜですか?

UTF8 と「u」修飾子を使用すると、PREG_OFFSET_CAPTURE が文字数ではなくバイト数を返すのはなぜですか?

Linda Hamilton
リリース: 2024-12-03 20:24:19
オリジナル
295 人が閲覧しました

Why Does PREG_OFFSET_CAPTURE Return Byte Counts Instead of Character Counts with UTF8 and the 'u' Modifier?

UTF8 式にもかかわらず PREG_OFFSET_CAPTURE がバイト数をカウントする

UTF8 処理に u 修飾子を付けて preg_match を使用すると、PREG_OFFSET_CAPTURE が文字ではなくバイト カウントを返す予期しない動作が発生する可能性があります。 counts.

preg_match('/H/u', "\xC2\xA1Hola!", $a_matches, PREG_OFFSET_CAPTURE);
echo $a_matches[0][1]; // Prints 2, but should be 1 for "H" in "¡Hola!"
ログイン後にコピー

u 修飾子がパターンとサブジェクトに UTF8 エンコードとしてフラグを立てているにもかかわらず、オフセットはバイト単位のままです。文字ベースのオフセットを取得するには、mb_strlen:

$str = "\xC2\xA1Hola!";
preg_match('/H/u', $str, $a_matches, PREG_OFFSET_CAPTURE);
echo mb_strlen(substr($str, 0, $a_matches[0][1])); // Prints 1
ログイン後にコピー
を使用できます。

以上がUTF8 と「u」修飾子を使用すると、PREG_OFFSET_CAPTURE が文字数ではなくバイト数を返すのはなぜですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート