UTF8 処理に u 修飾子を付けて preg_match を使用すると、PREG_OFFSET_CAPTURE が文字ではなくバイト カウントを返す予期しない動作が発生する可能性があります。 counts.
preg_match('/H/u', "\xC2\xA1Hola!", $a_matches, PREG_OFFSET_CAPTURE); echo $a_matches[0][1]; // Prints 2, but should be 1 for "H" in "¡Hola!"
u 修飾子がパターンとサブジェクトに UTF8 エンコードとしてフラグを立てているにもかかわらず、オフセットはバイト単位のままです。文字ベースのオフセットを取得するには、mb_strlen:
$str = "\xC2\xA1Hola!"; preg_match('/H/u', $str, $a_matches, PREG_OFFSET_CAPTURE); echo mb_strlen(substr($str, 0, $a_matches[0][1])); // Prints 1
以上がUTF8 と「u」修飾子を使用すると、PREG_OFFSET_CAPTURE が文字数ではなくバイト数を返すのはなぜですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。