Lors de l'utilisation de preg_match avec le modificateur u pour le traitement UTF8, on peut rencontrer un comportement inattendu où PREG_OFFSET_CAPTURE renvoie le nombre d'octets au lieu du nombre de caractères .
preg_match('/H/u', "\xC2\xA1Hola!", $a_matches, PREG_OFFSET_CAPTURE); echo $a_matches[0][1]; // Prints 2, but should be 1 for "H" in "¡Hola!"
Malgré le modificateur u en marquant le modèle et le sujet comme étant codés en UTF8, les décalages restent en octets. Pour obtenir des décalages basés sur les caractères, vous pouvez utiliser mb_strlen :
$str = "\xC2\xA1Hola!"; preg_match('/H/u', $str, $a_matches, PREG_OFFSET_CAPTURE); echo mb_strlen(substr($str, 0, $a_matches[0][1])); // Prints 1
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!