preg_match()와 PREG_OFFSET_CAPTURE 매개변수를 사용하여 UTF-8 문자열을 일치시킬 때 사용자는 예상치 못한 문제를 겪을 수 있습니다. 오프셋이 문자 대신 바이트 단위로 계산되는 동작입니다. 패턴과 주제 모두에 대해 UTF-8 지원을 활성화하는 u 수정자를 사용함에도 불구하고 캡처된 오프셋은 바이트 기반으로 유지됩니다.
이 불일치를 해결하고 문자 기반 오프셋의 경우 mb_strlen과 관련된 해결 방법을 사용할 수 있습니다. 이 함수는 지정된 하위 문자열에 대한 UTF-8 문자 수를 제공합니다. 캡처된 일치 항목 앞의 제목 문자열의 하위 문자열에서 mb_strlen을 활용하면 정확한 문자 오프셋을 얻을 수 있습니다.
수정된 예는 다음과 같습니다.
$str = "\xC2\xA1Hola!"; preg_match('/H/u', $str, $a_matches, PREG_OFFSET_CAPTURE); echo mb_strlen(substr($str, 0, $a_matches[0][1])); // Outputs 1
mb_strlen을 통합하여 다음을 보장합니다. 오프셋은 UTF-8 문자열 내의 문자 위치를 나타내며 정확하고 예상되는 결과를 제공합니다.
위 내용은 UTF-8 지원에도 불구하고 preg_match() 오프셋이 문자가 아닌 바이트 단위인 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!