PHP DOMDocument loadHTML은 UTF-8을 올바르게 인코딩할 수 없습니다
DOMDocument의 loadHTML 메소드는 입력이 ISO-8859-1로 인코딩되어 있다고 가정합니다. UTF-8의 잘못된 인코딩으로 이어짐 문자.
DOMDocument에서 사용하는 기본 파서는 HTML4 입력을 예상하므로 HTML5 문서에 문제를 일으킬 가능성이 있습니다.
해결책:
이 문제를 해결하려면, 다음 방법 중 하나를 사용하여 HTML의 문자 인코딩을 지정합니다.
XML 인코딩 선언:
ContentType 헤더:
XML 인코딩 접두어:
알 수 없는 HTML 콘텐츠에 대한 해결 방법:
만들 수 없는 경우 인코딩에 대한 가정을 고려하여 SmartDOMDocument 또는 다음 PHP 코드와 같은 해결 방법을 사용하세요.
$profile = '<p>イリノイ州シカゴにて、アイルランド系の家庭に、9</p>'; $dom = new DOMDocument(); $dom->loadHTML(mb_convert_encoding($profile, 'HTML-ENTITIES', 'UTF-8')); echo $dom->saveHTML();
PHP 8.2에 대한 주의 사항:
PHP 8.2에서 mb_convert_encoding 함수는 지원 중단 경고를 생성합니다. 대안:
$dom->loadHTML(mb_encode_numericentity($profile, [0x80, 0x10FFFF, 0, ~0], 'UTF-8'));
이상적이지는 않지만 이 방법은 모든 문자가 ISO-8859-1로 표현될 수 있으므로 안전한 인코딩을 보장합니다.
위 내용은 UTF-8 인코딩으로 인해 PHP DOMDocument의 loadHTML이 실패하는 이유는 무엇이며 어떻게 해결할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!