PHP DOMDocument loadHTML 无法正确编码 UTF-8
DOMDocument 的 loadHTML 方法假设您的输入采用 ISO-8859-1 编码,这可以导致 UTF-8 字符编码不正确。
DOMDocument 使用的底层解析器需要 HTML4 输入,这可能会对 HTML5 文档造成挑战。
解决方案:
要解决此问题,请使用一种指定 HTML 的字符编码以下方法之一:
XML 编码声明:
ContentType 标头:
XML 编码前缀:
未知 HTML 内容的解决方法:
如果您无法制作关于编码的假设,请采用类似 SmartDOMDocument 的解决方法或以下 PHP 代码:
$profile = '<p>イリノイ州シカゴにて、アイルランド系の家庭に、9</p>'; $dom = new DOMDocument(); $dom->loadHTML(mb_convert_encoding($profile, 'HTML-ENTITIES', 'UTF-8')); echo $dom->saveHTML();
PHP 8.2 注意:
在 PHP 8.2 中, mb_convert_encoding 函数将生成弃用警告。作为替代方案:
$dom->loadHTML(mb_encode_numericentity($profile, [0x80, 0x10FFFF, 0, ~0], 'UTF-8'));
虽然不理想,但此方法可确保安全编码,因为所有字符都可以用 ISO-8859-1 表示。
以上是为什么 PHP DOMDocument 的 loadHTML 在使用 UTF-8 编码时失败,如何修复?的详细内容。更多信息请关注PHP中文网其他相关文章!