首页 > 后端开发 > php教程 > 为什么 PHP DOMDocument 的 loadHTML 在使用 UTF-8 编码时失败,如何修复?

为什么 PHP DOMDocument 的 loadHTML 在使用 UTF-8 编码时失败,如何修复?

Barbara Streisand
发布: 2024-12-30 16:48:09
原创
833 人浏览过

Why Does PHP DOMDocument's loadHTML Fail with UTF-8 Encoding, and How Can I Fix It?

PHP DOMDocument loadHTML 无法正确编码 UTF-8

DOMDocument 的 loadHTML 方法假设您的输入采用 ISO-8859-1 编码,这可以导致 UTF-8 字符编码不正确。

DOMDocument 使用的底层解析器需要 HTML4 输入,这可能会对 HTML5 文档造成挑战。

解决方案:

要解决此问题,请使用一种指定 HTML 的字符编码以下方法之一:

XML 编码声明:

ContentType 标头:

XML 编码前缀:

未知 HTML 内容的解决方法:

如果您无法制作关于编码的假设,请采用类似 SmartDOMDocument 的解决方法或以下 PHP 代码:

$profile = '<p>イリノイ州シカゴにて、アイルランド系の家庭に、9</p>';
$dom = new DOMDocument();
$dom->loadHTML(mb_convert_encoding($profile, 'HTML-ENTITIES', 'UTF-8'));
echo $dom->saveHTML();
登录后复制

PHP 8.2 注意:

在 PHP 8.2 中, mb_convert_encoding 函数将生成弃用警告。作为替代方案:

$dom->loadHTML(mb_encode_numericentity($profile, [0x80, 0x10FFFF, 0, ~0], 'UTF-8'));
登录后复制

虽然不理想,但此方法可确保安全编码,因为所有字符都可以用 ISO-8859-1 表示。

以上是为什么 PHP DOMDocument 的 loadHTML 在使用 UTF-8 编码时失败,如何修复?的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板