首頁 > 後端開發 > php教程 > 為什麼 PHP DOMDocument 的 loadHTML 在使用 UTF-8 編碼時失敗,如何修復?

為什麼 PHP DOMDocument 的 loadHTML 在使用 UTF-8 編碼時失敗,如何修復?

Barbara Streisand
發布: 2024-12-30 16:48:09
原創
833 人瀏覽過

Why Does PHP DOMDocument's loadHTML Fail with UTF-8 Encoding, and How Can I Fix It?

PHP DOMDocument loadHTML 無法正確編碼UTF-8

DOMDocument 的loadHTML 方法假設您的輸入值可以導致UTF-8 字元編碼不正確。

DOMDocument 使用的底層解析器需要 HTML4 輸入,這可能會對 HTML5 文件造成挑戰。

解決方案:

要解決此問題,請使用指定HTML 的字元編碼以下方法之一:

XML編碼聲明:

ContentType 標頭:

XML編碼前綴:

未知HTML 內容的解決方法:

如果如果您無法製作關於編碼的假設,請採用類似SmartDOMDocument 的解決方法或以下PHP程式碼:

$profile = '<p>イリノイ州シカゴにて、アイルランド系の家庭に、9</p>';
$dom = new DOMDocument();
$dom->loadHTML(mb_convert_encoding($profile, 'HTML-ENTITIES', 'UTF-8'));
echo $dom->saveHTML();
登入後複製

PHP 8.2 注意:

在 PHP 8.2 中, mb_convert_encoding 函式會產生棄用警告。作為替代方案:

$dom->loadHTML(mb_encode_numericentity($profile, [0x80, 0x10FFFF, 0, ~0], 'UTF-8'));
登入後複製

雖然不理想,但此方法可確保安全編碼,因為所有字元都可以用 ISO-8859-1 表示。

以上是為什麼 PHP DOMDocument 的 loadHTML 在使用 UTF-8 編碼時失敗,如何修復?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板