PHP DOMDocument loadHTML 無法正確編碼UTF-8
DOMDocument 的loadHTML 方法假設您的輸入值可以導致UTF-8 字元編碼不正確。
DOMDocument 使用的底層解析器需要 HTML4 輸入,這可能會對 HTML5 文件造成挑戰。
解決方案:
要解決此問題,請使用指定HTML 的字元編碼以下方法之一:
XML編碼聲明:
ContentType 標頭:
XML編碼前綴:
未知HTML 內容的解決方法:
如果如果您無法製作關於編碼的假設,請採用類似SmartDOMDocument 的解決方法或以下PHP程式碼:
$profile = '<p>イリノイ州シカゴにて、アイルランド系の家庭に、9</p>'; $dom = new DOMDocument(); $dom->loadHTML(mb_convert_encoding($profile, 'HTML-ENTITIES', 'UTF-8')); echo $dom->saveHTML();
PHP 8.2 注意:
在 PHP 8.2 中, mb_convert_encoding 函式會產生棄用警告。作為替代方案:
$dom->loadHTML(mb_encode_numericentity($profile, [0x80, 0x10FFFF, 0, ~0], 'UTF-8'));
雖然不理想,但此方法可確保安全編碼,因為所有字元都可以用 ISO-8859-1 表示。
以上是為什麼 PHP DOMDocument 的 loadHTML 在使用 UTF-8 編碼時失敗,如何修復?的詳細內容。更多資訊請關注PHP中文網其他相關文章!