為什麼 DOMDocument 會遇到 UTF-8 字元的問題以及如何修復它？-php教程-PHP中文網

首頁

後端開發

php教程

為什麼 DOMDocument 會遇到 UTF-8 字元的問題以及如何修復它？

Nov 04, 2024 am 09:55 AM

Why Does DOMDocument Struggle with UTF-8 Characters and How to Fix It?

DOMDocument 與UTF-8 字符的鬥爭：徹底調查

DOMDocument 是PHP 中的一個庫，旨在處理HTML，本質上HTML使用ISO-8859-1 編碼。但是，當嘗試將 UTF-8 編碼的 HTML 載入到 DOMDocument 實例中時，產生的輸出可能會顯示損壞的 utf-8 字元。

問題：

範例提供的程式碼嘗試載入以下UTF-8 編碼的HTML 字串：

<code class="html">&lt;html&gt;
&lt;head&gt;
    &lt;meta charset=&quot;utf-8&quot;&gt;
    &lt;title&gt;Test!&lt;/title&gt;
&lt;/head&gt;
&lt;body&gt;
    &lt;h1&gt;☆ Hello ☆ World ☆&lt;/h1&gt;
&lt;/body&gt;
&lt;/html&gt;</code>

登入後複製

但是，輸出包含HTML實體而非預期字元：

<code class="html">&lt;!DOCTYPE html&gt;
&lt;html&gt;&lt;head&gt;&lt;meta charset=&quot;utf-8&quot;&gt;&lt;title&gt;Test!&lt;/title&gt;&lt;/head&gt;&lt;body&gt;
    &lt;h1&gt;&amp;amp;acirc;&amp;amp;#152;&amp;amp;#134; Hello &amp;amp;acirc;&amp;amp;#152;&amp;amp;#134; World &amp;amp;acirc;&amp;amp;#152;&amp;amp;#134;&lt;/h1&gt;    
&lt;/body&gt;&lt;/html&gt;</code>

登入後複製

解:

解決此問題的主要方法有兩種：

1 .將字元轉換為HTML 實體：

PHP 的mb_convert_encoding 函數可以將US-ASCII 範圍以外的字元轉換為對應的HTML 實體。這確保 DOMDocument 可以正確解釋字串：

<code class="php">$us_ascii = mb_convert_encoding($utf_8, 'HTML-ENTITIES', 'UTF-8');</code>

登入後複製

2。指定編碼提示：

DOMDocument 可以透過新增Content-Type 元標記來提示HTML 字串的編碼：

<code class="html">&lt;meta http-equiv=&quot;content-type&quot; content=&quot;text/html; charset=utf-8&quot;&gt;</code>

登入後複製

但是，直接加入元標記程式碼中的HTML 字元字串可能會導致驗證錯誤。為了避免這種情況，您可以載入不帶元標記的字串，並使用insertBefore 方法將其新增為head 元素的第一個子元素：

<code class="php">$dom = new DomDocument();
$dom-&gt;loadHTML($html);
$head = $dom-&gt;getElementsByTagName('head')-&gt;item(0);
$meta = $dom-&gt;createElement('meta');
$meta-&gt;setAttribute('http-equiv', 'content-type');
$meta-&gt;setAttribute('content', 'text/html; charset=utf-8');
$head-&gt;insertBefore($meta, $head-&gt;firstChild);
$html = $dom-&gt;saveHTML();</code>

登入後複製

透過使用這些方法中的任何一個，DOMDocument 都可以有效地處理UTF-8 編碼的HTML，確保非US-ASCII 字元的正確表示和解碼。

以上是為什麼 DOMDocument 會遇到 UTF-8 字元的問題以及如何修復它？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn