Heim Backend-Entwicklung PHP-Tutorial Warum hat DOMDocument Probleme mit UTF-8-Zeichen und wie lässt sich das Problem beheben?

Warum hat DOMDocument Probleme mit UTF-8-Zeichen und wie lässt sich das Problem beheben?

Nov 04, 2024 am 09:55 AM

Why Does DOMDocument Struggle with UTF-8 Characters and How to Fix It?

DOMDocument kämpft mit UTF-8-Zeichen: Eine gründliche Untersuchung

DOMDocument, eine Bibliothek in PHP, ist für die Verarbeitung von HTML konzipiert, was von Natur aus der Fall ist verwendet die ISO-8859-1-Kodierung. Beim Versuch, UTF-8-codiertes HTML in eine DOMDocument-Instanz zu laden, kann die resultierende Ausgabe jedoch beschädigte UTF-8-Zeichen aufweisen.

Das Problem:

Das Beispiel Der bereitgestellte Code versucht, die folgende UTF-8-codierte HTML-Zeichenfolge zu laden:

<code class="html">&lt;html&gt;
&lt;head&gt;
    &lt;meta charset=&quot;utf-8&quot;&gt;
    &lt;title&gt;Test!&lt;/title&gt;
&lt;/head&gt;
&lt;body&gt;
    &lt;h1&gt;☆ Hello ☆ World ☆&lt;/h1&gt;
&lt;/body&gt;
&lt;/html&gt;</code>
Nach dem Login kopieren

Die Ausgabe enthält jedoch HTML-Entitäten anstelle der beabsichtigten Zeichen:

<code class="html">&lt;!DOCTYPE html&gt;
&lt;html&gt;&lt;head&gt;&lt;meta charset=&quot;utf-8&quot;&gt;&lt;title&gt;Test!&lt;/title&gt;&lt;/head&gt;&lt;body&gt;
    &lt;h1&gt;&amp;amp;acirc;&amp;amp;#152;&amp;amp;#134; Hello &amp;amp;acirc;&amp;amp;#152;&amp;amp;#134; World &amp;amp;acirc;&amp;amp;#152;&amp;amp;#134;&lt;/h1&gt;    
&lt;/body&gt;&lt;/html&gt;</code>
Nach dem Login kopieren

Die Lösung :

Es gibt zwei Hauptansätze, um dieses Problem zu lösen:

1. Konvertieren von Zeichen in HTML-Entitäten:

Die PHP-Funktion mb_convert_encoding kann Zeichen außerhalb des US-ASCII-Bereichs in die entsprechenden HTML-Entitäten umwandeln. Dadurch wird sichergestellt, dass DOMDocument die Zeichenfolge korrekt interpretieren kann:

<code class="php">$us_ascii = mb_convert_encoding($utf_8, 'HTML-ENTITIES', 'UTF-8');</code>
Nach dem Login kopieren

2. Angeben des Codierungshinweises:

DOMDocument kann durch Hinzufügen eines Content-Type-Meta-Tags auf die Codierung der HTML-Zeichenfolge hingewiesen werden:

<code class="html">&lt;meta http-equiv=&quot;content-type&quot; content=&quot;text/html; charset=utf-8&quot;&gt;</code>
Nach dem Login kopieren

Das Meta-Tag kann jedoch direkt hinzugefügt werden auf die HTML-Zeichenfolge im Code kann zu Validierungsfehlern führen. Um dies zu vermeiden, können Sie die Zeichenfolge ohne das Meta-Tag laden und die Methode insertBefore verwenden, um sie als erstes untergeordnetes Element des Kopfelements hinzuzufügen:

<code class="php">$dom = new DomDocument();
$dom-&gt;loadHTML($html);
$head = $dom-&gt;getElementsByTagName('head')-&gt;item(0);
$meta = $dom-&gt;createElement('meta');
$meta-&gt;setAttribute('http-equiv', 'content-type');
$meta-&gt;setAttribute('content', 'text/html; charset=utf-8');
$head-&gt;insertBefore($meta, $head-&gt;firstChild);
$html = $dom-&gt;saveHTML();</code>
Nach dem Login kopieren

Durch die Verwendung einer dieser Methoden kann DOMDocument effektiv damit umgehen UTF-8-kodiertes HTML, um die korrekte Darstellung und Dekodierung von Nicht-US-ASCII-Zeichen sicherzustellen.

Das obige ist der detaillierte Inhalt vonWarum hat DOMDocument Probleme mit UTF-8-Zeichen und wie lässt sich das Problem beheben?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße Artikel -Tags

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

11 beste PHP -URL -Shortener -Skripte (kostenlos und Premium) 11 beste PHP -URL -Shortener -Skripte (kostenlos und Premium) Mar 03, 2025 am 10:49 AM

11 beste PHP -URL -Shortener -Skripte (kostenlos und Premium)

Arbeiten mit Flash -Sitzungsdaten in Laravel Arbeiten mit Flash -Sitzungsdaten in Laravel Mar 12, 2025 pm 05:08 PM

Arbeiten mit Flash -Sitzungsdaten in Laravel

Vereinfachte HTTP -Reaktion verspottet in Laravel -Tests Vereinfachte HTTP -Reaktion verspottet in Laravel -Tests Mar 12, 2025 pm 05:09 PM

Vereinfachte HTTP -Reaktion verspottet in Laravel -Tests

Einführung in die Instagram -API Einführung in die Instagram -API Mar 02, 2025 am 09:32 AM

Einführung in die Instagram -API

Erstellen Sie eine React -App mit einem Laravel -Back -Ende: Teil 2, reagieren Erstellen Sie eine React -App mit einem Laravel -Back -Ende: Teil 2, reagieren Mar 04, 2025 am 09:33 AM

Erstellen Sie eine React -App mit einem Laravel -Back -Ende: Teil 2, reagieren

Curl in PHP: So verwenden Sie die PHP -Curl -Erweiterung in REST -APIs Curl in PHP: So verwenden Sie die PHP -Curl -Erweiterung in REST -APIs Mar 14, 2025 am 11:42 AM

Curl in PHP: So verwenden Sie die PHP -Curl -Erweiterung in REST -APIs

12 Beste PHP -Chat -Skripte auf Codecanyon 12 Beste PHP -Chat -Skripte auf Codecanyon Mar 13, 2025 pm 12:08 PM

12 Beste PHP -Chat -Skripte auf Codecanyon

Ankündigung von 2025 PHP Situation Survey Ankündigung von 2025 PHP Situation Survey Mar 03, 2025 pm 04:20 PM

Ankündigung von 2025 PHP Situation Survey

See all articles