Warum hat DOMDocument Probleme mit UTF-8-Zeichen und wie lässt sich das Problem beheben?

Linda Hamilton
Freigeben: 2024-11-04 09:55:02
Original
806 Leute haben es durchsucht

Why Does DOMDocument Struggle with UTF-8 Characters and How to Fix It?

DOMDocument kämpft mit UTF-8-Zeichen: Eine gründliche Untersuchung

DOMDocument, eine Bibliothek in PHP, ist für die Verarbeitung von HTML konzipiert, was von Natur aus der Fall ist verwendet die ISO-8859-1-Kodierung. Beim Versuch, UTF-8-codiertes HTML in eine DOMDocument-Instanz zu laden, kann die resultierende Ausgabe jedoch beschädigte UTF-8-Zeichen aufweisen.

Das Problem:

Das Beispiel Der bereitgestellte Code versucht, die folgende UTF-8-codierte HTML-Zeichenfolge zu laden:

<code class="html"><html>
<head>
    <meta charset="utf-8">
    <title>Test!</title>
</head>
<body>
    <h1>☆ Hello ☆ World ☆</h1>
</body>
</html></code>
Nach dem Login kopieren

Die Ausgabe enthält jedoch HTML-Entitäten anstelle der beabsichtigten Zeichen:

<code class="html"><!DOCTYPE html>
<html><head><meta charset="utf-8"><title>Test!</title></head><body>
    <h1>&amp;acirc;&amp;#152;&amp;#134; Hello &amp;acirc;&amp;#152;&amp;#134; World &amp;acirc;&amp;#152;&amp;#134;</h1>    
</body></html></code>
Nach dem Login kopieren

Die Lösung :

Es gibt zwei Hauptansätze, um dieses Problem zu lösen:

1. Konvertieren von Zeichen in HTML-Entitäten:

Die PHP-Funktion mb_convert_encoding kann Zeichen außerhalb des US-ASCII-Bereichs in die entsprechenden HTML-Entitäten umwandeln. Dadurch wird sichergestellt, dass DOMDocument die Zeichenfolge korrekt interpretieren kann:

<code class="php">$us_ascii = mb_convert_encoding($utf_8, 'HTML-ENTITIES', 'UTF-8');</code>
Nach dem Login kopieren

2. Angeben des Codierungshinweises:

DOMDocument kann durch Hinzufügen eines Content-Type-Meta-Tags auf die Codierung der HTML-Zeichenfolge hingewiesen werden:

<code class="html"><meta http-equiv="content-type" content="text/html; charset=utf-8"></code>
Nach dem Login kopieren

Das Meta-Tag kann jedoch direkt hinzugefügt werden auf die HTML-Zeichenfolge im Code kann zu Validierungsfehlern führen. Um dies zu vermeiden, können Sie die Zeichenfolge ohne das Meta-Tag laden und die Methode insertBefore verwenden, um sie als erstes untergeordnetes Element des Kopfelements hinzuzufügen:

<code class="php">$dom = new DomDocument();
$dom->loadHTML($html);
$head = $dom->getElementsByTagName('head')->item(0);
$meta = $dom->createElement('meta');
$meta->setAttribute('http-equiv', 'content-type');
$meta->setAttribute('content', 'text/html; charset=utf-8');
$head->insertBefore($meta, $head->firstChild);
$html = $dom->saveHTML();</code>
Nach dem Login kopieren

Durch die Verwendung einer dieser Methoden kann DOMDocument effektiv damit umgehen UTF-8-kodiertes HTML, um die korrekte Darstellung und Dekodierung von Nicht-US-ASCII-Zeichen sicherzustellen.

Das obige ist der detaillierte Inhalt vonWarum hat DOMDocument Probleme mit UTF-8-Zeichen und wie lässt sich das Problem beheben?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage