Ketidakupayaan DOMDocument untuk Mengendalikan Aksara UTF-8
Dalam senario di mana pelayan web menghantar respons dengan pengekodan UTF-8, semua fail adalah begitu juga disimpan dalam UTF-8, dan semua tetapan yang berkaitan telah dikonfigurasikan untuk pengekodan UTF-8, isu timbul. Program ujian yang direka untuk mengesahkan fungsi output menunjukkan tingkah laku yang tidak teratur.
Setelah melaksanakan program, output dipaparkan seperti berikut:
<!DOCTYPE html> <html><head><meta charset="utf-8"><title>Test!</title></head><body> <h1>☆ Hello ☆ World ☆</h1> </body></html>
yang ditunjukkan sebagai:
< ;h1>☆ Hello ☆ Dunia ☆
Program:
<code class="php">$html = <<<HTML <!doctype html> <html> <head> <meta charset="utf-8"> <title>Test!</title> </head> <body> <h1>☆ Hello ☆ World ☆</h1> </body> </html> HTML; $dom = new DOMDocument("1.0", "utf-8"); $dom->loadHTML($html); header("Content-Type: text/html; charset=utf-8"); echo($dom->saveHTML());</code>
Punca asas ialah DOMDocument::loadHTML() menjangka rentetan dalam format HTML. HTML sememangnya menggunakan ISO-8859-1 (ISO Latin Alphabet No. 1) sebagai pengekodan aksara lalainya. Akibatnya, apabila penghurai HTML yang direka untuk HTML 4.0 menemui aksara yang melebihi pengekodan ini, ia mungkin menunjukkan tingkah laku yang tidak dapat diramalkan.
Menukar Aksara Bukan ASCII kepada Entiti
Untuk membetulkan isu ini, semua aksara di luar julat ASCII (127 / h7F) hendaklah ditukar kepada entiti HTML. Proses ini boleh dicapai dengan menggunakan mb_convert_encoding dengan pengekodan sasaran HTML-ENTITIES:
<code class="php">$html = mb_convert_encoding($html, "HTML-ENTITIES", "UTF-8");</code>
Menambah Tag Meta Jenis Kandungan
Sebagai alternatif, isu ini boleh diselesaikan dengan menggabungkan teg ke dalam dokumen itu sendiri, menyatakan charset sebagai UTF-8:
<code class="html"><meta http-equiv="content-type" content="text/html; charset=utf-8"></code>
Kaedah ini berfungsi sebagai pembayang kepada DOMDocument, memaksanya untuk mentafsir input sebagai UTF-8 yang dikodkan. Walaupun diletakkan di luar
Atas ialah kandungan terperinci Mengapakah DOMDocument gagal mengendalikan aksara UTF-8 dengan betul semasa memuatkan HTML?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!