Mengapakah DOMDocument gagal mengendalikan aksara UTF-8 dengan betul semasa memuatkan HTML?

Mary-Kate Olsen
Lepaskan: 2024-11-04 10:12:30
asal
336 orang telah melayarinya

Why does DOMDocument fail to handle UTF-8 characters correctly when loading HTML?

Ketidakupayaan DOMDocument untuk Mengendalikan Aksara UTF-8

Dalam senario di mana pelayan web menghantar respons dengan pengekodan UTF-8, semua fail adalah begitu juga disimpan dalam UTF-8, dan semua tetapan yang berkaitan telah dikonfigurasikan untuk pengekodan UTF-8, isu timbul. Program ujian yang direka untuk mengesahkan fungsi output menunjukkan tingkah laku yang tidak teratur.

Setelah melaksanakan program, output dipaparkan seperti berikut:

<!DOCTYPE html>
<html><head><meta charset="utf-8"><title>Test!</title></head><body>
    <h1>☆ Hello ☆ World ☆</h1>    
</body></html>
Salin selepas log masuk

yang ditunjukkan sebagai:

< ;h1>☆ Hello ☆ Dunia ☆


Program:

<code class="php">$html = <<<HTML
<!doctype html>
<html>
<head>
    <meta charset="utf-8">
    <title>Test!</title>
</head>
<body>
    <h1>☆ Hello ☆ World ☆</h1>
</body>
</html>
HTML;

$dom = new DOMDocument("1.0", "utf-8");
$dom->loadHTML($html);

header("Content-Type: text/html; charset=utf-8");
echo($dom->saveHTML());</code>
Salin selepas log masuk

Sebab

Punca asas ialah DOMDocument::loadHTML() menjangka rentetan dalam format HTML. HTML sememangnya menggunakan ISO-8859-1 (ISO Latin Alphabet No. 1) sebagai pengekodan aksara lalainya. Akibatnya, apabila penghurai HTML yang direka untuk HTML 4.0 menemui aksara yang melebihi pengekodan ini, ia mungkin menunjukkan tingkah laku yang tidak dapat diramalkan.

Penyelesaian

Menukar Aksara Bukan ASCII kepada Entiti

Untuk membetulkan isu ini, semua aksara di luar julat ASCII (127 / h7F) hendaklah ditukar kepada entiti HTML. Proses ini boleh dicapai dengan menggunakan mb_convert_encoding dengan pengekodan sasaran HTML-ENTITIES:

<code class="php">$html = mb_convert_encoding($html, "HTML-ENTITIES", "UTF-8");</code>
Salin selepas log masuk

Menambah Tag Meta Jenis Kandungan

Sebagai alternatif, isu ini boleh diselesaikan dengan menggabungkan teg ke dalam dokumen itu sendiri, menyatakan charset sebagai UTF-8:

<code class="html"><meta http-equiv="content-type" content="text/html; charset=utf-8"></code>
Salin selepas log masuk

Kaedah ini berfungsi sebagai pembayang kepada DOMDocument, memaksanya untuk mentafsir input sebagai UTF-8 yang dikodkan. Walaupun diletakkan di luar bahagian, spesifikasi HTML 2.0 menentukan bahawa elemen tersebut akan dipindahkan secara automatik dalam pengepala.

Atas ialah kandungan terperinci Mengapakah DOMDocument gagal mengendalikan aksara UTF-8 dengan betul semasa memuatkan HTML?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!