Gagal Mengekod UTF-8 dengan PHP DOMDocument::loadHTML
Dalam senario tertentu, cuba menghuraikan HTML menggunakan DOMDocument::loadHTML boleh mengakibatkan isu pengekodan, terutamanya apabila pengekodan UTF-8 terlibat. Artikel ini meneroka sebab di sebalik masalah ini dan menyediakan beberapa penyelesaian untuk menanganinya dengan berkesan.
Punca Isu
Secara lalai, DOMDocument memperlakukan rentetan sebagai dikodkan dalam ISO- 8859-1, iaitu set aksara lalai HTTP/1.1. Walau bagaimanapun, rentetan UTF-8 ditafsirkan secara salah di bawah andaian ini, yang membawa kepada ralat pengekodan.
Penyelesaian Alternatif
1. Mendahulukan Pengisytiharan Pengekodan
Untuk coretan HTML (X) yang mudah, tambahkan pengisytiharan XML atau meta charset untuk mengarahkan penghurai untuk menganggap rentetan sebagai UTF-8:
$contentType = '<meta http-equiv="Content-Type" content="text/html; charset=utf-8">'; $dom->loadHTML($contentType . $profile); $dom->loadHTML('<meta charset="utf8">' . $profile);
2. Menggunakan HTML SmartDOMDocument
Penyelesaian ini boleh digunakan jika pengisytiharan pengekodan terdahulu tidak dapat ditentukan:
$dom->loadHTML(mb_convert_encoding($profile, 'HTML-ENTITIES', 'UTF-8'));
3. Penyelesaian PHP 8.2
Untuk PHP 8.2 , gunakan pendekatan berikut:
$dom->loadHTML(mb_encode_numericentity($profile, [0x80, 0x10FFFF, 0, ~0], 'UTF-8'));
Kesimpulan
Dengan memahami punca masalah pengekodan dan menggunakan penyelesaian yang sesuai, pembangun boleh menghuraikan HTML dengan pengekodan UTF-8 dengan berkesan menggunakan PHP Kaedah DOMDocument::loadHTML.
Atas ialah kandungan terperinci Mengapa PHP DOMDocument::loadHTML Gagal dengan Pengekodan UTF-8, dan Bagaimana Saya Boleh Membetulkannya?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!