Ungkapan biasa untuk mengalih keluar ruang antara teg HTML yang tidak sah - cth. "" hendaklah ""

Question

Saya mempunyai beberapa HTML yang berantakan dengan ruang dalam teg dan mahu menjadikannya sah semula - contohnya: 1>0istrueandapples>>>bananas hendaklah ditukar kepada HTML yang sah, dan apabila diberikan, dijangka menghasilkan: 1>0is

P粉323050780 · Answer

Tiada cara yang munasabah untuk menyimpan dokumen yang rosak seperti yang anda siarkan, tetapi dengan mengandaikan anda meletakkan > 和类似字符替换为其相关实体，例如： > ; dalam teks, anda boleh meletakkan dokumen yang anda ingin terima ke dalam perpustakaan yang sesuai seperti DomDocument yang akan menjaga berehat.

$input = <<<_E_
< div class='test' >1 > 0 is < b >true and apples >>> bananas< / div >
_E_;

$input = preg_replace([ '#<\s+#', '#loadHTML($input, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);

var_dump($d->saveHTML());

Keluaran:

string(80) "1 > 0 is true and apples >>> bananas"

P粉064448449 · Answer

Regex ini juga berfungsi:

Ia membahagikan bahagian yang sah dalam teg HTML kepada empat bahagian dan menggantikan bahagian yang tinggal (ruang) dengannya.

Demo Regex101

/(]*S)s*(>)/g

( - Tangkap kurungan sudut bukaan (bahagian 1)
s* - sepadan dengan mana-mana ruang
(/?) - Menangkap garis miring ke belakang pilihan (Bahagian 2)
s* - sepadan dengan mana-mana ruang selepas garis miring ke belakang
([^]*S) - Tangkap kandungan dalam tag tanpa ruang di belakang (bahagian 3)
s* - Padankan ruang selepas kandungan dan sebelum kurungan sudut kanan
(>) - Menangkap kurungan sudut kanan (bahagian 4)

const reg = /(<)\s*(\/?)\s*([^<>]*\S)\s*(>)/g
const str = "< div class='test' >1 > 0 is < b >true< / b > and apples >>> bananas< / div  >"
const newStr = str.replace(reg, "");
console.log(newStr);