Mengalih Keluar Teg HTML dengan Cekap daripada Rentetan C#
Membersihkan data teks dengan mengalih keluar teg HTML adalah keperluan yang kerap dalam banyak aplikasi C#. Walaupun ungkapan biasa menawarkan penyelesaian yang ringkas, ia mungkin bukan kaedah yang paling mantap, terutamanya apabila berurusan dengan struktur HTML yang kompleks.
Ungkapan biasa yang mudah untuk mengalih keluar teg HTML ialah:
<code class="language-csharp"><[^>]*></code>
Ungkapan ini mengenal pasti dan memadankan mana-mana aksara yang disertakan dalam kurungan sudut, dengan berkesan menyasarkan teg HTML. Kaedah Regex.Replace
kemudian memudahkan penyingkiran:
<code class="language-csharp">string cleanText = Regex.Replace(htmlString, @"<[^>]*>", string.Empty);</code>
Coretan kod ini menggantikan semua teg yang dipadankan dengan rentetan kosong, hanya meninggalkan teks biasa.
Pertimbangan Penting:
Pendekatan regex ini mempunyai had. Ia mungkin gagal mengendalikan dengan betul senario yang melibatkan tag bersarang atau bahagian CDATA yang mengandungi kurungan sudut. Untuk HTML yang lebih kompleks, penghurai HTML khusus menawarkan ketepatan dan kebolehpercayaan yang unggul. Menggunakan penghurai XML ialah alternatif yang lebih baik untuk penyingkiran teg HTML yang mantap dalam situasi sedemikian.
Atas ialah kandungan terperinci Bagaimana cara mengeluarkan tag HTML dari rentetan menggunakan C# Ekspresi Biasa?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!