Pembangun ASP.NET sering menghadapi cabaran untuk mengekstrak teks tulen daripada rentetan HTML tanpa menjejaskan integriti data. Ini melibatkan mengalih keluar tag HTML dengan cekap.
ASP.NET menawarkan kaedah yang diperkemas untuk ini, mengelakkan kerumitan ungkapan biasa. Coretan kod berikut menggambarkan ini:
<code class="language-csharp">string input = "<!-- Hello -->"; string strippedHtml = System.Text.RegularExpressions.Regex.Replace(input, "<[^>]*>", string.Empty).Replace("\s+", " ").Trim();</code>
Cara ia Berfungsi:
Penyingkiran Teg: Kod menggunakan ungkapan biasa untuk mengenal pasti dan mengalih keluar semua teg HTML. <[^>]*>
sepadan dengan mana-mana teg yang disertakan dalam kurungan sudut.
Pembersihan Ruang Putih: Ruang putih yang berlebihan, termasuk baris baharu, digantikan dengan ruang tunggal dan ruang hadapan/belakang dipangkas.
Walaupun berkesan, pendekatan ini mempunyai had:
Kurung Escaped: HTML dan XML membenarkan kurungan sudut dalam nilai atribut. Kaedah ini mungkin tersalah mengalih keluar bahagian teks jika kurungan yang dilepaskan itu ada.
Keselamatan: Walaupun secara amnya selamat, ia mungkin tidak mencukupi untuk aplikasi yang memerlukan ketulenan teks mutlak, terutamanya apabila berurusan dengan sumber HTML yang tidak dipercayai.
Untuk situasi yang memerlukan pengekstrakan teks yang tepat, menggunakan penghurai HTML khusus adalah disyorkan. Ini memastikan hasil yang tepat tanpa mengira kerumitan HTML.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Buang Teg HTML dengan Cekap daripada Rentetan dalam ASP.NET?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!