Melucutkan Teg HTML dalam Python untuk Perwakilan Tekstual Tulen
Memanipulasi respons HTML selalunya melibatkan pengekstrakan kandungan teks yang berkaitan sambil menghapuskan teg pemformatan. Ini boleh dicapai dengan menanggalkan tag HTML dengan berkesan, meninggalkan anda dengan teks biasa yang dikehendaki.
Mencapai Pengekstrakan Teks Sahaja dengan MLStripper Python
Untuk menyelaraskan proses pelucutan, perpustakaan standard Python menyediakan fungsi yang cekap, MLStripper, direka khusus untuk tujuan ini. MLStripper mengambil input HTML dan menghuraikannya, hanya mengekalkan kandungan bukan penanda.
Pelaksanaan untuk Python 3 dan 2
Bergantung pada versi Python anda, anda boleh menggunakan yang berikut coretan kod:
Python 3:
from io import StringIO from html.parser import HTMLParser class MLStripper(HTMLParser): def __init__(self): super().__init__() self.reset() self.strict = False self.convert_charrefs= True self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
Python 2:
from HTMLParser import HTMLParser from StringIO import StringIO class MLStripper(HTMLParser): def __init__(self): self.reset() self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
Penggunaan:
Panggil sahaja strip_tags fungsi menghantar input HTML sebagai hujah rentetan. Nilai yang dikembalikan akan menjadi rentetan yang dilucutkan dengan semua teg HTML dialih keluar.
Teknik ini terbukti tidak ternilai apabila anda perlu bekerja dengan data teks yang diekstrak daripada sumber HTML, memastikan perwakilan teks yang bersih dan terurus.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Melucutkan Tag HTML dengan Cekap daripada Teks dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!