Mengekstrak Kandungan daripada Rentetan HTML dalam Python
Apabila bekerja dengan data HTML dalam Python, selalunya wajar untuk menanggalkan tag pemformatan dan mengekalkan kandungan teks sahaja. Paparan data yang dipermudahkan ini boleh berguna untuk meringkaskan teks, melaksanakan pemprosesan bahasa semula jadi dan tugasan lain.
Salah satu cara untuk mencapai ini dalam Python ialah melalui kelas MLStripper, yang menggunakan penghurai HTML terbina dalam Python.
# For Python 3+ from io import StringIO from html.parser import HTMLParser class MLStripper(HTMLParser): def __init__(self): super().__init__() self.reset() self.strict = False self.convert_charrefs= True self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
# For Python 2 from HTMLParser import HTMLParser from StringIO import StringIO class MLStripper(HTMLParser): def __init__(self): self.reset() self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
Dengan menghantar kandungan HTML ke fungsi strip_tags, anda boleh mengekstrak bahagian teks dengan mudah sahaja HTML:
cleaned_content = strip_tags("<b>Hello</b> world") # Prints "Hello world"
Kelas MLStripper ini dan fungsi strip_tags menyediakan cara yang mudah untuk memproses kandungan HTML dalam Python, membolehkan anda menumpukan pada kandungan teks tanpa gangguan pemformatan teg.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengeluarkan Kandungan Teks dengan Cekap daripada Rentetan HTML dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!