Mengalih keluar Pemformatan HTML daripada Rentetan dalam Python
Pertimbangkan tugas mengekstrak kandungan dokumen HTML tanpa memaparkan teg pemformatan. Contohnya, elemen HTML beberapa teks hendaklah mengeluarkan hanya "beberapa teks," dan hello harus memaparkan "hello."
Penyelesaian
Pustaka Python terbina dalam menyediakan mekanisme yang berguna untuk mencapai matlamat ini:
Untuk Python 3:
from io import StringIO from html.parser import HTMLParser class MLStripper(HTMLParser): def __init__(self): super().__init__() self.reset() self.strict = False self.convert_charrefs= True self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
Untuk Python 2:
from HTMLParser import HTMLParser from StringIO import StringIO class MLStripper(HTMLParser): def __init__(self): self.reset() self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
Atas ialah kandungan terperinci Bagaimana untuk mengalih keluar Tag HTML dari String dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!