从 Python 中的字符串中删除 HTML 格式
考虑提取 HTML 文档内容而不显示格式标记的任务。例如,HTML 元素一些文本应该只输出“一些文本”,并且 hello应该显示“hello。”
解决方案
内置的Python库提供了一个有用的机制来实现这个目标:
对于Python 3:
from io import StringIO from html.parser import HTMLParser class MLStripper(HTMLParser): def __init__(self): super().__init__() self.reset() self.strict = False self.convert_charrefs= True self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
对于 Python 2:
from HTMLParser import HTMLParser from StringIO import StringIO class MLStripper(HTMLParser): def __init__(self): self.reset() self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
以上是如何在 Python 中从字符串中删除 HTML 标签?的详细内容。更多信息请关注PHP中文网其他相关文章!