Python で文字列から HTML を削除する
HTML コンテンツを操作するとき、意味のあるテキストをマークアップ タグから分離することが必要になることがよくあります。さらなる処理または分析。これを Python で効率的に実現する方法を次に示します。
文字列から HTML タグを削除するには、Python 標準ライブラリの HTMLParser を利用します。このパーサーは、HTML ドキュメントを解析し、必要なコンテンツのみを抽出する簡単な方法を提供します。
Python 3 の場合は、次のコードを使用します。
from io import StringIO from html.parser import HTMLParser class TagStripper(HTMLParser): def __init__(self): super().__init__() self.reset() self.strict = False self.convert_charrefs = True self.text = StringIO() def handle_data(self, data): self.text.write(data) def get_data(self): return self.text.getvalue() def strip_html(html): stripper = TagStripper() stripper.feed(html) return stripper.get_data()
Python 2 の場合は、次のコードを使用します。
from HTMLParser import HTMLParser from StringIO import StringIO class TagStripper(HTMLParser): def __init__(self): self.reset() self.text = StringIO() def handle_data(self, data): self.text.write(data) def get_data(self): return self.text.getvalue() def strip_html(html): stripper = TagStripper() stripper.feed(html) return stripper.get_data()
それでは、その使用法を説明しましょう:
html = "<p>Hello, <em>world</em>!</p>" stripped_text = strip_html(html) print(stripped_text) # Output: Hello, world!
以上がPython で文字列から HTML タグを効率的に取り除くにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。