Web コンテンツを頻繁に扱う場合は、Web ページをクロールしてそこからテキスト コンテンツを抽出する必要がある場合があります。ただし、HTML コード内のタグとスタイル情報により、テキスト処理が非常に困難になる場合があります。この場合、Python プログラミング言語には、HTML タグを削除するための便利な関数とライブラリがいくつか用意されており、テキストをより簡単に処理して使用できるようになります。
Python には、HTML タグを削除するためによく使用される 2 つのライブラリ、re と BeautifulSoup が用意されています。ここでは、これら 2 つのライブラリをそれぞれ使用して HTML タグを削除する方法を学びます。
Python の re (正規表現) ライブラリには、強力な文字列処理機能があります。このライブラリのいくつかのメソッドを使用して、HTML タグを削除できます。具体的には、re.sub() 関数を使用して HTML タグを置き換えることができます。例を見てみましょう:
import re def remove_tags(text): TAG_RE = re.compile(r'<[^>]+>') return TAG_RE.sub('', text) html = '<html><head><title>Test</title></head><body><h1>Parse me!</h1></body></html>' print(remove_tags(html))
出力:
Test Parse me!
上記のコードでは、 re.compile() 関数を使用して、'<# を使用した正規表現オブジェクトを作成しています。 ##1 >'正規表現は HTML タグと一致します。次に、この正規表現オブジェクトをパラメータとして re.sub() 関数に渡します。この関数は、一致するすべてのタグを空の文字列に置き換えます。最後に、HTML タグが削除されたテキストを使用して関数を呼び出します。
単純な HTML テキストを処理するには re ライブラリを使用するだけで十分かもしれませんが、複雑な HTML テキストを処理する場合は、CSS スタイルや JavaScript スクリプトの処理を考慮し始めると、対処がより困難になることがわかります。と。この場合、BeautifulSoupライブラリを使用できます。 BeautifulSoup ライブラリの使用BeautifulSoup ライブラリを使用すると、HTML テキストの処理が容易になり、re ライブラリよりも柔軟性が高くなります。 BeautifulSoup は HTML テキストの解析に役立ち、タグやクラスなどの特定の要素を選択できるようになります。これを使用してすべてのタグを削除し、テキスト コンテンツを抽出できます。 これは例です:from bs4 import BeautifulSoup def remove_tags(text): soup = BeautifulSoup(text, 'html.parser') return soup.get_text() html = '<html><head><title>Test</title></head><body><h1>Parse me!</h1></body></html>' print(remove_tags(html))
Test Parse me!
以上がPythonでHTMLタグを削除する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。