Python を使用した HTML ファイルからのテキストの抽出: 総合ガイド
概要
テキストの抽出HTML ファイルからの .html ファイルは、さまざまなデータ処理および分析タスクに不可欠な場合があります。正規表現は単純な HTML 構造には使用できるかもしれませんが、形式が不十分なコードでは困難になる可能性があります。この記事では、強力な代替手段である Beautiful Soup について検討し、不要な JavaScript を効果的に削除し、HTML エンティティを解釈する実用的なソリューションを提供します。
Beautiful Soup の使用
テキストを抽出するには、 Beautiful Soup、次の手順に従います:
の空白行を削除します。コード例
完全なコードは次のとおりです例:
from urllib.request import urlopen from bs4 import BeautifulSoup url = "http://news.bbc.co.uk/2/hi/health/2284783.stm" html = urlopen(url).read() soup = BeautifulSoup(html, features="html.parser") for script in soup(["script", "style"]): script.extract() text = soup.get_text() lines = (line.strip() for line in text.splitlines()) chunks = (phrase.strip() for line in lines for phrase in line.split(" ")) text = '\n'.join(chunk for chunk in chunks if chunk) print(text)
追加オプション
結論
このガイドは、HTML ファイルからテキストを抽出するための包括的なソリューションを提供します。美しいスープ。不要な要素を削除し、HTML エンティティを解釈することで、さらなる処理と分析のためのプレーン テキスト出力を効果的に生成します。
以上がPython を使用して HTML ファイルからクリーン テキストを効率的に抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。