HTML ファイル内のテキスト コンテンツを読み取るには、次の手順を実行します。 HTML ファイルをロードします。 HTML を解析します。 text 属性または get_text() メソッドを使用してテキストを抽出します。 オプション: クリーン テキスト (空白、特殊文字、文字列を削除します)小文字に変換) 出力テキスト (印刷、ファイルへの書き込みなど)
#HTML ファイル内のテキスト コンテンツを読み取る方法
HTML ファイルからテキスト コンテンツを抽出するには、次の手順を使用できます:1. HTML ファイルを読み込みます
import requests url = 'https://example.com' response = requests.get(url)
2。 HTML を解析します
from bs4 import BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser')
##テキスト コンテンツを抽出するには 2 つの方法があります:
#Use
text<div class="code" style="position:relative; padding:0px; margin:0px;"><pre class='brush:php;toolbar:false;'>text = soup.text</pre><div class="contentsignin">ログイン後にコピー</div></div>
<div class="code" style="position:relative; padding:0px; margin:0px;"><pre class='brush:php;toolbar:false;'>text = soup.get_text()</pre><div class="contentsignin">ログイン後にコピー</div></div>
4. テキスト コンテンツのクリーンアップ (オプション)テキスト コンテンツをさらにクリーンアップする必要がある場合は、次の操作を実行できます:
空白文字の削除:
text = text.replace(' ', '')
import string text = text.translate(str.maketrans('', '', string.punctuation))
text = text.lower()
テキスト コンテンツはさまざまな方法で出力できます。 :
コンソールへの出力:
print(text)
with open('output.txt', 'w') as f: f.write(text)
以上がHTMLファイル内のテキストコンテンツを読み取る方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。