ホームページ > ウェブフロントエンド > htmlチュートリアル > HTMLファイル内のテキストコンテンツを読み取る方法

HTMLファイル内のテキストコンテンツを読み取る方法

下次还敢
リリース: 2024-04-11 13:57:24
オリジナル
558 人が閲覧しました

HTML ファイル内のテキスト コンテンツを読み取るには、次の手順を実行します。 HTML ファイルをロードします。 HTML を解析します。 text 属性または get_text() メソッドを使用してテキストを抽出します。 オプション: クリーン テキスト (空白、特殊文字、文字列を削除します)小文字に変換) 出力テキスト (印刷、ファイルへの書き込みなど)

HTMLファイル内のテキストコンテンツを読み取る方法

#HTML ファイル内のテキスト コンテンツを読み取る方法

HTML ファイルからテキスト コンテンツを抽出するには、次の手順を使用できます:

1. HTML ファイルを読み込みます

<code class="python">import requests

url = 'https://example.com'
response = requests.get(url)</code>
ログイン後にコピー

2。 HTML を解析します

<code class="python">from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')</code>
ログイン後にコピー
##3. テキスト コンテンツを抽出します

##テキスト コンテンツを抽出するには 2 つの方法があります:

#Use

text
    属性:
  • タグ自体を含む、HTML タグ内のすべてのテキストを抽出します。 <div class="code" style="position:relative; padding:0px; margin:0px;"><pre class="brush:php;toolbar:false">&lt;code class=&quot;python&quot;&gt;text = soup.text&lt;/code&gt;</pre><div class="contentsignin">ログイン後にコピー</div></div>
  • 使用
get_text()
    メソッド:
  • HTML タグ内のテキストを抽出しますが、タグ自体は無視します。 <div class="code" style="position:relative; padding:0px; margin:0px;"><pre class="brush:php;toolbar:false">&lt;code class=&quot;python&quot;&gt;text = soup.get_text()&lt;/code&gt;</pre><div class="contentsignin">ログイン後にコピー</div></div>4. テキスト コンテンツのクリーンアップ (オプション)

テキスト コンテンツをさらにクリーンアップする必要がある場合は、次の操作を実行できます:

空白文字の削除:

  • <code class="python">text = text.replace(' ', '')</code>
    ログイン後にコピー
  • 特殊文字の削除:
  • <code class="python">import string
    
    text = text.translate(str.maketrans('', '', string.punctuation))</code>
    ログイン後にコピー
  • 小文字に変換:
  • <code class="python">text = text.lower()</code>
    ログイン後にコピー
    5. テキスト コンテンツの出力

テキスト コンテンツはさまざまな方法で出力できます。 :

コンソールへの出力:

  • <code class="python">print(text)</code>
    ログイン後にコピー
  • ファイルへの書き込み:
  • <code class="python">with open('output.txt', 'w') as f:
        f.write(text)</code>
    ログイン後にコピー

以上がHTMLファイル内のテキストコンテンツを読み取る方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート