BeautifulSoup を使用して Web ページから表示テキストのみを抽出する方法
Web スクレイピングでは、多くの場合、表示テキストを含む Web ページのコンテンツの特定の部分を選択する必要があります。人気の Web スクレイピング ライブラリである BeautifulSoup を使用すると、コメントやスクリプトなどの非表示の要素を除いて、表示されているテキストだけを抽出できます。
元の質問:
元の質問この質問は、Web ページから表示されるテキストを分離することを目的としており、特にスクリプト タグ、HTML コメント、およびその他の表示されないコンテンツを除外します。ユーザーは、CSS や JavaScript などの要素を避けながら、本文のテキストと場合によってはいくつかのタブ名を取得したいと考えています。
回答の説明:
提供された回答は BeautifulSoup を利用しています。このリクエストを満たすためのカスタム フィルタリングも実行します。 tag_visible() 関数は、指定された要素が特定の非表示要素タイプのセット (スタイル、スクリプト、ヘッドなど) に属しているかどうか、または HTML コメントであるかどうかを評価します。該当する場合は、要素を除外する必要があることを示す False を返します。
text_from_html() 関数は、text 引数を指定した BeautifulSoup.findAll() メソッドを使用して、すべてのテキスト要素をキャプチャします。その後、tag_visible() フィルターをテキスト要素に適用して、表示されている要素を分離します。最後に、表示されているテキストを 1 つの文字列に結合し、Web ページの表示されているテキストのみから望ましい結果を生成します。
以上がBeautifulSoupを使用してWebページから表示されているテキストのみを抽出する方法?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。