ホームページ バックエンド開発 Python チュートリアル Beautiful Soup を使用してパブリック Web からデータを抽出する方法

Beautiful Soup を使用してパブリック Web からデータを抽出する方法

Aug 02, 2024 am 09:20 AM

How Beautiful Soup is used to extract data out of the Public Web

Beautiful Soup は、Web ページからデータを収集するために使用される Python ライブラリです。 HTML および XML ドキュメントを解析するための解析ツリーを作成し、必要な情報を簡単に抽出できるようにします。

Beautiful Soup は、Web スクレイピングのためのいくつかの重要な機能を提供します。

  1. 解析ツリーのナビゲート: 解析ツリーを簡単にナビゲートして、要素、タグ、属性を検索できます。
  2. 解析ツリーの変更: タグや属性の追加、削除、更新など、解析ツリーを変更できます。
  3. 出力形式: 解析ツリーを文字列に変換して戻すことができるため、変更したコンテンツを簡単に保存できます。

Beautiful Soup を使用するには、lxml や html.parser などのパーサーとともにライブラリをインストールする必要があります。 pip
を使用してインストールできます。

#Install Beautiful Soup using pip.
pip install beautifulsoup4 lxml
ログイン後にコピー

ページネーションの処理

複数のページにまたがってコンテンツを表示する Web サイトを扱う場合、すべてのデータを収集するにはページネーションの処理が不可欠です。

  1. ページネーション構造を特定する: Web サイトを検査して、ページネーションがどのように構造化されているか (次ページ ボタンや番号付きリンクなど) を理解します。
  2. ページの反復: ループを使用して各ページを反復し、データをスクレイピングします。
  3. URL またはパラメータを更新します: URL またはパラメータを変更して、次のページのコンテンツを取得します。
import requests
from bs4 import BeautifulSoup

base_url = 'https://example-blog.com/page/'
page_number = 1
all_titles = []

while True:
    # Construct the URL for the current page
    url = f'{base_url}{page_number}'
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    # Find all article titles on the current page
    titles = soup.find_all('h2', class_='article-title')
    if not titles:
        break  # Exit the loop if no titles are found (end of pagination)

    # Extract and store the titles
    for title in titles:
        all_titles.append(title.get_text())

    # Move to the next page
    page_number += 1

# Print all collected titles
for title in all_titles:
    print(title)
ログイン後にコピー

ネストされたデータの抽出

抽出する必要があるデータが複数のタグ層内にネストされている場合があります。ネストされたデータ抽出を処理する方法は次のとおりです。

  1. 親タグに移動します: ネストされたデータを含む親タグを見つけます。
  2. ネストされたタグの抽出: 各親タグ内で、ネストされたタグを検索して抽出します。
  3. ネストされたタグを反復処理します: ネストされたタグを反復処理して、必要な情報を抽出します。
import requests
from bs4 import BeautifulSoup

url = 'https://example-blog.com/post/123'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

# Find the comments section
comments_section = soup.find('div', class_='comments')

# Extract individual comments
comments = comments_section.find_all('div', class_='comment')

for comment in comments:
    # Extract author and content from each comment
    author = comment.find('span', class_='author').get_text()
    content = comment.find('p', class_='content').get_text()
    print(f'Author: {author}\nContent: {content}\n')

ログイン後にコピー

AJAXリクエストの処理

最近の Web サイトの多くは AJAX を使用してデータを動的に読み込みます。 AJAX を処理するには、ブラウザ開発者ツールを使用してネットワーク リクエストを監視し、スクレイパーでそれらのリクエストを複製するなど、さまざまなテクニックが必要です。

import requests
from bs4 import BeautifulSoup

# URL to the API endpoint providing the AJAX data
ajax_url = 'https://example.com/api/data?page=1'
response = requests.get(ajax_url)
data = response.json()

# Extract and print data from the JSON response
for item in data['results']:
    print(item['field1'], item['field2'])

ログイン後にコピー

Webスクレイピングのリスク

Web スクレイピングでは、法的、技術的、倫理的なリスクを慎重に検討する必要があります。適切な安全対策を実装することで、これらのリスクを軽減し、責任を持って効果的に Web スクレイピングを実行できます。

  • 利用規約違反: 多くの Web サイトでは、利用規約 (ToS) でスクレイピングを明示的に禁止しています。これらの規約に違反すると、法的措置につながる可能性があります。
  • 知的財産の問題: 許可なくコンテンツをスクレイピングすると、知的財産権が侵害され、法的紛争につながる可能性があります。
  • IP ブロック: Web サイトは、スクレイピング動作を示す IP アドレスを検出してブロックする場合があります。
  • アカウントの禁止: ユーザー認証が必要な Web サイトでスクレイピングが実行された場合、スクレイピングに使用されたアカウントが禁止される可能性があります。

Beautiful Soup は、HTML および XML ドキュメントをナビゲートおよび検索するための使いやすいインターフェイスを提供することで、Web スクレイピングのプロセスを簡素化する強力なライブラリです。さまざまな解析タスクを処理できるため、Web からデータを抽出したい人にとって不可欠なツールになります。

以上がBeautiful Soup を使用してパブリック Web からデータを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Pythonを使用してテキストファイルのZIPF配布を見つける方法 Pythonを使用してテキストファイルのZIPF配布を見つける方法 Mar 05, 2025 am 09:58 AM

Pythonを使用してテキストファイルのZIPF配布を見つける方法

Pythonでファイルをダウンロードする方法 Pythonでファイルをダウンロードする方法 Mar 01, 2025 am 10:03 AM

Pythonでファイルをダウンロードする方法

Pythonでの画像フィルタリング Pythonでの画像フィルタリング Mar 03, 2025 am 09:44 AM

Pythonでの画像フィルタリング

HTMLを解析するために美しいスープを使用するにはどうすればよいですか? HTMLを解析するために美しいスープを使用するにはどうすればよいですか? Mar 10, 2025 pm 06:54 PM

HTMLを解析するために美しいスープを使用するにはどうすればよいですか?

Pythonを使用してPDFドキュメントの操作方法 Pythonを使用してPDFドキュメントの操作方法 Mar 02, 2025 am 09:54 AM

Pythonを使用してPDFドキュメントの操作方法

DjangoアプリケーションでRedisを使用してキャッシュする方法 DjangoアプリケーションでRedisを使用してキャッシュする方法 Mar 02, 2025 am 10:10 AM

DjangoアプリケーションでRedisを使用してキャッシュする方法

Natural Language Toolkit(NLTK)の紹介 Natural Language Toolkit(NLTK)の紹介 Mar 01, 2025 am 10:05 AM

Natural Language Toolkit(NLTK)の紹介

TensorflowまたはPytorchで深い学習を実行する方法は? TensorflowまたはPytorchで深い学習を実行する方法は? Mar 10, 2025 pm 06:52 PM

TensorflowまたはPytorchで深い学習を実行する方法は?

See all articles