Pythonクローラ技術導入サンプルコード解析-Python チュートリアル-php.cn

クローラ技術の基本概念

リクエストとレスポンス

HTML 解析とデータ抽出

実戦: Jianshu Web サイトのホームページの記事情報をクロールする

データの保存

テストと最適化

1. クローラー対策戦略に遭遇した場合、ユーザーエージェントを使用してブラウザーのふりをすることができます。

2. time.sleep() 関数を使用してリクエストの頻度を制御します。

3. エラー処理と例外のキャッチ。

Web サイトクローラーの完全なコード:

補足

ホームページ

バックエンド開発

Python チュートリアル

Pythonクローラ技術導入サンプルコード解析

王林

Apr 22, 2023 pm 01:04 PM

python

クローラ技術の基本概念

クローラ: ネットワークデータを自動的に取得するプログラム。
Web ページの構造: HTML、CSS、JavaScript など。
HTTP リクエスト: クライアントがサーバーにデータをリクエストする方法。
HTTP 応答: サーバーからクライアントに返されるデータ。

リクエストとレスポンス

Python のリクエストライブラリを使用して HTTP リクエストを送信します。

import requests
 
url = "https://www.example.com"
response = requests.get(url)

ログイン後にコピー

応答コンテンツの取得

html_content = response.text

ログイン後にコピー

HTML 解析とデータ抽出

BeautifulSoup ライブラリを使用して HTML コンテンツを解析します。

from bs4 import BeautifulSoup
 
soup = BeautifulSoup(html_content, "html.parser")

ログイン後にコピー

CSS セレクターまたはその他のメソッドを使用してデータを抽出します。

title = soup.title.string

ログイン後にコピー

実戦: Jianshu Web サイトのホームページの記事情報をクロールする

Jianshu Web サイトのホームページの HTML コンテンツを取得するリクエストを送信します。

import requests
from bs4 import BeautifulSoup
 
url = "https://www.jianshu.com"
response = requests.get(url)
html_content = response.text

ログイン後にコピー

データの保存

データを JSON 形式で保存します。

import json
 
with open("jianshu_articles.json", "w", encoding="utf-8") as f:
    json.dump(article_info_list, f, ensure_ascii=False, indent=4)

ログイン後にコピー

テストと最適化

1. クローラー対策戦略に遭遇した場合、ユーザーエージェントを使用してブラウザーのふりをすることができます。

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}
response = requests.get(url, headers=headers)

ログイン後にコピー

2. time.sleep() 関数を使用してリクエストの頻度を制御します。

import time
 
time.sleep(10)

ログイン後にコピー

3. エラー処理と例外のキャッチ。

try:
    response = requests.get(url, headers=headers, timeout=5)
    response.raise_for_status()
except requests.exceptions.RequestException as e:
    print(f"Error: {e}")

ログイン後にコピー

Web サイトクローラーの完全なコード:

import requests
from bs4 import BeautifulSoup
import json
import time
 
def fetch_jianshu_articles():
    url = "https://www.jianshu.com"
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}
 
    try:
        response = requests.get(url, headers=headers, timeout=5)
        response.raise_for_status()
    except requests.exceptions.RequestException as e:
        print(f"Error: {e}")
        return
 
    html_content = response.text
    soup = BeautifulSoup(html_content, "html.parser")
    articles = soup.find_all("div", class_="content")
    article_info_list = []
 
    for article in articles:
        title = article.h3.text.strip()
        author = article.find("span", class_="name").text.strip()
        link = url + article.h3.a["href"]
 
        article_info = {"title": title, "author": author, "link": link}
        article_info_list.append(article_info)
 
    return article_info_list
 
def save_to_json(article_info_list, filename):
    with open(filename, "w", encoding="utf-8") as f:
        json.dump(article_info_list, f, ensure_ascii=False, indent=4)
 
if __name__ == "__main__":
    article_info_list = fetch_jianshu_articles()
    if article_info_list:
        save_to_json(article_info_list, "jianshu_articles.json")
        print("Jianshu articles saved to &#39;jianshu_articles.json&#39;.")
    else:
        print("Failed to fetch Jianshu articles.")

ログイン後にコピー

補足

この実践的なプロジェクトをよりよく理解するには、いくつかの基本的な概念と原則を理解する必要があります。 Python ネットワークプログラミングとクローラーテクノロジーをマスターします。 Web クローリングの基本的な概念をいくつか示します。

HTTP プロトコル: ハイパーテキスト転送プロトコル (HTTP) は、HTML などのハイパーメディアドキュメントを送信するために使用されるアプリケーション層プロトコルです。 HTTP プロトコルは、Web サーバーから Web ブラウザまたは他のクライアントにデータを送信またはポストするために使用されます。
HTML、CSS、および JavaScript: HTML は、Web ページを記述するために使用される言語です。 CSS は HTML の構造を表現するために使用されるスタイルです。 JavaScript は Web プログラミング用のスクリプト言語であり、主に Web ページ上で動的な効果を実現したり、ユーザーと対話したりするために使用されます。
DOM: ドキュメントオブジェクトモデル (DOM) は、HTML および XML ドキュメントを処理するためのクロスプラットフォームプログラミングインターフェイスです。 DOM はドキュメントをツリー構造として扱い、各ノードがパーツ (要素、属性、テキストなど) を表します。
URL: URL (Uniform Resource Locator) は、インターネットリソースの場所を指定するために使用される文字列です。
リクエストヘッダー: HTTP リクエストでは、リクエストヘッダーにはクライアントの環境、ブラウザなどに関する情報が含まれます。一般的なリクエストヘッダーフィールドには、User-Agent、Accept、Referer などが含まれます。
応答ヘッダー: HTTP 応答の応答ヘッダーには、サーバーに関する情報、応答ステータスコード、その他の情報が含まれます。一般的な応答ヘッダーフィールドには、Content-Type、Content-Length、Server などが含まれます。
Web クローラー戦略: 一部の Web サイトでは、IP のブロック、アクセス速度の制限、JavaScript を使用したデータの動的ロードなど、クローラーによるデータのクロールを防ぐいくつかの戦略が採用されています。実際のアプリケーションでは、プロキシ IP の使用、クローラのクローリング速度の制限、ブラウザシミュレーションライブラリ (Selenium など) の使用など、これらの戦略に基づいて対応する対策を講じる必要があります。

以上がPythonクローラ技術導入サンプルコード解析の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7532

CakePHP チュートリアル

1379

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

PHPおよびPython：コードの例と比較 Apr 15, 2025 am 12:07 AM

PHPとPythonには独自の利点と短所があり、選択はプロジェクトのニーズと個人的な好みに依存します。 1.PHPは、大規模なWebアプリケーションの迅速な開発とメンテナンスに適しています。 2。Pythonは、データサイエンスと機械学習の分野を支配しています。

CentosでPytorchモデルを訓練する方法 Apr 14, 2025 pm 03:03 PM

CentOSシステムでのPytorchモデルの効率的なトレーニングには手順が必要であり、この記事では詳細なガイドが提供されます。 1。環境の準備：Pythonおよび依存関係のインストール：Centosシステムは通常Pythonをプリインストールしますが、バージョンは古い場合があります。 YumまたはDNFを使用してPython 3をインストールし、PIP：sudoyumupdatepython3（またはsudodnfupdatepython3）、pip3install-upgradepipをアップグレードすることをお勧めします。 cuda and cudnn（GPU加速）：nvidiagpuを使用する場合は、cudatoolをインストールする必要があります

Python vs. JavaScript：コミュニティ、ライブラリ、リソース Apr 15, 2025 am 12:16 AM

PythonとJavaScriptには、コミュニティ、ライブラリ、リソースの観点から、独自の利点と短所があります。 1）Pythonコミュニティはフレンドリーで初心者に適していますが、フロントエンドの開発リソースはJavaScriptほど豊富ではありません。 2）Pythonはデータサイエンスおよび機械学習ライブラリで強力ですが、JavaScriptはフロントエンド開発ライブラリとフレームワークで優れています。 3）どちらも豊富な学習リソースを持っていますが、Pythonは公式文書から始めるのに適していますが、JavaScriptはMDNWebDocsにより優れています。選択は、プロジェクトのニーズと個人的な関心に基づいている必要があります。

CentosのPytorchのGPUサポートはどのようにサポートされていますか Apr 14, 2025 pm 06:48 PM

Pytorch GPUアクセラレーションを有効にすることで、CentOSシステムでは、PytorchのCUDA、CUDNN、およびGPUバージョンのインストールが必要です。次の手順では、プロセスをガイドします。CUDAおよびCUDNNのインストールでは、CUDAバージョンの互換性が決定されます。NVIDIA-SMIコマンドを使用して、NVIDIAグラフィックスカードでサポートされているCUDAバージョンを表示します。たとえば、MX450グラフィックカードはCUDA11.1以上をサポートする場合があります。 cudatoolkitのダウンロードとインストール：nvidiacudatoolkitの公式Webサイトにアクセスし、グラフィックカードでサポートされている最高のCUDAバージョンに従って、対応するバージョンをダウンロードしてインストールします。 cudnnライブラリをインストールする：

Dockerの原則の詳細な説明 Apr 14, 2025 pm 11:57 PM

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム（UnionFS）は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

Centosの下でPytorchバージョンを選択する方法 Apr 14, 2025 pm 02:51 PM

CentOSでPytorchバージョンを選択する場合、次の重要な要素を考慮する必要があります。1。CUDAバージョンの互換性GPUサポート：NVIDIA GPUを使用してGPU加速度を活用したい場合は、対応するCUDAバージョンをサポートするPytorchを選択する必要があります。 NVIDIA-SMIコマンドを実行することでサポートされているCUDAバージョンを表示できます。 CPUバージョン：GPUをお持ちでない場合、またはGPUを使用したくない場合は、PytorchのCPUバージョンを選択できます。 2。PythonバージョンPytorch

NginxをCentosにインストールする方法 Apr 14, 2025 pm 08:06 PM

NGINXのインストールをインストールするには、次の手順に従う必要があります。開発ツール、PCRE-Devel、OpenSSL-Develなどの依存関係のインストール。 nginxソースコードパッケージをダウンロードし、それを解凍してコンパイルしてインストールし、/usr/local/nginxとしてインストールパスを指定します。 nginxユーザーとユーザーグループを作成し、アクセス許可を設定します。構成ファイルnginx.confを変更し、リスニングポートとドメイン名/IPアドレスを構成します。 nginxサービスを開始します。依存関係の問題、ポート競合、構成ファイルエラーなど、一般的なエラーに注意する必要があります。パフォーマンスの最適化は、キャッシュをオンにしたり、ワーカープロセスの数を調整するなど、特定の状況に応じて調整する必要があります。

CentosでPytorchの分散トレーニングを操作する方法 Apr 14, 2025 pm 06:36 PM

Pytorchの分散トレーニングでは、Centosシステムでトレーニングには次の手順が必要です。Pytorchのインストール：PythonとPipがCentosシステムにインストールされていることです。 CUDAバージョンに応じて、Pytorchの公式Webサイトから適切なインストールコマンドを入手してください。 CPUのみのトレーニングには、次のコマンドを使用できます。PipinstalltorchtorchtorchvisionTorchaudioGPUサポートが必要な場合は、CUDAとCUDNNの対応するバージョンがインストールされ、インストールに対応するPytorchバージョンを使用してください。分散環境構成：分散トレーニングには、通常、複数のマシンまたは単一マシンの複数GPUが必要です。場所

See all articles

Pythonクローラ技術導入サンプルコード解析

クローラ技術の基本概念

リクエストとレスポンス

HTML 解析とデータ抽出

実戦: Jianshu Web サイトのホームページの記事情報をクロールする

データの保存

テストと最適化

1. クローラー対策戦略に遭遇した場合、ユーザーエージェントを使用してブラウザーのふりをすることができます。

2. time.sleep() 関数を使用してリクエストの頻度を制御します。

3. エラー処理と例外のキャッチ。

Web サイトクローラーの完全なコード:

補足

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

Pythonクローラ技術導入サンプルコード解析

クローラ技術の基本概念

リクエストとレスポンス

HTML 解析とデータ抽出

実戦: Jianshu Web サイトのホームページの記事情報をクロールする

データの保存

テストと最適化

1. クローラー対策戦略に遭遇した場合、ユーザー エージェントを使用してブラウザーのふりをすることができます。

2. time.sleep() 関数を使用してリクエストの頻度を制御します。

3. エラー処理と例外のキャッチ。

Web サイト クローラーの完全なコード:

補足

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

1. クローラー対策戦略に遭遇した場合、ユーザーエージェントを使用してブラウザーのふりをすることができます。

Web サイトクローラーの完全なコード: