Python と Redis を使用した Web クローラーの構築: クロール対策戦略に対処する方法-Redis-php.cn

Python と Redis を使用した Web クローラーの構築: クロール対策戦略に対処する方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

リリース： 2023-07-30 13:45:29

オリジナル

1393 人が閲覧しました

Python と Redis を使用した Web クローラーの構築: クローラー対策戦略に対処する方法

はじめに:
近年、インターネットの急速な発展に伴い、Web クローラーは Web クローラーの 1 つになりました。情報とデータを入手する重要な手段。しかし、多くの Web サイトは独自のデータを保護するために、さまざまなクローラー対策戦略を採用しており、それがクローラーにとって問題を引き起こしています。この記事では、Python と Redis を使用して強力な Web クローラーを構築し、一般的なクローラー対策戦略を解決する方法を紹介します。

基本的なクローラー設定
まず、requests、Beautifulsoup、redis-py などの関連ライブラリをインストールする必要があります。以下は、クローラーの基本パラメーターを設定し、Redis 接続を初期化するための簡単なコード例です。

import requests
from bs4 import BeautifulSoup
import redis

# 设置爬虫的基本参数
base_url = "https://example.com"  # 待爬取的网站
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36"  # 设置User-Agent

# 初始化Redis连接
redis_host = "localhost"  # Redis主机地址
redis_port = 6379  # Redis端口号
r = redis.StrictRedis(host=redis_host, port=redis_port, db=0)

ログイン後にコピー

リクエストヘッダー情報の処理
クローラー対策戦略の 1 つは、次のとおりです。リクエストヘッダー User-Agent を検出して、リクエストが実際のブラウザからのものかどうかを判断します。上記のコードの user_agent など、コード内に適切な User-Agent を設定して、ブラウザー要求をシミュレートできます。

headers = {
    "User-Agent": user_agent
}

ログイン後にコピー

IP プロキシの処理
多くの Web サイトでは、同じ IP アドレスに対するリクエストの頻度を制限したり、アクセスホワイトリストを設定したりします。この制限を回避するには、プロキシ IP プールを使用できます。ここでは、Redis を使用してプロキシ IP を保存し、リクエストごとに IP がランダムに選択されます。

# 从Redis中获取代理IP
proxy_ip = r.srandmember("proxy_ip_pool")

proxies = {
    "http": "http://" + proxy_ip,
    "https": "https://" + proxy_ip
}

ログイン後にコピー

検証コードの処理
自動クロールを防ぐために、一部の Web サイトではユーザーの信頼性を検証するための検証コードを設定します。 Pillow などのサードパーティライブラリを使用して検証コードを処理したり、Tesseract などのオープンソースツールを画像認識に使用したりできます。

# 处理验证码，此处以Pillow库为例
from PIL import Image
import pytesseract

# 下载验证码图片
captcha_url = base_url + "/captcha.jpg"
response = requests.get(captcha_url, headers=headers, proxies=proxies)
# 保存验证码图片
with open("captcha.jpg", "wb") as f:
    f.write(response.content)
# 识别验证码
captcha_image = Image.open("captcha.jpg")
captcha_text = pytesseract.image_to_string(captcha_image)

ログイン後にコピー

動的に読み込まれるコンテンツの処理
多くの Web サイトでは、動的読み込みテクノロジ (AJAX など) を使用して、一部またはすべてのコンテンツを読み込みます。この場合、Selenium や Puppeteer など、ブラウザーでの JavaScript コードの実行をシミュレートするツールを使用できます。

from selenium import webdriver

# 使用Selenium模拟浏览器访问
driver = webdriver.Chrome()
driver.get(base_url)
# 等待页面加载完成
time.sleep(3)
# 获取页面源码
page_source = driver.page_source
# 使用BeautifulSoup解析页面
soup = BeautifulSoup(page_source, "html.parser")

ログイン後にコピー

アカウントログインの処理
一部の Web サイトでは、コンテンツにアクセスする前にユーザーがログインする必要があります。Selenium を使用すると、ログインフォームに自動的に入力して送信できます。

# 填写登录表单
driver.find_element_by_id("username").send_keys("your_username")
driver.find_element_by_id("password").send_keys("your_password")
# 提交表单
driver.find_element_by_id("submit").click()

ログイン後にコピー

結論:
Python と Redis を使用して Web クローラーを構築することで、一般的なクローラー対策戦略に効果的に対処し、より安定した効率的なデータ取得を実現できます。実際のアプリケーションでは、特定の Web サイトのクローラー対策戦略に基づいて、さらなる最適化と適応が必要です。この記事があなたのクローラー開発作業に役立つことを願っています。

以上がPython と Redis を使用した Web クローラーの構築: クロール対策戦略に対処する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。