Python クローラーがプロキシを使用して Web ページをクロールする方法の詳細な説明-Python チュートリアル-php.cn

urllib モジュールは proxy を使用します

requestsモジュールは使用しますプロキシを使用した proxy

ホームページ

バックエンド開発

Python チュートリアル

Python クローラーがプロキシを使用して Web ページをクロールする方法の詳細な説明

高洛峰

Mar 19, 2017 pm 02:43 PM

プロキシの種類 (プロキシ): 透明なプロキシ、匿名プロキシ、混乱を招くプロキシ、および高匿名性プロキシここでは、プロキシを使用する python クローラーと、さまざまな複雑なクロールに対処するのに便利なプロキシプールクラスについて説明します。仕事上の問題。

urllib モジュールは proxy を使用します

urllib/urllib2 プロキシを使用するのはさらに面倒です。最初に ProxyHandler クラスを構築し、次にこのクラスを使用して Web ページを開くオープナークラスを構築し、次にオープナーをインストールする必要があります。 request.

プロキシ形式は「http://127.0.0.1:80」、アカウントのパスワードが必要な場合は「http://user:password@127.0.0.1:80」です。

proxy="http://127.0.0.1:80"
# 创建一个ProxyHandler对象
proxy_support=urllib.request.ProxyHandler({&#39;http&#39;:proxy})
# 创建一个opener对象
opener = urllib.request.build_opener(proxy_support)
# 给request装载opener
urllib.request.install_opener(opener)
# 打开一个url
r = urllib.request.urlopen(&#39;http://youtube.com&#39;,timeout = 500)

ログイン後にコピー

requestsモジュールは使用しますプロキシを使用した proxy

リクエストは urllib よりも簡単です。ここでは例として単一のプロキシを示します。プロキシを使用する必要がある場合は、session を使用して構築できます。任意のリクエストメソッドにプロキシパラメータを指定して、単一のリクエストを設定します。

import requests
proxies = {
  "http": "http://127.0.0.1:3128",
  "https": "http://127.0.0.1:2080",
}
r=requests.get("http://youtube.com", proxies=proxies)
print r.text

ログイン後にコピー

また、環境変数

HTTP_PROXY および HTTPS_PROXY を使用してプロキシを設定することもできます。

export HTTP_PROXY="http://127.0.0.1:3128"
export HTTPS_PROXY="http://127.0.0.1:2080"
python
>>> import requests
>>> r=requests.get("http://youtube.com")
>>> print r.text

ログイン後にコピー

プロキシで HTTP Basic 認証を使用する必要がある場合は、http://user:password@host/ を使用できます。構文:

proxies = {
    "http": "http://user:pass@127.0.0.1:3128/",
}

ログイン後にコピー

Python のプロキシは非常に簡単に使用できます。最も重要なことは、次のようなプロキシを見つけることです。安定した信頼できるネットワーク。ご質問がございましたら、メッセージを残してください。

以上がPython クローラーがプロキシを使用して Web ページをクロールする方法の詳細な説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7321

Java チュートリアル

1625

CakePHP チュートリアル

1349

Laravel チュートリアル

1261

PHP チュートリアル

1209

Related knowledge

Pythonを使用してテキストファイルのZIPF配布を見つける方法 Mar 05, 2025 am 09:58 AM

このチュートリアルでは、Pythonを使用してZIPFの法則の統計的概念を処理する方法を示し、法律の処理時にPythonの読み取りおよび並べ替えの効率性を示します。 ZIPF分布という用語が何を意味するのか疑問に思うかもしれません。この用語を理解するには、まずZIPFの法律を定義する必要があります。心配しないでください、私は指示を簡素化しようとします。 ZIPFの法則 ZIPFの法則は単に意味します。大きな自然言語のコーパスでは、最も頻繁に発生する単語は、2番目の頻繁な単語のほぼ2倍の頻度で表示されます。例を見てみましょう。アメリカ英語の茶色のコーパスを見ると、最も頻繁な言葉は「thであることに気付くでしょう。

HTMLを解析するために美しいスープを使用するにはどうすればよいですか？ Mar 10, 2025 pm 06:54 PM

この記事では、Pythonライブラリである美しいスープを使用してHTMLを解析する方法について説明します。 find（）、find_all（）、select（）、およびget_text（）などの一般的な方法は、データ抽出、多様なHTML構造とエラーの処理、および代替案（SEL

Pythonでの画像フィルタリング Mar 03, 2025 am 09:44 AM

ノイズの多い画像を扱うことは、特に携帯電話や低解像度のカメラの写真でよくある問題です。このチュートリアルでは、OpenCVを使用してPythonの画像フィルタリング手法を調査して、この問題に取り組みます。画像フィルタリング：強力なツール画像フィルター

Pythonを使用してPDFドキュメントの操作方法 Mar 02, 2025 am 09:54 AM

PDFファイルは、クロスプラットフォームの互換性に人気があり、オペレーティングシステム、読み取りデバイス、ソフトウェア間でコンテンツとレイアウトが一貫しています。ただし、Python Plansing Plain Text Filesとは異なり、PDFファイルは、より複雑な構造を持つバイナリファイルであり、フォント、色、画像などの要素を含んでいます。幸いなことに、Pythonの外部モジュールでPDFファイルを処理することは難しくありません。この記事では、PYPDF2モジュールを使用して、PDFファイルを開き、ページを印刷し、テキストを抽出する方法を示します。 PDFファイルの作成と編集については、私からの別のチュートリアルを参照してください。準備コアは、外部モジュールPYPDF2を使用することにあります。まず、PIPを使用してインストールします。ピップはpです