Python で urllib2 ライブラリをインストールする方法-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python で urllib2 ライブラリをインストールする方法

步履不停

Jul 02, 2019 pm 01:11 PM

python

Python で urllib2 ライブラリをインストールする方法

urllib2 は Python2.7 に付属するモジュールです (ダウンロードする必要はなく、インポートするだけで使用できます)。

urllib2 ライブラリの基本的な使用法

いわゆる Web ページクローリングでは、URL アドレスで指定されたネットワークリソースをネットワークストリームから読み取り、ローカルに保存します。。 Python には Web ページのクロールに使用できるライブラリが多数ありますが、まず urllib2 について学習しましょう。

urllib2 是 Python2.7 自带的模块(不需要下载，导入即可使用)
urllib2 官方文档：https://docs.python.org/2/library/urllib2.html
urllib2 源码：https://hg.python.org/cpython/file/2.7/Lib/urllib2.py

ログイン後にコピー

urllib2 は、python3.x

urlopen

で urllib.request に変更されました。コードの一部から始めましょう:

# urllib2_urlopen.py
 
# 导入urllib2 库
import urllib2
 
# 向指定的url发送请求，并返回服务器响应的类文件对象
response = urllib2.urlopen("http://www.baidu.com")
 
# 类文件对象支持 文件对象的操作方法，如read()方法读取文件全部内容，返回字符串
html = response.read()
 
# 打印字符串
print html

ログイン後にコピー

書かれた Python コードを実行すると結果が表示されます

Power@PowerMac ~$: python urllib2_urlopen.py

ログイン後にコピー

実際、ブラウザで Baidu のホームページを開き、右クリックして [ソースコードの表示] を選択すると、まさにそのとおりであることがわかります。先ほど印刷したものと同じです。言い換えれば、上記の 4 行のコードは、Baidu のホームページ上のすべてのコードをクロールダウンするのに役立ちました。

基本的な URL リクエストに対応する Python コードは、実際には非常に単純です。

Request

最初の例では、urlopen() のパラメータは URL アドレスです。

ただし、より複雑な操作を実行する必要がある場合は、 HTTP ヘッダーの追加などを行うには、urlopen() のパラメーターとして Request インスタンスを作成する必要があり、アクセスする必要がある URL アドレスは Request インスタンスのパラメーターとして使用されます。

urllib2_request.py

# urllib2_request.py
 
import urllib2
 
# url 作为Request()方法的参数，构造并返回一个Request对象
request = urllib2.Request("http://www.baidu.com")
 
# Request对象作为urlopen()方法的参数，发送给服务器并接收响应
response = urllib2.urlopen(request)
 
html = response.read()
 
print html

ログイン後にコピー

を編集します。実行結果はまったく同じです:

新建Request实例，除了必须要有 url 参数之外，还可以设置另外两个参数：
data（默认空）：是伴随 url 提交的数据（比如要post的数据），同时 HTTP 请求将从 "GET"方式 改为 "POST"方式。
headers（默认空）：是一个字典，包含了需要发送的HTTP报头的键值对。
这两个参数下面会说到。

ログイン後にコピー

User-Agent

ただし、これはurllib2 を使用して Web サイトにリクエストを送信するのは、確かに少し唐突です。どの家にもドアがあるのと同じように、通行人として直接侵入するのは明らかに礼儀正しくありません。さらに、サイトによってはプログラムによる訪問 (人間以外の訪問) を嫌っており、アクセス要求を拒否する場合があります。

しかし、法的アイデンティティを使用して他の人の Web サイトをリクエストする場合、それらは明らかに歓迎されるため、コードにアイデンティティ (いわゆる User-Agent ヘッダー) を追加する必要があります。

ブラウザは、インターネットの世界で認識され、許可されているアイデンティティです。クローラープログラムを実際のユーザーに近づけたい場合、最初のステップは、認識されたブラウザのふりをすることです。ブラウザーが異なれば、リクエストを送信する際の User-Agent ヘッダーも異なります。 urllib2 のデフォルトの User-Agent ヘッダーは次のとおりです: Python-urllib/x.y (x と y は Python-urllib/2.7 などの Python のメジャーバージョン番号とマイナーバージョン番号です)

#urllib2_useragent.py
 
import urllib2
 
url = "http://www.itcast.cn"
 
#IE 9.0 的 User-Agent，包含在 ua_header里
ua_header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"} 
 
#  url 连同 headers，一起构造Request请求，这个请求将附带 IE9.0 浏览器的User-Agent
request = urllib2.Request(url, headers = ua_header)
 
# 向服务器发送这个请求
response = urllib2.urlopen(request)
 
html = response.read()
print html

ログイン後にコピー

Addヘッダー情報の詳細

特定のヘッダーを HTTP リクエストに追加して、完全な HTTP リクエストメッセージを作成します。

Request.add_header() を呼び出して特定のヘッダーを追加/変更したり、Request.get_header() を呼び出して既存のヘッダーを表示したりできます。

特定のヘッダーを追加する

# urllib2_headers.py
 
import urllib2
 
url = "http://www.itcast.cn"
 
#IE 9.0 的 User-Agent
header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"} 
request = urllib2.Request(url, headers = header)
 
#也可以通过调用Request.add_header() 添加/修改一个特定的header
request.add_header("Connection", "keep-alive")
 
# 也可以通过调用Request.get_header()来查看header信息
# request.get_header(header_name="Connection")
 
response = urllib2.urlopen(req)
 
print response.code     #可以查看响应状态码
html = response.read()
 
print html

ログイン後にコピー

ユーザーエージェントをランダムに追加/変更する

# urllib2_add_headers.py
 
import urllib2
import random
 
url = "http://www.itcast.cn"
 
ua_list = [
    "Mozilla/5.0 (Windows NT 6.1; ) Apple.... ",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",
    "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ",
    "Mozilla/5.0 (Macintosh; Intel Mac OS... "
]
 
user_agent = random.choice(ua_list)
 
request = urllib2.Request(url)
 
#也可以通过调用Request.add_header() 添加/修改一个特定的header
request.add_header("User-Agent", user_agent)
 
# 第一个字母大写，后面的全部小写
request.get_header("User-agent")
 
response = urllib2.urlopen(req)
 
html = response.read()
print html

ログイン後にコピー

関連チュートリアルの推奨事項 : Python ビデオチュートリアル

以上がPython で urllib2 ライブラリをインストールする方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7554

CakePHP チュートリアル

1382

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

PHPおよびPython：コードの例と比較 Apr 15, 2025 am 12:07 AM

PHPとPythonには独自の利点と短所があり、選択はプロジェクトのニーズと個人的な好みに依存します。 1.PHPは、大規模なWebアプリケーションの迅速な開発とメンテナンスに適しています。 2。Pythonは、データサイエンスと機械学習の分野を支配しています。

CentosのPytorchのGPUサポートはどのようにサポートされていますか Apr 14, 2025 pm 06:48 PM

Pytorch GPUアクセラレーションを有効にすることで、CentOSシステムでは、PytorchのCUDA、CUDNN、およびGPUバージョンのインストールが必要です。次の手順では、プロセスをガイドします。CUDAおよびCUDNNのインストールでは、CUDAバージョンの互換性が決定されます。NVIDIA-SMIコマンドを使用して、NVIDIAグラフィックスカードでサポートされているCUDAバージョンを表示します。たとえば、MX450グラフィックカードはCUDA11.1以上をサポートする場合があります。 cudatoolkitのダウンロードとインストール：nvidiacudatoolkitの公式Webサイトにアクセスし、グラフィックカードでサポートされている最高のCUDAバージョンに従って、対応するバージョンをダウンロードしてインストールします。 cudnnライブラリをインストールする：

Python vs. JavaScript：コミュニティ、ライブラリ、リソース Apr 15, 2025 am 12:16 AM

PythonとJavaScriptには、コミュニティ、ライブラリ、リソースの観点から、独自の利点と短所があります。 1）Pythonコミュニティはフレンドリーで初心者に適していますが、フロントエンドの開発リソースはJavaScriptほど豊富ではありません。 2）Pythonはデータサイエンスおよび機械学習ライブラリで強力ですが、JavaScriptはフロントエンド開発ライブラリとフレームワークで優れています。 3）どちらも豊富な学習リソースを持っていますが、Pythonは公式文書から始めるのに適していますが、JavaScriptはMDNWebDocsにより優れています。選択は、プロジェクトのニーズと個人的な関心に基づいている必要があります。

Dockerの原則の詳細な説明 Apr 14, 2025 pm 11:57 PM

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム（UnionFS）は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

ミニオペンCentosの互換性 Apr 14, 2025 pm 05:45 PM

MINIOオブジェクトストレージ：CENTOSシステムの下での高性能展開Minioは、Amazons3と互換性のあるGO言語に基づいて開発された高性能の分散オブジェクトストレージシステムです。 Java、Python、JavaScript、Goなど、さまざまなクライアント言語をサポートしています。この記事では、CentosシステムへのMinioのインストールと互換性を簡単に紹介します。 Centosバージョンの互換性Minioは、Centos7.9を含むがこれらに限定されない複数のCentosバージョンで検証されています。

CentosでPytorchの分散トレーニングを操作する方法 Apr 14, 2025 pm 06:36 PM

Pytorchの分散トレーニングでは、Centosシステムでトレーニングには次の手順が必要です。Pytorchのインストール：PythonとPipがCentosシステムにインストールされていることです。 CUDAバージョンに応じて、Pytorchの公式Webサイトから適切なインストールコマンドを入手してください。 CPUのみのトレーニングには、次のコマンドを使用できます。PipinstalltorchtorchtorchvisionTorchaudioGPUサポートが必要な場合は、CUDAとCUDNNの対応するバージョンがインストールされ、インストールに対応するPytorchバージョンを使用してください。分散環境構成：分散トレーニングには、通常、複数のマシンまたは単一マシンの複数GPUが必要です。場所

CentosでPytorchバージョンを選択する方法 Apr 14, 2025 pm 06:51 PM

PytorchをCentosシステムにインストールする場合、適切なバージョンを慎重に選択し、次の重要な要因を検討する必要があります。1。システム環境互換性：オペレーティングシステム：Centos7以上を使用することをお勧めします。 Cuda and Cudnn：PytorchバージョンとCudaバージョンは密接に関連しています。たとえば、pytorch1.9.0にはcuda11.1が必要ですが、pytorch2.0.1にはcuda11.3が必要です。 CUDNNバージョンは、CUDAバージョンとも一致する必要があります。 Pytorchバージョンを選択する前に、互換性のあるCUDAおよびCUDNNバージョンがインストールされていることを確認してください。 Pythonバージョン：Pytorch公式支店

Python：自動化、スクリプト、およびタスク管理 Apr 16, 2025 am 12:14 AM

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1）自動化：OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2）スクリプトの書き込み：Psutilライブラリを使用してシステムリソースを監視します。 3）タスク管理：スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

See all articles

Python で urllib2 ライブラリをインストールする方法

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック