目次
1. Web クローラーとは
Web クローラーが必要な理由
Web クローラーのアプリケーション
2. ネットワーク伝送プロトコル HTTP
いよいよ Web ページのクロールを正式に開始します
出力結果
コードの 1 行目: リクエスト ライブラリをロードします。コードの 2 行目: Web サイト番号を入力します。 3 行のコード: リクエストを使用したリクエストの一般的な形式は次のとおりです:
ホームページ バックエンド開発 Python チュートリアル Python Web クローラーリクエストライブラリの使用方法

Python Web クローラーリクエストライブラリの使用方法

May 15, 2023 am 10:34 AM
python requests

1. Web クローラーとは

簡単に言うと、インターネットからデータを自動的にダウンロード、解析、整理するプログラムを構築することです。

Web を閲覧するときと同じように、興味のあるコンテンツをコピーしてノートブックに貼り付け、次回の閲覧や閲覧を容易にします。Web クローラーは、これらのコンテンツを自動的に完成させるのに役立ちます。

もちろん、コピー&ペーストできない Web サイトに遭遇した場合は、Web クローラーがさらに威力を発揮します

Web クローラーが必要な理由

データ分析を行う必要がある場合- そして多くの場合、これらのデータは Web ページに保存されており、手動でのダウンロードには時間がかかりすぎます。現時点では、これらのデータを自動的にクロールできるようにする Web クローラーが必要です (もちろん、Web 上で利用できないデータはフィルターで除外されます)使用するもの)

Web クローラーのアプリケーション

ネットワーク データへのアクセスと収集には非常に幅広い用途があり、その多くはデータ サイエンスの分野に属します。次の例を見てください:

淘宝網の販売者は、顧客の心をさらに捉え、顧客のショッピング心理を分析するために、大量のレビューから有用な肯定的情報と否定的情報を見つける必要があります。 Twitter と Weibo うつ病や自殺願望を特定するための予測モデルを構築するためのデータセットを構築するための情報 - より多くの困っている人が助けを得ることができるように - もちろん、プライバシー関連の問題も考慮する必要があります - しかし、クールであるだけではありませんそれ?

人工知能エンジニアとして、彼らは Ins からボランティアの好みの写真をクロールして、与えられた画像がボランティアに気に入られるかどうかを予測する深層学習モデルをトレーニングしました。;携帯電話メーカーは、これらのモデルを写真アプリをプッシュして送信します。 ECプラットフォームのデータサイエンティストは、ユーザーが閲覧した商品の情報をクロールし、分析・予測を行うことで、ユーザーが最も知りたい、最も買いたい商品をプッシュします

はい! Web クローラーは、高解像度の壁紙や写真の毎日のバッチ クローリングから、人工知能、深層学習、ビジネス戦略策定のためのデータ ソースに至るまで、幅広く使用されています。

この時代はデータの時代、データは「新しい石油」です

2. ネットワーク伝送プロトコル HTTP

はい、Web クローラーに関して言えば、避けては通れないのは、もちろん、この HTTP については、ネットワーク エンジニアのようにプロトコル定義をすべて詳しく理解する必要はありませんが、入門としてはある程度の理解は必要です。 ## 国際標準化機構 ISO はオープン通信システム相互接続参照モデル OSI を維持しており、このモデルはコンピュータ通信構造を 7 つの層に分割します

    物理層: イーサネット プロトコル、USB プロトコルを含む、Bluetooth プロトコルなど
  1. #データリンク層: イーサネットプロトコルを含む
  2. ##ネットワーク層: IP プロトコルを含む

  3. ##トランスポート層: TCP、UDP プロトコルを含む

  4. セッション層: セッションの開始/終了および管理のためのプロトコルが含まれます

  5. # プレゼンテーション層: データの書式設定と変換を保護するためのプロトコルが含まれています
  6. アプリケーション層: HTTP および DNS ネットワーク サービス プロトコルが含まれています
  7. ##次に、以下を見てみましょう。 HTTP リクエストとレスポンスがどのようなものであるか (後でリクエスト ヘッダーの定義に関係するため) 一般的なリクエスト メッセージは次の内容で構成されます。
  8. #リクエスト ライン

複数のリクエストヘッダー
  • 空行
  • ##オプションのメッセージ本文

  • ##特定のリクエスト メッセージ:

    GET https://www.baidu.com/?tn=80035161_1_dg HTTP/1.1
    Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
    Accept-Language: zh-Hans-CN,zh-Hans;q=0.8,en-GB;q=0.5,en;q=0.3
    Upgrade-Insecure-Requests: 1
    User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362
    Accept-Encoding: gzip, deflate, br
    Host: www.baidu.com
    Connection: Keep-Alive
    ログイン後にコピー

    これはアクセスです。もちろん、Python のリクエスト パッケージがクロールの完了に役立つため、Baidu のリクエストの多くの詳細を知る必要はありません。
  • もちろん、リクエストに対して Web ページから返された情報も表示できます:

    HTTP/1.1 200 OK //这边的状态码为200表示我们的请求成功
    Bdpagetype: 2
    Cache-Control: private
    Connection: keep-alive
    Content-Encoding: gzip
    Content-Type: text/html;charset=utf-8
    Date: Sun, 09 Aug 2020 02:57:00 GMT
    Expires: Sun, 09 Aug 2020 02:56:59 GMT
    X-Ua-Compatible: IE=Edge,chrome=1
    Transfer-Encoding: chunked
    ログイン後にコピー

    3. リクエスト ライブラリ (理論的な知識が苦手な学生はここに直接来てください)
Python にもHTTP を処理するための他のプリセット ライブラリ (urllib と urllib3) もありますが、request ライブラリの方が学習しやすく、コードがシンプルで理解しやすいです。もちろん、Web ページのクロールに成功し、興味のあるものを抽出できたら、別の非常に便利なライブラリである Beautiful Soup について触れます。これは後で詳しく説明します

#1. リクエスト ライブラリのインストール

ここで、インストールするリクエストの .whl ファイルを直接見つけることも、pip を使用して直接インストールすることもできます (もちろん、pycharm をお持ちの場合は、内部の環境が読み込みとダウンロードを行っているため、直接インストールできます)

2. 実際の戦闘

いよいよ Web ページのクロールを正式に開始します

コードは次のとおりです:

import requests
target = 'https://www.baidu.com/'
get_url = requests.get(url=target)
print(get_url.status_code)
print(get_url.text)
ログイン後にコピー

出力結果

200 //返回状态码200表示请求成功
<!DOCTYPE html>//这里删除了很多内容,实际上输出的网页信息比这要多得多
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;
charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge>
<meta content=always name=referrer>
<link rel=stylesheet type=text/css 
src=//www.baidu.com/img/gs.gif> 
</p> </div> </div> </div> </body> </html>
ログイン後にコピー

上記の 5 行のコードは多くのことを行っています。すでに Web ページのすべての HTML コンテンツをクロールできます。

コードの 1 行目: リクエスト ライブラリをロードします。コードの 2 行目: Web サイト番号を入力します。 3 行のコード: リクエストを使用したリクエストの一般的な形式は次のとおりです:

对象 = requests.get(url=你想要爬取的网站地址)
ログイン後にコピー

コードの 4 行目: リクエストのステータス コードを返します。コードの 5 行目: 出力対応するコンテンツ本文

もちろん、その他のコンテンツを印刷することもできます

import requests

target = &#39;https://www.baidu.com/&#39;
get_url = requests.get(url=target)
# print(get_url.status_code)
# print(get_url.text)
print(get_url.reason)//返回状态
print(get_url.headers)
//返回HTTP响应中包含的服务器头的内容(和上面展示的内容差不多)
print(get_url.request)
print(get_url.request.headers)//返回请求中头的内容
ログイン後にコピー
OK
{&#39;Cache-Control&#39;: &#39;private, no-cache, no-store, proxy-revalidate, no-transform&#39;, 
&#39;Connection&#39;: &#39;keep-alive&#39;, 
&#39;Content-Encoding&#39;: &#39;gzip&#39;, 
&#39;Content-Type&#39;: &#39;text/html&#39;, 
&#39;Date&#39;: &#39;Sun, 09 Aug 2020 04:14:22 GMT&#39;,
&#39;Last-Modified&#39;: &#39;Mon, 23 Jan 2017 13:23:55 GMT&#39;, 
&#39;Pragma&#39;: &#39;no-cache&#39;, 
&#39;Server&#39;: &#39;bfe/1.0.8.18&#39;, 
&#39;Set-Cookie&#39;: &#39;BDORZ=27315; max-age=86400; domain=.baidu.com; path=/&#39;, &#39;Transfer-Encoding&#39;: &#39;chunked&#39;}
<PreparedRequest [GET]>
{&#39;User-Agent&#39;: &#39;python-requests/2.22.0&#39;, 
&#39;Accept-Encoding&#39;: &#39;gzip, deflate&#39;, 
&#39;Accept&#39;: &#39;*/*&#39;, 
&#39;Connection&#39;: &#39;keep-alive&#39;}
ログイン後にコピー

以上がPython Web クローラーリクエストライブラリの使用方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

PHPおよびPython:さまざまなパラダイムが説明されています PHPおよびPython:さまざまなパラダイムが説明されています Apr 18, 2025 am 12:26 AM

PHPは主に手順プログラミングですが、オブジェクト指向プログラミング(OOP)もサポートしています。 Pythonは、OOP、機能、手続き上のプログラミングなど、さまざまなパラダイムをサポートしています。 PHPはWeb開発に適しており、Pythonはデータ分析や機械学習などのさまざまなアプリケーションに適しています。

PHPとPythonの選択:ガイド PHPとPythonの選択:ガイド Apr 18, 2025 am 12:24 AM

PHPはWeb開発と迅速なプロトタイピングに適しており、Pythonはデータサイエンスと機械学習に適しています。 1.PHPは、単純な構文と迅速な開発に適した動的なWeb開発に使用されます。 2。Pythonには簡潔な構文があり、複数のフィールドに適しており、強力なライブラリエコシステムがあります。

PHPとPython:彼らの歴史を深く掘り下げます PHPとPython:彼らの歴史を深く掘り下げます Apr 18, 2025 am 12:25 AM

PHPは1994年に発信され、Rasmuslerdorfによって開発されました。もともとはウェブサイトの訪問者を追跡するために使用され、サーバー側のスクリプト言語に徐々に進化し、Web開発で広く使用されていました。 Pythonは、1980年代後半にGuidovan Rossumによって開発され、1991年に最初にリリースされました。コードの読みやすさとシンプルさを強調し、科学的コンピューティング、データ分析、その他の分野に適しています。

Python vs. JavaScript:学習曲線と使いやすさ Python vs. JavaScript:学習曲線と使いやすさ Apr 16, 2025 am 12:12 AM

Pythonは、スムーズな学習曲線と簡潔な構文を備えた初心者により適しています。 JavaScriptは、急な学習曲線と柔軟な構文を備えたフロントエンド開発に適しています。 1。Python構文は直感的で、データサイエンスやバックエンド開発に適しています。 2。JavaScriptは柔軟で、フロントエンドおよびサーバー側のプログラミングで広く使用されています。

Sublime Code Pythonを実行する方法 Sublime Code Pythonを実行する方法 Apr 16, 2025 am 08:48 AM

PythonコードをSublimeテキストで実行するには、最初にPythonプラグインをインストールし、次に.pyファイルを作成してコードを書き込み、Ctrl Bを押してコードを実行する必要があります。コードを実行すると、出力がコンソールに表示されます。

vscodeでコードを書く場所 vscodeでコードを書く場所 Apr 15, 2025 pm 09:54 PM

Visual Studioコード(VSCODE)でコードを作成するのはシンプルで使いやすいです。 VSCODEをインストールし、プロジェクトの作成、言語の選択、ファイルの作成、コードの書き込み、保存して実行します。 VSCODEの利点には、クロスプラットフォーム、フリーおよびオープンソース、強力な機能、リッチエクステンション、軽量で高速が含まれます。

Visual StudioコードはPythonで使用できますか Visual StudioコードはPythonで使用できますか Apr 15, 2025 pm 08:18 PM

VSコードはPythonの書き込みに使用でき、Pythonアプリケーションを開発するための理想的なツールになる多くの機能を提供できます。ユーザーは以下を可能にします。Python拡張機能をインストールして、コードの完了、構文の強調表示、デバッグなどの関数を取得できます。デバッガーを使用して、コードを段階的に追跡し、エラーを見つけて修正します。バージョンコントロールのためにGitを統合します。コードフォーマットツールを使用して、コードの一貫性を維持します。糸くずツールを使用して、事前に潜在的な問題を発見します。

メモ帳でPythonを実行する方法 メモ帳でPythonを実行する方法 Apr 16, 2025 pm 07:33 PM

メモ帳でPythonコードを実行するには、Python実行可能ファイルとNPPEXECプラグインをインストールする必要があります。 Pythonをインストールしてパスを追加した後、nppexecプラグインでコマンド「python」とパラメーター "{current_directory} {file_name}"を構成して、メモ帳のショートカットキー「F6」を介してPythonコードを実行します。

See all articles