クローラーの基本的なプロセスのリクエストとレスポンスの概要

爱喝马黛茶的安东尼
リリース: 2019-06-05 11:05:19
転載
5458 人が閲覧しました

python に基づくクローラーは、Web サイトからデータ (リクエストからレスポンスまでのプロセス) を取得したいと考えています。ブラウザを偽装してサーバーに Request リクエストを送信し、サーバーは情報を受け入れた後に Response で応答します。

クローラーの基本的なプロセスのリクエストとレスポンスの概要


前回の記事では、

クローラーとは何か、およびクローラーの基本プロセスの概要について説明しました 、今日私が与えるのは、皆さんが持ってくるものは、基本的なプロセス、リクエストとレスポンスとは何かについての詳細な紹介です。

#リクエスト

1. リクエストとは何ですか?

#ブラウザは、URL が存在するサーバーに情報を送信します。このプロセスは HTTP リクエストと呼ばれます。


#2.リクエストには何が含まれますか?

リクエスト メソッド: リクエスト メソッドの主な種類は、GET と POST、HEAD、PUT、DELETE などです。 GET リクエストのリクエスト パラメータは URL リンクの後に表示されます。たとえば、Baidu を開いて「写真」を検索すると、リクエストされた URL リンクは https://www.baidu.com/s? wd=写真。 POST リクエストのリクエスト パラメータはリクエストに保存され、URL リンクの後ろには表示されません。たとえば、Zhihu にログインしてユーザー名とパスワードを入力すると、ブラウザ開発者ツールの [ネットワーク] ページが表示されます。リクエスト リクエストには、フォーム データのキーと値のペア情報が含まれており、そこにログイン情報が保存され、アカウント情報のセキュリティを保護するのに役立ちます。リクエスト URL: URL の完全名は、Uniform Resource Locator であり、これを URL と呼びます。たとえば、画像、音楽ファイル、Web ドキュメントなどは、一意の URL によって決定できます。そこに含まれる情報は、ファイルの場所とブラウザがそれを処理する方法を示します。リクエスト ヘッダー: リクエスト ヘッダーに次の内容が含まれる場合ユーザーエージェント (ブラウザーのリクエストヘッダーを指定)、ホスト、Cookie およびその他の情報などのリクエストヘッダー情報; リクエストボディ: リクエストボディは、ログインによって送信されたログイン情報データなど、リクエストによって運ばれる追加データです。形状。


#レスポンス

1. レスポンスとは何ですか?

サーバーは、ブラウザーから送信された情報を受信すると、ブラウザーから送信された情報の内容に基づいて適切に処理し、メッセージをブラウザーに送り返します。このプロセスは次のとおりです。 HTTPレスポンスと呼ばれます。

2.応答には何が含まれますか?

応答ステータス: 成功の場合は 200、ジャンプ ページの場合は 301、ページが見つからない場合は 404、サーバー エラーの場合は 502 など、多数の応答ステータスがあります。応答ヘッダー: コンテンツ タイプ、コンテンツ長など、サーバー情報、Cookie 設定など; 応答本文: Web ページの HTML コード、画像バイナリ データなど、要求されたリソースのコンテンツを含む、応答本文の最も重要な部分。

簡単なデモンストレーション

import requests # 导入requests库,需要安装
 
# 模拟成浏览器访问的头
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
resp = requests.get('https://www.baidu.com',headers=headers)
print(resp.text) # 打印出网页源代码
print(resp.status_code) # 打印出状态码
ログイン後にコピー

正常に実行されると、印刷された HTML ソース コードと 200 ステータス コードが表示されます。これは基本的に、クローラーのリクエストとレスポンスのプロセスを実装します。

以上がクローラーの基本的なプロセスのリクエストとレスポンスの概要の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:csdn.net
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート