ホームページ > バックエンド開発 > Python チュートリアル > Python を使用してジョブ分析レポートを実装する方法

Python を使用してジョブ分析レポートを実装する方法

WBOY
リリース: 2023-05-01 22:07:22
転載
1322 人が閲覧しました

1. この記事の目的

Ajax リクエストを取得し、JSON の必須フィールドを解析します

データを Excel に保存します

データを MySQL に保存します。簡単分析

2. 分析結果

1. ライブラリの紹介

5都市におけるPythonポジションの平均給与水準

2. ページ構成

クエリを入力します。例として条件は Python です。他の条件はデフォルトでは選択されていません。すべての Python の位置を表示するには、[クエリ] をクリックします。次に、コンソールを開いて [ネットワーク] タブをクリックすると、次のリクエストが表示されます:

Python を使用してジョブ分析レポートを実装する方法

#応答結果から判断すると、このリクエストはまさに必要なものです。後でこのアドレスを直接リクエストすることができます。写真からわかるように、各位置の情報は次の結果になります。

ここで、データをリクエストする場所と結果を取得する場所がわかります。しかし、結果リストの最初のページには 15 個のデータしかありません。他のページのデータを取得するにはどうすればよいでしょうか?

3. リクエスト パラメーター

次のようにパラメーター タブをクリックします:

3 つのフォーム データが送信されたことがわかりました。kd がキーワードであることは明らかです。 pn は現在のページ番号です。デフォルトで最初に設定するだけなので、心配する必要はありません。残っているのは、30 ページのデータをダウンロードするリクエストを作成することだけです。

4. リクエストの構築とデータの解析

リクエストの構築は非常に簡単ですが、これを行うには引き続きリクエスト ライブラリを使用します。まず、フォーム データ

data = {'first': 'true', 'pn': page, 'kd': lang_name}
ログイン後にコピー

を構築し、リクエストを使用して URL アドレスを要求すると、解析された JSON データが完成します。 Lagouではクローラーの制限が厳しいので、ブラウザのヘッダーフィールドを全て追加し、クローラー間隔を長くする必要がありますが、10~20秒後に設定したところ、正常にデータが取得できるようになりました。

import requests

def get_json(url, page, lang_name):
   headers = {
       'Host': 'www.lagou.com',
       'Connection': 'keep-alive',
       'Content-Length': '23',
       'Origin': 'https://www.lagou.com',
       'X-Anit-Forge-Code': '0',
       'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0',
       'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
       'Accept': 'application/json, text/javascript, */*; q=0.01',
       'X-Requested-With': 'XMLHttpRequest',
       'X-Anit-Forge-Token': 'None',
       'Referer': 'https://www.lagou.com/jobs/list_python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=',
       'Accept-Encoding': 'gzip, deflate, br',
       'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'
   }
   data = {'first': 'false', 'pn': page, 'kd': lang_name}
   json = requests.post(url, data, headers=headers).json()
   list_con = json['content']['positionResult']['result']
   info_list = []
   for i in list_con:
       info = []
       info.append(i.get('companyShortName', '无'))
       info.append(i.get('companyFullName', '无'))
       info.append(i.get('industryField', '无'))
       info.append(i.get('companySize', '无'))
       info.append(i.get('salary', '无'))
       info.append(i.get('city', '无'))
       info.append(i.get('education', '无'))
       info_list.append(info)
   return info_list
ログイン後にコピー

4. すべてのデータを取得する

データの解析方法を理解したので、残っているのはすべてのページを連続的にリクエストすることだけです。30 ページすべてのデータをリクエストする関数を構築します。 。

rree

以上がPython を使用してジョブ分析レポートを実装する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:yisu.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート