怎麼用Python實現職位分析報告-Python教學-PHP中文網

怎麼用Python實現職位分析報告

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

發布： 2023-05-01 22:07:22

轉載

1410 人瀏覽過

一、本文目標

取得Ajax 要求,解析JSON 中所需欄位

資料儲存到Excel 中

資料儲存到MySQL, 方便分析

#二、分析結果

1.引入庫

五個城市Python 職位平均薪資水準

#2.頁面結構

我們輸入查詢條件以Python 為例，其他條件預設不選，點選查詢，就能看到所有Python 的職位了，然後我們打開控制台，點擊網路標籤可以看到如下請求：

怎麼用Python實現職位分析報告

從回應結果來看，這個請求正是我們需要的內容。後面我們直接請求這個地址就好了。從圖中可以看出 result 下面是各個崗位資訊。

到這裡我們知道了從哪裡請求數據，從哪裡取得結果。但 result 清單中只有第一頁 15 則數據，其他頁面數據怎麼取得呢？

3.請求參數

我們點擊參數選項卡，如下：

發現提交了三個表單數據，很明顯看出來kd 是我們搜尋的關鍵字， pn 就是當前頁碼。 first 預設就行了，不用管它。剩下的事情就是建構請求，來下載 30 個頁面的資料了。

4.建構請求解析資料

建構請求很簡單，我們還是用 requests 函式庫來搞定。首先我們建構出表單資料

data = {&#39;first&#39;: &#39;true&#39;, &#39;pn&#39;: page, &#39;kd&#39;: lang_name}

登入後複製

之後用 requests 來請求url位址，解析得到的 JSON 資料就算大功告成了。由於拉勾對爬蟲限制比較嚴格，我們需要把瀏覽器中 headers 字段全部加上，而且把爬蟲間隔調大一點，我後面設置的為 10-20s，然後就能正常獲取數據了。

import requests

def get_json(url, page, lang_name):
   headers = {
       &#39;Host&#39;: &#39;www.lagou.com&#39;,
       &#39;Connection&#39;: &#39;keep-alive&#39;,
       &#39;Content-Length&#39;: &#39;23&#39;,
       &#39;Origin&#39;: &#39;https://www.lagou.com&#39;,
       &#39;X-Anit-Forge-Code&#39;: &#39;0&#39;,
       &#39;User-Agent&#39;: &#39;Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0&#39;,
       &#39;Content-Type&#39;: &#39;application/x-www-form-urlencoded; charset=UTF-8&#39;,
       &#39;Accept&#39;: &#39;application/json, text/javascript, */*; q=0.01&#39;,
       &#39;X-Requested-With&#39;: &#39;XMLHttpRequest&#39;,
       &#39;X-Anit-Forge-Token&#39;: &#39;None&#39;,
       &#39;Referer&#39;: &#39;https://www.lagou.com/jobs/list_python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=&#39;,
       &#39;Accept-Encoding&#39;: &#39;gzip, deflate, br&#39;,
       &#39;Accept-Language&#39;: &#39;en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7&#39;
   }
   data = {&#39;first&#39;: &#39;false&#39;, &#39;pn&#39;: page, &#39;kd&#39;: lang_name}
   json = requests.post(url, data, headers=headers).json()
   list_con = json[&#39;content&#39;][&#39;positionResult&#39;][&#39;result&#39;]
   info_list = []
   for i in list_con:
       info = []
       info.append(i.get(&#39;companyShortName&#39;, &#39;无&#39;))
       info.append(i.get(&#39;companyFullName&#39;, &#39;无&#39;))
       info.append(i.get(&#39;industryField&#39;, &#39;无&#39;))
       info.append(i.get(&#39;companySize&#39;, &#39;无&#39;))
       info.append(i.get(&#39;salary&#39;, &#39;无&#39;))
       info.append(i.get(&#39;city&#39;, &#39;无&#39;))
       info.append(i.get(&#39;education&#39;, &#39;无&#39;))
       info_list.append(info)
   return info_list

登入後複製

4.獲取所有數據

了解如何解析數據，剩下的就是連續請求所有頁面了，我們構造一個函數來請求所有 30 頁的數據。

def main():
   lang_name = &#39;python&#39;
   wb = Workbook()
   conn = get_conn()
   for i in [&#39;北京&#39;, &#39;上海&#39;, &#39;广州&#39;, &#39;深圳&#39;, &#39;杭州&#39;]:
       page = 1
       ws1 = wb.active
       ws1.title = lang_name
       url = &#39;https://www.lagou.com/jobs/positionAjax.json?city={}&needAddtionalResult=false&#39;.format(i)
       while page < 31:
           info = get_json(url, page, lang_name)
           page += 1
           import time
           a = random.randint(10, 20)
           time.sleep(a)
           for row in info:
               insert(conn, tuple(row))
               ws1.append(row)
   conn.close()
   wb.save(&#39;{}职位信息.xlsx&#39;.format(lang_name))

if __name__ == &#39;__main__&#39;:
   main()

登入後複製

以上是怎麼用Python實現職位分析報告的詳細內容。更多資訊請關注PHP中文網其他相關文章！