怎麼用Python實現職位分析報告

WBOY
發布: 2023-05-01 22:07:22
轉載
1264 人瀏覽過

一、本文目標

取得Ajax 要求,解析JSON 中所需欄位

資料儲存到Excel 中

資料儲存到MySQL, 方便分析

#二、分析結果

1.引入庫

五個城市Python 職位平均薪資水準

#2.頁面結構

我們輸入查詢條件以Python 為例,其他條件預設不選,點選查詢,就能看到所有Python 的職位了,然後我們打開控制台,點擊網路標籤可以看到如下請求:

怎麼用Python實現職位分析報告

從回應結果來看,這個請求正是我們需要的內容。後面我們直接請求這個地址就好了。從圖中可以看出 result 下面是各個崗位資訊。

到這裡我們知道了從哪裡請求數據,從哪裡取得結果。但 result 清單中只有第一頁 15 則數據,其他頁面數據怎麼取得呢?

3.請求參數

我們點擊參數選項卡,如下:

發現提交了三個表單數據,很明顯看出來kd 是我們搜尋的關鍵字, pn 就是當前頁碼。 first 預設就行了,不用管它。剩下的事情就是建構請求,來下載 30 個頁面的資料了。

4.建構請求 解析資料

建構請求很簡單,我們還是用 requests 函式庫來搞定。首先我們建構出表單資料

data = {'first': 'true', 'pn': page, 'kd': lang_name}
登入後複製

之後用 requests 來請求url位址,解析得到的 JSON 資料就算大功告成了。由於拉勾對爬蟲限制比較嚴格,我們需要把瀏覽器中 headers 字段全部加上,而且把爬蟲間隔調大一點,我後面設置的為 10-20s,然後就能正常獲取數據了。

import requests

def get_json(url, page, lang_name):
   headers = {
       'Host': 'www.lagou.com',
       'Connection': 'keep-alive',
       'Content-Length': '23',
       'Origin': 'https://www.lagou.com',
       'X-Anit-Forge-Code': '0',
       'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0',
       'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
       'Accept': 'application/json, text/javascript, */*; q=0.01',
       'X-Requested-With': 'XMLHttpRequest',
       'X-Anit-Forge-Token': 'None',
       'Referer': 'https://www.lagou.com/jobs/list_python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=',
       'Accept-Encoding': 'gzip, deflate, br',
       'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'
   }
   data = {'first': 'false', 'pn': page, 'kd': lang_name}
   json = requests.post(url, data, headers=headers).json()
   list_con = json['content']['positionResult']['result']
   info_list = []
   for i in list_con:
       info = []
       info.append(i.get('companyShortName', '无'))
       info.append(i.get('companyFullName', '无'))
       info.append(i.get('industryField', '无'))
       info.append(i.get('companySize', '无'))
       info.append(i.get('salary', '无'))
       info.append(i.get('city', '无'))
       info.append(i.get('education', '无'))
       info_list.append(info)
   return info_list
登入後複製

4.獲取所有數據

了解如何解析數據,剩下的就是連續請求所有頁面了,我們構造一個函數來請求所有 30 頁的數據。

def main():
   lang_name = 'python'
   wb = Workbook()
   conn = get_conn()
   for i in ['北京', '上海', '广州', '深圳', '杭州']:
       page = 1
       ws1 = wb.active
       ws1.title = lang_name
       url = 'https://www.lagou.com/jobs/positionAjax.json?city={}&needAddtionalResult=false'.format(i)
       while page < 31:
           info = get_json(url, page, lang_name)
           page += 1
           import time
           a = random.randint(10, 20)
           time.sleep(a)
           for row in info:
               insert(conn, tuple(row))
               ws1.append(row)
   conn.close()
   wb.save(&#39;{}职位信息.xlsx&#39;.format(lang_name))

if __name__ == &#39;__main__&#39;:
   main()
登入後複製

以上是怎麼用Python實現職位分析報告的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:yisu.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!