网页爬虫 - python:爬取带有下拉框日期的数据?
高洛峰
高洛峰 2017-04-17 17:33:12
0
3
2126

需要用到这方面的数据,单独一页一页的复制了一段时间的数据,发现很是耗时,想从深圳市环保局下载空气质量历史数据。选择日期后,页面出现一个相应的数据表格,每天有24个时间点的。需要将每一天每一个小时的数据都爬下来。页面如下:
网址:http://www.szhec.gov.cn/pages/szepb/kqzl...

麻烦大家

高洛峰
高洛峰

拥有18年软件开发和IT教学经验。曾任多家上市公司技术总监、架构师、项目经理、高级软件工程师等职务。 网络人气名人讲师,...

全員に返信(3)
黄舟

requests.post を使用してリクエスト


上記画像のURL


ハッシュ値は上の図の位置にあります。

この写真は応答です

#coding=utf-8
bs4 import BeautifulSoup からのインポート リクエスト

get_url="http://www.szhec.gov.cn/pages/szepb/kqzl/TGzfwHjKqzlzs.jsp?FLAG=FIRSTFW"#ハッシュ値を取得
post_url="http://www.szhec. gov.cn/pages/szepb/kqzl/TGzfwHjKqzlzs.jsp" #大気質時間を取得する
html=requests.get(get_url)
#Beautiful を使用して Web ページを解析し、ハッシュ値を取得します
html_soup=BeautifulSoup (html .text,"html.parser")
hash=html_soup.select("input[name=hash]")
hash=hash[0].get('value')
#Constructデータ
データ={

リーリー

}
#この時点で品質管理時間の情報は正しく取得されています
tqHtml=requests.post(post_url,data=data)
print tqHtml.text

いいねを押す +0
刘奇

右クリックして要素を検査し、ネットワークを表示し、時間検索を選択して、次の名前の ajax API アドレスを表示します:

いいねを押す +0
PHPzhong

続き:
おそらくこのコードを試しましたが、プログラムはエラーを報告せず、結果も生成しませんでした。どうしたの?
インポートリクエスト
import xlwt
from bs4 import BeautifulSoup
import datetime
import tqdm

def datelist(開始、終了):

リーリー

def get_html():

リーリー

def get_excel():

リーリー

get_excel()

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート