网页爬虫 - python 爬虫问题,请问为什么我爬不下这个的数据?求解,网站都能打开。
PHP中文网
PHP中文网 2017-04-17 17:49:31
0
2
217
import sys
import time
import requests
import json
reload(sys)
sys.setdefaultencoding('utf-8')
time=int(time.time())
session=requests.session()
user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.87 Safari/537.36'
headers={'User-Agent':user_agent,'Host':'xygs.gsaic.gov.cn','Connection':'keep-alive','Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'}
params={'pripid':'62030200052016012700011'}
cookies={'JSESSIONID':'2B33BC6D34DF44BE8D76C2AE20701D95'}
Url='http://xygs.gsaic.gov.cn/gsxygs/smallEnt!view.do?pripid=62030200052016012700011'
captcha=session.get(Url,headers=headers,params=(params),cookies=cookies).text
print captcha

得不到表格里的信息,求解为什么啊?

PHP中文网
PHP中文网

认证高级PHP讲师

全部回覆(2)
小葫芦

https://segmentfault.com/q/1010000005117988
前一個問題幫你解答了,不知道有沒有解決你的問題,為啥沒有任何反映
如已解決採納, 這個問題的代碼如下:

import requests

headers = {
    'Accept-Language': 'zh-CN,zh;q=0.8,en;q=0.6'
}
url = 'http://xygs.gsaic.gov.cn/gsxygs/smallEnt!view.do?pripid=62030200052016012700011'
r = requests.get(url, headers=headers)
print r.text
迷茫

網頁表格使用了ajax技術。你可以用chrome工具中的Network看表格來源。
另外爬蟲不僅語言python基礎。你最好學習下web開發相關的知識,特別是js和http協議
不好意思,之前因為在手機上作答所以沒有仔細看、

剛剛看了下,是因為你缺少Accept-Language協定頭

熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!