网页爬虫 - python 爬虫问题,请问为什么我爬不下这个的数据?求解,网站都能打开。
PHP中文网
PHP中文网 2017-04-17 17:49:31
0
2
266
import sys
import time
import requests
import json
reload(sys)
sys.setdefaultencoding('utf-8')
time=int(time.time())
session=requests.session()
user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.87 Safari/537.36'
headers={'User-Agent':user_agent,'Host':'xygs.gsaic.gov.cn','Connection':'keep-alive','Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'}
params={'pripid':'62030200052016012700011'}
cookies={'JSESSIONID':'2B33BC6D34DF44BE8D76C2AE20701D95'}
Url='http://xygs.gsaic.gov.cn/gsxygs/smallEnt!view.do?pripid=62030200052016012700011'
captcha=session.get(Url,headers=headers,params=(params),cookies=cookies).text
print captcha

得不到表格里的信息,求解为什么啊?

PHP中文网
PHP中文网

认证高级PHP讲师

répondre à tous(2)
小葫芦

https://segmentfault.com/q/1010000005117988
Je vous ai aidé à répondre à la question précédente. Je ne sais pas si cela a résolu votre problème. Pourquoi n'y a-t-il pas de réponse
Si elle a été résolue, pensez à l'accepter. le code de cette question est le suivant :

import requests

headers = {
    'Accept-Language': 'zh-CN,zh;q=0.8,en;q=0.6'
}
url = 'http://xygs.gsaic.gov.cn/gsxygs/smallEnt!view.do?pripid=62030200052016012700011'
r = requests.get(url, headers=headers)
print r.text
迷茫

Le formulaire Web utilise la technologie ajax. Vous pouvez utiliser Réseau dans les outils Chrome pour afficher la source du tableau.
De plus, le robot n'est pas uniquement basé sur le langage python. Vous feriez mieux d'acquérir quelques connaissances liées au développement web, notamment les protocoles js et http
Désolé, je ne l'ai pas lu attentivement car j'ai répondu sur mon téléphone portable

.

Je viens de vérifier, c'est parce qu'il vous manque l'en-tête du protocole Accept-Language

Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal