网页爬虫 - python 爬虫问题,请问为什么我爬不下这个的数据?求解,网站都能打开。
PHP中文网
PHP中文网 2017-04-17 17:49:31
0
2
218
import sys
import time
import requests
import json
reload(sys)
sys.setdefaultencoding('utf-8')
time=int(time.time())
session=requests.session()
user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.87 Safari/537.36'
headers={'User-Agent':user_agent,'Host':'xygs.gsaic.gov.cn','Connection':'keep-alive','Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'}
params={'pripid':'62030200052016012700011'}
cookies={'JSESSIONID':'2B33BC6D34DF44BE8D76C2AE20701D95'}
Url='http://xygs.gsaic.gov.cn/gsxygs/smallEnt!view.do?pripid=62030200052016012700011'
captcha=session.get(Url,headers=headers,params=(params),cookies=cookies).text
print captcha

得不到表格里的信息,求解为什么啊?

PHP中文网
PHP中文网

认证高级PHP讲师

모든 응답(2)
小葫芦

https://segmentfault.com/q/1010000005117988
이전 질문에 대한 답변이 해결되었는지 모르겠습니다.
응답이 없다면 이유는 무엇입니까? 해결되었으면 이 질문을 수락하세요. 코드는 다음과 같습니다.

으아악
迷茫

웹 양식은 Ajax 기술을 사용합니다. 크롬 도구에서 네트워크를 사용하여 테이블 소스를 볼 수 있습니다.
게다가 크롤러는 Python 언어에만 기반을 두지 않습니다. 웹 개발 관련 지식, 특히 js 및 http 프로토콜을 배우는 것이 좋습니다
죄송합니다. 휴대폰으로 답변을 드렸기 때문에 주의 깊게 읽지 못했습니다.

방금 확인해 보니 Accept-Language 프로토콜 헤더가 누락되었기 때문입니다

최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!