网页爬虫 - python 爬取网站 并解析非json内容
学习ing
学习ing 2017-06-28 09:26:28
0
2
1119

小弟刚学会获得json的内容,但今天爬的网站返回的并不是json内容 并且会有一个随机数的生成在每次请求链接的后面

不知道会不会影响我要爬的内容

需要获得内容是下图中间的内容


网站链接 http://www.szse.cn/main/discl...

我自己尝试的代码:

import requests

dir = '/Users/S1Lence/Desktop/new_html/szse/许可类重组问询函'

headers = {'Host': 'www.szse.cn',
       'Referer': 'http://www.szse.cn/main/disclosure/jgxxgk/wxhj/',
       'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36'
       }
payload= {'ACTIONID': '7',          
       'AJAX': 'AJAX-TRUE',
      'CATALOGID': 'main_wxhj',
      'TABKEY': 'tab1',
      'selecthjlb': '许可类重组问询函',
      'tab1PAGENO': '1',
      'tab1PAGECOUNT': '7',
      'tab1RECORDCOUNT': '63',
      'REPORT_ACTION': 'navigate'}
res = requests.post('http://www.szse.cn/szseWeb/FrontControllere', data=payload)
print(res.text)

输出的内容并不是我想要的 求解应该怎么爬

学习ing
学习ing

全部回复(2)
黄舟

把他的header信息拷过来用。。

漂亮男人

你post的url地址写错了,应该是

http://www.szse.cn/szseWeb/FrontController.szse
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板