Webcrawler – wie Python-Crawler JSON-Inhalte verarbeitet

Question

Wenn Sie es nicht klar sehen können, lautet die Website-Adresse http://www.sse.com.cn/disclos... Der rote Text ist der Inhalt, den ich brauche, aber ich kann ihn nicht extrahieren. Bitte sagen Sie mir, wie das geht Betreiben Sie es.

三叔 · Answer

import requests

url = 'http://query.sse.com.cn/commonSoaQuery.do?siteId=28&sqlId=BS_GGLL&extGGLX=&stockcode=&channelId=10743%2C10744%2C10012&extGGDL=&order=createTime%7Cdesc%2Cstockcode%7Casc&isPagination=true&pageHelp.pageSize=15&pageHelp.pageNo=1&pageHelp.beginPage=1&pageHelp.cacheSize=1&pageHelp.endPage=5'

headers = {
    'Referer':'http://www.sse.com.cn/disclosure/credibility/supervision/inquiries/',
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
r = requests.get(url, headers=headers)
print r.json()['result']

欧阳克 · Answer

import requests
url = 'http://query.sse.com.cn/commonSoaQuery.do?siteId=28&sqlId=BS_GGLL&extGGLX=&stockcode=&channelId=10743%2C10744%2C10012&extGGDL=&order=createTime%7Cdesc%2Cstockcode%7Casc&isPagination=true&pageHelp.pageSize=15&pageHelp.pageNo=1&pageHelp.beginPage=1&pageHelp.cacheSize=1&pageHelp.endPage=5&_=1498029409382'
session = requests.session()
session.headers.update({
    'Referer': 'http://www.sse.com.cn/disclosure/credibility/supervision/inquiries/',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
})
result = session.get(url).json()
print result