python - 如何在scrapy中带cookie访问？

Question

简单的通过scrapy访问雪球都报错，我知道要先访问一次雪球，需要cookie信息才能真正打开连接。scrapy据说可以不用在意cookie，会自动获取cookie。我按照这个连接在middleware里已经启用cookie，http://stackoverf...

PHP中文网 · Answer

Saya mencubanya sekali lagi.. Anda benar-benar tidak perlu log masuk.. Saya terlalu memikirkannya... Hanya minta xueqiu.com dahulu, dan kemudian minta alamat API selepas mendapat kuki.. Itu sahaja. .

============== Garis pemisah malu==============

Seperti yang disahkan oleh saya, anda perlu log masuk...

import scrapy
import hashlib
from scrapy.http import FormRequest, Request

class XueqiuScrapeSpider(scrapy.Spider):
    name = "xueqiu_scrape"
    allowed_domains = ["xueqiu.com"]

    def start_requests(self):
        m = hashlib.md5()
        m.update(b"your password")  # 在这里填入你的密码
        password = m.hexdigest().upper()
        form_data={
            "telephone": "your account",   # 在这里填入你的用户名
            "password": password,
            "remember_me": str(),
            "areacode": "86",
        }
        print(form_data)
        return [FormRequest(
            url="https://xueqiu.com/snowman/login", 
            formdata=form_data, 
            meta={"cookiejar": 1},
            callback=self.loged_in
            )]

    def loged_in(self, response):
        # print(response.url)
        return [Request(
            url="https://xueqiu.com/stock/f10/finmainindex.json?symbol=SZ000001&page=1&size=1",
            meta={"cookiejar": response.meta["cookiejar"]},
            callback=self.get_result,
            )]

    def get_result(self, response):
        print(response.body)

Selain itu, tapak web sememangnya telah mengesahkan User-Agent dan boleh ditetapkan dalam settings.py Sudah tentu, anda juga boleh menulisnya sendiri dalam fail perangkak. Kata laluan ialah rentetan yang disulitkan MD5.
Oh, ya, satu perkara lagi, kerana saya mendaftar dengan telefon bimbit saya, form_data adalah medan ini Jika anda menggunakan kaedah lain, anda hanya perlu menggunakan alat Chrome untuk melihat parameter yang ada pada permintaan POST dan ubah suai itu sendiri form_data Kandungan akan berjaya.

黄舟 · Answer

Haha, terima kasih, ia telah menyelesaikan kekeliruan selama beberapa hari. Saya pernah melakukannya melalui permintaan sebelum ini, tidak perlu log masuk, pos kod,

session = requests.Session()
session.headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}
session.get('https://xueqiu.com')
for page in range(1,100):
    url = 'https://xueqiu.com/stock/f10/finmainindex.json?symbol=SZ000001&page=%s&size=1' % page
    print url
    r = session.get(url)
#print r.json().list
    a = r.text