python - 如何在scrapy中带cookie访问？

Question

简单的通过scrapy访问雪球都报错，我知道要先访问一次雪球，需要cookie信息才能真正打开连接。scrapy据说可以不用在意cookie，会自动获取cookie。我按照这个连接在middleware里已经启用cookie，http://stackoverf...

PHP中文网 · Answer

Je l'ai réessayé.. Vous n'avez vraiment pas besoin de vous connecter.. J'y réfléchis trop... Demandez simplement à xueqiu.com d'abord, puis demandez l'adresse API après avoir obtenu le cookie.. C'est tout. .

==============La ligne de démarcation de la honte==============

Comme vérifié par moi, vous devez vous connecter...

import scrapy
import hashlib
from scrapy.http import FormRequest, Request

class XueqiuScrapeSpider(scrapy.Spider):
    name = "xueqiu_scrape"
    allowed_domains = ["xueqiu.com"]

    def start_requests(self):
        m = hashlib.md5()
        m.update(b"your password")  # 在这里填入你的密码
        password = m.hexdigest().upper()
        form_data={
            "telephone": "your account",   # 在这里填入你的用户名
            "password": password,
            "remember_me": str(),
            "areacode": "86",
        }
        print(form_data)
        return [FormRequest(
            url="https://xueqiu.com/snowman/login", 
            formdata=form_data, 
            meta={"cookiejar": 1},
            callback=self.loged_in
            )]

    def loged_in(self, response):
        # print(response.url)
        return [Request(
            url="https://xueqiu.com/stock/f10/finmainindex.json?symbol=SZ000001&page=1&size=1",
            meta={"cookiejar": response.meta["cookiejar"]},
            callback=self.get_result,
            )]

    def get_result(self, response):
        print(response.body)

De plus, le site Web a effectivement été vérifié User-Agent et peut être défini dans settings.py. Bien sûr, vous pouvez également l'écrire vous-même dans le fichier du robot. Le mot de passe est une chaîne cryptée MD5.
Oh, oui, encore une chose, car je me suis inscrit avec mon téléphone portable, form_data sont ces champs. Si vous utilisez d'autres méthodes, il vous suffit d'utiliser l'outil Chrome pour voir les paramètres de la requête POST et les modifier. faites-le vous-même form_data Le contenu ira bien.

黄舟 · Answer

Haha, merci, cela a résolu la confusion pendant quelques jours. Avant, je le faisais par demande, pas besoin de me connecter, de poster le code,

session = requests.Session()
session.headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}
session.get('https://xueqiu.com')
for page in range(1,100):
    url = 'https://xueqiu.com/stock/f10/finmainindex.json?symbol=SZ000001&page=%s&size=1' % page
    print url
    r = session.get(url)
#print r.json().list
    a = r.text