python - 爬虫在运行一段时间后开始不断获得504的StatusCode，是否是对方站点的反爬虫策略导致？有何回避策略？

Question

最近初学用Python写网页爬虫视图扒取一个站点上的特定数据。 最近碰到的一个现象是，当爬虫运行了一段时间后(根据Fiddler抓包的结果来看，大概是发送了将近3万个http请求后)，爬虫的获取的http响应的StatusCode骤...

PHP中文网 · Answer

L'option proxy est cochée, ce qui est dû à un violoniste. Dans le passé, j'utilisais souvent fiddler pour capturer des paquets. Après un certain temps, je ne pouvais plus accéder au réseau. Décocher l'option proxy a résolu le problème

.

ringa_lee · Answer

Vous pouvez prêter attention à un composant open source que j'ai écrit, mettant en place un pool de serveurs proxy pour empêcher le blocage des stratégies anti-crawler, et ajustant automatiquement la fréquence des requêtes, traitant les requêtes anormales et donnant la priorité aux agents avec des réponses rapides. . https://github.com/letcheng/ProxyPool

PHP中文网 · Answer

1.Agent

2. Simuler une demande complète

3. Intervalles raisonnables

4.Déconnexion ADSL et recomposition

PHPz · Answer

Méthode :
Changez l'IP et utilisez une IP proxy. Il en existe de nombreuses gratuites et payantes en ligne
IP gratuite : http://www.uuip.net/
IP payante : http://www.daili666.net/

迷茫 · Answer

Essayez d'accéder via un proxy

天蓬老师 · Answer

Pourquoi la réponse à cette question est-elle ainsi ? L'erreur 50x réside dans le site Web lui-même