communauté

Apprendre

Bibliothèque d'outils

Outils d'IA

Loisirs

Français

Maison > développement back-end > Tutoriel Python > python爬虫之Scrapy 使用代理配置

python爬虫之Scrapy 使用代理配置

高洛峰

Libérer： 2016-10-17 13:56:57

original

2379 Les gens l'ont consulté

在爬取网站内容的时候，最常遇到的问题是：网站对IP有限制，会有防抓取功能，最好的办法就是IP轮换抓取（加代理）

下面来说一下Scrapy如何配置代理，进行抓取

1.在Scrapy工程下新建“middlewares.py”

# Importing base64 library because we&#39;ll need it ONLY in case if the proxy we are going to use requires authentication
import base64 
# Start your middleware class
class ProxyMiddleware(object):
    # overwrite process request
    def process_request(self, request, spider):
        # Set the location of the proxy
        request.meta[&#39;proxy&#39;] = "http://YOUR_PROXY_IP:PORT"
  
        # Use the following lines if your proxy requires authentication
        proxy_user_pass = "USERNAME:PASSWORD"
        # setup basic authentication for the proxy
        encoded_user_pass = base64.encodestring(proxy_user_pass)
        request.headers[&#39;Proxy-Authorization&#39;] = &#39;Basic &#39; + encoded_user_pass

Copier après la connexion

2.在项目配置文件里(./pythontab/settings.py)添加

DOWNLOADER_MIDDLEWARES = {
    &#39;scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware&#39;: 110,
    &#39;pythontab.middlewares.ProxyMiddleware&#39;: 100,
}

Copier après la connexion

Étiquettes associées：

python爬虫之Scrapy 使用代理配置

Article précédent：10个实用的Django技巧和建议 Article suivant：scrapy定制爬虫-爬取javascript内容

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Derniers articles par auteur

Exemples de paramètres HTML pour les effets de police gras, italique, souligné, barré et autres

1970-01-01 08:00:00
实现一个 Java 版的 Redis

1970-01-01 08:00:00
La démo d'applet WeChat la plus simple

1970-01-01 08:00:00
Introduction aux méthodes de fonctionnement simples de pandas.DataFrame (créer, indexer, ajouter et supprimer) en python

1970-01-01 08:00:00
WeChat Mini Program : Exemple de mise en œuvre de l'effet d'onglets

1970-01-01 08:00:00
Python construit des méthodes personnalisées pour embellir la sortie de la structure du dictionnaire

1970-01-01 08:00:00
HTML5 : utilisez Canvas pour traiter la vidéo en temps réel

1970-01-01 08:00:00
Asp.net utilise SignalR pour envoyer des images

1970-01-01 08:00:00
Tutoriel de développement de programmes WeChat Mini-App() et Page() Présentation des fonctions

1970-01-01 08:00:00
Explication détaillée de l'utilisation de Python Redis

1970-01-01 08:00:00

Derniers numéros

javascript - Le code pour modifier l'image de la boîte dans la liste déroulante.

Depuis 1970-01-01 08:00:00

0

0

0

Comment ionic2 utilise-t-il les styles d'iOS sur la plateforme Android

Depuis 1970-01-01 08:00:00

0

0

0

javascript - Existe-t-il un excellent outil de point d'arrêt sur NPM?

Depuis 1970-01-01 08:00:00

0

0

0

javascript - Comment Webpack bloque-t-il globalement la valeur de hachage de cette build pour une utilisation par le code JS ?

Depuis 1970-01-01 08:00:00

0

0

0

javascript - Comment jQuery implémente-t-il le préchargement des effets sonores sur les pages mobiles?

Depuis 1970-01-01 08:00:00

0

0

0

Rubriques connexes

Plus>

Recommandations populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal