python爬蟲之Scrapy 使用代理配置

高洛峰
發布: 2016-10-17 13:56:57
原創
2303 人瀏覽過

在爬取網站內容的時候,最常遇到的問題是:網站對IP有限制,會有防抓取功能,最好的方法就是IP輪換抓取(加代理)

下面來說一下Scrapy如何設定代理,進行抓取

1.在Scrapy工程下新建「middlewares.py」

# Importing base64 library because we'll need it ONLY in case if the proxy we are going to use requires authentication
import base64 
# Start your middleware class
class ProxyMiddleware(object):
    # overwrite process request
    def process_request(self, request, spider):
        # Set the location of the proxy
        request.meta['proxy'] = "http://YOUR_PROXY_IP:PORT"
  
        # Use the following lines if your proxy requires authentication
        proxy_user_pass = "USERNAME:PASSWORD"
        # setup basic authentication for the proxy
        encoded_user_pass = base64.encodestring(proxy_user_pass)
        request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass
登入後複製

   

2.在專案設定檔中(./pythontab/settings.

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板