詳解Python的HTTP代理-Python教學-PHP中文網

0x00 前言

大家對HTTP代理應該都非常熟悉，它在很多方面都有著極為廣泛的應用。 HTTP代理分為正向代理和反向代理兩種，後者一般用於將防火牆後面的服務提供給用戶存取或進行負載平衡，典型的有Nginx、HAProxy等。本文所討論的是正向代理。

HTTP代理最常見的用途是用於網路共享、網路加速和網路限制突破等。此外，HTTP代理也常用於Web應用調試、Android/IOS APP 中所呼叫的Web API監控與分析，目前知名的軟體有Fiddler、 Charles、Burp Suite和mitmproxy等。 HTTP代理也可用於請求/回應內容修改，在不改變服務端的情況下為Web應用程式增加額外的功能或改變應用行為等。

0x01 HTTP代理是什麼

HTTP代理本質上是一個Web應用，它和其他普通Web應用程式沒有根本區別。 HTTP代理收到請求後，根據Header中Host字段的主機名稱和Get/POST請求地址綜合判斷目標主機，建立新的HTTP請求並轉發請求數據，並將收到的回應資料轉發給客戶端。

如果請求位址是絕對位址，HTTP代理採用該位址中的Host，否則使用Header中的HOST欄位。做一個簡單測試，假設網路環境如下：

192.168.1.2 Web伺服器
192.168.1.3 HTTP代理伺服器

#使用telnet進行測試

$ telnet 192.168.1.3
GET / HTTP/1.0
HOST: 192.168.1.2

登入後複製

注意最後需要連續兩個回車，這是HTTP協定要求。完成後，可以收到 http://192.168.1.2/ 的頁面內容。下面做一下調整，GET請求時帶上絕對地址

$ telnet 192.168.1.3
GET http://httpbin.org/ip HTTP/1.0
HOST: 192.168.1.2

登入後複製

注意這裡同樣設定了HOST為192.168.1.2，但運行結果卻返回了http://httpbin.org/ip 頁面的內容，也就是公網IP位址資訊。

從上面的測試過程可以看出，HTTP代理並不是什麼很複雜的東西，只要將原始請求傳送到代理伺服器即可。在無法設定HTTP代理的情況下，對於少量Host需要走HTTP代理的場景來說，最簡單的方式就是將目標Host網域的IP指向代理伺服器，可以採取修改hosts檔案的方式來實現。

0x02 Python程式中設定HTTP代理

urllib2/urllib 代理程式設定

urllib2是Python標準函式庫，功能很強大，只是使用起來稍微麻煩一點。在Python 3中，urllib2不再保留，遷移到了urllib模組中。 urllib2中透過ProxyHandler來設定使用代理伺服器。

proxy_handler = urllib2.ProxyHandler({&#39;http&#39;: &#39;121.193.143.249:80&#39;})
opener = urllib2.build_opener(proxy_handler)
r = opener.open(&#39;http://httpbin.org/ip&#39;)
print(r.read())

登入後複製

也可以用install_opener將設定好的opener安裝到全域環境中，這樣所有的urllib2.urlopen都會自動使用代理程式。

urllib2.install_opener(opener)
r = urllib2.urlopen(&#39;http://httpbin.org/ip&#39;)
print(r.read())

登入後複製

在Python 3中，使用urllib。

proxy_handler = urllib.request.ProxyHandler({&#39;http&#39;: &#39;http://121.193.143.249:80/&#39;})
opener = urllib.request.build_opener(proxy_handler)
r = opener.open(&#39;http://httpbin.org/ip&#39;)
print(r.read())

登入後複製

requests 代理設定

requests是目前最優秀的HTTP函式庫之一，也是我平時建構http請求時使用最多的函式庫。它的API設計非常人性化，使用起來很容易上手。為requests設定代理程式很簡單，只需為proxies設定一個形如 {'http': 'x.x.x.x:8080', 'https': 'x.x.x.x:8080'} 的參數即可。其中http和https相互獨立。

In [5]: requests.get(&#39;http://httpbin.org/ip&#39;, proxies={&#39;http&#39;: &#39;121.193.143.249:80&#39;}).json()
Out[5]: {&#39;origin&#39;: &#39;121.193.143.249&#39;}

登入後複製

可以直接設定session的proxies屬性，省去每次要求都要帶上proxies參數的麻煩。

s = requests.session()
s.proxies = {&#39;http&#39;: &#39;121.193.143.249:80&#39;}
print(s.get(&#39;http://httpbin.org/ip&#39;).json())

登入後複製

0x03 HTTP_PROXY / HTTPS_PROXY 環境變數

urllib2 和Requests 函式庫都能辨識HTTP_PROXY 和HTTPS_PROXY 環境變量，一旦偵測到這些環境變數就會自動設定使用代理。這在用HTTP代理程式進行偵錯的時候非常有用，因為不用修改程式碼，可以隨意根據環境變數來調整代理伺服器的ip位址和連接埠。 *nix中的軟體也大多支援HTTP_PROXY環境變數識別，例如curl、wget、axel、aria2c等。

$ http_proxy=121.193.143.249:80 python -c &#39;import requests; print(requests.get("http://httpbin.org/ip").json())&#39;
{u&#39;origin&#39;: u&#39;121.193.143.249&#39;}

$ http_proxy=121.193.143.249:80 curl httpbin.org/ip
{
  "origin": "121.193.143.249"
}

登入後複製

在IPython互動環境中，可能經常需要臨時性地偵錯HTTP請求，可以簡單地透過設定 os.environ['http_proxy'] 增加/取消HTTP代理來實現。

In [245]: os.environ[&#39;http_proxy&#39;] = &#39;121.193.143.249:80&#39;
In [246]: requests.get("http://httpbin.org/ip").json()
Out[246]: {u&#39;origin&#39;: u&#39;121.193.143.249&#39;}
In [249]: os.environ[&#39;http_proxy&#39;] = &#39;&#39;
In [250]: requests.get("http://httpbin.org/ip").json()
Out[250]: {u&#39;origin&#39;: u&#39;x.x.x.x&#39;}

登入後複製

0x04 MITM-Proxy

MITM 源自Man-in-the-Middle Attack，指中間人攻擊，一般在客戶端和伺服器之間的網路中攔截、監聽和篡改數據。

mitmproxy是一款Python语言开发的开源中间人代理神器，支持SSL，支持透明代理、反向代理，支持流量录制回放，支持自定义脚本等。功能上同Windows中的Fiddler有些类似，但mitmproxy是一款console程序，没有GUI界面，不过用起来还算方便。使用mitmproxy可以很方便的过滤、拦截、修改任意经过代理的HTTP请求/响应数据包，甚至可以利用它的scripting API，编写脚本达到自动拦截修改HTTP数据的目的。

# test.py
def response(flow):
    flow.response.headers["BOOM"] = "boom!boom!boom!"

登入後複製

上面的脚本会在所有经过代理的Http响应包头里面加上一个名为BOOM的header。用mitmproxy -s 'test.py'命令启动mitmproxy，curl验证结果发现的确多了一个BOOM头。

$ http_proxy=localhost:8080 curl -I &#39;httpbin.org/get&#39;
HTTP/1.1 200 OK
Server: nginx
Date: Thu, 03 Nov 2016 09:02:04 GMT
Content-Type: application/json
Content-Length: 186
Connection: keep-alive
Access-Control-Allow-Origin: *
Access-Control-Allow-Credentials: true
BOOM: boom!boom!boom!
...

登入後複製

显然mitmproxy脚本能做的事情远不止这些，结合Python强大的功能，可以衍生出很多应用途径。除此之外，mitmproxy还提供了强大的API，在这些API的基础上，完全可以自己定制一个实现了特殊功能的专属代理服务器。

经过性能测试，发现mitmproxy的效率并不是特别高。如果只是用于调试目的那还好，但如果要用到生产环境，有大量并发请求通过代理的时候，性能还是稍微差点。我用twisted实现了一个简单的proxy，用于给公司内部网站增加功能、改善用户体验，以后有机会再和大家分享。

以上是詳解Python的HTTP代理的詳細內容。更多資訊請關注PHP中文網其他相關文章！