利用Python的Requests和User Agent偽造瀏覽器存取:網站封鎖的解決方案
使用Python的Requests包存取網站時,你可能會遇到取得的HTML 內容與瀏覽器中顯示的內容明顯不同的情況。這通常是由於網站使用了識別和限制非瀏覽器存取的區塊。
為了克服這個問題,您可以透過提供 User-Agent 標頭來模擬瀏覽器訪問,該標頭可識別瀏覽器的類型並進行操作正在使用的系統。這使得網站相信這是一次真正的瀏覽器訪問,從而授予對所需內容的訪問權限。以下是如何使用請求來做到這一點:
import requests url = 'http://www.ichangtou.com/#company:data_000008.html' headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'} response = requests.get(url, headers=headers) print(response.content)
或者,fake-useragent 套件提供了一種為不同瀏覽器生成和使用用戶代理的便捷方法:
from fake_useragent import UserAgent ua = UserAgent() random_ua = ua.random headers = {'User-Agent': random_ua} response = requests.get(url, headers=headers)
透過利用透過這些技術來偽造瀏覽器訪問,您可以成功訪問先前阻止您基於Python 的嘗試的網站。
以上是如何使用 Python 的請求和使用者代理程式克服網站阻塞?的詳細內容。更多資訊請關注PHP中文網其他相關文章!