网页爬虫 - 如何确定一个python爬取得网页是否是被压缩的?
黄舟
黄舟 2017-04-17 15:37:41
0
1
684

我今天尝试爬去糗事百科的。F12后发现REquest headers中Accept-Encoding:gzip, deflate, sdch 我就以为是被压缩的,后来

response=urllib.request.urlopen(Request
print(response.info().get('Content-Encoding'))

返回的是None,请问到底如何确定否被压缩

黄舟
黄舟

人生最曼妙的风景,竟是内心的淡定与从容!

全員に返信(1)
洪涛

このヘッダーが圧縮される前に、クロール時に Accept-Encoding を設定する必要があります。

ブラウザの Accept-Encoding:gzip, deflate, sdch は、ブラウザが gzipdeflatesdch の 3 つの圧縮方法をサポートしていることを Web サイトに伝えます。つまり、これは Web サイトがサポートする圧縮方式ではなく、ブラウザーがサポートする圧縮方式を表します。

Web サイトはサポートされている圧縮方法の 1 つを選択して返します。圧縮方法は Content-Encoding の値です。ブラウザは、この値に基づいて、対応する解凍方法を選択します。

Yibai は gzip をサポートしていますが、Accept-Encoding が設定されていない場合、圧縮は行われません。

リーリー

上記のスクリプトの出力は

です。 リーリー
いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート