Python が文字化けしたリクエストを含む Web ページをクロールする

Question

**以前、査読文書のデータをクロールしたことがありますが、その間に再度クローラーを実行したところ、Webページのデータが取得できず、検索したところリクエストWebページのソースコードが文字化けしていることが分かりました* * (返されたデータの一部は次のようにインターセプトされます: &lt;meta http -equiv="Content-Type" content="text/htm...

仅有的幸福 · Answer

Ajax でロードされた結果ページ (ネットワーク内で json と同様のフィードバック結果が取得できない場合)。 PHANTOMJS を使用して読み込みをシミュレートするだけです。次に、クロールに一致します。

高洛峰 · Answer

HTML オブジェクトで使用されているエンコーディングが間違っています。
html.encoding = html.apparent_encoding という行を追加します。
実際に取得したテキストに基づいてエンコーディングを推測し、再デコードします。

怪我咯 · Answer

ドリルしていただける場合は、参考アドレスをお知らせします: http://www.qingpingshan.com/j...

学习ing · Answer

html.contentを印刷