Python爬取網頁requests亂碼

Question

**之前有在裁判文書上爬取數據，這段時間重新運行爬蟲後發現無法獲取網頁數據，找了一下發現requests網頁源碼返回的是亂碼** （如下截取一部分返回的數據：&lt;meta http -equiv="Content-Type" content="text/htm...

仅有的幸福 · Answer

ajax 載入的結果頁面，如果在 network 裡取得不到類似 json 的回饋結果。就使用PHANTOMJS來模擬載入。然後匹配爬取。

高洛峰 · Answer

你的 html 物件使用的編碼不對，
加入一行 html.encoding = html.apparent_encoding
根據實際取得的 text 推測編碼，重新解碼。

怪我咯 · Answer

如果你願意去鑽，給你一個參考地址：http://www.qingpingshan.com/j...

学习ing · Answer

印 html.content