Python が文字化けしたリクエストを含む Web ページをクロールする
phpcn_u1582
phpcn_u1582 2017-06-22 11:51:56
0
4
1269

** 以前、査読者文書のデータをクロールしたことがありますが、その期間中に再度クローラーを実行したところ、Web ページのデータが取得できなかったことがわかりました。
検索したところ、リクエストのソースコードが見つかりませんでした。 Web ページが文字化けを返しました**

(返されたデータの一部を次のようにインターセプトします: <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta id="JLyKZlWgYjpTkAsEt9LnA " )

#Web サイトが Web ページのコンテンツを暗号化しているかどうかわかりません。この問題はどうすれば解決できますか?ありがとう!

プログラムのソース コードの一部をインターセプトします:

リーリー

しかし、返されるべきデータが review 要素で返されます。何が問題なのでしょうか?

プログラムが正常に実行されているときに返されるデータは次のとおりです:

phpcn_u1582
phpcn_u1582

全員に返信(4)
仅有的幸福

Ajax でロードされた結果ページ (ネットワーク内で json と同様のフィードバック結果が取得できない場合)。 PHANTOMJS を使用して読み込みをシミュレートするだけです。次に、クロールに一致します。

いいねを押す +0
小葫芦

HTML オブジェクトで使用されているエンコーディングが間違っています。
html.encoding = html.apparent_encoding という行を追加します。
実際に取得したテキストに基づいてエンコーディングを推測し、再デコードします。

いいねを押す +0
刘奇

ドリルしていただける場合は、参考アドレスをお知らせします: http://www.qingpingshan.com/j...

いいねを押す +0
学习ing

html.contentを印刷

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート