python - requests get不到完整页面源码

Question

使用requests进行get只获取到了一部分html源码，下面是我的代码 {代码...} proxies参数是一个代理列表，这段代码会尝试使用proxies进行访问，访问成功就会返回但是我获取到的页面源码不完整

巴扎黑 · Answer

理由はいくつかあります
1. 一部のコンテンツが ajax を通じてロードされている可能性があります。
したがって、requests.get では完全なプロファイルの内容を取得できません。
これが原因かどうかを判断するには、firebug などのツールを使用することをお勧めします。

このコンテンツはログイン後にのみ利用可能ですか?

PHP中文网 · Answer

私のコードはページのすべてのコンテンツを取得できますが、リクエストのプロキシパラメータを使用しません。
エージェントを使用せずに完全なコンテンツを入手できるかどうか試してみませんか?

私のコード:

リーリー

PHP中文网 · Answer

Ubuntuer を見つけました...テーマもインストールしました...通り過ぎただけです...

怪我咯 · Answer

1 階の答えは非常に明確です。返された Web ページは非同期でロードされるはずです。非同期リクエストがあるかどうかを確認するために fiddler を使用することをお勧めします。

ringa_lee · Answer

トラブルシューティングの方法を説明します。 [高齢ドライバーは文句を言わない]

1. Chrome のネットワークツールを使用してパケットをキャプチャし (他のツールも使用できます)、応答をキャプチャした結果と比較します。それらが同じである場合、このページは js を介してレンダリングする必要があることを意味します。

2. ステップ 1 の結果に一貫性がない場合は、ヘッダー内の他のフィールドの影響を考慮してください。一般に、Cookie はアクセス権に影響し、ユーザーエージェントは DOM 構造とコンテンツに影響します。まずは主にこの2点を確認してください。 (特殊な処理を必要とする奇妙なヘッダーが存在する可能性があります)

3. IP へのアクセスがブロックされているなどの問題をトラブルシューティングするには、プロキシテストリクエストを開きます

4. js レンダリングされたページであると判断された場合。解決策は 2 つあります。1 つは API インターフェイスをキャプチャすることです (パケットキャプチャの方法については、1 を参照してください)。 2 つ目は、サーバー上で直接 js レンダリング (関連操作) を実行して、最終的なページのレンダリング結果を取得する方法です。