网页爬虫 - 【如图】python爬取的html页面和浏览器显示源码的结果不同
高洛峰
高洛峰 2017-04-18 09:31:41
0
4
770
高洛峰
高洛峰

拥有18年软件开发和IT教学经验。曾任多家上市公司技术总监、架构师、项目经理、高级软件工程师等职务。 网络人气名人讲师,...

全員に返信(4)
伊谢尔伦

実際にテストした結果、bs4 は属性の順序を変更するという結論になりました。

1. ブラウザでページを右クリックし、次の項目を選択します。

検査要素

Web ページのソース コードを表示します

2. Python3 プログラムでの比較:

リーリー

結果:

リーリー
いいねを押す +0
阿神

クラスと ID の順序が違うだけです。
Chrome と Firefox を使用して同じ Web ページのソース コードを表示すると、順序も異なります。

いいねを押す +0
小葫芦

誰もがデバッグを手伝ってもらえるように、質問者が Web サイトまたは自分のコードを投稿することをお勧めします。クローラーによってクロールされたコンテンツが静的ページとして保存され、ブラウザーで表示されるものと異なる場合は、相手のアンチクローラー メカニズムがそれを認識しているはずなので、サーバーは異なる情報を返します。 。クローラーを識別する方法はたくさんあります。ご不明な点がございましたら、お気軽にお問い合わせください。

いいねを押す +0
巴扎黑

投稿者は、Web サイトではユーザーが人間のブラウザーを操作しているのかクローラーを操作しているのかを識別できるため、すべてのソース コードを投稿することを推奨しています。

現在のコードを見ると、ヘッダー情報を追加することをお勧めします。 use-agent そのコード行です。

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート