网页爬虫 - 【如图】python爬取的html页面和浏览器显示源码的结果不同

Question

如图所示,用python爬取的html页面和浏览器显示的内容有些出入。照理说爬取的同样是服务器端静态的html页面，怎么会有不同呢？ 网站地址：点我点我 爬虫源码： {代码...} 这个问题可能有点“孔乙己”，不过我确实挺...

伊谢尔伦 · Answer

実際にテストした結果、bs4 は属性の順序を変更するという結論になりました。

1. ブラウザでページを右クリックし、次の項目を選択します。

検査要素

Web ページのソースコードを表示します

2. Python3 プログラムでの比較:

リーリー

結果:

リーリー

阿神 · Answer

クラスと ID の順序が違うだけです。
Chrome と Firefox を使用して同じ Web ページのソースコードを表示すると、順序も異なります。

高洛峰 · Answer

誰もがデバッグを手伝ってもらえるように、質問者が Web サイトまたは自分のコードを投稿することをお勧めします。クローラーによってクロールされたコンテンツが静的ページとして保存され、ブラウザーで表示されるものと異なる場合は、相手のアンチクローラーメカニズムがそれを認識しているはずなので、サーバーは異なる情報を返します。。クローラーを識別する方法はたくさんあります。ご不明な点がございましたら、お気軽にお問い合わせください。