Python クローラーが html_html/css_WEB-ITnose の遅延読み込み部分 (layload_url) を処理する方法-htmlチュートリアル-php.cn

Python クローラーが html_html/css_WEB-ITnose の遅延読み込み部分 (layload_url) を処理する方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

リリース： 2016-06-24 11:47:22

オリジナル

2552 人が閲覧しました

リンク「http://s.1688.com/selloffer/industry_offer_search.htm?mixWholesale=true&industryFlag=food&categoryId=1032913&from=industrySearch&n=y&filt=y#_fb_top」のソースコードをダウンロードします。結果にはページの一部のみが含まれます。 ; このページには合計 60 個の製品がありますが、ソースコードから解析できるのは 20 個だけであり、ページめくりのリンクが見つかりません

上記のソースコードで実装された遅延読み込みである必要があります。新しい部分は、ページのプーリーを一番下までスクロールすると、このページを解析し、完全なページのソースコードを取得し、60 個の製品とページめくりリンクをすべて解析する方法を教えてください。

ディスカッションに返信 (解決策)

要素を監査し、データソースリンクを見つけて、そのリンクを直接使用してデータを取得します

うーん。。。今答えても遅すぎるかどうかはわかりません。これにより、Firefox を通じて遅延読み込み URL アドレスをキャプチャでき、パターンを見つけることができます。たまたま 1688 データをクロールしていて、遅延読み込みの問題に遭遇しました。その後、Firefox を介して URL をキャプチャしたところ、div sw-layload-url 内の URL を取り出し、最後に &callback=any 文字を追加するだけでよいことがわかりました。 .string を入力し、毎回 &startIndex= これを変更します (startIndex=20、startIndex=40)。これにより、json データが返されます
あなたが投稿した URL を試しましたが、なぜデータが返されないのかわかりません。棚から撤去されました。。。私が言ったことを試してみてください
、それを解決してより良い方法があれば、私と共有していただければ幸いです

。