python - 爬虫获取所有数据的思路是什么
ringa_lee
ringa_lee 2017-04-18 10:19:45
0
6
640

比如一个网站有下一页,我要怎么能把所有下一页爬完呢,用递归吗,递归深度不会有限制吗,初学,希望得到指点

ringa_lee
ringa_lee

ringa_lee

全員に返信(6)
大家讲道理

再帰、メッセージキュー、クロールされたページのストレージ (Redis、データベース)

いいねを押す +0
巴扎黑

参照しているすべてのデータが小さなドメイン名の下にあるすべてのデータであり、原理を詳しく学習したくない場合は、scrapy を学習してください。

参照しているすべてのデータがネットワーク データ全体であり、クロールが幅優先なのか深さ優先なのかなどを理解したい場合は、まず 10,000 台以上のサーバーが必要です。

いいねを押す +0
刘奇

同じ Web サイトの場合は、再帰を使用してクロールします。同じ Web サイトを最後までクロールできないのはなぜですか?

いいねを押す +0
巴扎黑

Web サイトの構造が単純で繰り返しの場合は、まずページ番号 URL のパターンを分析し、次に最初のページから直接総ページ数を取得し、次に他のページの URL を手動で構築できます。

いいねを押す +0
洪涛

まず、クロールの考え方について簡単に説明します。www.xxx.com/post/1.html のようなページのリンクが非常に単純な場合は、再帰またはループを記述してクロールできます。

ページのリンクが不明な場合は、クロールされたページを取得してタグのリンクを解析し、クロールを続行することができます。このプロセスでは、クロールされたリンクを保存し、新しいリンクをクロールするときにそれらを検索する必要があります。以前にクロールされたことがあり、その後再帰的にクロールします

クロールのアイデア: URL をクロールする -> クロールされたコンテンツ内の新しい URL を解析する -> URL をクロールする ->....->再帰から抜け出す

最後に、Python の世界には、基本的にすべての一般的なクローラー ルーチンをカプセル化した非常に強力なクローラー フレームワークがあります

いいねを押す +0
阿神

リーリー

中国信用ブラックリストのウェブサイトからすべての写真をローカルに保存するための簡単なコードウェブサイト自体はシンプルです!しかし、ウェブサイトはその場でクラッシュし、私は酔っていました。

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート