比如一个网站有下一页,我要怎么能把所有下一页爬完呢,用递归吗,递归深度不会有限制吗,初学,希望得到指点
ringa_lee
再帰、メッセージキュー、クロールされたページのストレージ (Redis、データベース)
参照しているすべてのデータが小さなドメイン名の下にあるすべてのデータであり、原理を詳しく学習したくない場合は、scrapy を学習してください。
参照しているすべてのデータがネットワーク データ全体であり、クロールが幅優先なのか深さ優先なのかなどを理解したい場合は、まず 10,000 台以上のサーバーが必要です。
同じ Web サイトの場合は、再帰を使用してクロールします。同じ Web サイトを最後までクロールできないのはなぜですか?
Web サイトの構造が単純で繰り返しの場合は、まずページ番号 URL のパターンを分析し、次に最初のページから直接総ページ数を取得し、次に他のページの URL を手動で構築できます。
まず、クロールの考え方について簡単に説明します。www.xxx.com/post/1.html のようなページのリンクが非常に単純な場合は、再帰またはループを記述してクロールできます。
。
リーリー
中国信用ブラックリストのウェブサイトからすべての写真をローカルに保存するための簡単なコードウェブサイト自体はシンプルです!しかし、ウェブサイトはその場でクラッシュし、私は酔っていました。
再帰、メッセージキュー、クロールされたページのストレージ (Redis、データベース)
参照しているすべてのデータが小さなドメイン名の下にあるすべてのデータであり、原理を詳しく学習したくない場合は、scrapy を学習してください。
参照しているすべてのデータがネットワーク データ全体であり、クロールが幅優先なのか深さ優先なのかなどを理解したい場合は、まず 10,000 台以上のサーバーが必要です。
同じ Web サイトの場合は、再帰を使用してクロールします。同じ Web サイトを最後までクロールできないのはなぜですか?
Web サイトの構造が単純で繰り返しの場合は、まずページ番号 URL のパターンを分析し、次に最初のページから直接総ページ数を取得し、次に他のページの URL を手動で構築できます。
まず、クロールの考え方について簡単に説明します。www.xxx.com/post/1.html のようなページのリンクが非常に単純な場合は、再帰またはループを記述してクロールできます。
ページのリンクが不明な場合は、クロールされたページを取得してタグのリンクを解析し、クロールを続行することができます。このプロセスでは、クロールされたリンクを保存し、新しいリンクをクロールするときにそれらを検索する必要があります。以前にクロールされたことがあり、その後再帰的にクロールします。
リーリー
中国信用ブラックリストのウェブサイトからすべての写真をローカルに保存するための簡単なコードウェブサイト自体はシンプルです!しかし、ウェブサイトはその場でクラッシュし、私は酔っていました。