mysql - Python深度爬取一个网站
伊谢尔伦
伊谢尔伦 2017-04-17 17:36:19
0
3
457

毕业设计项目需要从coursera,edx等大型MOOC网站爬取大量公开课课程信息,尝试着爬取了coursera的课程信息,但是每次都要重新在python代码中写入新的url,如:coursera.org/computer/database和coursera.org/computer/algorithm才可以分别爬去database和algorithm的信息,可是coursera中有10大类,平均每类课程又分有6-8个小分类,也就是我需要该大概80次链接,感觉虽然已经比手动录入快很多了,但是自动化程度仍旧带来了一个效率低下的问题,请问有什么方法可以深度爬取一个网站的信息,让人工操作的的工序少一些呢?了解过深度搜索和广度搜索的算法,但是不知道在这里应该如何使用呢?P.S.在这里我是用的python中beautifulsoup4的package进行的html代码解析从而实现crawler。
码渣跪求,大神们能配合代码或者伪码来指导一下就最好啦!thx!

伊谢尔伦
伊谢尔伦

小伙看你根骨奇佳,潜力无限,来学PHP伐。

全員に返信(3)
Peter_Zhu

クロールする場合、これらの URL を URL 配列に追加し、URL 配列内の URL を順番にクロールします。これは幅優先検索として理解できます。

いいねを押す +0
伊谢尔伦

最初にリスト ページをクロールし、次にサブページをクロールします。サブページが処理されたので、さらにリスト ページをクロールするだけです。
深さ幅アルゴリズムは必要ありません

いいねを押す +0
Peter_Zhu

scrapy を直接使用する

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!