请问大家能不能给我一点提点,我想要知道有没有 简单 一点的 爬虫 案例可以让我摸索学习
目前已知的爬虫工具有:
Beautiful Soup
Scrapy
cola
pyspider
PyQuery
grab
ringa_lee
你如果真的没有概念,以下有一些资讯给你参考,不过重点还是你要去看...
首先是什么是 网路爬虫(web crawler):
可以简单的先看一下 wiki-网路爬虫
再来这个网站: 大数学堂 有一些简单的教学(还有影片),相信是非常适合初学者的,你可以从 什么是网路爬虫 这篇开始
接着是 入门教学:
其实有个很简单的方法,挑一个爬虫工具去读文档就好,如果你没什么方向,你可以选择看看Beautiful Soup 中文文档,他是中文版的,也不算太复杂,花点时间就可以整个看完。
刚刚 大数学堂 有一系列的入门教学 和 实战教学,我觉得应该也是值得参考的,下面列出入门课程的前几篇:
开始使用Python撰写网路爬虫 ( Crawler )
如何安装 Jupyter (Ipython Notebook)
Jupyter 操作入门 (1)
如何使用GET 抓取网页内容?
如何使用POST 抓取网页内容?
如何使用Python 套件: BeautifulSoup4 剖析网页内容?
如何使用Python 的requests 及BeautifulSoup4 完成淘宝爬虫?
再来是了解有那些 工具 和 爬虫框架:
这个地方整理得很完整: Python 爬虫的工具列表附Github代码下载链接
这个 blog 也有满多教学的
关于爬虫工具和框架的讨论可以参考这篇 知乎: 用Python写爬虫,用什么方式、框架比较好?
我觉得网路上的资源很多,你都可以试试看,万事起头难,加油啰!
你如果真的没有概念,以下有一些资讯给你参考,不过重点还是你要去看...
首先是什么是 网路爬虫(web crawler):
可以简单的先看一下 wiki-网路爬虫
再来这个网站: 大数学堂 有一些简单的教学(还有影片),相信是非常适合初学者的,你可以从 什么是网路爬虫 这篇开始
接着是 入门教学:
其实有个很简单的方法,挑一个爬虫工具去读文档就好,如果你没什么方向,你可以选择看看Beautiful Soup 中文文档,他是中文版的,也不算太复杂,花点时间就可以整个看完。
刚刚 大数学堂 有一系列的入门教学 和 实战教学,我觉得应该也是值得参考的,下面列出入门课程的前几篇:
开始使用Python撰写网路爬虫 ( Crawler )
如何安装 Jupyter (Ipython Notebook)
Jupyter 操作入门 (1)
如何使用GET 抓取网页内容?
如何使用POST 抓取网页内容?
如何使用Python 套件: BeautifulSoup4 剖析网页内容?
如何使用Python 的requests 及BeautifulSoup4 完成淘宝爬虫?
再来是了解有那些 工具 和 爬虫框架:
这个地方整理得很完整: Python 爬虫的工具列表附Github代码下载链接
这个 blog 也有满多教学的
关于爬虫工具和框架的讨论可以参考这篇 知乎: 用Python写爬虫,用什么方式、框架比较好?
我觉得网路上的资源很多,你都可以试试看,万事起头难,加油啰!