84669 person learning
152542 person learning
20005 person learning
5487 person learning
7821 person learning
359900 person learning
3350 person learning
180660 person learning
48569 person learning
18603 person learning
40936 person learning
1549 person learning
1183 person learning
32909 person learning
需要开发个采集腾讯、新浪微博的评论数据。 如果直接使用官方提供的API,会有很多数据获取不到。所以可能得自己写了。 我主要是想使用C++来开发的,其次才是PHP。在没办法的情况下,才会考虑使用python进行开发! 网上大概了解了下,很多采集程序都是使用python来开发的。因为python的网络库很多,很丰富,开发起来方便快捷。 PHP的也有个snoopy类库,C++的就不清楚了。 不知道,C++中有没有这方面的爬虫类库推荐呢?
小伙看你根骨奇佳,潜力无限,来学PHP伐。
参考
C/C++ 网络爬虫
推荐Python。有requests等类库。 也有scrapy这样的框架。
python 唯一的好处就是 request 库真的很方便
我以前都是用 php 做爬虫的,现在都改用 python 了
其实用 JavaScript 也是很好的,node 或者 phantomJS
因为很多时候你不仅要把 HTML 爬下来,还要解析;而 python 的 DOM 库简直糟糕透顶;比如 BeautifulSoup,很多操作就非常不方便;相比之下,js 进行 DOM 操作就方便多了
弱弱的推荐一下 php 的 goutte
毫不犹豫golang
用python 没有原因
表示采用java,jsoup,http://www.husters.cn/ 抓爬的
以前写过好几个版本的爬虫,供参考。http://niejason.sinaapp.com/?p=66
snoopy类库很久以前用过,不过感觉不是很好用。功能一般。 其实爬虫最网页请求那一块比较容易实现,也没有什么好说的。其实最主要是对请求回来的数据处理,分析。 所以我觉得用node.js会是很好的选择。
看看那位童鞋推荐下node.js有什么好的库。
node.js的jquery也不错。。。
参考
C/C++ 网络爬虫
推荐Python。有requests等类库。
也有scrapy这样的框架。
python 唯一的好处就是 request 库真的很方便
我以前都是用 php 做爬虫的,现在都改用 python 了
其实用 JavaScript 也是很好的,node 或者 phantomJS
因为很多时候你不仅要把 HTML 爬下来,还要解析;而 python 的 DOM 库简直糟糕透顶;比如 BeautifulSoup,很多操作就非常不方便;相比之下,js 进行 DOM 操作就方便多了
弱弱的推荐一下 php 的 goutte
毫不犹豫golang
用python 没有原因
表示采用java,jsoup,http://www.husters.cn/ 抓爬的
以前写过好几个版本的爬虫,供参考。http://niejason.sinaapp.com/?p=66
snoopy类库很久以前用过,不过感觉不是很好用。功能一般。
其实爬虫最网页请求那一块比较容易实现,也没有什么好说的。其实最主要是对请求回来的数据处理,分析。
所以我觉得用node.js会是很好的选择。
看看那位童鞋推荐下node.js有什么好的库。
node.js的jquery也不错。。。