php - 该选择哪个语言开发爬虫？

Question

需要开发个采集腾讯、新浪微博的评论数据。 如果直接使用官方提供的API，会有很多数据获取不到。所以可能得自己写了。 我主要是想使用C++来开发的，其次才是PHP。在没办法的情况下，才会考虑使用python进行开发！...

迷茫 · Answer

建议用node， phamtomjs， node的jQuery，还有jsdom， node下面很多解析html的包，非常方便

高洛峰 · Answer

我觉得不是说选择哪个语言，主要是看开发者对哪个语言最熟悉。

伊谢尔伦 · Answer

如果是我的话，我会用 Node.js

Node.js 有一个 Cheerio 库，用来解析 HTML 效率十分不错。它的 API 风格是类似 jQuery 的。

怪我咯 · Answer

啥都不说，肯定是python

伊谢尔伦 · Answer

需要开发个采集腾讯、新浪微博的评论数据。

目的明确了，解决的思路也不难。你的爬虫的主要功能就是

p.s
为什么是lxml?参考lxml performance

大家讲道理 · Answer

爬虫基本上就是网页抓去+内容分析了吧。

我也建议选择类库简单丰富的语言，比如Python和Ruby应该都不错。

Ruby可以选择的有Crul，mechanize，nokogiri，hpricot等。

阿神 · Answer

php里有phpQuery，语法和jquery差不多，非常的好用！

伊谢尔伦 · Answer

Perl
竟然没人推荐..

大家讲道理 · Answer

golang 是个不错的选择

大家讲道理 · Answer

用python吧，你会发现有很多优点。。。