php - 该选择哪个语言开发爬虫?
伊谢尔伦
伊谢尔伦 2017-04-10 16:10:39
0
23
1461

需要开发个采集腾讯、新浪微博的评论数据。
如果直接使用官方提供的API,会有很多数据获取不到。所以可能得自己写了。
我主要是想使用C++来开发的,其次才是PHP。在没办法的情况下,才会考虑使用python进行开发!
网上大概了解了下,很多采集程序都是使用python来开发的。因为python的网络库很多,很丰富,开发起来方便快捷。
PHP的也有个snoopy类库,C++的就不清楚了。
不知道,C++中有没有这方面的爬虫类库推荐呢?

伊谢尔伦
伊谢尔伦

小伙看你根骨奇佳,潜力无限,来学PHP伐。

membalas semua(23)
迷茫

建议用node, phamtomjs, node的jQuery, 还有jsdom, node下面很多解析html的包,非常方便

小葫芦

我觉得不是说选择哪个语言,主要是看开发者对哪个语言最熟悉。

伊谢尔伦

如果是我的话,我会用 Node.js

Node.js 有一个 Cheerio 库,用来解析 HTML 效率十分不错。它的 API 风格是类似 jQuery 的。

刘奇

啥都不说,肯定是python

伊谢尔伦

需要开发个采集腾讯、新浪微博的评论数据。

目的明确了,解决的思路也不难。你的爬虫的主要功能就是

  1. 能向服务器进行通信,返回你需要页面的内容
  2. 解析页面源码,挖掘出你需要的信息
    python是一个不错的推荐,解决两个问题都有完善的库。
    比如urllib2解决http请求,lxml 解决页面源码的解析(解析成html树)。
    关键步骤就是在解析后生成的html树中,找到所需信息,需要自己完成:
    分析信息在html树中所在的位置,并告诉你的程序去对应位置(利用xpath来定位)抓信息
    写过一个python抓取douban日志名称,URL,评论数,发布时间的爬虫。
    能解决基本的挖掘需要后,再来考虑如何能更快及应对大型数据,目前了解的方法有iterparse方法,多线程等。

p.s
为什么是lxml?参考lxml performance

大家讲道理

爬虫基本上就是网页抓去+内容分析了吧。

我也建议选择类库简单丰富的语言,比如Python和Ruby应该都不错。

Ruby可以选择的有Crul,mechanize,nokogiri,hpricot等。

阿神

php里有phpQuery,语法和jquery差不多,非常的好用!

伊谢尔伦

Perl
竟然没人推荐..

大家讲道理

golang 是个不错的选择

大家讲道理

用python吧,你会发现有很多优点。。。

Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan