需要开发个采集腾讯、新浪微博的评论数据。 如果直接使用官方提供的API,会有很多数据获取不到。所以可能得自己写了。 我主要是想使用C++来开发的,其次才是PHP。在没办法的情况下,才会考虑使用python进行开发! 网上大概了解了下,很多采集程序都是使用python来开发的。因为python的网络库很多,很丰富,开发起来方便快捷。 PHP的也有个snoopy类库,C++的就不清楚了。 不知道,C++中有没有这方面的爬虫类库推荐呢?
小伙看你根骨奇佳,潜力无限,来学PHP伐。
每个语言都可以,基本的爬虫只要涉及到一些HTTP请求和文档解析就能做出来。 Python有Scrapy等框架,上手比较快,可以研究一下。
爬虫无非就是获取网页内容,解析内容,正则出想要的数据,其实对于网页内容获取,任何语言都能获取,注意代理服务器防封IP,并行抓取等技术,个人感觉php 获取网页内容还是不错的,至于解析网页内容,基本上都是DOM的操作,那最佳选择还是nodejs,里边的cheerio很好的解决树形结构数据。
用javascript也可以写爬虫 在云端编写和执行 源码地址:https://github.com/ShenJianSh...
每个语言都可以,基本的爬虫只要涉及到一些HTTP请求和文档解析就能做出来。
Python有Scrapy等框架,上手比较快,可以研究一下。
爬虫无非就是获取网页内容,解析内容,正则出想要的数据,其实对于网页内容获取,任何语言都能获取,注意代理服务器防封IP,并行抓取等技术,个人感觉php 获取网页内容还是不错的,至于解析网页内容,基本上都是DOM的操作,那最佳选择还是nodejs,里边的cheerio很好的解决树形结构数据。
用javascript也可以写爬虫 在云端编写和执行 源码地址:
https://github.com/ShenJianSh...