84669 orang belajar
152542 orang belajar
20005 orang belajar
5487 orang belajar
7821 orang belajar
359900 orang belajar
3350 orang belajar
180660 orang belajar
48569 orang belajar
18603 orang belajar
40936 orang belajar
1549 orang belajar
1183 orang belajar
32909 orang belajar
我现在需要对一个网站的文章列表和列表里面的实际内容进行自动化数据采集,列表里面能够取得每个文章的id,而每个文章又是通过一个统一的接口(参数带上那个文章id即可获取到对应的json)里面又有一部分数据需要采集然后进行数据分析。
目前有什么比较成熟的框架或者轮子能够实现我的需求吗?(要多线程,而且可以7x24小时稳定运行,因为采集数量巨大)
另外问一下,采集到的内容如何存储(百万到千万),数据里面有一些数字数据,需要进行统计分析,用mysql可以吗?或者说还有其他更加成熟简便的轮子可以用吗?
拥有18年软件开发和IT教学经验。曾任多家上市公司技术总监、架构师、项目经理、高级软件工程师等职务。 网络人气名人讲师,...
你可以试试【神箭手云爬虫开发平台。】神箭手云爬虫是一个帮助JS开发者快速开发爬虫系统的SaaS服务平台。神箭手提供上手简单,灵活开放的云爬虫开发框架,让开发者只需要在线写几行js代码就可以实现一个爬虫。并且爬虫将自动运行在云服务器上,爬取速度更快,效率更高。
如果是数据分析。map-reduce 做日志分析Dpark 可以解决PV和UV的分析Spark也是不错的哦。生产数据报表后可以用Pandas进行分析和展示。。
如果是数据采集。工具就很多了。
我怎么觉得你是要搞搜索引擎呀。。。量比较大。建议分布式的东西。用MYSQL不太现实。。。
你可以试试【神箭手云爬虫开发平台。】神箭手云爬虫是一个帮助JS开发者快速开发爬虫系统的SaaS服务平台。神箭手提供上手简单,灵活开放的云爬虫开发框架,让开发者只需要在线写几行js代码就可以实现一个爬虫。并且爬虫将自动运行在云服务器上,爬取速度更快,效率更高。
如果是数据分析。
map-reduce 做日志分析
Dpark 可以解决PV和UV的分析
Spark也是不错的哦。
生产数据报表后可以用Pandas进行分析和展示。。
如果是数据采集。工具就很多了。
我怎么觉得你是要搞搜索引擎呀。。。量比较大。建议分布式的东西。用MYSQL不太现实。。。