一般公司做爬虫采集的话常用什么语言 在京东搜点书全是有关java的
闭关修行中......
scrapy +1
用起来很方便,功能还算很多的,文档很清晰:
scrapy官网
题主都自己给加了 python 标签,为啥还要问啥语言……
我所在的公司用的是Java。
用浏览器或者类浏览器解析页面远没有正则分析来的快 想用选择器就要建树 这可不是个省力气的活 不过正则解析最大的问题是别人一改版你这可能就是改到爽的节奏
nodejs +1
python比较多吧,偶尔会去用java
写过ruby的用nokogiri, 不过高效率的话还是python比较顺手
节点+1
语言不是问题,具体业务看模块,要有一个好用的http库 一个好用的并发库 一个好用的作业调度库 一个好用的标记语言解析库,这些都具备了 再说语言有不错的性能 有比较优美的语法 最后还要看公司大部分人是不是能够接受这门语言,从宽泛的角度来看,python java ruby nodejs c#,都具备这些条件,至于如何取舍 就看后面的几个条件了
我们就是用ruby写的
scrapy +1
用起来很方便,功能还算很多的,文档很清晰:
scrapy官网
题主都自己给加了 python 标签,为啥还要问啥语言……
我所在的公司用的是Java。
用浏览器或者类浏览器解析页面远没有正则分析来的快 想用选择器就要建树 这可不是个省力气的活
不过正则解析最大的问题是别人一改版你这可能就是改到爽的节奏
nodejs +1
python比较多吧,偶尔会去用java
写过ruby的用nokogiri, 不过高效率的话还是python比较顺手
节点+1
语言不是问题,具体业务看模块,要有一个好用的http库 一个好用的并发库 一个好用的作业调度库 一个好用的标记语言解析库,这些都具备了 再说语言有不错的性能 有比较优美的语法 最后还要看公司大部分人是不是能够接受这门语言,从宽泛的角度来看,python java ruby nodejs c#,都具备这些条件,至于如何取舍 就看后面的几个条件了
我们就是用ruby写的