一般公司做爬虫采集的话常用什么语言 在京东搜点书全是有关java的
闭关修行中......
scrapy +1
用起來很方便,功能還算很多的,文件很清晰:
scrapy官網
題主都自己給加了 python 標籤,為啥還要問啥語言……
我所在的公司用的是Java。
用瀏覽器或類別瀏覽器解析頁面遠沒有正規分析來的快 想用選擇器就要建樹 這可不是個省力氣的活 不過正規解析最大的問題是別人一改版你這可能就是改到爽的節奏
nodejs +1
python比較多吧,偶爾會去用java
寫過ruby的用nokogiri, 不過高效率的話還是python比較順手
節點+1
語言不是問題,具體業務看模組,要有一個好用的http庫一個好用的並發庫一個好用的作業調度庫一個好用的標記語言解析庫,這些都具備了再說語言有不錯的性能有比較優美的語法最後還要看公司大部分人是不是能夠接受這門語言,從寬泛的角度來看,python java ruby nodejs c#,都具備這些條件,至於如何取捨就看後面的幾個條件了
我們就是用ruby寫的
scrapy +1
用起來很方便,功能還算很多的,文件很清晰:
scrapy官網
題主都自己給加了 python 標籤,為啥還要問啥語言……
我所在的公司用的是Java。
用瀏覽器或類別瀏覽器解析頁面遠沒有正規分析來的快 想用選擇器就要建樹 這可不是個省力氣的活
不過正規解析最大的問題是別人一改版你這可能就是改到爽的節奏
nodejs +1
python比較多吧,偶爾會去用java
寫過ruby的用nokogiri, 不過高效率的話還是python比較順手
節點+1
語言不是問題,具體業務看模組,要有一個好用的http庫一個好用的並發庫一個好用的作業調度庫一個好用的標記語言解析庫,這些都具備了再說語言有不錯的性能有比較優美的語法最後還要看公司大部分人是不是能夠接受這門語言,從寬泛的角度來看,python java ruby nodejs c#,都具備這些條件,至於如何取捨就看後面的幾個條件了
我們就是用ruby寫的