我現在需要對一個網站的文章列表和列表裡面的實際內容進行自動化數據採集,列表裡面能夠取得每個文章的id,而每個文章又是通過一個統一的接口(參數帶上那個文章id即可取得對應的json)裡面又有一部分資料需要收集然後進行資料分析。
目前有什麼比較成熟的框架或輪子能夠實現我的需求嗎? (要多線程,而且可以7x24小時穩定運行,因為採集數量龐大)
另外問一下,採集到的內容如何儲存(百萬到千萬),數據裡面有一些數字數據,需要進行統計分析,用mysql可以嗎?或者說有其他更成熟簡單的輪子可以用嗎?
我現在需要對一個網站的文章列表和列表裡面的實際內容進行自動化數據採集,列表裡面能夠取得每個文章的id,而每個文章又是通過一個統一的接口(參數帶上那個文章id即可取得對應的json)裡面又有一部分資料需要收集然後進行資料分析。
目前有什麼比較成熟的框架或輪子能夠實現我的需求嗎? (要多線程,而且可以7x24小時穩定運行,因為採集數量龐大)
另外問一下,採集到的內容如何儲存(百萬到千萬),數據裡面有一些數字數據,需要進行統計分析,用mysql可以嗎?或者說有其他更成熟簡單的輪子可以用嗎?
如果是數據分析。
map-reduce 做日誌分析
Dpark 可以解決PV和UV的分析
Spark也是不錯的哦。
生產數據報表後可以用Pandas進行分析展示。 。
如果是資料收集。工具就很多了。
我怎麼覺得你是要搞搜尋引擎呀。 。 。量比較大。建議分散式的東西。
用MYSQL不太現實。 。 。
少年, 你這不就是個爬蟲的需求麼?
爬蟲框架: scrapy
資料庫選取: 你這個量級用MySQL做好索引完全可以再戰五百年
也可以嘗試用MongoDB
你沒說什麼語言什麼環境。多線程的話,目前一般用nodejs、python。這兩個都可以使用mysql之類的儲存資料。幾百萬上千萬不成問題。
有玩過 python selenium + PhantomJs 麼?
python語言的這個scrapy這個還是