目錄
回覆內容:
首頁 後端開發 php教程 java - PHP或python進行資料收集和分析,有什麼比較成熟的框架?

java - PHP或python進行資料收集和分析,有什麼比較成熟的框架?

Oct 22, 2016 am 12:14 AM
c++ java node.js php python

我現在需要對一個網站的文章列表和列表裡面的實際內容進行自動化數據採集,列表裡面能夠取得每個文章的id,而每個文章又是通過一個統一的接口(參數帶上那個文章id即可取得對應的json)裡面又有一部分資料需要收集然後進行資料分析。

目前有什麼比較成熟的框架或輪子能夠實現我的需求嗎? (要多線程,而且可以7x24小時穩定運行,因為採集數量龐大)

另外問一下,採集到的內容如何儲存(百萬到千萬),數據裡面有一些數字數據,需要進行統計分析,用mysql可以嗎?或者說有其他更成熟簡單的輪子可以用嗎?

回覆內容:

我現在需要對一個網站的文章列表和列表裡面的實際內容進行自動化數據採集,列表裡面能夠取得每個文章的id,而每個文章又是通過一個統一的接口(參數帶上那個文章id即可取得對應的json)裡面又有一部分資料需要收集然後進行資料分析。

目前有什麼比較成熟的框架或輪子能夠實現我的需求嗎? (要多線程,而且可以7x24小時穩定運行,因為採集數量龐大)

另外問一下,採集到的內容如何儲存(百萬到千萬),數據裡面有一些數字數據,需要進行統計分析,用mysql可以嗎?或者說有其他更成熟簡單的輪子可以用嗎?

如果是數據分析。
map-reduce 做日誌分析
Dpark 可以解決PV和UV的分析
Spark也是不錯的哦。
生產數據報表後可以用Pandas進行分析展示。 。

如果是資料收集。工具就很多了。

我怎麼覺得你是要搞搜尋引擎呀。 。 。量比較大。建議分散式的東西。
用MYSQL不太現實。 。 。

少年, 你這不就是個爬蟲的需求麼?

  1. 爬蟲框架: scrapy

  2. 資料庫選取: 你這個量級用MySQL做好索引完全可以再戰五百年

也可以嘗試用MongoDB

你沒說什麼語言什麼環境。多線程的話,目前一般用nodejs、python。這兩個都可以使用mysql之類的儲存資料。幾百萬上千萬不成問題。

有玩過 python selenium + PhantomJs 麼?

python語言的這個scrapy這個還是

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Golang和C:並發與原始速度 Golang和C:並發與原始速度 Apr 21, 2025 am 12:16 AM

Golang在並發性上優於C ,而C 在原始速度上優於Golang。 1)Golang通過goroutine和channel實現高效並發,適合處理大量並發任務。 2)C 通過編譯器優化和標準庫,提供接近硬件的高性能,適合需要極致優化的應用。

C和XML:探索關係和支持 C和XML:探索關係和支持 Apr 21, 2025 am 12:02 AM

C 通過第三方庫(如TinyXML、Pugixml、Xerces-C )與XML交互。 1)使用庫解析XML文件,將其轉換為C 可處理的數據結構。 2)生成XML時,將C 數據結構轉換為XML格式。 3)在實際應用中,XML常用於配置文件和數據交換,提升開發效率。

IIS和PHP的兼容性:深度潛水 IIS和PHP的兼容性:深度潛水 Apr 22, 2025 am 12:01 AM

IIS和PHP可以兼容,通過FastCGI實現。 1.IIS通過配置文件將.php文件請求轉發給FastCGI模塊。 2.FastCGI模塊啟動PHP進程處理請求,提高性能和穩定性。 3.實際應用中需注意配置細節、錯誤調試和性能優化。

Python vs.C:您的項目選擇哪種語言? Python vs.C:您的項目選擇哪種語言? Apr 21, 2025 am 12:17 AM

選擇Python還是C 取決於項目需求:1)如果需要快速開發、數據處理和原型設計,選擇Python;2)如果需要高性能、低延遲和接近硬件的控制,選擇C 。

C:死亡還是簡單地發展? C:死亡還是簡單地發展? Apr 24, 2025 am 12:13 AM

1)c relevantduetoItsAverity and效率和效果臨界。 2)theLanguageIsconTinuellyUped,withc 20introducingFeaturesFeaturesLikeTuresLikeSlikeModeLeslikeMeSandIntIneStoImproutiMimproutimprouteverusabilityandperformance.3)

Python vs. JavaScript:比較用例和應用程序 Python vs. JavaScript:比較用例和應用程序 Apr 21, 2025 am 12:01 AM

Python更適合數據科學和自動化,JavaScript更適合前端和全棧開發。 1.Python在數據科學和機器學習中表現出色,使用NumPy、Pandas等庫進行數據處理和建模。 2.Python在自動化和腳本編寫方面簡潔高效。 3.JavaScript在前端開發中不可或缺,用於構建動態網頁和單頁面應用。 4.JavaScript通過Node.js在後端開發中發揮作用,支持全棧開發。

Python vs. C:了解關鍵差異 Python vs. C:了解關鍵差異 Apr 21, 2025 am 12:18 AM

Python和C 各有優勢,選擇應基於項目需求。 1)Python適合快速開發和數據處理,因其簡潔語法和動態類型。 2)C 適用於高性能和系統編程,因其靜態類型和手動內存管理。

在Python和C之間進行選擇:適合您的語言 在Python和C之間進行選擇:適合您的語言 Apr 20, 2025 am 12:20 AM

Python適合初學者和數據科學,C 適用於系統編程和遊戲開發。 1.Python簡潔易用,適用於數據科學和Web開發。 2.C 提供高性能和控制力,適用於遊戲開發和系統編程。選擇應基於項目需求和個人興趣。

See all articles