java - PHP或python進行資料收集和分析，有什麼比較成熟的框架？-php教程-PHP中文網

回覆內容：

首頁

後端開發

php教程

java - PHP或python進行資料收集和分析，有什麼比較成熟的框架？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 22, 2016 am 12:14 AM

c++ java node.js php python

我現在需要對一個網站的文章列表和列表裡面的實際內容進行自動化數據採集，列表裡面能夠取得每個文章的id，而每個文章又是通過一個統一的接口（參數帶上那個文章id即可取得對應的json）裡面又有一部分資料需要收集然後進行資料分析。

目前有什麼比較成熟的框架或輪子能夠實現我的需求嗎？（要多線程，而且可以7x24小時穩定運行，因為採集數量龐大）

另外問一下，採集到的內容如何儲存（百萬到千萬），數據裡面有一些數字數據，需要進行統計分析，用mysql可以嗎？或者說有其他更成熟簡單的輪子可以用嗎？

回覆內容：

目前有什麼比較成熟的框架或輪子能夠實現我的需求嗎？（要多線程，而且可以7x24小時穩定運行，因為採集數量龐大）

如果是數據分析。
map-reduce 做日誌分析
Dpark 可以解決PV和UV的分析
Spark也是不錯的哦。
生產數據報表後可以用Pandas進行分析展示。。

如果是資料收集。工具就很多了。

我怎麼覺得你是要搞搜尋引擎呀。。。量比較大。建議分散式的東西。
用MYSQL不太現實。。。

少年, 你這不就是個爬蟲的需求麼?

爬蟲框架: scrapy
資料庫選取: 你這個量級用MySQL做好索引完全可以再戰五百年

也可以嘗試用MongoDB

你沒說什麼語言什麼環境。多線程的話，目前一般用nodejs、python。這兩個都可以使用mysql之類的儲存資料。幾百萬上千萬不成問題。

有玩過 python selenium + PhantomJs 麼？

python語言的這個scrapy這個還是

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7859

Java教學

1649

CakePHP 教程

1403

Laravel 教程

1300

PHP教程

1242

Related knowledge

Golang和C：並發與原始速度 Apr 21, 2025 am 12:16 AM

Golang在並發性上優於C ，而C 在原始速度上優於Golang。 1)Golang通過goroutine和channel實現高效並發，適合處理大量並發任務。 2)C 通過編譯器優化和標準庫，提供接近硬件的高性能，適合需要極致優化的應用。

C和XML：探索關係和支持 Apr 21, 2025 am 12:02 AM

C 通過第三方庫（如TinyXML、Pugixml、Xerces-C ）與XML交互。 1)使用庫解析XML文件，將其轉換為C 可處理的數據結構。 2)生成XML時，將C 數據結構轉換為XML格式。 3)在實際應用中，XML常用於配置文件和數據交換，提升開發效率。

IIS和PHP的兼容性：深度潛水 Apr 22, 2025 am 12:01 AM

IIS和PHP可以兼容，通過FastCGI實現。 1.IIS通過配置文件將.php文件請求轉發給FastCGI模塊。 2.FastCGI模塊啟動PHP進程處理請求，提高性能和穩定性。 3.實際應用中需注意配置細節、錯誤調試和性能優化。

Python vs.C：您的項目選擇哪種語言？ Apr 21, 2025 am 12:17 AM

選擇Python還是C 取決於項目需求：1)如果需要快速開發、數據處理和原型設計，選擇Python；2)如果需要高性能、低延遲和接近硬件的控制，選擇C 。

C：死亡還是簡單地發展？ Apr 24, 2025 am 12:13 AM

1）c relevantduetoItsAverity and效率和效果臨界。 2）theLanguageIsconTinuellyUped，withc 20introducingFeaturesFeaturesLikeTuresLikeSlikeModeLeslikeMeSandIntIneStoImproutiMimproutimprouteverusabilityandperformance.3）

Python vs. JavaScript：比較用例和應用程序 Apr 21, 2025 am 12:01 AM

Python更適合數據科學和自動化，JavaScript更適合前端和全棧開發。 1.Python在數據科學和機器學習中表現出色，使用NumPy、Pandas等庫進行數據處理和建模。 2.Python在自動化和腳本編寫方面簡潔高效。 3.JavaScript在前端開發中不可或缺，用於構建動態網頁和單頁面應用。 4.JavaScript通過Node.js在後端開發中發揮作用，支持全棧開發。