DeepSeek AI的《天花:用於分佈式數據處理》的輕量級框架
DeepSeek AI在DeepSeek R1成功的基礎上引入了Smplecond,這是一個精簡的數據處理框架,旨在有效地處理大量數據集。這種創新的解決方案將DuckDB的SQL Analytics速度與3FS的高性能分佈存儲能力相結合,從而使Pabyte尺度數據的處理具有最小的基礎架構。 SmplowPond簡化了針對AI和大數據應用程序的數據處理,從而消除了對複雜的設置和長期運行的服務的需求。本文探討了天簡的功能,組件和應用程序,為其使用提供了實用的指南。
學習目標:
(本文是數據科學博客馬拉鬆的一部分。)
目錄:
什麼是DeepSeek天花?
Smplecond是一個開源項目,於2025年2月28日在DeepSeek開源週期間發布,是一個輕巧的框架,將DuckDB的功率擴展到了分佈式環境中。通過與3FS(Fire-Flyer File System)集成,Smortpond提供了可擴展的解決方案,用於PB尺度數據,而沒有像Apache Spark這樣的傳統大數據平台的複雜性。它針對的是數據工程師和科學家,尋求用於分佈式分析的高效且易於使用的工具。
(了解更多信息:DeepSeek發行3FS和Smallpond框架)
關鍵功能:
核心組件:
從天花開始:
安裝: Shmblpond(當前僅是Linux)是通過PIP安裝的。需要Python 3.8–3.11和兼容的3FS群集(或需要進行測試的本地文件系統)。
PIP安裝天簡 PIP安裝“ Smallpond [dev]”#可選開發依賴項 pip安裝'ray [默認]'#射線簇
3FS安裝涉及從GitHub存儲庫中克隆和構建(有關詳細說明,請參見3FS文檔)。
環境設置:
初始化3FS簇的射線:
射線啟動-Head-num-cpus =<num_cpus> -num-gpus =<num_gpus></num_gpus></num_cpus>
初始化天簡(如果適用,請替換為射線地址和3FS端點):
進口天簡 sp = smertmond.init(data_root =“路徑/to/local/storage”,ray_address =“ 192.168.214.165:6379”)#local filesystem #sp = smertmond.init(data_root =“ 3fs:// cluster_endpoint”,ray_address =“ ...”)#3fs cluster
數據攝入和準備:
天花主要支持鑲木。
#閱讀Parquet df = sp.read_parquet(“ data/input.prices.parquet”) #過程數據(示例) df = df.map(“價格> 100”) #寫數據 df.write_parquet(“ data/output/filtered.prices.parquet”)
分區策略包括使用df.repartition()
進行文件計數,行或列哈希。
API參考:高級API簡化了數據操作。低級API為高級用戶提供直接訪問DuckDB和Ray。 (原始文章中提供了詳細的功能描述)。
(其餘部分 - 性能基準,最佳實踐,可伸縮性,應用,優勢和缺點,結論和常見問題解答 - 將遵循類似的重新單詞和重組,以在解釋文本時保持原始含義。
本文中顯示的媒體不歸[您的平台名稱]所有,並且由作者的酌處權使用。
以上是DeepSeek天花的綜合指南的詳細內容。更多資訊請關注PHP中文網其他相關文章!