DeepSeek于2025年2月28日显着增强了开源功能,揭示了Fire-Flyer文件系统(3FS)和Smplearpond数据处理框架。 这些工具旨在彻底改变数据访问和处理,特别是用于AI培训和推断。
? #opensourceweek的第5天:3FS,所有DeepSeek数据访问的强大引擎
> fire-flyer文件系统(3FS) - 一个并行文件系统,最大化现代SSD和RDMA网络的带宽。
6.6 tib/s骨料读取吞吐量(180节点群集)
⚡3.66TIB/min…
- DeepSeek(@Deepseek_ai)2025年2月28日
目录的
>
> fire-flyer文件系统(3FS)
Shmperpond Framework
- 快速启动:3FS和Smermpond
- >故障排除和监视
- 摘要
-
> fire-flyer文件系统(3FS)-
3FS是为现代SSD和RDMA网络构建的高性能,分布式文件系统。 它提供了强大的共享存储解决方案,简化了分布式应用程序开发。
理解RDMA
远程直接内存访问(RDMA)绕过操作系统限制,从而在两台计算机的内存之间启用直接数据传输。这会导致更快,更有效的沟通。
键3FS功能
-
>无与伦比的性能和易用性:>
6.6 tib/s骨料读取吞吐量(180节点群集)。
- 3.66 tib/min吞吐量在Graysort基准(25节点群集)上。
- > 40 GIB/S峰值吞吐量每个客户端节点for Kvcache查找。
-
>分解架构:-
将数千个SSD的吞吐量与数百个存储节点的网络带宽结合在一起。
>为应用程序提供了局部性的存储访问。>
-
-
鲁棒一致性:
- >使用分配查询(CRAQ)采用链复制,以实现强大的一致性,简化了应用程序编码。
- >使用基于交易键值商店的无状态元数据服务(例如FoundationDB)。
维护熟悉的文件接口,消除了对新API学习的需求。
数据制备:
有效地管理数据分析管道中的大量中间输出。
>> dataLoader:- >启用跨计算节点训练样本的随机访问,消除预摘要或数据集随机改组。
>检查点:- 支持大规模训练的高通量平行检查点。
推理的
kvcache:- 提供了具有成本效益的高通量替代基于DRAM的基于DRAM的替代品,其容量显着增加。
>性能基准
- 广泛的测试验证了3FS性能。 大型集群的读取压力测试即使在同时进行培训工作流量。
Shmperpond Framework
天文,旨在补充3FS,是一个轻巧的分布式数据处理框架。它使用DuckDB作为计算引擎,并在分布式文件系统(例如3FS)上以镶木格式存储数据。。
钥匙太理庞德特征
高性能: duckdb提供了用于有效数据处理的本地级别性能。>
可伸缩性:
通过高性能分布式文件系统处理PETABYTE尺度数据,而无需内存。
简单:由于缺乏长期服务或复杂的依赖性而易于部署和维护。>>>>>>
有效的数据处理:分类大数据集的两相方法可提高性能和效率(例如,在30分钟内的8,192个分区中排序110.5 TIB)。
-
无缝3FS集成:利用3FS的高吞吐量和强大的一致性。
- 快速启动:3FS和Smermpond
3fs安装
- 克隆存储库并安装依赖项:
-
git clone https://github.com/deepseek-ai/3fs
-
cd 3fs
-
git submodule update --init --recursive
-
./patches/apply.sh
请咨询3FS文档以获取更多详细信息。
天短快速启动
-
确保安装Python 3.8。
- >安装Skermpond:
pip install smallpond
- 初始化天简会:
import smallpond; sp = smallpond.init()
- >加载镶木木:
df = sp.read_parquet("path/to/dataset/*.parquet")
>
- 重新分配数据(示例):
-
df = df.repartition(3)
-
df = df.repartition(3, by_row=True)
-
df = df.repartition(3, hash_by="host")
- 变换数据(示例):
-
df = df.map('a b as c')
-
df = df.map(lambda row: {'c': row['a'] row['b']})
- 保存数据:
df.write_parquet("path/to/output/dataset.parquet")
- 跑步的工作:
sp.run(df)
>故障排除和监视
Smallpond提供监视和调试工具。日志分析有助于解决执行问题。 可以通过官方支持渠道获得全面的文档,教程和用例。
摘要
> 3FS和Smermpond的开源释放代表了数据处理的重大进步。他们的高性能,易用性以及一致性增强了开发人员和研究人员的能力。 这些工具为现代,数据密集型应用程序提供了强大的基础架构。
以上是DeepSeek释放3FS和Shmperpond框架的详细内容。更多信息请关注PHP中文网其他相关文章!