
Deepseekは、2025年2月28日にオープンソース機能を大幅に向上させ、Fire Flyer File System(3FS)と天然のデータ処理フレームワークを発表しました。 これらのツールは、特にAIトレーニングと推論のために、データアクセスと処理に革命をもたらすように設計されています。
? #opensourceweekの5日目:3FS、すべてのDeepSeekデータアクセスのための強力なエンジン。
Fire-Flyer File System(3FS) - 最新のSSDとRDMAネットワークの帯域幅を最大化する並列ファイルシステム。
⚡6.6TIB/s集合体読み取りスループット(180ノードクラスター)
⚡3.66 TIB/min…
- deepseek(@deepseek_ai)2025年2月28日
目次
Fire-Flyer File System(3FS)
smallpondフレームワーク-
クイックスタート:3FSおよびSMALDPOND-
トラブルシューティングと監視-
要約-
- Fire-Flyer File System(3FS)
3FSは、最新のSSDおよびRDMAネットワーク向けに構築された高性能の分散ファイルシステムです。 堅牢な共有ストレージソリューションを提供し、分散アプリケーション開発を簡素化します。
rdma
を理解しています
リモートダイレクトメモリアクセス(RDMA)オペレーティングシステムの制限をバイパスし、2つのコンピューターのメモリ間で直接データ転送を可能にします。これにより、より速く、より効率的な通信が生じます
キー3FS機能
-
比類のないパフォーマンスと使いやすさ:
- 6.6 TIB/Sアグリゲート読み取りスループット(180ノードクラスター)。
- 3.66 GraySortベンチマーク(25ノードクラスター)のTIB/MINスループット
40 gib/s kvcache lookupsのクライアントノードあたりのピークスループット-
- 分解されたアーキテクチャ:
数千のSSDのスループットと、数百のストレージノードのネットワーク帯域幅を組み合わせています。
- アプリケーション用の地域の巧妙なストレージアクセスを提供しています。
-
堅牢な一貫性:-
強い一貫性のために、配分されたクエリ(CRAQ)を使用してチェーンレプリケーションを使用し、アプリケーションコーディングを簡素化します。
標準ファイルインターフェイス:
-
トランザクションキー値ストア(例:FoundationDB)に基づいて、ステートレスメタデータサービスを使用しています。
おなじみのファイルインターフェイスを維持し、新しいAPI学習の必要性を排除します。
データの準備:
データ分析パイプラインから大量の中間出力を効率的に管理します。
DataloAders:
コンピューティングノード全体でトレーニングサンプルへのランダムアクセスを有効にし、プリフェッチまたはデータセットのシャッフルを排除します。
- チェックポイント:大規模トレーニングのハイスループット並列チェックポイントをサポートしています。
推論のための
- kvcache:は、容量が大幅に増加したDRAMベースのキャッシュに代わる費用対効果の高いハイスループットの代替品を提供します。
パフォーマンスベンチマーク-
広範なテストで3FSパフォーマンスを検証します。 大規模なクラスターでの読み取りストレステストは、同時トレーニングのジョブトラフィックであっても、6.6 TIB/sの総読み取りスループットを達成しました。
smallpondフレームワーク
3FSを補完するように設計された- Smallpondは、軽量の分散データ処理フレームワークです。 DuckDBを計算エンジンとして使用し、分散ファイルシステム(3FSなど)にParquet形式でデータを保存します。
キー天然pond
ハイパフォーマンス:
duckdbは、効率的なデータ処理のためにネイティブレベルのパフォーマンスを提供します。
スケーラビリティ:高性能分散ファイルシステムのおかげで、メモリボトルネックなしのペタバイトスケールデータを処理します。
シンプルさ:長期にわたるサービスや複雑な依存関係がないため、簡単な展開とメンテナンス。
効率的なデータ処理:大規模なデータセットをソートするための2フェーズアプローチにより、パフォーマンスと効率が向上します(たとえば、30分未満で8,192のパーティションで110.5 TIBをソートします)。
-
シームレスな3FS統合:レバレッジ3FSの高スループットと強い一貫性。
- クイックスタート:3FSおよびSMALDPOND
3FSインストール
- リポジトリをクローンし、依存関係をインストールします:
-
git clone https://github.com/deepseek-ai/3fs
-
cd 3fs
-
git submodule update --init --recursive
-
./patches/apply.sh
詳細については、3FSドキュメントを参照してください。
smallpond Quick Start
-
Python 3.8がインストールされていることを確認してください
- smallpondをインストールする:
pip install smallpond
- Smallpondセッションの初期化:
import smallpond; sp = smallpond.init()
- 寄木細工データを読み込みます:
df = sp.read_parquet("path/to/dataset/*.parquet")
- 再パーティションデータ(例):
-
df = df.repartition(3)
-
df = df.repartition(3, by_row=True)
-
df = df.repartition(3, hash_by="host")
- データの変換(例):
-
df = df.map('a b as c')
-
df = df.map(lambda row: {'c': row['a'] row['b']})
- データの保存:
df.write_parquet("path/to/output/dataset.parquet")
- 天然のジョブを実行する:
sp.run(df)
トラブルシューティングと監視
Smallpondは、監視およびデバッグツールを提供しています。ログ分析は、実行の問題を解決するのに役立ちます。 包括的なドキュメント、チュートリアル、およびユースケースは、公式サポートチャネルから入手できます。
要約
3FSおよびSmallpondのオープンソースリリースは、データ処理の大幅な進歩を表しています。彼らの高いパフォーマンス、使いやすさ、一貫性が開発者と研究者に力を与えます。 これらのツールは、最新のデータ集約型アプリケーションに強力なインフラストラクチャを提供します。
以上がDeepseekは3FSとSmallpondフレームワークをリリースしますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。