ホームページ > テクノロジー周辺機器 > AI > Deepseekは3FSとSmallpondフレームワークをリリースします

Deepseekは3FSとSmallpondフレームワークをリリースします

William Shakespeare
リリース: 2025-03-03 19:07:12
オリジナル
783 人が閲覧しました

DeepSeek Releases 3FS & Smallpond Framework

Deepseekは、2025年2月28日にオープンソース機能を大幅に向上させ、Fire Flyer File System(3FS)と天然のデータ処理フレームワークを発表しました。 これらのツールは、特にAIトレーニングと推論のために、データアクセスと処理に革命をもたらすように設計されています。

? #opensourceweekの5日目:3FS、すべてのDeepSeekデータアクセスのための強力なエンジン。

Fire-Flyer File System(3FS) - 最新のSSDとRDMAネットワークの帯域幅を最大化する並列ファイルシステム。

⚡6.6TIB/s集合体読み取りスループット(180ノードクラスター) ⚡3.66 TIB/min…

- deepseek(@deepseek_ai)2025年2月28日

目次

Fire-Flyer File System(3FS)

    smallpondフレームワーク
  • クイックスタート:3FSおよびSMALDPOND
  • トラブルシューティングと監視
  • 要約
  • Fire-Flyer File System(3FS)
3FSは、最新のSSDおよびRDMAネットワーク向けに構築された高性能の分散ファイルシステムです。 堅牢な共有ストレージソリューションを提供し、分散アプリケーション開発を簡素化します。

rdma

を理解しています

リモートダイレクトメモリアクセス(RDMA)オペレーティングシステムの制限をバイパスし、2つのコンピューターのメモリ間で直接データ転送を可能にします。これにより、より速く、より効率的な通信が生じます

キー3FS機能

  • 比類のないパフォーマンスと使いやすさ:
    • 6.6 TIB/Sアグリゲート読み取りスループット(180ノードクラスター)。
    • 3.66 GraySortベンチマーク(25ノードクラスター)のTIB/MINスループット
    • 40 gib/s kvcache lookupsのクライアントノードあたりのピークスループット
  • 分解されたアーキテクチャ:
      数千のSSDのスループットと、数百のストレージノードのネットワーク帯域幅を組み合わせています。
    • アプリケーション用の地域の巧妙なストレージアクセスを提供しています。
  • 堅牢な一貫性:
  • 強い一貫性のために、配分されたクエリ(CRAQ)を使用してチェーンレプリケーションを使用し、アプリケーションコーディングを簡素化します。
    標準ファイルインターフェイス:
  • トランザクションキー値ストア(例:FoundationDB)に基づいて、ステートレスメタデータサービスを使用しています。 おなじみのファイルインターフェイスを維持し、新しいAPI学習の必要性を排除します。
    • サポートされているワークロード
  • データの準備:
データ分析パイプラインから大量の中間出力を効率的に管理します。

DataloAders:コンピューティングノード全体でトレーニングサンプルへのランダムアクセスを有効にし、プリフェッチまたはデータセットのシャッフルを排除します。
  • チェックポイント:大規模トレーニングのハイスループット並列チェックポイントをサポートしています。 推論のための
  • kvcache:は、容量が大幅に増加したDRAMベースのキャッシュに代わる費用対効果の高いハイスループットの代替品を提供します。
  • パフォーマンスベンチマーク
  • 広範なテストで3FSパフォーマンスを検証します。 大規模なクラスターでの読み取りストレステストは、同時トレーニングのジョブトラフィックであっても、6.6 TIB/sの総読み取りスループットを達成しました。 smallpondフレームワーク
  • 3FSを補完するように設計された
  • Smallpondは、軽量の分散データ処理フレームワークです。 DuckDBを計算エンジンとして使用し、分散ファイルシステム(3FSなど)にParquet形式でデータを保存します。 キー天然pond

ハイパフォーマンス:

duckdbは、効率的なデータ処理のためにネイティブレベルのパフォーマンスを提供します。

スケーラビリティ:

高性能分散ファイルシステムのおかげで、メモリボトルネックなしのペタバイトスケールデータを処理します。

シンプルさ:

長期にわたるサービスや複雑な依存関係がないため、簡単な展開とメンテナンス。

    効率的なデータ処理:大規模なデータセットをソートするための2フェーズアプローチにより、パフォーマンスと効率が向上します(たとえば、30分未満で8,192のパーティションで110.5 TIBをソートします)。
  • シームレスな3FS統合:レバレッジ3FSの高スループットと強い一貫性。
  • クイックスタート:3FSおよびSMALDPOND 3FSインストール
  • リポジトリをクローンし、依存関係をインストールします:
    1. git clone https://github.com/deepseek-ai/3fs
    2. cd 3fs
    3. git submodule update --init --recursive
    4. ./patches/apply.sh

    詳細については、3FSドキュメントを参照してください。

    smallpond Quick Start

    • Python 3.8がインストールされていることを確認してください

    • smallpondをインストールする:

      pip install smallpond

    • Smallpondセッションの初期化:

      import smallpond; sp = smallpond.init()

    • 寄木細工データを読み込みます:

      df = sp.read_parquet("path/to/dataset/*.parquet")

    • 再パーティションデータ(例):

      • df = df.repartition(3)
      • df = df.repartition(3, by_row=True)
      • df = df.repartition(3, hash_by="host")
    • データの変換(例):

      • df = df.map('a b as c')
      • df = df.map(lambda row: {'c': row['a'] row['b']})
    • データの保存:

      df.write_parquet("path/to/output/dataset.parquet")

    • 天然のジョブを実行する:

      sp.run(df)

    トラブルシューティングと監視

    Smallpondは、監視およびデバッグツールを提供しています。ログ分析は、実行の問題を解決するのに役立ちます。 包括的なドキュメント、チュートリアル、およびユースケースは、公式サポートチャネルから入手できます。

    要約

    3FSおよびSmallpondのオープンソースリリースは、データ処理の大幅な進歩を表しています。彼らの高いパフォーマンス、使いやすさ、一貫性が開発者と研究者に力を与えます。 これらのツールは、最新のデータ集約型アプリケーションに強力なインフラストラクチャを提供します。

以上がDeepseekは3FSとSmallpondフレームワークをリリースしますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート