ホームページ > テクノロジー周辺機器 > AI > DeepseekはFlashmlaを起動します

DeepseekはFlashmlaを起動します

Joseph Gordon-Levitt
リリース: 2025-03-03 18:10:10
オリジナル
296 人が閲覧しました

Deepseekの画期的なオープンソースリリース:Flashmla、Cuda Kernel Accelerating LLMS。 この最適化された多輝度注意(MLA)デコードカーネルは、ホッパーGPU用に特別に設計されており、AIモデルホスティングの速度と効率を大幅に向上させます。 主な改善には、BF16サポートとページKVキャッシュ(64ブロックサイズ)が含まれ、印象的なパフォーマンスベンチマークが生まれます。

? #opensourceweekの1日目:flashmla

Deepseekは、Hopper GPUの高効率MLAデコードカーネルであるFlashmlaを誇らしげに発表します。可変長シーケンス用に最適化され、現在は生産されています。

✅BF16サポート

paged kvキャッシュ(ブロックサイズ64)
ページ ⚡3000 gb/sメモリバウンド&580 tflops…

- deepseek(@deepseek_ai)2025年2月24日

主要な機能:

  • BF16精度:数値の安定性を維持しながら、効率的な計算を有効にします
  • Paged KVキャッシュ(64ブロックサイズ):
  • メモリ効率を高め、大規模なモデルでは特に重要なレイテンシを低下させます。 これらの最適化は、CUDA 12.6を使用してH800 SXM5 GPUの計算バウンドシナリオで最大3000 GB/sのメモリ帯域幅と580 TFLOPSを達成します。 これにより、AI推論のパフォーマンスが劇的に向上します。 以前はDeepSeekモデルで使用されていたFlashmlaは、DeepSeek AIのR1 V3を加速しています。
目次:

flashmlaとは?とは何ですか

マルチヘッドの潜在的注意(MLA)
    の理解
  • 標準のマルチヘッド注意制限
  • MLAのメモリ最適化戦略
    • キー値のキャッシングと自己回帰デコード
    kvキャッシングメカニクス
  • メモリの課題への対処
    • deepseekモデルにおけるflashmlaの役割
    • nvidiaホッパーアーキテクチャ
    パフォーマンスの分析と意味
  • 結論
  • flashmlaとは何ですか?
  • ​​Flashmlaは、Nvidia Hopper GPU用に構築された高度に最適化されたMLAデコードカーネルです。 その設計は、スケーラブルなAIモデルの加速に対するDeepSeekのコミットメントを反映して、速度と効率を優先します。

    ハードウェアとソフトウェアの要件:

    ホッパーアーキテクチャgpus(例:H800 SXM5)

    cuda 12.3

    pytorch 2.0
    • パフォーマンスベンチマーク:
    • flashmlaは例外的なパフォーマンスを示します:

    メモリ帯域幅:

    最大3000 GB/s(H800 SXM5理論ピークに近づいています)。

    計算スループット:
      BF16マトリックス乗算の最大580 TFLOPS(H800の理論的ピークを大幅に超えています)。
    • この優れたパフォーマンスにより、FlashmlaはAIワークロードを要求するのに理想的です。
    • マルチヘッドの潜在的注意(MLA)
    • の理解
    DeepSeek-V2で導入された

    MLAは、低ランク式因数分解投影マトリックスを使用して、標準的なマルチヘッド注意(MHA)のメモリ制限に対処します。グループクエリの注意のような方法とは異なり、MLAはメモリオーバーヘッドを減らしながらパフォーマンスを向上させます。

    標準的なマルチヘッド注意制限:

    MHAのKVキャッシュは、シーケンスの長さで直線的にスケーリングし、長いシーケンスのメモリボトルネックを作成します。 キャッシュサイズは次のように計算されます。

    seq_len * n_h * d_hmlaのメモリ最適化:n_h d_h

    MLAは、キーと値をより小さな潜在ベクトル(

    )に圧縮し、kVキャッシュサイズを

    (ここで潜在的なベクトル寸法)に減らします。 これにより、メモリの使用量が大幅に削減されます(DeepSeek-V2の最大93.3%の減少)。 DeepSeek Launches FlashMLA

    キー値のキャッシングと自己回帰デコード

    c_t seq_len * d_cKVキャッシュは、以前に計算されたキー価値ペアを再利用することにより、自己回帰解読を加速します。 ただし、これによりメモリの使用量が増加します。d_c

    メモリの課題への対処: マルチクエリの注意(MQA)やグループ化されたクエリの注意(GQA)などのテクニックは、KVキャッシングに関連するメモリの問題を軽減します。

    deepseekモデルにおけるflashmlaの役割:

    Flashmlaは、DeepseekのR1およびV3モデルをパワーし、効率的な大規模AIアプリケーションを可能にします。

    nvidiaホッパーアーキテクチャ

    Nvidia Hopperは、AIおよびHPCワークロード向けに設計された高性能GPUアーキテクチャです。 トランスエンジンや第2世代MIGなどのその革新により、例外的な速度とスケーラビリティが可能になります。

    パフォーマンスの分析と意味

    Flashmlaは、BF16マトリックス増殖のために580 TFLOPSを達成し、H800 GPUの理論的ピークの2倍以上になります。 これは、GPUリソ​​ースの非常に効率的な利用率を示しています

    結論DeepSeek Launches FlashMLA

    Flashmlaは、特にホッパーGPUのAI推論効率の大きな進歩を表しています。 そのMLAの最適化は、BF16サポートとページングKVキャッシングと組み合わされて、驚くべきパフォーマンスの改善を実現します。 これにより、大規模なAIモデルがよりアクセスしやすく、費用対効果が高くなり、モデル効率のための新しいベンチマークを設定します。

以上がDeepseekはFlashmlaを起動しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート