DeepseekはFlashmlaを起動します-AI-php.cn

DeepseekはFlashmlaを起動します

Joseph Gordon-Levitt

リリース： 2025-03-03 18:10:10

オリジナル

296 人が閲覧しました

Deepseekの画期的なオープンソースリリース：Flashmla、Cuda Kernel Accelerating LLMS。この最適化された多輝度注意（MLA）デコードカーネルは、ホッパーGPU用に特別に設計されており、AIモデルホスティングの速度と効率を大幅に向上させます。主な改善には、BF16サポートとページKVキャッシュ（64ブロックサイズ）が含まれ、印象的なパフォーマンスベンチマークが生まれます。

？ #opensourceweekの1日目：flashmla

Deepseekは、Hopper GPUの高効率MLAデコードカーネルであるFlashmlaを誇らしげに発表します。可変長シーケンス用に最適化され、現在は生産されています。

✅BF16サポート
paged kvキャッシュ（ブロックサイズ64）
ページ ⚡3000 gb/sメモリバウンド＆580 tflops…

- deepseek（@deepseek_ai）2025年2月24日

主要な機能：

BF16精度：数値の安定性を維持しながら、効率的な計算を有効にします
メモリ効率を高め、大規模なモデルでは特に重要なレイテンシを低下させます。これらの最適化は、CUDA 12.6を使用してH800 SXM5 GPUの計算バウンドシナリオで最大3000 GB/sのメモリ帯域幅と580 TFLOPSを達成します。これにより、AI推論のパフォーマンスが劇的に向上します。以前はDeepSeekモデルで使用されていたFlashmlaは、DeepSeek AIのR1 V3を加速しています。

flashmlaとは？とは何ですか

マルチヘッドの潜在的注意（MLA）

標準のマルチヘッド注意制限
MLAのメモリ最適化戦略
- キー値のキャッシングと自己回帰デコード
kvキャッシングメカニクス
メモリの課題への対処
- deepseekモデルにおけるflashmlaの役割
- nvidiaホッパーアーキテクチャ
パフォーマンスの分析と意味
結論
flashmlaとは何ですか？

ハードウェアとソフトウェアの要件：

cuda 12.3

パフォーマンスベンチマーク：

メモリ帯域幅：

この優れたパフォーマンスにより、FlashmlaはAIワークロードを要求するのに理想的です。
の理解

MLAは、低ランク式因数分解投影マトリックスを使用して、標準的なマルチヘッド注意（MHA）のメモリ制限に対処します。グループクエリの注意のような方法とは異なり、MLAはメモリオーバーヘッドを減らしながらパフォーマンスを向上させます。

標準的なマルチヘッド注意制限：

seq_len * n_h * d_hmlaのメモリ最適化：n_h d_h

MLAは、キーと値をより小さな潜在ベクトル（

（ここで潜在的なベクトル寸法）に減らします。これにより、メモリの使用量が大幅に削減されます（DeepSeek-V2の最大93.3％の減少）。 DeepSeek Launches FlashMLA

c_t seq_len * d_cKVキャッシュは、以前に計算されたキー価値ペアを再利用することにより、自己回帰解読を加速します。ただし、これによりメモリの使用量が増加します。d_c

メモリの課題への対処：マルチクエリの注意（MQA）やグループ化されたクエリの注意（GQA）などのテクニックは、KVキャッシングに関連するメモリの問題を軽減します。

deepseekモデルにおけるflashmlaの役割：

Flashmlaは、DeepseekのR1およびV3モデルをパワーし、効率的な大規模AIアプリケーションを可能にします。

Flashmlaは、BF16マトリックス増殖のために580 TFLOPSを達成し、H800 GPUの理論的ピークの2倍以上になります。これは、GPUリソースの非常に効率的な利用率を示しています

結論 DeepSeek Launches FlashMLA

Flashmlaは、特にホッパーGPUのAI推論効率の大きな進歩を表しています。そのMLAの最適化は、BF16サポートとページングKVキャッシングと組み合わされて、驚くべきパフォーマンスの改善を実現します。これにより、大規模なAIモデルがよりアクセスしやすく、費用対効果が高くなり、モデル効率のための新しいベンチマークを設定します。

以上がDeepseekはFlashmlaを起動しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。