Microsoft、新しい混合精度トレーニングフレームワーク FP8 をリリース: BF16 より 64% 高速、メモリ使用量が 42% 削減-AI-php.cn

Microsoft、新しい混合精度トレーニングフレームワーク FP8 をリリース: BF16 より 64% 高速、メモリ使用量が 42% 削減

PHPz

リリース： 2023-11-10 14:17:29

転載

1595 人が閲覧しました

微软发布新的混合精度训练框架 FP8：速度超过 BF16 64%，内存占用减少 42%

11 月 10 日のニュースでは、大規模言語モデル (LLM) が急速に台頭しており、言語の生成と理解に明るい見通しが示されており、その影響は言語分野を超えて論理と数学にまで広がっています。、物理学およびその他の分野。

微软发布新的混合精度训练框架 FP8：速度超过 BF16 64%，内存占用减少 42%

ただし、これらの「並外れたエネルギー」を解放したい場合は、高い代償を支払う必要があります。たとえば、540B モデルのトレーニングには、Project PaLM の 6144 TPUv4 チップが必要です。 ; 175B モデル GPT-3 のトレーニングには、数千ペタフロップス/s-day が必要です。

良い解決策は、低精度でトレーニングすることです。これにより、処理速度が向上し、メモリ使用量と通信コストが削減されます。現在主流のトレーニングシステムには、Megatron-LM、MetaSeq、Colossal-AI が含まれます。これらは、大規模な言語モデルをトレーニングするためにデフォルトで FP16/BF16 混合精度または FP32 完全精度を使用します

これらの精度レベルは大規模な言語モデルには必要ですが、不可欠ですが、計算コストがかかります。

FP8 低精度を使用すると、速度が 2 倍向上し、メモリコストが 50% ～ 75% 削減され、通信コストも節約できます。

現在、FP8 フレームワークと互換性があるのは Nvidia Transformer Engine だけであり、マスターの重みと勾配を FP16 または FP32 の高精度に維持しながら、主に GEMM (一般行列乗算) 計算にこの精度を利用します。

この課題に対処するために、Microsoft Azure と Microsoft Research の研究者チームは、大規模な言語モデルのトレーニングに合わせて調整された効率的な FP8 混合精度フレームワークを導入しました。

微软发布新的混合精度训练框架 FP8：速度超过 BF16 64%，内存占用减少 42%

Microsoft は、分散型および混合精度トレーニングに FP8 を活用するために 3 つの最適化ステージを導入しました。これらのレベルが進むにつれて、FP8 の統合の増加が明らかになり、LLM トレーニングプロセスへの影響が大きくなることを示唆しています。

さらに、データのオーバーフローやアンダーフローなどの問題を克服するために、マイクロソフトの研究者は、自動サンプリングと正確なデカップリングという 2 つの主要な方法を提案しました。前者には、精度に敏感ではないコンポーネントが含まれるため、精度が低下し、動的にデカップリングが行われます。 Tensor サンプリング係数を調整して、勾配値が FP8 表現範囲内に収まるようにします。これにより、通信中のアンダーフローやオーバーフローのイベントが防止され、よりスムーズなトレーニングプロセスが保証されます。

Microsoft は、広く採用されている BF16 混合精度方式と比較して、 メモリ使用量が 27% ～ 42% 削減され、 重み勾配通信のオーバーヘッドが 63% ～ 65% 大幅に削減されることをテストしました。 Megatron-LM などの広く採用されている BF16 フレームワークよりも 64% 高速に実行され、Nvidia Transformer Engine よりも 17% 高速に実行されます。

微软发布新的混合精度训练框架 FP8：速度超过 BF16 64%，内存占用减少 42%