A800 は Llama2 推論 RTX3090 および 4090 を大幅に上回り、優れたレイテンシーとスループットを実現します。-AI-php.cn

方法の概要

プレトレーニング結果

ホームページ

テクノロジー周辺機器

A800 は Llama2 推論 RTX3090 および 4090 を大幅に上回り、優れたレイテンシーとスループットを実現します。

Jan 04, 2024 pm 01:05 PM

モデル電車

大規模言語モデル (LLM) は、学術界と産業界の両方で大きな進歩を遂げました。しかし、LLM のトレーニングと展開には非常に費用がかかり、大量のコンピューティングリソースとメモリが必要となるため、研究者は LLM の事前トレーニング、微調整、推論を高速化するための多くのオープンソースフレームワークと手法を開発してきました。ただし、ハードウェアおよびソフトウェアスタックが異なると実行時のパフォーマンスが大幅に異なる場合があるため、最適な構成を選択することが困難になります。

A800 は Llama2 推論 RTX3090 および 4090 を大幅に上回り、優れたレイテンシーとスループットを実現します。

最近、「大規模言語モデルのトレーニング、微調整、および推論の実行時パフォーマンスの分析」というタイトルの新しい論文が発表されました。 LLM のトレーニング、微調整、推論をマクロとミクロの観点から詳細に分析します。

A800 は Llama2 推論 RTX3090 および 4090 を大幅に上回り、優れたレイテンシーとスループットを実現します。

論文を表示するには、次のリンクをクリックしてください: https://arxiv.org/pdf/2311.03687.pdf

具体的には、この調査ではまず、事前トレーニング、微調整、およびサービスを変更することなく、3 つの 8 GPU で異なるサイズ (7B、13B、および 70B パラメーター) の LLM のフルプロセスパフォーマンスベンチマークテストを実施しました。本来の意味です。テストでは、ZeRO、Quantize、Recalculate、FlashAttendant などの個別の最適化テクノロジを備えたプラットフォームと備えていないプラットフォームを対象にしました。さらに、この調査では、LLM の計算および通信演算子のサブモジュールの詳細な実行時分析が提供されます。

方法の概要

調査のベンチマークテストではトップダウンアプローチが採用されており、図 3 に示すように、3 つの 8 GPU ハードウェアプラットフォーム上の Llama2 のエンドツーエンドのステップ時間パフォーマンス、モジュールレベルの時間パフォーマンス、およびオペレーター時間のパフォーマンスがカバーされます。

A800 は Llama2 推論 RTX3090 および 4090 を大幅に上回り、優れたレイテンシーとスループットを実現します。

#3 つのハードウェアプラットフォームは RTX4090、RTX3090、A800 で、具体的な仕様は以下の表 1 に示されています。

A800 は Llama2 推論 RTX3090 および 4090 を大幅に上回り、優れたレイテンシーとスループットを実現します。

ソフトウェア面では、この研究では DeepSpeed と Megatron-LM をエンドツーエンドで比較しています。事前トレーニングとステップ時間の微調整。最適化手法を評価するために、調査では DeepSpeed を使用して次の最適化を 1 つずつ有効にしました: ZeRO-2、ZeRO-3、オフロード、アクティベーション再計算、量子化、FlashAttending を使用して、パフォーマンスの向上と時間とメモリ消費量の削減を測定しました。

LLM サービスに関しては、vLLM、LightLLM、TGI という 3 つの高度に最適化されたシステムがあり、この調査では 3 つのテストプラットフォームでそれらのパフォーマンス (レイテンシとスループット) を比較しました。

結果の精度と再現性を確保するために、この研究では、一般的に使用される LLM データセット alpaca の命令、入力、出力の平均長、つまり 350 トークンを計算しました。サンプルごとに、シーケンス長が 350 になるように文字列をランダムに生成します。

推論サービスでは、コンピューティングリソースを包括的に利用し、フレームワークの堅牢性と効率性を評価するために、すべてのリクエストがバーストモードでスケジュールされます。実験データセットは 1000 の合成文で構成され、各文には 512 個の入力トークンが含まれています。この調査では、結果の一貫性と比較可能性を確保するために、同じ GPU プラットフォームでのすべての実験で「生成されたトークンの最大長」パラメーターを常に維持しています。

元の意味、プロセス全体のパフォーマンスを変更する必要はありません

この調査事前トレーニングと微調整に合格し、異なるサイズ (7B、13B、70B) の Llama2 モデルのステップ時間、スループット、メモリ消費量を推測して、元の意味を変えることなく 3 つのテストプラットフォームで完全なパフォーマンスを測定します。広く使用されている 3 つの推論サービスシステムである TGI、vLLM、LightLLM も、レイテンシ、スループット、メモリ消費量などのメトリクスに焦点を当てて評価されます。

モジュールレベルのパフォーマンス

LLM は通常、一連のモジュール (またはレイヤー) で構成されます。 )、これらのモジュールは独自のコンピューティングおよび通信特性を備えている場合があります。たとえば、Llama2 モデルを構成する主要なモジュールは、Embedding、LlamaDecoderLayer、Linear、SiLUActivation、LlamaRMSNorm です。

プレトレーニング結果

プレトレーニング実験セッションでは、研究者はまず、異なるサイズのモデル (7B、13B、および 70B) のプレトレーニングを分析しました。 3 つのテストプラットフォームのパフォーマンス (反復時間またはスループット、メモリ消費量) をテストし、モジュールレベルと運用レベルでマイクロベンチマークを実施しました。

元の意味、プロセス全体のパフォーマンスを変更する必要はありません

研究者最初に、Megatron-LM と DeepSpeed のパフォーマンスを比較する実験を実施しました。どちらも、A800-80GB サーバーで Llama2-7B を事前トレーニングする際に、メモリ最適化テクノロジ (ZeRO など) を使用しませんでした。

彼らは 350 のシーケンス長を使用し、Megatron-LM と DeepSpeed に対して 1 から最大バッチサイズまでの 2 セットのバッチサイズを提供しました。トレーニングスループット (トークン/秒) とコンシューマ GPU メモリ (GB 単位) に対してベンチマークされた結果を以下の表 II に示します。

結果は、バッチサイズが 1 の場合、Megatron-LM が DeepSpeed よりわずかに高速であることを示しています。ただし、バッチサイズが最大に達した場合のトレーニング速度は DeepSpeed が最も速くなります。バッチサイズが同じ場合、DeepSpeed はテンソル並列ベースの Megatron-LM よりも多くの GPU メモリを消費します。バッチサイズが小さい場合でも、両方のシステムが大量の GPU メモリを消費し、RTX4090 または RTX3090 GPU サーバーでメモリオーバーフローを引き起こしました。

A800 は Llama2 推論 RTX3090 および 4090 を大幅に上回り、優れたレイテンシーとスループットを実現します。

Llama2-7B (シーケンス長 350、バッチサイズ 2) をトレーニングするとき、研究者は量子化を備えた DeepSpeed を使用して、さまざまなスケーリング効率を研究しました。ハードウェアプラットフォーム。結果は以下の図 4 に示されており、A800 はほぼ直線的にスケーリングしますが、RTX4090 と RTX3090 のスケーリング効率はそれぞれ 90.8% と 85.9% とわずかに低くなります。 RTX3090 プラットフォームでは、NVLink 接続は NVLink を使用しない場合よりも 10% 効率が高くなります。

A800 は Llama2 推論 RTX3090 および 4090 を大幅に上回り、優れたレイテンシーとスループットを実現します。

研究者らは、DeepSpeed を使用して、さまざまなメモリと計算効率の高い方法でのトレーニングパフォーマンスを評価しました。公平性を保つために、すべての評価はシーケンス長 350、バッチサイズ 1、およびデフォルトのロードされたモデルの重み bf16 に設定されます。

オフロード機能を備えた ZeRO-2 および ZeRO-3 の場合、オプティマイザー状態とオプティマイザー状態モデルをそれぞれ CPU RAM にオフロードします。量子化には、デュアル量子化を備えた 4 ビット構成が使用されました。 NVLink が無効になっている場合 (つまり、すべてのデータが PCIe バス経由で転送される場合) の RTX3090 のパフォーマンスも報告されています。結果を以下の表３に示す。

A800 は Llama2 推論 RTX3090 および 4090 を大幅に上回り、優れたレイテンシーとスループットを実現します。

#最大のスループットを得るために、研究者らは各メソッドのバッチサイズを最大化することで、さまざまな GPU サーバーのコンピューティング能力をさらに活用しました。結果を表 IV に示します。これは、バッチサイズを増やすことでトレーニングプロセスを簡単に改善できることを示しています。したがって、高帯域幅と大容量メモリを備えた GPU サーバーは、コンシューマグレードの GPU サーバーよりもフルパラメータ混合精度トレーニングに適しています

A800 は Llama2 推論 RTX3090 および 4090 を大幅に上回り、優れたレイテンシーとスループットを実現します。

モジュールレベルの分析

以下の表 V は、シングルステップで事前トレーニングされた Llama2 のフォワード、バックワード、およびオプティマイザーの全体的な計算コア時間を示しています。 -7Bモデルのコスト。逆方向フェーズの場合、合計時間には非重複時間が含まれるため、計算コア時間は順方向フェーズおよびオプティマイザーよりもはるかに小さくなります。逆位相から非重複時間を除くと94.8となる。

A800 は Llama2 推論 RTX3090 および 4090 を大幅に上回り、優れたレイテンシーとスループットを実現します。

FlashAttendant の影響を再計算して再評価する必要があります

#事前トレーニングを高速化する手法は、メモリの節約、バッチサイズの増加、コンピューティングコアの高速化の 2 つのカテゴリに大別できます。以下の図 5 に示すように、GPU は、順方向フェーズ、逆方向フェーズ、およびオプティマイザーフェーズ中にアイドル時間の 5 ～ 10% を費やします。

研究者らは、このアイドル時間はバッチサイズが小さいことが原因であると考え、利用可能な最大のバッチサイズですべての手法をテストしました。最終的に、再計算を使用してバッチサイズを増やし、FlashAttendant を使用してコア分析を高速化しました。

A800 は Llama2 推論 RTX3090 および 4090 を大幅に上回り、優れたレイテンシーとスループットを実現します。

以下の表 VII に示すように、バッチサイズが増加すると、順方向フェーズと逆方向フェーズの時間が大幅に増加し、GPU のアイドル時間がほとんどなくなります。

A800 は Llama2 推論 RTX3090 および 4090 を大幅に上回り、優れたレイテンシーとスループットを実現します。

#以下の表 VIII によると、FlashAttendant は前方注意モジュールと後方注意モジュールをそれぞれ 34.9% と 24.7% 加速できます

A800 は Llama2 推論 RTX3090 および 4090 を大幅に上回り、優れたレイテンシーとスループットを実現します。

#微調整結果

微調整セッションでは、研究者は主にパラメータ効率の良い微調整方法 (PEFT) について議論しました。 ) を示し、さまざまなモデルサイズとハードウェア設定の下で LoRA と QLoRA の微調整されたパフォーマンスを実証しました。シーケンス長 350、バッチサイズ 1 を使用し、デフォルトでモデルの重みを bf16 にロードします。

以下の表 IX の結果によると、LoRA と QLoRA を使用して Llama2-13B を微調整した後のパフォーマンス傾向は、Llama2-7B と一致しています。 Llama2-7B と比較すると、微調整された Llama2-13B のスループットは約 30% 低下しました。

A800 は Llama2 推論 RTX3090 および 4090 を大幅に上回り、優れたレイテンシーとスループットを実現します。

#ただし、すべての最適化手法を組み合わせると、 RTX4090 および RTX3090 でも、Llama2-70B を微調整して、合計 200 トークン/秒のスループットを達成できます。

#推論結果

元の意味を変更する必要がなく、完全なパフォーマンス

以下の図 6 は、さまざまなハードウェアプラットフォームおよび推論フレームワークでのスループットの包括的な分析を示しています。Llama2-70B の関連推論データは省略されています。その中でも、TGI フレームワークは、特に RTX3090 や RTX4090 などの 24GB メモリを搭載した GPU で優れたスループットを実証しました。さらに、LightLLM は、A800 GPU プラットフォーム上で TGI および vLLM を大幅に上回り、スループットがほぼ 2 倍になっています。

これらの実験結果は、TGI 推論フレームワークが 24GB メモリ GPU プラットフォーム上で優れたパフォーマンスを発揮する一方、LightLLM 推論フレームワークが A800 80GB GPU プラットフォーム上で最高のスループットを示すことを示しています。この発見は、LightLLM が A800/A100 シリーズの高性能 GPU 向けに特に最適化されていることを示唆しています。

#さまざまなハードウェアプラットフォームと推論フレームワークにおける遅延パフォーマンスを図 7、8、9、10 に示します A800 は Llama2 推論 RTX3090 および 4090 を大幅に上回り、優れたレイテンシーとスループットを実現します。

A800 は Llama2 推論 RTX3090 および 4090 を大幅に上回り、優れたレイテンシーとスループットを実現します。

上に示したように、A800 プラットフォームは、スループットと遅延の点で、2 つのコンシューマーグレードプラットフォーム RTX4090 および RTX3090 よりも大幅に優れています。また、2 つのコンシューマグレードプラットフォームの中で、RTX3090 は RTX4090 よりもわずかに優れています。 3 つの推論フレームワーク TGI、vLLM、および LightLLM は、コンシューマグレードのプラットフォームで実行する場合、スループットに大きな違いはありません。比較すると、TGI はレイテンシの点で他の 2 つを常に上回っています。 A800 GPU プラットフォームでは、LightLLM はスループットの点で最高のパフォーマンスを発揮し、レイテンシも TGI フレームワークに非常に近くなります。 A800 は Llama2 推論 RTX3090 および 4090 を大幅に上回り、優れたレイテンシーとスループットを実現します。