NVIDIA が Llama 3.1-Nemotron-51B を発表: 精度と効率が飛躍的に向上

Barbara Streisand
リリース: 2024-09-24 21:17:15
オリジナル
516 人が閲覧しました

NVIDIA の Llama 3.1-Nemotron-51B は、優れた精度と効率性で AI の新しいベンチマークを設定し、単一の GPU で高ワークロードを可能にします。

NVIDIA が Llama 3.1-Nemotron-51B を発表: 精度と効率が飛躍的に向上

NVIDIA の最新言語モデルである Llama 3.1-Nemotron-51B は、卓越した精度と効率性で AI パフォーマンスの新たな基準を打ち立てます。このモデルは、ワークロードが高い場合でも、単一の GPU に適合する LLM のスケーリングにおける進歩を示しています。

NVIDIA は、Llama 3.1-Nemotron-51B と呼ばれる新しい言語モデルを発表し、優れた精度と効率による AI パフォーマンスの飛躍を約束しました。このモデルは Meta の Llama-3.1-70B から派生し、新しい Neural Architecture Search (NAS) アプローチを活用して精度と効率の両方を最適化します。注目すべきことに、このモデルはワークロードが高い場合でも単一の NVIDIA H100 GPU に適合し、アクセスしやすくコスト効率が高くなります。

Llama 3.1-Nemotron-51B モデルは、以前のモデルと比較してほぼ同じレベルの精度を維持しながら、2.2 倍速い推論速度を誇ります。この効率性により、メモリ フットプリントの削減と最適化されたアーキテクチャのおかげで、推論中に 1 つの GPU で 4 倍のワークロードが可能になります。

大規模言語モデル (LLM) を採用する際の課題の 1 つは、推論コストが高いことです。 Llama 3.1-Nemotron-51B モデルは、精度と効率の間のバランスの取れたトレードオフを提供することでこの問題に対処し、エッジ システムからクラウド データ センターに至るまで、さまざまなアプリケーションにとってコスト効率の高いソリューションとなります。この機能は、Kubernetes および NIM ブループリントを介して複数のモデルをデプロイする場合に特に役立ちます。

Nemotron モデルは、より高い推論パフォーマンスを実現するために TensorRT-LLM エンジンで最適化され、NVIDIA NIM 推論マイクロサービスとしてパッケージ化されています。このセットアップにより、クラウド、データセンター、ワークステーションなど、NVIDIA の高速化されたインフラストラクチャ全体への生成 AI モデルの展開が簡素化され、加速されます。

Llama 3.1-Nemotron-51B-Instruct モデルは、効率的な NAS テクノロジーとトレーニング方法を使用して構築されており、特定の GPU に最適化された非標準のトランスフォーマー モデルの作成を可能にします。このアプローチには、さまざまなブロック バリアントを並行してトレーニングするためのブロック蒸留フレームワークが含まれており、効率的で正確な推論を保証します。

NVIDIA の NAS アプローチにより、ユーザーは精度と効率の最適なバランスを選択できます。たとえば、Llama-3.1-Nemotron-40B-Instruct バリアントは速度とコストを優先するために作成され、精度は若干低下しますが、親モデルと比較して 3.2 倍の速度向上を達成しました。

Llama 3.1-Nemotron-51B-Instruct モデルは、いくつかの業界標準に対してベンチマークされており、さまざまなシナリオで優れたパフォーマンスを示しています。参照モデルのスループットが 2 倍になり、複数のユースケースにわたってコスト効率が高くなります。

Llama 3.1-Nemotron-51B-Instruct モデルは、ユーザーや企業が高精度の基礎モデルをコスト効率よく活用できる新たな可能性を提供します。精度と効率のバランスが優れているため、ビルダーにとって魅力的な選択肢となっており、NVIDIA が他のモデルへの拡張を目指している NAS アプローチの有効性を際立たせています。

以上がNVIDIA が Llama 3.1-Nemotron-51B を発表: 精度と効率が飛躍的に向上の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート