Nvidia は最近、TensorRT-LLM と呼ばれる新しいオープンソース ソフトウェア スイートのリリースを発表しました。これは Nvidia GPU での大規模言語モデルの最適化機能を拡張し、導入後の人工知能推論パフォーマンスの限界を突破します。
生成 AI 大規模言語モデルは、その優れた機能により人気が高まっています。人工知能の可能性を広げ、さまざまな業界で広く活用されています。ユーザーは、チャットボットと会話することで情報を取得し、大規模なドキュメントを要約し、ソフトウェア コードを作成し、情報を理解するための新しい方法を発見できます
Nvidia のハイパースケールおよびハイパフォーマンス コンピューティング担当バイスプレジデントであるイアン バック氏は次のように述べています。モデルが複雑になり、よりスマートになり、大規模になるのは当然のことですが、モデルが単一の GPU を超えて拡張され、複数の GPU で実行する必要がある場合、「
人工知能における推論は、次のようなプロセスです。モデルは、要約、コードの生成、提案の提供、質問への回答など、これまでに見たことのない新しいデータを処理する大規模な言語モデルの主力製品です。
モデルのエコシステムの急速な拡大に伴い、モデルはますます大きくなり、機能も豊富になっています。これは、モデルが非常に大きくなり、単一の GPU で同時に実行できず、分割する必要があることも意味します。開発者とエンジニアは、リアルタイムで応答を得るためにワークロードを手動で分散および調整する必要があります。 TensorRT-LLM は、「テンソル並列処理」を実装することでこの問題を解決し、複数の GPU で大規模かつ効率的な推論を可能にします
これに加えて、今日の市場には多種多様な大規模言語モデルがあるため、Nvidia はコアを最適化しました。現在主流の大規模言語モデル。このソフトウェア スイートには、Meta Platform の Llama 2、OpenAI の GPT-2 および GPT-3、Falcon、MosaicMPT、BLOOM などの大規模言語モデルの完全に最適化されたすぐに実行できるバージョンが含まれています。
大規模な言語モデル自体の性質により、モデルのワークロードは非常に動的になる可能性があり、ワークロード要件やタスクの使用状況も時間の経過とともに変化する可能性があります。単一のモデルは、質問と回答を行うチャットボットとして同時に使用でき、短い文書だけでなく大きな文書の要約にも使用できます。したがって、出力サイズはまったく異なる桁になる可能性があります。
これらのさまざまなワークロードに対処するために、TensorRT-LLM は「オンザフライ バッチ処理」と呼ばれるメカニズムを導入しています。これは、テキスト生成プロセスを複数の部分に分割して、テキスト生成プロセスを複数の部分に分割する最適化されたスケジューリング プロセスです。 GPU 出力により、新しいバッチを開始する前にワークロードのバッチ全体を完了する必要がありません。
以前は、非常に大きなドキュメントの要約などの大きなリクエストがある場合、キューが前に進む前に、後ろにあるものはプロセスが完了するまで待機する必要がありました。
Nvidia は、Meta、Cohere、Grammarly、Databricks、Tabnine を含む多くのベンダーと協力して TensorRT-LLM を最適化してきました。彼らの支援により、Nvidia は、大規模な言語モデルをカスタマイズするための新しいアーキテクチャを定義および最適化するためのオープンソース Python アプリケーション ユーザー インターフェイスを含む、ソフトウェア スイート内の機能とツールセットの合理化を続けています。
たとえば、MosaicML が TensorRT-LLM を既存のソフトウェア スタックと統合したとき、TensorRT-LLM の上に追加機能が追加されました。 Databricks のエンジニアリング担当副社長である Naveen Rao 氏は、プロセスは非常にシンプルであると述べました
「TensorRT-LLM は使いやすく、トークン ストリーミング、動的バッチ処理、ページ アテンション、量子化などを含む豊富な機能を備えています。非常に効率的であり、NVIDIA GPU を使用するための最適なソリューションを提供します。大規模な言語モデル サービスは最高のパフォーマンスを提供し、コスト削減を顧客に還元することができます。」
Nvidia は TensorRT-LLM とそれがもたらす利点について述べました。バッチ処理機能を含む、Nvidia による記事概要抽出の推論パフォーマンスが 1 倍以上向上しました。 GPT-J-6B モデルを使用して CNN/Daily Mail 記事の要約で A100 テストを実行した場合、H100 のみを使用すると A100 よりも 4 倍高速になり、TensorRT-LLM 最適化を有効にすると速度は 8 倍向上しました
TensorRT-LLM開発者とエンジニアにディープ ラーニング コンパイラ、最適化された大規模言語モデル カーネル、前処理および後処理、マルチ GPU/マルチノード通信機能、およびシンプルなオープン ソース API を提供し、大規模な言語モデルを迅速に最適化して実行できるようにします。制作推理。大規模な言語モデルがデータセンターの再構築を続ける中、企業のより高いパフォーマンスへの要求により、開発者はより高いパフォーマンスの結果を実現するための機能とアクセスを提供するツールをこれまで以上に必要としています。
TensorRT-LLM ソフトウェア スイートは、Nvidia 開発者プログラムの開発者向けに早期アクセスが可能になり、来月にはプロダクション AI エンドツーエンド ソフトウェア プラットフォーム Nvidia AI Enterprise の NeMo フレームワークに統合される予定です。 TensorRT-LLM ソフトウェア スイートは、Nvidia 開発者プログラムの開発者による早期アクセス用にリリースされており、来月、プロダクション AI エンドツーエンド ソフトウェア プラットフォームとして Nvidia AI Enterprise の NeMo フレームワークに統合される予定です
以上がNvidia、ハイエンド GPU チップ上の AI モデルのパフォーマンスを向上させる TensorRT-LLM オープンソース ソフトウェアをリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。