Nvidia、ハイエンド GPU チップ上の AI モデルのパフォーマンスを向上させる TensorRT-LLM オープンソースソフトウェアをリリース-AI-php.cn

動的なワークロードに対処するための「オンザフライバッチ処理」メカニズム

ホームページ

テクノロジー周辺機器

Nvidia、ハイエンド GPU チップ上の AI モデルのパフォーマンスを向上させる TensorRT-LLM オープンソースソフトウェアをリリース

王林

Sep 14, 2023 pm 12:29 PM

AIモデルオープンソースソフトウェアスイート

Nvidia发布TensorRT-LLM开源软件提升高端GPU芯片上的AI模型性能

Nvidia は最近、TensorRT-LLM と呼ばれる新しいオープンソースソフトウェアスイートのリリースを発表しました。これは Nvidia GPU での大規模言語モデルの最適化機能を拡張し、導入後の人工知能推論パフォーマンスの限界を突破します。

生成 AI 大規模言語モデルは、その優れた機能により人気が高まっています。人工知能の可能性を広げ、さまざまな業界で広く活用されています。ユーザーは、チャットボットと会話することで情報を取得し、大規模なドキュメントを要約し、ソフトウェアコードを作成し、情報を理解するための新しい方法を発見できます

Nvidia のハイパースケールおよびハイパフォーマンスコンピューティング担当バイスプレジデントであるイアンバック氏は次のように述べています。モデルが複雑になり、よりスマートになり、大規模になるのは当然のことですが、モデルが単一の GPU を超えて拡張され、複数の GPU で実行する必要がある場合、「

人工知能における推論は、次のようなプロセスです。モデルは、要約、コードの生成、提案の提供、質問への回答など、これまでに見たことのない新しいデータを処理する大規模な言語モデルの主力製品です。

モデルのエコシステムの急速な拡大に伴い、モデルはますます大きくなり、機能も豊富になっています。これは、モデルが非常に大きくなり、単一の GPU で同時に実行できず、分割する必要があることも意味します。開発者とエンジニアは、リアルタイムで応答を得るためにワークロードを手動で分散および調整する必要があります。 TensorRT-LLM は、「テンソル並列処理」を実装することでこの問題を解決し、複数の GPU で大規模かつ効率的な推論を可能にします

これに加えて、今日の市場には多種多様な大規模言語モデルがあるため、Nvidia はコアを最適化しました。現在主流の大規模言語モデル。このソフトウェアスイートには、Meta Platform の Llama 2、OpenAI の GPT-2 および GPT-3、Falcon、MosaicMPT、BLOOM などの大規模言語モデルの完全に最適化されたすぐに実行できるバージョンが含まれています。

動的なワークロードに対処するための「オンザフライバッチ処理」メカニズム

大規模な言語モデル自体の性質により、モデルのワークロードは非常に動的になる可能性があり、ワークロード要件やタスクの使用状況も時間の経過とともに変化する可能性があります。単一のモデルは、質問と回答を行うチャットボットとして同時に使用でき、短い文書だけでなく大きな文書の要約にも使用できます。したがって、出力サイズはまったく異なる桁になる可能性があります。

これらのさまざまなワークロードに対処するために、TensorRT-LLM は「オンザフライバッチ処理」と呼ばれるメカニズムを導入しています。これは、テキスト生成プロセスを複数の部分に分割して、テキスト生成プロセスを複数の部分に分割する最適化されたスケジューリングプロセスです。 GPU 出力により、新しいバッチを開始する前にワークロードのバッチ全体を完了する必要がありません。

以前は、非常に大きなドキュメントの要約などの大きなリクエストがある場合、キューが前に進む前に、後ろにあるものはプロセスが完了するまで待機する必要がありました。

Nvidia は、Meta、Cohere、Grammarly、Databricks、Tabnine を含む多くのベンダーと協力して TensorRT-LLM を最適化してきました。彼らの支援により、Nvidia は、大規模な言語モデルをカスタマイズするための新しいアーキテクチャを定義および最適化するためのオープンソース Python アプリケーションユーザーインターフェイスを含む、ソフトウェアスイート内の機能とツールセットの合理化を続けています。

たとえば、MosaicML が TensorRT-LLM を既存のソフトウェアスタックと統合したとき、TensorRT-LLM の上に追加機能が追加されました。 Databricks のエンジニアリング担当副社長である Naveen Rao 氏は、プロセスは非常にシンプルであると述べました

「TensorRT-LLM は使いやすく、トークンストリーミング、動的バッチ処理、ページアテンション、量子化などを含む豊富な機能を備えています。非常に効率的であり、NVIDIA GPU を使用するための最適なソリューションを提供します。大規模な言語モデルサービスは最高のパフォーマンスを提供し、コスト削減を顧客に還元することができます。」

Nvidia は TensorRT-LLM とそれがもたらす利点について述べました。バッチ処理機能を含む、Nvidia による記事概要抽出の推論パフォーマンスが 1 倍以上向上しました。 GPT-J-6B モデルを使用して CNN/Daily Mail 記事の要約で A100 テストを実行した場合、H100 のみを使用すると A100 よりも 4 倍高速になり、TensorRT-LLM 最適化を有効にすると速度は 8 倍向上しました

TensorRT-LLM開発者とエンジニアにディープラーニングコンパイラ、最適化された大規模言語モデルカーネル、前処理および後処理、マルチ GPU/マルチノード通信機能、およびシンプルなオープンソース API を提供し、大規模な言語モデルを迅速に最適化して実行できるようにします。制作推理。大規模な言語モデルがデータセンターの再構築を続ける中、企業のより高いパフォーマンスへの要求により、開発者はより高いパフォーマンスの結果を実現するための機能とアクセスを提供するツールをこれまで以上に必要としています。

TensorRT-LLM ソフトウェアスイートは、Nvidia 開発者プログラムの開発者向けに早期アクセスが可能になり、来月にはプロダクション AI エンドツーエンドソフトウェアプラットフォーム Nvidia AI Enterprise の NeMo フレームワークに統合される予定です。 TensorRT-LLM ソフトウェアスイートは、Nvidia 開発者プログラムの開発者による早期アクセス用にリリースされており、来月、プロダクション AI エンドツーエンドソフトウェアプラットフォームとして Nvidia AI Enterprise の NeMo フレームワークに統合される予定です

以上がNvidia、ハイエンド GPU チップ上の AI モデルのパフォーマンスを向上させる TensorRT-LLM オープンソースソフトウェアをリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7455

CakePHP チュートリアル

1375

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

AI 大型モデルの波を受けてコンピューティングパワーの需要が爆発的に増加しており、SenseTime の「大型モデル + 大型コンピューティングパワー」により、複数の業界の発展が可能になります。 Jun 09, 2023 pm 07:35 PM

このほど、「AIが時代をリードし、コンピューティングパワーが未来を駆動する」をテーマとした「臨港新区インテリジェントコンピューティングカンファレンス」が開催された。この会合において、新領域インテリジェントコンピューティング産業アライアンスが正式に設立され、センスタイムはコンピューティングパワープロバイダーとしてアライアンスのメンバーとなり、同時に「新領域インテリジェントコンピューティング産業チェーンマスター」企業の称号を授与されました。臨港コンピューティングパワーエコシステムへの積極的な参加者として、SenseTimeはアジア最大のインテリジェントコンピューティングプラットフォームの1つであるSenseTime AIDCを構築しました。これは合計5,000ペタフロップスのコンピューティングパワーを出力し、数千億のパラメータを持つ20の超大規模モデルをサポートできます。 . 同時にトレーニングします。 AIDC に基づいて将来を見据えて構築された大規模デバイスである SenseCore は、人工知能を強化するための高効率、低コスト、大規模な次世代 AI インフラストラクチャとサービスの作成に取り組んでいます。

研究者: AI モデル推論はより多くの電力を消費し、2027 年の業界の電力消費量はオランダの電力消費量に匹敵するでしょう Oct 14, 2023 am 08:25 AM

IT Houseは10月13日、「Cell」の姉妹誌である「Joule」が今週、「人工知能の増大するエネルギーフットプリント（人工知能の増大するエネルギーフットプリント）」と題する論文を発表したと報じた。問い合わせの結果、この論文は科学研究機関デジコノミストの創設者アレックス・デブリーズ氏が発表したものであることが分かりました。アレックス・デブリーズ氏は、将来の人工知能の推論性能は大量の電力を消費する可能性があり、2027年までに人工知能の電力消費量はオランダの1年間の電力消費量に匹敵する可能性があると予測していると述べた。外の世界では、AI モデルのトレーニングが「AI で最も重要なこと」であると常に信じられてきました。

なぜ国内の大手AIモデルは「ランキングのスワイプ」にハマるのか？ Dec 02, 2023 am 08:53 AM

ケータイサークルをフォローしている友人なら「認めなければ点数がもらえる」という言葉に馴染みがない人はいないと思います。たとえば、AnTuTu や GeekBench などの理論性能テストソフトウェアは、携帯電話の性能をある程度反映できるため、プレイヤーから大きな注目を集めています。同様に、PC プロセッサとグラフィックスカードのパフォーマンスを測定するための対応するベンチマークソフトウェアがあり、「すべてのものをベンチマークできる」ため、最も人気のある大規模な AI モデルも、特に「百モデル」以降のベンチマークコンテストに参加し始めています。「戦争」が始まり、毎日のようにブレークスルーがあった各社「ランニングスコアで1位」を謳う国産AIの大型モデルは性能スコアでほとんど負けることはなかったが、GPを超えることはできなかったユーザーエクスペリエンスの。

中国科学院共同物理研究所のネットワークセンターがAIモデルMatChatをリリース Nov 03, 2023 pm 08:13 PM

ITハウスは11月3日、中国科学院物理研究所の公式ウェブサイトに記事が掲載されたと報じ、このほど中国科学院物理研究所/北京国立物性物理研究センターSF10グループが発表した。中国科学院コンピュータネットワーク情報センターと協力して大規模AIモデルを材料科学に適用する現場では、数万の化学合成経路データが大規模言語モデルLLAMA2-7bに供給され、MatChatモデルが得られる、無機材料の合成経路を予測するために使用できます。 IT House は、このモデルがクエリされた構造に基づいて論理的推論を実行し、対応する準備プロセスと式を出力できることに注目しました。これはオンラインで展開されており、すべての材料研究者に公開されており、材料の研究とイノベーションに新しいインスピレーションと新しいアイデアをもたらします。この作業は、セグメント化された科学の分野における大規模な言語モデルを対象としています。

4 倍高速化した Bytedance のオープンソース高性能トレーニング推論エンジン LightSeq テクノロジーが明らかに May 02, 2023 pm 05:52 PM

Transformer モデルは、2017 年に Google チームが発表した論文「Attendisalyouneed」に由来しています。この論文は、Seq2Seq モデルの循環構造を Attendance で置き換えるという概念を初めて提案し、NLP 分野に大きな影響を与えました。そして、近年の継続的な研究の進歩により、Transformer 関連技術は自然言語処理から徐々に他の分野へ流れてきました。現在まで、Transformer シリーズは、NLP、CV、ASR などの分野で主流のモデルとなっています。したがって、Transformer モデルをより迅速にトレーニングおよび推論する方法が、業界の重要な研究方向となっています。低精度の量子化技術では、

チャイナユニコム、テキストから画像やビデオクリップを生成できる大規模な画像およびテキストAIモデルをリリース Jun 29, 2023 am 09:26 AM

中国ニュースを牽引する2023年6月28日、上海で開催中のモバイルワールドコングレス期間中の本日、チャイナユニコムはグラフィックモデル「Honghu Graphic Model 1.0」をリリースした。チャイナユニコムは、Honghuグラフィックモデルは通信事業者の付加価値サービス向けの初の大型モデルであると述べた。 China Business Newsの記者は、Honghuのグラフィックモデルには現在、8億個のトレーニングパラメータと20億個のトレーニングパラメータの2つのバージョンがあり、テキストベースの画像、ビデオ編集、画像ベースの画像などの機能を実現できることを知りました。さらに、チャイナユニコムの劉立紅会長も本日の基調講演で、生成型AIは発展の特異点を到来させており、今後2年間で雇用の50％が人工知能によって大きな影響を受けるだろうと述べた。

メタ研究者が AI の新たな試みを行う：地図やトレーニングなしで物理的に移動するようにロボットに教える Apr 09, 2023 pm 08:31 PM

Meta Platforms の人工知能部門は最近、少量のトレーニングデータのサポートを利用して AI モデルに物理世界の歩き方を学習させる方法を教えており、急速な進歩を遂げたと発表しました。この研究により、AI モデルが視覚的なナビゲーション機能を獲得するまでの時間を大幅に短縮できる可能性があります。以前は、このような目標を達成するには、大規模なデータセットを使用した「強化学習」を繰り返す必要がありました。メタ AI 研究者らは、この AI ビジュアルナビゲーションの探求は仮想世界に大きな影響を与えるだろうと述べています。このプロジェクトの基本的なアイデアは複雑ではありません。単純に観察と探索を通じて、AI が人間と同じように物理空間を移動できるようにするというものです。メタ AI 部門は次のように説明しました。「たとえば、AR メガネに鍵を見つけるようにガイドしてもらいたい場合は、

Nvidia、ハイエンド GPU チップ上の AI モデルのパフォーマンスを向上させる TensorRT-LLM オープンソースソフトウェアをリリース Sep 14, 2023 pm 12:29 PM

Nvidia は最近、TensorRT-LLM と呼ばれる新しいオープンソースソフトウェアスイートのリリースを発表しました。これは、Nvidia GPU での大規模言語モデルの最適化機能を拡張し、導入後の人工知能推論パフォーマンスの限界を突破します。生成 AI の大規模言語モデルは、その優れた機能により人気が高まっています。人工知能の可能性を広げ、さまざまな業界で広く活用されています。 Nvidia Corporation のハイパースケールおよびハイパフォーマンスコンピューティング担当バイスプレジデントである Ian Buck 氏は、ユーザーはチャットボットと会話することで情報を取得し、大規模なドキュメントを要約し、ソフトウェアコードを記述し、情報を理解するための新しい方法を発見することができます。「大規模な言語モデルの推論はますます増加しています」モデルの複雑さは増大し続け、モデルはますますインテリジェントになっていきます。

See all articles

Nvidia、ハイエンド GPU チップ上の AI モデルのパフォーマンスを向上させる TensorRT-LLM オープンソース ソフトウェアをリリース

動的なワークロードに対処するための「オンザフライ バッチ処理」メカニズム

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

Nvidia、ハイエンド GPU チップ上の AI モデルのパフォーマンスを向上させる TensorRT-LLM オープンソースソフトウェアをリリース

動的なワークロードに対処するための「オンザフライバッチ処理」メカニズム