1024フレームとほぼ100%の精度をサポートするNVIDIA「LongVILA」が長時間ビデオの開発を開始-AI-php.cn

ホームページ

テクノロジー周辺機器

1024フレームとほぼ100%の精度をサポートするNVIDIA「LongVILA」が長時間ビデオの開発を開始

王林

Aug 21, 2024 pm 04:35 PM

プロジェクト LongVILA

現在、ロングコンテキストビジュアル言語モデル (VLM) には、システム、モデルトレーニング、データセット開発を統合する新しいフルスタックソリューション LongVILA が搭載されています。

この段階では、モデルのマルチモーダルな理解と、より多くのモダリティをサポートする基本モデルがより柔軟な入力信号を受け入れて、人々が多様化できるようにすることが非常に重要です。モデルと対話する方法。また、コンテキストが長くなると、モデルは長いドキュメントや長いビデオなど、より多くの情報を処理できるようになり、より現実世界のアプリケーションに必要な機能も提供されます。

ただし、現在の問題は、一部の作業でロングコンテキスト視覚言語モデル (VLM) が有効になっていますが、通常は包括的なソリューションを提供するのではなく、単純化されたアプローチであることです。

フルスタック設計は、ロングコンテキストの視覚言語モデルにとって非常に重要です。大規模モデルのトレーニングは通常、データエンジニアリングとシステムソフトウェアの共同設計を必要とする複雑で体系的なタスクです。テキストのみの LLM とは異なり、VLM (LLaVA など) は多くの場合、独自のモデルアーキテクチャと柔軟な分散トレーニング戦略を必要とします。

さらに、ロングコンテキストモデリングには、ロングコンテキストデータだけでなく、メモリを大量に消費するロングコンテキストトレーニングをサポートできるインフラストラクチャも必要です。したがって、ロングコンテキスト VLM には、綿密に計画されたフルスタック設計 (システム、データ、パイプラインをカバーする) が不可欠です。

この記事では、NVIDIA、MIT、カリフォルニア大学バークレー校、テキサス大学オースティン校の研究者が、システム設計、モデルトレーニングを含むロングコンテキストの視覚言語モデルのトレーニングと展開のためのフルスタックソリューションである LongVILA を紹介します。戦略とデータセットの構築。

1024フレームとほぼ100%の精度をサポートするNVIDIA「LongVILA」が長時間ビデオの開発を開始

ペーパーアドレス: https://arxiv.org/pdf/2408.10188
コードアドレス: https://github.com/NVlabs/VILA/blob/main/LongVILA.md
論文のタイトル: LONGVILA: SCALING LONG-CONTEXT VISUAL LANGUAGE MODELS FOR LONG VIDEOS

トレーニングインフラストラクチャに関して、研究では効率的でユーザーフレンドリーなフレームワーク、すなわち Multimodal Sequence Parallel (MM-SP) を確立しました。 )、トレーニングメモリ (高密度ロングコンテキスト VLM) をサポートします。

トレーニングパイプラインに関して、研究者らは、図 1 に示すように、5 段階のトレーニングプロセスを実装しました。つまり、(1) マルチモーダルアライメント、(2) 大規模な事前トレーニング、(3) 短期トレーニング監視付き微調整、(4) LLM のコンテキスト拡張、および (5) 長期監視付き微調整。

推論として、MM-SP は、非常に長いシーケンスを処理するときにボトルネックになる可能性がある KV キャッシュメモリ使用量の課題を解決します。

LongVILA を使用してビデオフレーム数を増やすことにより、この研究のパフォーマンスが VideoMME および長いビデオ字幕タスクで向上し続けることが実験結果で示されています (図 2)。 1,024 フレームでトレーニングされた LongVILA モデルは、1,400 フレームの干し草の山に針を刺す実験で 99.5% の精度を達成しました。これは、274,000 トークンのコンテキスト長に相当します。さらに、MM-SP システムは、勾配チェックポイントなしでコンテキスト長を 200 万トークンまで効果的に拡張でき、リングシーケンス並列処理と比較して 2.1 倍から 5.7 倍の高速化を達成し、メガトロンコンテキスト並列処理と Tensor 並列処理は比較して 1.1 倍から 1.4 倍の高速化を達成します。テンソル並列に。

下の図は、長いビデオの字幕を処理する場合の LongVILA テクノロジーの例です。字幕の先頭では、8 フレームのベースラインモデルは静止画像と 2 台の車のみを記述します。これに対し、LongVILA の 256 フレームには、雪上の車が正面、背面、側面から描かれています。細部の点では、256 フレームの LongVILA では、8 フレームのベースラインモデルには欠けているイグニッションボタン、ギアレバー、計器クラスターのクローズアップも描かれています。

マルチモーダルシーケンス並列処理

ロングコンテキスト視覚言語モデル (VLM) のトレーニングでは、大量のメモリ要件が発生します。たとえば、以下の図 1 のステージ 5 の長いビデオトレーニングでは、1 つのシーケンスに 1024 のビデオフレームを生成する 200K トークンが含まれており、これは 1 つの GPU のメモリ容量を超えています。

研究者らは、シーケンス並列処理に基づいてカスタマイズされたシステムを開発しました。逐次並列処理は、テキストのみの LLM トレーニングを最適化するために現在の基本モデルシステムで一般的に使用される手法です。しかし、研究者らは、既存のシステムがロングコンテキストの VLM ワークロードを処理できるほど効率的でも拡張性でもないことを発見しました。

既存システムの限界を特定した後、研究者らは、効率を優先するために、理想的なマルチモーダルシーケンス並列アプローチがモーダルとネットワークの不均一性を解決する必要があると結論付けました。スケーラビリティは、アテンションヘッドの数によって制限されるべきではありません。

MM-SP ワークフロー。モーダル異質性の課題に対処するために、研究者らは、画像エンコードと言語モデリングの段階での計算ワークロードを最適化する 2 段階のシャーディング戦略を提案しています。

以下の図 4 に示すように、最初のステージでは、まずシーケンス並列処理グループ内のデバイス間で画像 (ビデオフレームなど) を均等に分配します。、これにより、画像エンコード段階での負荷分散が実現されます。第 2 段階では、研究者はトークンレベルのシャーディングのためにグローバルなビジュアルおよびテキスト入力を集約します。

2D 注意並列処理。ネットワークの異質性を解決し、スケーラビリティを実現するために、研究者はリングシーケンスの並列処理と Ulysses シーケンスの並列処理の利点を組み合わせています。

具体的には、シーケンス次元またはアテンションヘッド次元にわたる並列性を「1D SP」とみなします。この方法は、アテンションヘッドとシーケンス次元にわたる並列計算を通じてスケーリングし、1D SP をリング (P2P) プロセスとユリシーズ (A2A) プロセスの独立したグループで構成される 2D グリッドに変換します。

以下の図 3 の左側に示すように、2 つのノード間で 8 度のシーケンス並列性を達成するために、研究者は 2D-SP を使用して4 × 2 の通信グリッドを構築します。

さらに、以下の図 5 では、ZIGZAG-RINGATTN が計算のバランスをどのように取るか、および 2D アテンションメカニズムがどのように動作するかをさらに説明するために、研究者らは注意計算スキームのさまざまな方法の使用について説明します。

HuggingFace のネイティブパイプライン並列戦略と比較すると、この記事の推論モードは、すべてのデバイスが同時に計算に参加するため、より効率的です。下の図 6 に示すように、プロセスは地上に比べて加速されます。同時に、この推論モードはスケーラブルであり、メモリがデバイス間で均等に分散されるため、より多くのマシンを使用してより長いシーケンスをサポートできます。

LongVILAトレーニングプロセス

#🎜 🎜 #前述したように、LongVILAのトレーニングプロセスは5つの段階に分かれています。各ステージの主なタスクは次のとおりです。

ステージ 1 では、マルチモーダルマッパーのみをトレーニングでき、他のマッパーはフリーズされます。

ステージ 2 では、研究者はビジュアルエンコーダーをフリーズし、LLM とマルチモーダルマッパーをトレーニングしました。

ステージ 3 では、研究者は、画像や短いビデオデータセットの使用などのタスクに続く短いデータ命令用にモデルを包括的に微調整します。

ステージ 4 では、研究者はテキストのみのデータセットを使用して、継続的な事前トレーニング方法で LLM のコンテキスト長を拡張しました。

ステージ 5 では、研究者は長時間のビデオ監視を使用して微調整し、指示に従う能力を強化します。この段階ではすべてのパラメータをトレーニングできることに注目してください。

実験結果

#🎜🎜 #研究者らは、この記事のフルスタックソリューションをシステムとモデリングの 2 つの側面から評価しました。最初にトレーニングと推論の結果を提示し、ロングコンテキストのトレーニングと推論をサポートできるシステムの効率とスケーラビリティを示します。次に、キャプションと指示に続くタスクに関する長いコンテキストモデルのパフォーマンスを評価します。

トレーニングと推論システム

#🎜 🎜#この調査では、トレーニングシステムのスループット、推論システムのレイテンシー、サポートされる最大シーケンス長の定量的評価が提供されます。

表 2 にスループットの結果を示します。 ZIGZAG-RINGATTNと比較して2.1倍から5.7倍の加速を実現し、DeepSpeed-Ulyssesと同等の性能を発揮します。 Megatron-LM CP のより最適化されたリングシーケンス並列実装と比較して、3.1 倍から 4.3 倍のスピードアップが達成されます。

Diese Studie bewertet die maximale Sequenzlänge, die von einer festen Anzahl von GPUs unterstützt wird, indem die Sequenzlänge schrittweise von 1.000 auf 10.000 erhöht wird, bis ein Fehler wegen unzureichendem Speicher auftritt auftritt. Die Ergebnisse sind in Abbildung 9 zusammengefasst.

Bei der Skalierung auf 256 GPUs kann unsere Methode etwa das Achtfache der Kontextlänge unterstützen. Darüber hinaus erreicht das vorgeschlagene System eine Kontextlängenskalierung ähnlich wie ZIGZAG-RINGATTN und unterstützt mehr als 2 Millionen Kontextlängen auf 256 GPUs.

Tabelle 3 vergleicht die maximal unterstützten Sequenzlängen, und die in dieser Studie vorgeschlagene Methode unterstützt Sequenzen, die 2,9-mal länger sind als die von HuggingFace Pipeline unterstützten.

Abbildung 11 zeigt die Ergebnisse des langen Video-Experiments „Nadel im Heuhaufen“. Im Gegensatz dazu zeigt das LongVILA-Modell (rechts) eine verbesserte Leistung über eine Reihe von Rahmen und Tiefen hinweg.

Tabelle 5 listet die Leistung verschiedener Modelle im Video-MME-Benchmark auf und vergleicht sie hinsichtlich der Effektivität und Gesamtleistung bei kurzen, mittleren und langen Videolängen. LongVILA-8B verwendet 256 Bilder und hat eine Gesamtpunktzahl von 50,5.

Die Forscher führten außerdem eine Ablationsstudie zu den Auswirkungen der Stadien 3 und 4 in Tabelle 6 durch.

Tabelle 7 zeigt die Leistungsmetriken des LongVILA-Modells, das auf einer unterschiedlichen Anzahl von Frames (8, 128 und 256) trainiert und bewertet wurde. Mit zunehmender Anzahl von Frames verbessert sich die Leistung des Modells erheblich. Insbesondere stieg die durchschnittliche Punktzahl von 2,00 auf 3,26, was die Fähigkeit des Modells unterstreicht, bei einer höheren Anzahl von Bildern genaue und reichhaltige Untertitel zu erzeugen.

以上が1024フレームとほぼ100%の精度をサポートするNVIDIA「LongVILA」が長時間ビデオの開発を開始の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1666

CakePHP チュートリアル

1425

Laravel チュートリアル

1327

PHP チュートリアル

1273

C# チュートリアル

1253

Related knowledge

ControlNet の作者がまたヒット作を出しました!写真から絵画を生成し、2 日間で 1.4,000 個のスターを獲得する全プロセス Jul 17, 2024 am 01:56 AM

これも Tusheng のビデオですが、PaintsUndo は別の道を歩んでいます。 ControlNet 作者 LvminZhang が再び生き始めました!今回は絵画の分野を目指します。新しいプロジェクト PaintsUndo は、開始されて間もなく 1.4kstar を獲得しました (まだ異常なほど上昇しています)。プロジェクトアドレス: https://github.com/lllyasviel/Paints-UNDO このプロジェクトを通じて、ユーザーが静止画像を入力すると、PaintsUndo が線画から完成品までのペイントプロセス全体のビデオを自動的に生成するのに役立ちます。。描画プロセス中の線の変化は驚くべきもので、最終的なビデオ結果は元の画像と非常によく似ています。完成した描画を見てみましょう。

オープンソース AI ソフトウェアエンジニアのリストのトップに立つ UIUC のエージェントレスソリューションは、SWE ベンチの実際のプログラミングの問題を簡単に解決します Jul 17, 2024 pm 10:02 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この論文の著者は全員、イリノイ大学アーバナシャンペーン校 (UIUC) の Zhang Lingming 教師のチームのメンバーです。博士課程4年、研究者

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています Jun 24, 2024 pm 03:04 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 人工知能の開発プロセスにおいて、大規模言語モデル (LLM) の制御とガイダンスは常に中心的な課題の 1 つであり、これらのモデルが両方とも確実に機能することを目指しています。強力かつ安全に人類社会に貢献します。初期の取り組みは人間のフィードバックによる強化学習手法に焦点を当てていました (RL

arXiv 論文は「弾幕」として投稿可能、スタンフォード alphaXiv ディスカッションプラットフォームはオンライン、LeCun は気に入っています Aug 01, 2024 pm 05:18 PM

乾杯！紙面でのディスカッションが言葉だけになると、どんな感じになるでしょうか?最近、スタンフォード大学の学生が、arXiv 論文のオープンディスカッションフォーラムである alphaXiv を作成しました。このフォーラムでは、arXiv 論文に直接質問やコメントを投稿できます。 Web サイトのリンク: https://alphaxiv.org/ 実際、URL の arXiv を alphaXiv に変更するだけで、alphaXiv フォーラムの対応する論文を直接開くことができます。この Web サイトにアクセスする必要はありません。その中の段落を正確に見つけることができます。論文、文: 右側のディスカッションエリアでは、ユーザーは論文のアイデアや詳細について著者に尋ねる質問を投稿できます。たとえば、次のような論文の内容についてコメントすることもできます。

リーマン予想の大きな進歩!陶哲軒氏はMITとオックスフォードの新しい論文を強く推薦し、37歳のフィールズ賞受賞者も参加した Aug 05, 2024 pm 03:32 PM

最近、2000年代の7大問題の一つとして知られるリーマン予想が新たなブレークスルーを達成した。リーマン予想は、数学における非常に重要な未解決の問題であり、素数の分布の正確な性質に関連しています (素数とは、1 とそれ自身でのみ割り切れる数であり、整数論において基本的な役割を果たします)。今日の数学文献には、リーマン予想 (またはその一般化された形式) の確立に基づいた 1,000 を超える数学的命題があります。言い換えれば、リーマン予想とその一般化された形式が証明されれば、これらの 1,000 を超える命題が定理として確立され、数学の分野に重大な影響を与えることになります。これらの命題の一部も有効性を失います。 MIT数学教授ラリー・ガスとオックスフォード大学から新たな進歩がもたらされる

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる Jul 19, 2024 am 01:29 AM

AIモデルによって与えられた答えがまったく理解できない場合、あなたはそれをあえて使用しますか?機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。大規模な言語モデルの場合も、同様のアプローチを採用できます。ただし、このアプローチを採用する場合は、言語モデルが

LLM は時系列予測にはあまり適していません。推論機能も使用しません。 Jul 15, 2024 pm 03:59 PM

言語モデルは本当に時系列予測に使用できるのでしょうか?ベタリッジの見出しの法則 (疑問符で終わるニュース見出しは「いいえ」と答えることができます) によれば、答えは「いいえ」であるはずです。このような強力な LLM は時系列データを適切に処理できないという事実は真実のようです。時系列、つまり時系列とは、その名の通り、時間順に並べられた一連のデータ点のことを指します。時系列分析は、病気の蔓延予測、小売分析、ヘルスケア、金融などの多くの分野で重要です。時系列分析の分野では、多くの研究者が最近、大規模言語モデル (LLM) を使用して時系列の異常を分類、予測、検出する方法を研究しています。これらの論文では、テキスト内の逐次依存関係の処理に優れた言語モデルは時系列にも一般化できると想定しています。

最初の Mamba ベースの MLLM が登場しました!モデルの重み、トレーニングコードなどはすべてオープンソースです Jul 17, 2024 am 02:46 AM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。はじめに近年、さまざまな分野でマルチモーダル大規模言語モデル (MLLM) の適用が目覚ましい成功を収めています。ただし、多くの下流タスクの基本モデルとして、現在の MLLM はよく知られた Transformer ネットワークで構成されています。

See all articles