大規模言語モデル (LLM または LM) は、もともと言語を生成するために使用されていましたが、時間が経つにつれて、複数のモダリティでコンテンツを生成できるようになり、オーディオ、音声、コード生成、医療アプリケーションなどでの用途が発見されました。 , ロボット工学などの分野が主流になり始めています
もちろん、LM は画像やビデオを生成することもできます。このプロセス中に、画像ピクセルはビジュアル トークナイザーによって一連の個別のトークンにマッピングされます。これらのトークンは LM トランスフォーマーに供給され、生成モデリングの語彙のように使用されます。ビジュアル生成は大幅に進歩したにもかかわらず、LM のパフォーマンスは依然として拡散モデルより劣ります。たとえば、画像生成のゴールドスタンダードベンチマークである ImageNet データセットで評価した場合、最良の言語モデルのパフォーマンスは拡散モデルよりも 48% も悪かった (256 ^ 256 解像度で画像を生成する場合の FID 3.41 対 1.79)。
なぜ言語モデルはビジュアル生成において普及モデルに後れを取っているのでしょうか? Google と CMU の研究者らは、主な理由は、視覚世界を効果的にモデル化するための自然言語システムと同様の、優れた視覚表現が欠如していることであると考えています。この仮説を確認するために、彼らは研究を実施しました。
論文リンク: https://arxiv.org/pdf/2310.05737.pdf
これこの調査では、同じトレーニング データ、同等のモデル サイズ、トレーニング予算を使用し、優れたビジュアル トークナイザーを使用すると、画像とビデオのベンチマークにおける生成忠実度と効率の両方において、マスクされた言語モデルが SOTA 拡散モデルを上回ることが示されました。これは、象徴的な ImageNet ベンチマークにおいて、言語モデルが普及モデルを上回ることを示す最初の証拠です。
研究者の目的は、言語モデルが他のモデルより優れているかどうかを主張することではなく、LLM 視覚的トークン化手法の探求を促進することであることを強調しておく必要があります。 LLM と他のモデル (拡散モデルなど) の基本的な違いは、LLM が離散潜在形式、つまり視覚的なトークナイザーから取得されたトークンを使用することです。この研究は、これらの個別のビジュアル トークンの価値は、次の利点があるため無視すべきではないことを示しています:
1. LLM との互換性。トークン表現の主な利点は、言語トークンと同じ形式を共有することで、コミュニティが長年にわたって LLM を開発するために行ってきた最適化 (トレーニングと推論の高速化、モデル インフラストラクチャの進歩、拡張方法など) を直接活用できることです。モデル、および GPU/TPU 最適化などのイノベーション。同じトークン空間を通じて視覚と言語を統合することで、私たちの視覚環境内で理解、生成、推論できる真のマルチモーダル LLM の基礎を築くことができます。
2. 圧縮表現。個別のトークンは、ビデオ圧縮に関する新しい視点を提供できます。ビジュアル トークンは、インターネット送信中にデータが占有するディスク ストレージと帯域幅を削減するための新しいビデオ圧縮形式として使用できます。圧縮された RGB ピクセルとは異なり、これらのトークンは、従来の解凍および潜在的なエンコードのステップをバイパスして、生成モデルに直接入力できます。これにより、ビデオ生成アプリケーションの処理が高速化され、特にエッジ コンピューティングの状況で有益です。
3. 視覚的に理解できる利点。 BEiT と BEVT で議論されているように、これまでの研究では、自己教師あり表現学習における事前トレーニング ターゲットとしての離散ラベルの価値が示されています。さらに、この研究では、マーカーをモデル入力として使用すると、堅牢性と汎化パフォーマンスが向上することがわかりました。
この論文では、研究者らは、MAGVIT-v2 と呼ばれるモデルを提案しました。ビデオ (および画像) をコンパクトな離散トークンに変換します
このコンテンツは次のように書き直されます: このモデルは、VQ-VAE フレームワーク内の SOTA ビデオ トークナイザーに基づいています ——MAGVIT による改良。研究者らは 2 つの新しいテクノロジーを提案しました: 1) 大量の語彙の学習を可能にし、それによって言語モデル生成の品質を向上させる革新的なルックアップ不要の定量化方法; 2) 広範な実証分析を通じて、生成品質を向上させるだけでなく MAGVIT への修正を決定しました
実験結果は、新しいモデルが 3 つの主要な領域で優れていることを示しています。これまでで最高のパフォーマンスを示したビデオ トークナイザー - MAGVIT。まず、新しいモデルは MAGVIT の生成品質を大幅に向上させ、一般的な画像とビデオのベンチマークで最先端の結果を達成します。第 2 に、ユーザー調査によると、その圧縮品質は MAGVIT および現在のビデオ圧縮標準 HEVC を超えています。さらに、次世代ビデオコーデックVVCにも匹敵します。最後に、研究者らは、2 つの設定と 3 つのデータセットにおけるビデオ理解タスクにおいて、新しい単語セグメンテーションが MAGVIT よりも優れたパフォーマンスを発揮することを示しました。 この論文では、ビジュアル シーンの時空間ダイナミクスを言語モデルに適したコンパクトな離散トークンにマッピングすることを目的とした、新しいビデオ トークナイザーを紹介します。さらに、このメソッドは MAGVIT に基づいています。 調査では、ルックアップフリー量子化 (LFQ) とトークナイザー モデルの機能強化という 2 つの新しい設計に焦点を当てています。 ルックアップ不要の定量化 最近、VQ-VAE モデルは大きな進歩を遂げましたが、この方法の問題点 問題は、再構成品質の向上とその後の生成品質の関係が不明瞭であることです。多くの人は、再構成の改善は言語モデル生成の改善と同等であると誤解しています。たとえば、語彙を増やすと再構成の品質が向上します。ただし、この改善は語彙が少ない生成にのみ適用され、語彙が非常に大きい場合、言語モデルのパフォーマンスに悪影響を及ぼします。 この記事では、VQ-VAE コードブックを削減します。埋め込み次元を 0 にします。つまり、コードブック が整数セット に置き換えられます。ここで、 です。 VQ-VAE モデルとは異なり、この新しい設計では埋め込みルックアップの必要性が完全に排除されているため、LFQ という名前が付けられています。この論文では、LFQ が語彙を増やすことで言語モデル生成の品質を向上できることを発見しました。図 1 の青い曲線で示されているように、語彙サイズが増加するにつれて再構成と生成の両方が向上します。これは現在の VQ-VAE 方法では観察されない特性です。 これまでに多くの LFQ メソッドが利用可能ですが、この記事では単純なバリエーションについて説明します。具体的には、LFQ の潜在空間は、一次元変数のデカルト積、つまり に分解されます。特徴ベクトル が与えられたと仮定すると、量化表現 q (z) の各次元は次から取得されます。 LFQ に関しては、 q ( z のトークン インデックス) は次のとおりです: # さらに、この記事では、トレーニング プロセス中にエントロピー ペナルティも追加します: 画像とビデオを組み合わせたトークナイザーを構築するには、再設計が必要です。この研究では、空間変換器と比較して 3D CNN のパフォーマンスが優れていることが判明しました。 この論文では、図 2b に示すように、C-ViViT と MAGVIT を組み合わせた 2 つの実現可能な設計ソリューションを検討します。 ; 図 2c は、通常の 3D CNN の代わりに時間的因果関係 3D 畳み込みを使用します。 表 5a は、図 2 の設計を経験的に比較しており、因果関係のある 3D CNN が最も優れたパフォーマンスを発揮することがわかります。 この記事では、MAGVIT のパフォーマンスを向上させるために他のアーキテクチャの変更を加えます。この論文では、因果 3D CNN レイヤーの使用に加えて、エンコーダーのダウンサンプラーを平均プーリングからストライド畳み込みに変更し、デコーダーの各解像度で残差ブロックの前に適応グループ正規化を追加しています。 実験結果
ビデオ生成の結果を視覚的に比較しています。表 1 は、両方のベンチマークでこのモデルが既存のすべての手法を上回っていることを示しており、優れたビジュアル トークナイザーが LM が高品質のビデオを生成できるようにする上で重要な役割を果たしていることを示しています。
#以下は、図 4 の定性サンプルの説明です
## この研究では、MAGVIT-v2 の画像生成結果を評価することにより、標準的な ImageNet のような条件設定の下で、サンプリング品質 (ID および IS) と推論時間効率 (サンプリング ステップ) の点で、私たちのモデルが最高を上回っていることがわかりました。最良の拡散モデルのパフォーマンス
# 図 5 は、視覚化の結果を示しています。 #ビデオ圧縮。結果を表 3 に示します。私たちのモデルは、すべての指標で MAGVIT を上回り、LPIPS ではすべてのメソッドを上回っています。
#表 4 に示すように、これらの評価では、MAGVIT-v2 は以前の最高の MAGVIT ## を上回っています 手法の紹介
ビジュアル トークナイザー モデルの改善
この論文では、ビデオと画像の生成、ビデオ圧縮、およびアクション認識の 3 つの部分の実験を通じて、提案された単語セグメンターのパフォーマンスを検証します。図 3 は、トークナイザーと以前の研究結果
以上が画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。