無制限のビデオ生成、計画と意思決定、次のトークン予測とフルシーケンス拡散の拡散強制統合-AI-php.cn

ホームページ

テクノロジー周辺機器

無制限のビデオ生成、計画と意思決定、次のトークン予測とフルシーケンス拡散の拡散強制統合

王林

Jul 23, 2024 pm 02:05 PM

プロジェクト

現在、次のトークン予測パラダイムを使用した自己回帰大規模言語モデルが世界中で普及しており、同時にインターネット上の多数の合成画像や動画がすでに拡散の力を示しています。モデル。

最近、MIT CSAIL の研究チーム (その 1 人は MIT の博士課程学生である Chen Boyuan です) は、全系列拡散モデルとネクストトークンモデルの強力な機能を統合することに成功し、トレーニングとサンプリングを提案しました。パラダイム: 拡散強制(DF)。

無制限のビデオ生成、計画と意思決定、次のトークン予測とフルシーケンス拡散の拡散強制統合

論文のタイトル: Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
論文のアドレス: https://arxiv.org/pdf/2407.01392
プロジェクトのウェブサイト: https:/ /arxiv.org/pdf/2407.01392 /boyuan.space/diffusion-forcing
コードアドレス: https://github.com/buoyancy99/diffusion-forcing

以下に示すように、拡散強制は明らかにすべての点で優れています。一貫性と安定性の観点 2 つの方法は、シーケンス拡散と教師強制です。

無制限のビデオ生成、計画と意思決定、次のトークン予測とフルシーケンス拡散の拡散強制統合

このフレームワークでは、各トークンはランダムな独立したノイズレベルに関連付けられており、共有の次のトークン予測モデルまたは次のトークン予測モデルを、任意の独立したトークンごとのスキームに従って使用できます。トークンのノイズを除去します。

この手法の研究のインスピレーションは、次の観察から来ています。トークンにノイズを追加するプロセスは、部分的なマスキングプロセスの一種です。ゼロノイズはトークンがマスキングされていないことを意味し、完全なノイズは完全にマスキングトークンです。したがって、DF は、ノイズの多いトークンの変数セットを除去するマスクをモデルに強制的に学習させます (図 2)。

同時に、複数の次トークン予測モデルの組み合わせとして予測方法をパラメータ化することで、システムは異なる長さのシーケンスを柔軟に生成し、組み合わせ方式で新しい軌跡に一般化できます (図 1 )。

チームは、シーケンス生成に使用される DF を因果拡散強制 (CDF) に実装しました。CDF では、将来のトークンが因果アーキテクチャを通じて過去のトークンに依存します。彼らは、シーケンスのすべてのトークン (各トークンが独立したノイズレベルを持つ) を一度にノイズ除去するようにモデルをトレーニングしました。

サンプリング中、CDF は一連のガウスノイズフレームを徐々にノイズ除去してクリーンなサンプルにします。この場合、異なるフレームは各ノイズ除去ステップで異なるノイズレベルを持つ可能性があります。次のトークン予測モデルと同様に、CDF は可変長のシーケンスを生成できます。次のトークン予測とは異なり、CDF のパフォーマンスは、次のトークンを予測する場合でも、将来の数千のトークンを予測する場合でも、継続的なトークンを予測する場合でも非常に安定しています。

さらに、フルシーケンス拡散と同様に、指導を受けることもでき、高い報酬の生成が可能です。 CDF は、因果関係、柔軟なスコープ、可変ノイズスケジューリングを連携して活用することにより、新機能であるモンテカルロツリーガイダンス (MCTG) を有効にします。非因果的全系列拡散モデルと比較して、MCTG は高報酬生成のサンプリングレートを大幅に向上させることができます。図 1 は、これらの機能の概要を示しています。

Diffusion Forcing (拡散強制)

1. ノイズ追加プロセスを部分マスクとして扱います

まず第一に、任意のトークンセット (シーケンスであるかどうかに関係なく) を扱うことができます。またはそうでない) as t によってインデックス付けされた順序付きコレクション。次に、教師強制を使用して次のトークン予測をトレーニングすることは、時間 t での各トークン x_t をマスクし、過去の x_{1:t−1} に基づいてそれらを予測すると解釈できます。

シーケンスの場合、この操作はタイムラインに沿ってマスキングを実行するものとして説明できます。フルシーケンスの前方拡散 (つまり、データに徐々にノイズを追加するプロセス無制限のビデオ生成、計画と意思決定、次のトークン予測とフルシーケンス拡散の拡散強制統合

) は、「ノイズ軸に沿ってマスキングを実行する」

と呼ぶことができる、一種の部分マスキングとして考えることができます。 K ステップでノイズを追加すると、無制限のビデオ生成、計画と意思決定、次のトークン予測とフルシーケンス拡散の拡散強制統合

は (おそらく) ホワイトノイズとなり、元のデータに関する情報はなくなりました。図 2 に示すように、チームはこれら 2 つの軸のエッジマスクを確認するための統一された視点を確立しました。

2. 拡散強制: 異なるトークンには異なるノイズレベルがあります

拡散強制 (DF) フレームワークは、任意のシーケンス長のノイズのあるトークンをトレーニングおよびサンプリングするために使用できます。各トークンのノイズレベル k_t は時間ステップとともに変化します

この論文は時系列データに焦点を当てているため、因果的アーキテクチャを通じて DF をインスタンス化し、簡単に言えば、これはです。基本的なリカレントニューラルネットワーク (RNN) を使用して得られる最小限の実装。重み θ を持つ RNN は、過去のトークンの影響を通知された隠れ状態 z_t を維持し、ループ層を通じて動的無制限のビデオ生成、計画と意思決定、次のトークン予測とフルシーケンス拡散の拡散強制統合

に従って進化します。入力ノイズ観測値無制限のビデオ生成、計画と意思決定、次のトークン予測とフルシーケンス拡散の拡散強制統合

が取得されると、隠れ状態がマルコフ方式で更新されます。

k_t=0 の場合、これはベイジアンフィルタリングの事後更新であり、k_t=K (純粋なノイズ、情報なし) の場合、これは「事後分布」p_θ(z_t | z_{ t−1}）。

隠れ状態 z_t が与えられた場合、観測モデル p_θ(x_t^0 | z_t) の目的は、このユニットの入出力動作は標準の条件付き拡散モデルと同じです。条件変数 z_{t−1 } とノイズのあるトークンを入力として、ノイズのない x_t=x_t^0 を予測し、それによってアフィン再パラメータ化を通じて間接的にノイズ ε^{k_t} を予測します。したがって、古典的な拡散ターゲットを直接使用して、（因果的）拡散強制を訓練することができます。ノイズ予測結果 ε_θ に従って、上記のユニットをパラメータ化することができます。次に、次の損失を最小限に抑えることでパラメータ θ が求められます。

アルゴリズム 1 は擬似コードを与えます。重要なのは、この損失がベイジアンフィルタリングと条件付き拡散の重要な要素を捉えているということです。研究チームはまた、元の論文の付録で詳しく説明されているように、拡散強制のための拡散モデルのトレーニングで使用される一般的な手法をさらに再推論しました。彼らはまた、非公式の定理にも到達しました。

定理 3.1 (非公式)。拡散強制トレーニング手順 (アルゴリズム 1) は、期待される対数尤度無制限のビデオ生成、計画と意思決定、次のトークン予測とフルシーケンス拡散の拡散強制統合

の証拠下限 (ELBO) を最適化する再重み付けです。ここで、期待値はノイズレベル全体にわたって平均され、無制限のビデオ生成、計画と意思決定、次のトークン予測とフルシーケンス拡散の拡散強制統合

は順方向プロセスに従ってノイズが多くなります。さらに、適切な条件下では、(3.1) を最適化すると、すべてのノイズレベルシーケンスの下限を同時に最大化することもできます。

拡散強制サンプリングとその結果として得られる機能

アルゴリズム 2 は、次のように定義されるサンプリングプロセスを記述します。 2 次元 M × T グリッド K ∈ [K]^{M×T } はノイズスケジュールを指定します。列はタイムステップ t に対応し、m でインデックス付けされた行がノイズレベルを決定します。

長さ T のシーケンス全体を生成するには、最初にトークン x_{1:T} をノイズレベル k = K に対応するホワイトノイズに初期化します。次に、ノイズレベルが K に達するまで、グリッドに沿って行ごとに反復処理を行い、左から右に列ごとにノイズを除去します。最後の行の m = 0 までに、トークンのノイズはクリーンアップされます。つまり、ノイズレベルは K_{0,t} ≡ 0 になります。

このサンプリングパラダイムは、次の新しい機能をもたらします:

安定した自己回帰生成
将来を不確実にしておく
長期的なガイダンス機能

柔軟なシーケンス決定には拡散強制を使用します

拡散強制の新しい機能は、新たな可能性ももたらします。これに基づいて、チームはシーケンス意思決定 (SDM) のための新しいフレームワークを設計し、それをロボットや自律エージェントの分野に適用することに成功しました。

まず、動的 p (s_{t+1}|s_t, a_t)、観測値 p (o_t|s_t)、報酬 p (r_t|s_t, a_t) を使用してマルコフ決定プロセスを定義します。ここでの目標は、軌道無制限のビデオ生成、計画と意思決定、次のトークン予測とフルシーケンス拡散の拡散強制統合

の期待累積報酬を最大化するようにポリシー π(a_t|o_{1:t}) をトレーニングすることです。ここではトークン x_t = [a_t, r_t, o_{t+1}] が割り当てられます。軌跡はシーケンス x_{1:T} であり、その長さは可変であり、トレーニング方法はアルゴリズム 1 に示すとおりです。

実行プロセスの各ステップ t には、過去のノイズフリートークン x_{1:t-1} を要約する隠れ状態 z_{t-1} があります。この隠れた状態に基づいて、アルゴリズム 2 に従って計画無制限のビデオ生成、計画と意思決定、次のトークン予測とフルシーケンス拡散の拡散強制統合

がサンプリングされます。ここで無制限のビデオ生成、計画と意思決定、次のトークン予測とフルシーケンス拡散の拡散強制統合

には、予測されたアクション、報酬、および観察が含まれます。 H は前方観測ウィンドウであり、モデル予測制御における将来予測に似ています。計画されたアクションを実行した後、環境は報酬と次の観察、つまり次のトークンを受け取ります。隠れ状態は事後 p_θ(z_t|z_{t−1}, x_t, 0) に従って更新できます。

このフレームワークは戦略とプランナーの両方として使用でき、その利点は次のとおりです:

柔軟な計画期間を持つ
柔軟な報酬ガイダンスを可能にする
を達成できる将来の不確実性を達成するためのカルロツリーガイダンス (MCTG)

実験

チームは、ビデオと時系列の予測、計画と模倣学習を含む生成シーケンスモデルとしての拡散強制の利点を評価しました。他のアプリケーション。

ビデオ予測: 一貫性のある安定したシーケンス生成と無限の拡張

ビデオ生成モデリングタスクでは、Minecraft ゲームビデオと DMLab ナビゲーションの成果に基づいて、因果拡散強制のための畳み込み RNN をトレーニングしました。

図 3 は、拡散強制とベースラインの定性的な結果を示しています。

教師による強制とフルシーケンスの拡散ベンチマークはすぐに発散する一方で、拡散強制はトレーニング範囲を超えても安定して展開できることがわかります。

拡散計画: MCTG、因果不確実性、柔軟な範囲制御

強制を拡散する機能は、意思決定に独自の利点をもたらすことができます。チームは、標準のオフライン強化学習フレームワークである D4RL を使用して、新しく提案された意思決定フレームワークを評価しました。

表 1 に定性的および定量的な評価結果を示します。ご覧のとおり、Diffusion Enforcement は 6 つの環境すべてで Diffuser およびすべてのベースラインを上回っています。

制御可能なシーケンスの組み合わせ生成

チームは、サンプリングスキームを変更するだけで、トレーニング時に観察されたシーケンスのサブシーケンスを柔軟に組み合わせることができることを発見しました。

彼らは 2D 軌跡データセットを使用して実験を実施しました。正方形の平面上で、すべての軌跡は 1 つの角から始まり、反対側の角で終わり、一種の十字形を形成します。

上の図 1 に示すように、組み合わせ動作が必要ない場合、DF は完全なメモリを維持し、クロスの分布を複製することができます。組み合わせが必要な場合、モデルを使用して MPC を使用してメモリレスで短い計画を生成し、それによってこの十字のサブ軌道をステッチして V 字型の軌道を取得できます。

ロボット: 長距離模倣学習と堅牢な視覚的動作制御

拡散強制は、実際のロボットの視覚的動作制御に新たな機会ももたらします。

模倣学習は、専門家によって実証された観察された動作のマッピングを学習する、一般的に使用されるロボット制御手法です。ただし、記憶力が不足していると、長距離タスクの模倣学習が困難になることがよくあります。 DF はこの欠点を軽減するだけでなく、模倣学習をより堅牢にすることもできます。

記憶を模倣学習に使用します。 Franka ロボットを遠隔制御することで、チームはビデオとモーションデータセットを収集しました。図 4 に示すように、タスクは 3 番目の位置を使用してリンゴとオレンジの位置を交換することです。フルーツの初期位置はランダムであるため、可能な目標状態は 2 つあります。

さらに、3 番目の位置にフルーツがある場合、現在の観察から望ましい結果を推測することはできません。どのフルーツを移動するかを決定するために、戦略は初期構成を覚えていなければなりません。一般的に使用される動作クローン作成手法とは異なり、DF は記憶を独自の隠れた状態に自然に統合できます。 DF は 80% の成功率を達成したが、拡散戦略 (現時点で最良の記憶を持たない模倣学習アルゴリズム) は失敗したことが判明した。