Transformer から Diffusion Model まで、シーケンスモデリングに基づく強化学習手法について 1 つの記事で学びます-AI-php.cn

Gato は Deepmind によって公開されている「ジェネラリストモデル」で、実際にはクロスモーダルマルチタスク生成モデルです。同じ Transformer を使用して、自然言語による質問応答、画像の説明、ビデオゲームのプレイからロボット制御まで、さまざまなタスクを実行できます。連続制御をモデル化する Gato のアプローチは、基本的に TT と似ています。ただし、Gato は厳密に強化学習を行っているわけではなく、エキスパート戦略によって生成されたシーケンスデータをモデル化し、アクションを実行するときに次のアクションをサンプリングするだけであり、実際にはエキスパート戦略の模倣です。

最近画像生成の分野では拡散モデル(Diffusion Model)が非常に普及していると言え、DALLE-2やStable Diffusionもこれに基づいて画像生成を行っています。 Diffuser はこの手法をオフライン強化学習にも適用しています。アイデアは TT に似ています。最初にシーケンスの条件付き分布をモデル化し、次に現在の状態に基づいて将来の可能性のあるシーケンスをサンプリングします。

ホームページ

テクノロジー周辺機器

Transformer から Diffusion Model まで、シーケンスモデリングに基づく強化学習手法について 1 つの記事で学びます

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 14, 2023 am 11:25 AM

ai 強化学習

大規模な生成モデルは、過去 2 年間で自然言語処理、さらにはコンピュータービジョンに大きな進歩をもたらしました。最近、この傾向は強化学習、特に決定変換 (DT)[1]、軌道変換 (TT)[2]、Gato[3]、ディフューザー [4] などのオフライン強化学習 (オフライン RL) にも影響を与えています。この手法では、強化学習データ (状態、行動、報酬、復帰など) を非構造化された一連のシーケンスデータとみなして、これらのシーケンスデータを学習の中核タスクとしてモデル化します。これらのモデルは、教師ありまたは自己教師ありの学習方法を使用してトレーニングでき、従来の強化学習における不安定な勾配信号を回避できます。複雑なポリシー改善および値推定手法を使用しても、オフライン強化学習で非常に優れたパフォーマンスを示します。

この記事では、シーケンスモデリングに基づくこれらの強化学習手法について簡単に説明し、次の記事では、新しく提案されたベクトル量子化変分を使用する Trajectory Autoencoding Planner (TAP) について紹介します。 AutoEncoder (VQ-VAE) は、潜在アクション空間におけるシーケンスモデリングと効率的な計画のための手法です。

Transformer と強化学習

Transformer アーキテクチャ [5] は 2017 年に提案され、ゆっくりと自然言語処理の革命を引き起こしました。その後の BERT と GPT-3 は徐々に自己教師型 Transformer の組み合わせは、新たな高みに押し上げられ続けており、自然言語処理の分野では少数ショット学習などの特性が出現し続けていますが、コンピュータービジョンなどの分野にも広がり始めています [6][7] ] 。

ただし、強化学習の場合、このプロセスは 2021 年までは特に明らかではないようです。 2018 年には、マルチヘッドアテンションメカニズムも強化学習に導入されました [8]。このタイプの研究は基本的に、強化学習の一般化の問題を解決するために、半記号 (サブシンボリック) と同様の分野に適用されます。それ以来、そのような試みは鈍いものとなった。筆者の個人的な経験によれば、実はTransformerは強化学習において安定した圧倒的な優位性を示しておらず、訓練も難しい。 20 年ぶりの強化学習に Relational GCN を使用した研究 [9] の 1 つでは、舞台裏で Transformer を実際に試しましたが、基本的に従来の構造 (CNN に似た) よりもはるかに劣っており、安定して学習し、学習するのが困難でした。使用可能なポリシーを取得します。なぜ Transformer が従来のオンライン強化学習 (オンライン RL) と互換性がないのかはまだ未解決の問題ですが、たとえば Melo [10] は、従来の Transformer のパラメータ初期化が強化学習に適していないためであると説明しています。さらにここで。

2021 年半ば、Decision Transformer (DT) と Trajectory Transformer (TT) のリリースにより、RL での Transformer アプリケーションの新たな波が始まりました。これら 2 つの研究のアイデアは実際には非常に単純です。Transformer とオンライン強化学習アルゴリズムにあまり互換性がない場合、強化学習を単純に自己教師あり学習タスクとして扱ってはどうでしょうか?オフライン強化学習の概念も非常に人気があるという事実を利用して、これらの研究は両方とも、主要なターゲットタスクをオフラインデータセットのモデリングに固定し、このシーケンスモデルを制御と意思決定に使用しています。

強化学習の場合、いわゆるシーケンスは状態 (state) s、アクション (action) Transformer から Diffusion Model まで、シーケンスモデリングに基づく強化学習手法について 1 つの記事で学びます、報酬 (reward) r およびvalue ( value) v で構成される軌跡。現在、この値は通常、モンテカルロ推定とみなせる return-to-go に置き換えられています。オフラインデータセットはこれらの軌跡で構成されます。軌道の生成は、環境の力学と行動方針に関連しています。いわゆるシーケンスモデリングは、このシーケンスを生成する確率分布 (分布)、または厳密には条件付き確率の一部をモデル化することです。 Transformer から Diffusion Model まで、シーケンスモデリングに基づく強化学習手法について 1 つの記事で学びます

Decision Transformer

DT のアプローチは、過去のデータと値からアクション (リターン条件付きポリシー) へのマッピングをモデル化することです。これは、条件付き確率の数学的期待をモデル化することです。アクション。＃＃＃＃＃＃＃＃＃。このアイデアは Upside Down RL [11] に非常に似ていますが、その背後にある直接の動機は、プロンプトに基づいてダウンストリームタスクを完了する GPT2/3 の方法を模倣することである可能性が非常に高くなります。このアプローチの問題の 1 つは、最適な目標値を決定する体系的な方法がないことです。しかし、DT の作成者は、目標値がデータセット全体の中で最も高いリターンに設定されている場合でも、DT の最終的なパフォーマンスが非常に優れている可能性があることを発見しました。 Transformer から Diffusion Model まで、シーケンスモデリングに基づく強化学習手法について 1 つの記事で学びます

Decision Transformer、図 1

Transformer から Diffusion Model まで、シーケンスモデリングに基づく強化学習手法について 1 つの記事で学びます

Decision Transformer、図 1

強化学習人間の感覚で言えば、DT のような手法で強力なパフォーマンスを達成できるというのは非常に直観に反します。 DQN やポリシー勾配などの手法がニューラルネットワークを補間汎化に使用できるフィッティング関数としてしかみなすことができない場合、強化学習におけるポリシーの改善と評価は依然としてポリシー構築の中核となります。 DT は完全にニューラルネットワークに基づいていると言えますが、非現実的である可能性のある高い目標値を適切なアクションに結び付けるプロセス全体は完全にブラックボックスです。 DTの成功は強化学習の観点からは少々無理があるとも言えますが、それがこの種の実証研究の魅力だと思います。著者は、ニューラルネットワーク (トランスフォーマー) の一般化能力が、RL コミュニティ全体のこれまでの期待を超える可能性があると信じています。

DT はすべてのシーケンスモデリング手法の中でも非常にシンプルであり、強化学習の中核となる問題のほぼすべてが Transformer 内で解決されます。このシンプルさが現在最も人気のある理由の1つです。ただし、そのブラックボックスの性質により、アルゴリズム設計レベルで多くの把握が失われ、従来の強化学習での成果の一部を強化学習に組み込むのは困難です。これらの結果の有効性は、いくつかの非常に大規模な実験 (AlphaGo、AlphaStar、VPT など) で繰り返し確認されています。

Trajectory Transformer

TT のアプローチは、従来のモデルベースの強化学習 (モデルベース RL) 計画手法によく似ています。モデリングに関しては、シーケンス全体の要素を離散化し、GPT-2 のような離散自己回帰手法を使用してオフラインデータセット全体をモデル化します。これにより、特定のシーケンスからリターンツーゴーを差し引いた継続をモデル化できます。 TT は後続のシーケンスの分布をモデル化するため、実際にはシーケンス生成モデルになります。 TT は、生成されたシーケンスの中でより良い値の推定を行うシーケンスを探すことにより、「最適な計画」を出力できます。最適なシーケンスを見つける方法として、TT は自然言語で一般的に使用される方法、つまりビーム探索の変形を使用します。基本的には、展開されたシーケンスの最適なシーケンス Transformer から Diffusion Model まで、シーケンスモデリングに基づく強化学習手法について 1 つの記事で学びます部分を常に保持し、それらを基に次の最適なシーケンスセットを見つけることです。

強化学習の観点から見ると、TT は DT ほど型破りなものではありません。興味深いのは、(DT と同様に) 強化学習における元のマルコフ決定プロセスの因果グラフ構造を完全に放棄していることです。 PETS、ワールドモデル、dramerv2 などの以前のモデルベースの手法はすべて、マルコフプロセス (または暗黙的マルコフ) におけるポリシー関数、伝達関数、報酬関数などの定義、つまり次の条件に従います。状態分布は前のステップの状態であり、アクション、報酬、値はすべて現在の状態によって決まります。強化学習コミュニティ全体は一般に、これによりサンプル効率が向上すると信じていますが、そのようなグラフ構造は実際には制約となる可能性があります。自然言語の分野における RNN から Transformer への移行、およびコンピュータービジョンの分野における CNN から Transformer への移行は、実際に次のことを反映しています。データが増加するにつれて、ネットワークにグラフ構造を自力で学習させるほうが、よりパフォーマンスの高いモデルを取得するのに役立ちます。。

Transformer から Diffusion Model まで、シーケンスモデリングに基づく強化学習手法について 1 つの記事で学びます

DreamerV2、図 3TT は基本的にすべてのシーケンス予測タスクを With Transformer、Transformer に引き渡すため、データからより柔軟に、より適切なグラフ構造を学習できるようになります。以下の図に示すように、TT によってモデル化された行動戦略は、さまざまなタスクとデータセットに応じてさまざまなグラフ構造を示します。図の左側は従来のマルコフ戦略に対応し、図の右側はアクション移動平均戦略に対応します。

Transformer から Diffusion Model まで、シーケンスモデリングに基づく強化学習手法について 1 つの記事で学びます

#Trajectory Transformer、図 4

Transformer 強力なシーケンスモデリングの機能下の図は、100 ステップを超える TT の予測が依然として高い精度を維持しているのに対し、マルコフ特性に従う単一ステップ予測モデルは、予測誤差の重ね合わせの問題によりすぐに崩壊することを示しています。

Transformer から Diffusion Model まで、シーケンスモデリングに基づく強化学習手法について 1 つの記事で学びます

Trajectory Transformer、図 2

TT ただし、特定のモデリングと予測の点で従来の方法とは異なります。それは異なりますが、それが提供する予測能力は、将来的に強化学習に統合される他の結果への優れた出発点を残します。ただし、TT には予測速度という重要な問題があります: シーケンス全体の分布をモデル化する必要があるため、シーケンス内のすべての要素が次元に従って離散化されます。これは、100 次元の状態がシーケンス内の 100 個の要素を占有する必要があることを意味します。 . 位置にあるため、モデル化されるシーケンスの実際の長さが特に長くなりやすくなります。 Transformer の場合、シーケンス長 N の計算複雑さはであり、TT からの将来予測のサンプリングに非常にコストがかかります。 100 次元未満のタスク TT であっても、ワンステップの判断に数秒から数十秒を要するため、リアルタイムのロボット制御やオンライン学習に導入することは困難です。 Transformer から Diffusion Model まで、シーケンスモデリングに基づく強化学習手法について 1 つの記事で学びます Gato

Gato は Deepmind によって公開されている「ジェネラリストモデル」で、実際にはクロスモーダルマルチタスク生成モデルです。同じ Transformer を使用して、自然言語による質問応答、画像の説明、ビデオゲームのプレイからロボット制御まで、さまざまなタスクを実行できます。連続制御をモデル化する Gato のアプローチは、基本的に TT と似ています。ただし、Gato は厳密に強化学習を行っているわけではなく、エキスパート戦略によって生成されたシーケンスデータをモデル化し、アクションを実行するときに次のアクションをサンプリングするだけであり、実際にはエキスパート戦略の模倣です。

Transformer から Diffusion Model まで、シーケンスモデリングに基づく強化学習手法について 1 つの記事で学びます

Gato ブログ

その他のシーケンス生成モデル:拡散モデル

最近画像生成の分野では拡散モデル(Diffusion Model)が非常に普及していると言え、DALLE-2やStable Diffusionもこれに基づいて画像生成を行っています。 Diffuser はこの手法をオフライン強化学習にも適用しています。アイデアは TT に似ています。最初にシーケンスの条件付き分布をモデル化し、次に現在の状態に基づいて将来の可能性のあるシーケンスをサンプリングします。

ディフューザーは TT よりも柔軟性が高く、開始点と終了点を設定しながらモデルに中間パスを埋めることができるため、(報酬を最大化するのではなく) 目標主導型の関数制御を行うことができます。また、複数の目標と目標を達成するための先験的な条件を組み合わせて、モデルがタスクを完了できるようにすることもできます。

Transformer から Diffusion Model まで、シーケンスモデリングに基づく強化学習手法について 1 つの記事で学びます

##ディフューザー図 1ディフューザーも、従来の強化学習モデルと比較して非常に破壊的です。計画は時間軸上で徐々に展開していくのではなく、全体の流れという意味では漠然としたものから徐々に正確になっていきます。拡散モデル自体のさらなる研究もコンピュータビジョンの注目のテーマであり、今後数年以内にモデル自体にブレークスルーが起こる可能性があります。

しかし、現状では普及モデル自体が他の世代モデルに比べて生成速度が遅いという特殊な欠陥を抱えています。関連分野の多くの専門家は、この問題は今後数年間で緩和される可能性があると考えています。ただし、強化学習でリアルタイム制御が必要なシナリオでは、数秒という生成時間は現時点では受け入れがたいものです。 Diffuser は生成速度を向上させる方法として、前のステップの計画に少量のノイズを追加して次のステップの計画を再生成する方法を提案しましたが、これを行うとモデルのパフォーマンスがある程度低下します。

以上がTransformer から Diffusion Model まで、シーケンスモデリングに基づく強化学習手法について 1 つの記事で学びますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7338

Java チュートリアル

1627

CakePHP チュートリアル

1352

Laravel チュートリアル

1265

PHP チュートリアル

1210

Related knowledge

文字列を介してオブジェクトを動的に作成し、Pythonでメソッドを呼び出す方法は？ Apr 01, 2025 pm 11:18 PM

Pythonでは、文字列を介してオブジェクトを動的に作成し、そのメソッドを呼び出す方法は？これは一般的なプログラミング要件です。特に構成または実行する必要がある場合は...

GoまたはRustを使用してPythonスクリプトを呼び出して、真の並列実行を実現する方法は？ Apr 01, 2025 pm 11:39 PM

GoまたはRustを使用してPythonスクリプトを呼び出して、真の並列実行を実現する方法は？最近、私はPythonを使用しています...

Fastapiのコンマ分離リストクエリパラメーターを処理する方法は？ Apr 02, 2025 am 06:51 AM

Fastapi ...

Debianで動物園のパフォーマンスチューニングを操作する方法 Apr 02, 2025 am 07:42 AM

この記事では、Debian SystemsのZookeeperパフォーマンスを最適化する方法について説明します。ハードウェア、オペレーティングシステム、Zookeeperの構成、監視に関するアドバイスを提供します。 1.システムレベルでのストレージメディアのアップグレードの最適化：従来の機械的ハードドライブをSSDソリッドステートドライブに置き換えると、I/Oパフォーマンスが大幅に向上し、アクセス待ち時間が減少します。スワップパーティションの無効化：カーネルパラメーターを調整し、スワップパーティションへの依存を減らし、頻繁なメモリとディスクスワップに起因するパフォーマンスの損失を回避します。ファイル記述子の上限を改善する：Zookeeperの処理効率に影響を与えるリソース制限を回避するために、システムによって同時に許可されるファイル記述子の数を増やします。 2. Zookeeper構成最適化Zoo.CFGファイルの構成

DebianでOracleセキュリティ設定を行う方法 Apr 02, 2025 am 07:48 AM

Debianシステム上のOracleデータベースのセキュリティを強化するには、開始するには多くの側面が必要です。次の手順は、セキュアな構成のフレームワークを提供します。1。Oracleデータベースのインストールと初期構成システムの準備：Debianシステムが最新バージョンに更新され、ネットワーク構成が正しく、必要なすべてのソフトウェアパッケージがインストールされていることを確認します。インストールのために公式文書または信頼できるサードパーティのリソースを参照することをお勧めします。ユーザーとグループ：専用のOracleユーザーグループ（OINSTALL、DBA、BackUpDBAなど）を作成し、適切なアクセス許可を設定します。 2。セキュリティ制限リソース制限の設定：edit /etc/security/limits.d/30-oracle.conf

Python Asyncio Telnet接続はすぐに切断されます：サーバー側のブロッキング問題を解決する方法は？ Apr 02, 2025 am 06:30 AM

Pythonasyncioについて...

Debianメールサーバーを回復する方法 Apr 02, 2025 am 07:33 AM

Debian Mail Serverを復元するための詳細な手順この記事では、Debian Mail Serverを復元する方法について説明します。開始する前に、データバックアップの重要性を覚えておくことが重要です。回復手順：バックアップデータ：リカバリ操作を実行する前に、すべての重要な電子メールデータと構成ファイルをバックアップしてください。これにより、回復プロセス中に問題が発生したときにフォールバックバージョンがあることが保証されます。ログファイルを確認してください：メールサーバーログファイル（/var/log/mail.logなど）を確認してください。エラーや例外があります。ログファイルは、多くの場合、問題の原因に関する貴重な手がかりを提供します。サービスの停止：さらにデータの破損を防ぐために、メールサービスを停止します。次のコマンドを使用してください：su