清北との共同制作! 「Transformer+Reinforcement Learning」の詳細を理解するための調査
Transformer モデルは、そのリリース以来、すぐに自然言語処理とコンピューター ビジョンの分野の教師あり学習設定における主流のニューラル アーキテクチャになりました。
Transformer の流行が 強化学習 分野全体に広がり始めていますが、独自の機能の必要性など、RL 自体の特性により、 、アーキテクチャ設計など。Transformer と強化学習の現在の組み合わせはスムーズではなく、その開発パスにはそれを包括的に要約するための関連論文が不足しています。
最近、清華大学、北京大学、テンセントの研究者は、Transformer と強化学習の組み合わせに関する研究論文を共同で発表し、強化学習における Transformer の使用を体系的にレビューしました。開発プロセス。
紙のリンク: https://arxiv.org/pdf/2301.03044.pdf
#この記事では、既存の関連研究成果を分類し、各サブ分野について詳細な議論を行い、最後にこの研究方向の将来の展望をまとめています。RL を備えたトランスフォーマー
強化学習 (RL) は、逐次的な意思決定のための数学的形式を提供し、モデルが自動的にインテリジェントな動作を取得できるようにします。RL は学習ベースの制御のための一般的なフレームワークを提供します。ディープ ニューラル ネットワークの導入により、深層強化学習 (DRL) の汎用性も近年大きく進歩しました。しかし、サンプル効率の問題が現実世界での DRL の広範な適用を妨げています。
この問題を解決するための効果的なメカニズムは、DRL フレームワークに誘導バイアスを導入することです。より重要なのは、関数近似器アーキテクチャの選択です。たとえば、 DRL エージェントのニューラル ネットワーク。
ただし、DRL でのアーキテクチャ設計の選択の問題は、教師あり学習 (SL) でのアーキテクチャ設計と比較してまだ十分に検討されておらず、RL アーキテクチャに関する既存の研究のほとんどがその作業の動機となっていました。 (半)教師あり学習コミュニティの成功によって。
たとえば、DRL で高次元の画像ベースの入力を処理する一般的な方法は、畳み込みニューラル ネットワーク (CNN) を導入することです。部分的な可観測性を処理する別の一般的な方法は、再帰を導入することです。ニューラル ネットワーク (RNN)。
近年、Transformer アーキテクチャは、幅広い SL タスクにおける学習パラダイムに革命をもたらし、CNN や RNN よりも優れたパフォーマンスを示しています。関係をモデル化し、優れたスケーラビリティを備えています。
SL の成功に触発されて、強化学習への Transformer の適用に対する業界の関心が高まっています。そのきっかけは、セルフ アテンション メカニズムについて述べた 2018 年の論文に遡ります。状態表現の構造化されたリレーショナル推論に使用されます。
その後、多くの研究者が自己注意を表現学習に適用してエンティティ間の関係を抽出し、より優れたポリシー学習につなげようと試み始めました。
近年、オフラインの大規模データセットを活用できるオフライン RL が注目を集めており、Transformer アーキテクチャがシーケンスのモデルとして直接利用できることも関連研究結果で示されています。意思決定を可能にし、複数のタスクと領域に一般化できます。
この研究論文の目的は、強化学習におけるトランスフォーマー (TransformRL) の分野を紹介することです。
Transformer は、最新の SL 研究の基本モデルと考えられていますが、RL コミュニティではまだあまり調査されていません。実際、SL フィールドと比較して、RL で関数近似器として Transformer を使用するには、いくつかの異なる問題を解決する必要があります:
#1. 通常、RL エージェントのトレーニング データは現在のポリシーです。これは、Transformer の学習プロセスで非定常性を引き起こします。
2. 既存の RL アルゴリズムは、通常、ネットワーク アーキテクチャや容量など、トレーニング プロセス中の設計の選択に非常に敏感です。
3. トランスフォーマーベースのアーキテクチャでは、コンピューティングとメモリのコストが高くつくことが多く、これはトレーニングと推論に時間がかかり、コストがかかることを意味します。
たとえば、ゲームにおける人工知能の一部のケースでは、サンプル生成の効率がトレーニングのパフォーマンスに大きく影響し、RL ポリシー ネットワークと値ネットワークの計算コストに依存します。
TransformRL の将来
この論文では、Transformers for RL の進歩について簡単にレビューします。その利点は主に次のとおりです。
1. Transformer は、表現モジュールやワールド モデルなど、RL の強力なモジュールとして使用できます;
2. Transformer はシーケンスの意思決定者として使用できます;
3. Transformer は、タスクおよびドメイン全体にわたる汎化パフォーマンスを向上させることができます。
Transformer が広範な人工知能コミュニティで優れたパフォーマンスを示していることを考えると、研究者は、Transformer と RL を組み合わせることが有望な研究の方向性であると信じています。方向。
強化学習と (自己) 教師あり学習の組み合わせ
TransformRL の開発を追跡すると、次のことがわかります。そのトレーニング方法は、Covers RL と (自己) 教師あり学習の両方です。
従来の RL フレームワークの下でトレーニングされた表現モジュールとして使用される場合、Transformer アーキテクチャの最適化は通常不安定です。 (自己)教師あり学習パラダイムは、Transformers を使用してシーケンス モデリングを通じて意思決定の問題を解決する場合に、致命的なトライアド問題を排除できます。
(自己)教師あり学習のフレームワークでは、戦略のパフォーマンスはオフライン データの品質によって深く制約され、活用と探索の間の明確なトレードオフはもはや存在しません。が存在するため、Transformer 学習で RL と (自己) 教師あり学習を組み合わせると、より良い戦略が学習される可能性があります。
いくつかの研究では、RL を含む教師付き事前トレーニングおよび微調整スキームを試みていますが、比較的固定された戦略の下では探索が制限され、これも解決すべきボトルネックの 1 つです。
また、これに沿って、パフォーマンス評価に使用されるタスクも比較的単純です。Transformer は、この種の (自己) 教師あり学習をより大規模なデータ セットやより複雑な環境に拡張できますか?現実世界のアプリケーションもさらに検討する価値があります。
さらに、研究者らは、将来の研究によって、そのような(自己)教師あり学習が良好に機能すると予想される条件について、さらなる理論的および経験的な洞察が得られることを期待しています。
Transformer を通じてオンライン学習とオフライン学習を接続する
オフライン RL にステップアップするこれは TransformRL にとってマイルストーンですが、実際、Transformer を使用して意思決定シーケンスや抽象的な戦略の依存関係を把握することは、主に、使用される大量のオフライン データのサポートと切り離すことができません。
ただし、一部の意思決定タスクでは、実際のアプリケーションでオンライン フレームワークを取り除くのは現実的ではありません。
タスクによっては、専門家のデータを取得するのはそれほど簡単ではありませんが、一方で、一部の環境 (Minecraft など) は無制限です。オンラインでのやり取りでは見られないタスクを処理するには、戦略を常に調整する必要があります。
したがって、研究者たちは、オンライン学習とオフライン学習を結び付ける必要があると考えています。
Decision Transformer 以降の研究の進歩のほとんどはオフライン学習フレームワークに焦点を当てており、一部の研究ではオフラインの事前トレーニングとオンラインの微調整のパラダイムを採用しようとしています。ただし、オンライン微調整における分布の変化はオフライン RL アルゴリズムにも依然として存在しており、研究者らは、Decision Transformer のいくつかの特別な設計を通じてこの問題を解決できると期待しています。
さらに、オンライン Decision Transformer をゼロからトレーニングする方法は、興味深い未解決の質問です。
意思決定問題に合わせたトランスフォーマーの構造
現在の Decision Transformer シリーズのメソッドにおけるトランスフォーマーの構造主に、 vanilla Transformer。元々はテキスト シーケンス用に設計されており、決定問題には適さないプロパティがいくつかある可能性があります。
たとえば、軌跡シーケンスにバニラの自己注意メカニズムを使用するのは適切でしょうか?位置埋め込みでは、決定シーケンス内の異なる要素、または同じ要素の異なる部分を区別する必要がありますか?
さらに、さまざまな Decision Transformer アルゴリズムのシーケンスとして軌跡を表す方法には多くのバリエーションがあるため、その中から選択する方法についての体系的な研究がまだ不足しています。
たとえば、このようなアルゴリズムを業界に導入する場合、堅牢な HindSight 情報を選択するにはどうすればよいでしょうか?
そして、バニラの Transformer も膨大な計算コストを伴う構造であるため、トレーニングと推論の段階でコストがかかり、メモリ使用量が多く、キャプチャ能力も制限されます。依存関係の長さ。
これらの問題を軽減するために、NLP の一部の作業により Transformer の構造が改善されましたが、同様の構造を意思決定の問題に使用できるかどうかも検討する価値があります。
Transformer を使用してより一般的なエージェントを実装する
この論文では、ゼネラリスト エージェント (ジェネラリスト エージェント) Transformer について説明しています。レビューでは、一般的な戦略としてのトランスフォーマーの可能性が示されています。
実際、Transformer の設計では、ブロックの処理と同様の方法で複数のモダリティ (画像、ビデオ、テキスト、音声など) の処理が可能であり、超高速処理の必要性を示しています。 -大容量ネットワークと巨大なデータセットに対する優れた拡張性。
最近の研究では、マルチモーダルおよびクロスドメインのタスクを実行できるエージェントのトレーニングにおいても大幅な進歩が見られました。
ただし、これらのエージェントが大規模なデータ セットでトレーニングされていることを考えると、エージェントがデータ セットを記憶するだけなのか、効果的な汎化を実行できるのかはまだわかりません。
したがって、強い仮定を持たずに目に見えないタスクを一般化できるエージェントを学習する方法は、まだ研究する価値のある問題です。
さらに、研究者は、Transformer がさまざまなタスクやシナリオに使用できる一般的な世界モデルを学習するのに十分強力であるかどうかに興味を持っています。
Transformers のための RL
この記事では、RL が Transformer モデルからどのようにメリットを受けるかを説明しましたが、その逆は次のとおりです。そうは言っても、RL を使用して Transformer トレーニングを改善することは、十分に調査されていない興味深い未解決の問題のままです。
最近のヒューマン フィードバックからの強化学習 (RLHF) では、報酬モデルを学習し、RL アルゴリズムを使用してトランスフォーマーを微調整して、言語モデルを一致させることができることがわかります。人間の意図は一貫しています。
研究者らは、将来的には、RL が他の分野で Transformer のパフォーマンスをさらに向上させるための有用なツールになる可能性があると考えています。
以上が清北との共同制作! 「Transformer+Reinforcement Learning」の詳細を理解するための調査の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック

強化学習における報酬関数設計の問題 はじめに 強化学習は、エージェントと環境の間の相互作用を通じて最適な戦略を学習する方法です。強化学習では、報酬関数の設計がエージェントの学習効果にとって重要です。この記事では、強化学習における報酬関数の設計の問題を調査し、具体的なコード例を示します。報酬関数の役割と目標報酬関数は強化学習の重要な部分であり、特定の状態でエージェントが取得する報酬値を評価するために使用されます。その設計は、エージェントが最適なアクションを選択することで長期的な疲労を最大化するようにガイドするのに役立ちます。

深層強化学習技術は、人工知能の分野の一つとして大きな注目を集めており、複数の国際コンペティションで優勝しており、パーソナルアシスタント、自動運転、ゲームインテリジェンスなどの分野でも広く利用されています。深層強化学習を実現するプロセスにおいて、ハードウェア リソースが限られている場合、効率的で優れたプログラミング言語である C++ が特に重要になります。深層強化学習は、その名前が示すように、深層学習と強化学習の 2 つの分野のテクノロジーを組み合わせたものです。簡単に理解すると、ディープ ラーニングとは、多層のニューラル ネットワークを構築することでデータから特徴を学習し、意思決定を行うことを指します。

強化学習 (RL) は、エージェントが試行錯誤を通じて環境内でどのように動作するかを学習できる機械学習手法です。エージェントは、望ましい結果につながるアクションを実行すると、報酬または罰を受けます。時間の経過とともに、エージェントは期待される報酬を最大化するアクションを取ることを学習します。RL エージェントは通常、逐次的な決定問題をモデル化するための数学的フレームワークであるマルコフ決定プロセス (MDP) を使用してトレーニングされます。 MDP は 4 つの部分で構成されます。 状態: 環境の可能な状態のセット。アクション: エージェントが実行できる一連のアクション。遷移関数: 現在の状態とアクションを考慮して、新しい状態に遷移する確率を予測する関数。報酬機能:コンバージョンごとにエージェントに報酬を割り当てる機能。エージェントの目標は、ポリシー機能を学習することです。

現在のシーケンス モデリング タスクにおいて、Transformer は最も強力なニューラル ネットワーク アーキテクチャであると言えます。また、事前トレーニングされた Transformer モデルは、プロンプトを条件として使用したり、コンテキスト内学習を使用して、さまざまな下流タスクに適応したりできます。大規模な事前トレーニング済み Transformer モデルの汎化能力は、テキスト補完、言語理解、画像生成などの複数の分野で検証されています。昨年以来、オフライン強化学習 (オフライン RL) をシーケンス予測問題として扱うことで、モデルがオフライン データからポリシーを学習できることを証明する関連研究が行われてきました。しかし、現在のアプローチは、学習を含まないデータからポリシーを学習するか、

深層強化学習(DeepReinforcementLearning)は、深層学習と強化学習を組み合わせた高度な技術で、音声認識、画像認識、自然言語処理などの分野で広く利用されています。 Go 言語は、高速、効率的、信頼性の高いプログラミング言語として、深層強化学習の研究に役立ちます。この記事では、Go言語を使用して深層強化学習の研究を行う方法を紹介します。 1. Go 言語と関連ライブラリをインストールし、深層強化学習に Go 言語の使用を開始します。

この記事では、UnityML-Agents ツールキットを使用して開発された Unity ベースのシミュレーション プログラムである Reacher 環境で二重関節ロボット アームを制御するインテリジェント エージェントのトレーニングを紹介します。私たちの目標は、高精度でターゲット位置に到達することなので、ここでは、連続状態およびアクション空間用に設計された最先端の DeepDeterministicPolicyGradient (DDPG) アルゴリズムを使用できます。現実世界のアプリケーション ロボット アームは、製造、生産施設、宇宙探査、捜索救助活動において重要な役割を果たします。ロボットアームを高精度かつ柔軟に制御することが非常に重要です。強化学習技術を採用することで、これらのロボット システムはリアルタイムで動作を学習し、調整できるようになります。

短編ビデオ レコメンデーション システムの中核的な目標は、ユーザー維持率を向上させて DAU の増加を促進することです。したがって、リテンションは各 APP の中核となるビジネス最適化指標の 1 つです。しかし、リテンションはユーザーとシステムの間の複数のインタラクションを経た長期的なフィードバックであり、それを単一の項目または単一のリストに分解することは困難であるため、従来のポイント単位とリストを使用してリテンションを直接最適化することは困難です。賢いモデルたち。強化学習 (RL) 手法は、環境と対話することで長期的な報酬を最適化し、ユーザー維持率を直接最適化するのに適しています。この研究では、保持最適化問題を、無限のホライズン要求粒度を備えたマルコフ決定プロセス (MDP) としてモデル化しています。ユーザーが推奨システムにアクションを決定するよう要求するたびに、複数の異なる短期フィードバック推定値 (視聴時間、視聴時間、

現在、ロボットは精密な工場制御タスクを学習できるようになりました。近年、ロボットの強化学習技術の分野では、四足歩行や掴み、器用な操作など大きな進歩が見られますが、その多くは実験室での実証段階にとどまっています。ロボット強化学習テクノロジーを実際の運用環境に広く適用するには、依然として多くの課題があり、実際のシナリオでの適用範囲がある程度制限されます。強化学習技術の実用化の過程では、報酬メカニズムの設定、環境のリセット、サンプル効率の向上、行動の安全性の保証など、複数の複雑な問題を克服する必要があります。業界の専門家は、強化学習テクノロジーの実際の実装における多くの問題を解決することは、アルゴリズム自体の継続的な革新と同じくらい重要であると強調しています。この課題に直面して、カリフォルニア大学バークレー校、スタンフォード大学、ワシントン大学、および
