清北との共同制作！「Transformer+Reinforcement Learning」の詳細を理解するための調査-AI-php.cn

TransformRL の将来

ホームページ

テクノロジー周辺機器

清北との共同制作！「Transformer+Reinforcement Learning」の詳細を理解するための調査

PHPz

Apr 13, 2023 pm 02:01 PM

強化学習

Transformer モデルは、そのリリース以来、すぐに自然言語処理とコンピュータービジョンの分野の教師あり学習設定における主流のニューラルアーキテクチャになりました。

Transformer の流行が強化学習分野全体に広がり始めていますが、独自の機能の必要性など、RL 自体の特性により、、アーキテクチャ設計など。Transformer と強化学習の現在の組み合わせはスムーズではなく、その開発パスにはそれを包括的に要約するための関連論文が不足しています。

最近、清華大学、北京大学、テンセントの研究者は、Transformer と強化学習の組み合わせに関する研究論文を共同で発表し、強化学習における Transformer の使用を体系的にレビューしました。開発プロセス。

清北との共同制作！「Transformer+Reinforcement Learning」の詳細を理解するための調査

紙のリンク: https://arxiv.org/pdf/2301.03044.pdf

#この記事では、既存の関連研究成果を分類し、各サブ分野について詳細な議論を行い、最後にこの研究方向の将来の展望をまとめています。

RL を備えたトランスフォーマー

強化学習 (RL) は、逐次的な意思決定のための数学的形式を提供し、モデルが自動的にインテリジェントな動作を取得できるようにします。

RL は学習ベースの制御のための一般的なフレームワークを提供します。ディープニューラルネットワークの導入により、深層強化学習 (DRL) の汎用性も近年大きく進歩しました。しかし、サンプル効率の問題が現実世界での DRL の広範な適用を妨げています。

この問題を解決するための効果的なメカニズムは、DRL フレームワークに誘導バイアスを導入することです。より重要なのは、関数近似器アーキテクチャの選択です。たとえば、 DRL エージェントのニューラルネットワーク。

ただし、DRL でのアーキテクチャ設計の選択の問題は、教師あり学習 (SL) でのアーキテクチャ設計と比較してまだ十分に検討されておらず、RL アーキテクチャに関する既存の研究のほとんどがその作業の動機となっていました。 (半)教師あり学習コミュニティの成功によって。

たとえば、DRL で高次元の画像ベースの入力を処理する一般的な方法は、畳み込みニューラルネットワーク (CNN) を導入することです。部分的な可観測性を処理する別の一般的な方法は、再帰を導入することです。ニューラルネットワーク (RNN)。

近年、Transformer アーキテクチャは、幅広い SL タスクにおける学習パラダイムに革命をもたらし、CNN や RNN よりも優れたパフォーマンスを示しています。関係をモデル化し、優れたスケーラビリティを備えています。

SL の成功に触発されて、強化学習への Transformer の適用に対する業界の関心が高まっています。そのきっかけは、セルフアテンションメカニズムについて述べた 2018 年の論文に遡ります。状態表現の構造化されたリレーショナル推論に使用されます。

その後、多くの研究者が自己注意を表現学習に適用してエンティティ間の関係を抽出し、より優れたポリシー学習につなげようと試み始めました。

清北との共同制作！「Transformer+Reinforcement Learning」の詳細を理解するための調査

#状態表現の学習に加えて、以前の研究では、部分的な可観測性の問題に対処するために、Transformer を使用してマルチステップの時間依存性をキャプチャしました。

近年、オフラインの大規模データセットを活用できるオフライン RL が注目を集めており、Transformer アーキテクチャがシーケンスのモデルとして直接利用できることも関連研究結果で示されています。意思決定を可能にし、複数のタスクと領域に一般化できます。

この研究論文の目的は、強化学習におけるトランスフォーマー (TransformRL) の分野を紹介することです。

Transformer は、最新の SL 研究の基本モデルと考えられていますが、RL コミュニティではまだあまり調査されていません。実際、SL フィールドと比較して、RL で関数近似器として Transformer を使用するには、いくつかの異なる問題を解決する必要があります:

#1. 通常、RL エージェントのトレーニングデータは現在のポリシーです。これは、Transformer の学習プロセスで非定常性を引き起こします。

2. 既存の RL アルゴリズムは、通常、ネットワークアーキテクチャや容量など、トレーニングプロセス中の設計の選択に非常に敏感です。

3. トランスフォーマーベースのアーキテクチャでは、コンピューティングとメモリのコストが高くつくことが多く、これはトレーニングと推論に時間がかかり、コストがかかることを意味します。

たとえば、ゲームにおける人工知能の一部のケースでは、サンプル生成の効率がトレーニングのパフォーマンスに大きく影響し、RL ポリシーネットワークと値ネットワークの計算コストに依存します。

TransformRL の将来

この論文では、Transformers for RL の進歩について簡単にレビューします。その利点は主に次のとおりです。

1. Transformer は、表現モジュールやワールドモデルなど、RL の強力なモジュールとして使用できます;

2. Transformer はシーケンスの意思決定者として使用できます;

3. Transformer は、タスクおよびドメイン全体にわたる汎化パフォーマンスを向上させることができます。

Transformer が広範な人工知能コミュニティで優れたパフォーマンスを示していることを考えると、研究者は、Transformer と RL を組み合わせることが有望な研究の方向性であると信じています。方向。

強化学習と (自己) 教師あり学習の組み合わせ

TransformRL の開発を追跡すると、次のことがわかります。そのトレーニング方法は、Covers RL と (自己) 教師あり学習の両方です。

従来の RL フレームワークの下でトレーニングされた表現モジュールとして使用される場合、Transformer アーキテクチャの最適化は通常不安定です。 (自己)教師あり学習パラダイムは、Transformers を使用してシーケンスモデリングを通じて意思決定の問題を解決する場合に、致命的なトライアド問題を排除できます。

(自己)教師あり学習のフレームワークでは、戦略のパフォーマンスはオフラインデータの品質によって深く制約され、活用と探索の間の明確なトレードオフはもはや存在しません。が存在するため、Transformer 学習で RL と (自己) 教師あり学習を組み合わせると、より良い戦略が学習される可能性があります。

いくつかの研究では、RL を含む教師付き事前トレーニングおよび微調整スキームを試みていますが、比較的固定された戦略の下では探索が制限され、これも解決すべきボトルネックの 1 つです。

また、これに沿って、パフォーマンス評価に使用されるタスクも比較的単純です。Transformer は、この種の (自己) 教師あり学習をより大規模なデータセットやより複雑な環境に拡張できますか?現実世界のアプリケーションもさらに検討する価値があります。

さらに、研究者らは、将来の研究によって、そのような（自己）教師あり学習が良好に機能すると予想される条件について、さらなる理論的および経験的な洞察が得られることを期待しています。

清北との共同制作！「Transformer+Reinforcement Learning」の詳細を理解するための調査

Transformer を通じてオンライン学習とオフライン学習を接続する

オフライン RL にステップアップするこれは TransformRL にとってマイルストーンですが、実際、Transformer を使用して意思決定シーケンスや抽象的な戦略の依存関係を把握することは、主に、使用される大量のオフラインデータのサポートと切り離すことができません。

ただし、一部の意思決定タスクでは、実際のアプリケーションでオンラインフレームワークを取り除くのは現実的ではありません。

タスクによっては、専門家のデータを取得するのはそれほど簡単ではありませんが、一方で、一部の環境 (Minecraft など) は無制限です。オンラインでのやり取りでは見られないタスクを処理するには、戦略を常に調整する必要があります。

したがって、研究者たちは、オンライン学習とオフライン学習を結び付ける必要があると考えています。

Decision Transformer 以降の研究の進歩のほとんどはオフライン学習フレームワークに焦点を当てており、一部の研究ではオフラインの事前トレーニングとオンラインの微調整のパラダイムを採用しようとしています。ただし、オンライン微調整における分布の変化はオフライン RL アルゴリズムにも依然として存在しており、研究者らは、Decision Transformer のいくつかの特別な設計を通じてこの問題を解決できると期待しています。

さらに、オンライン Decision Transformer をゼロからトレーニングする方法は、興味深い未解決の質問です。

意思決定問題に合わせたトランスフォーマーの構造

現在の Decision Transformer シリーズのメソッドにおけるトランスフォーマーの構造主に、 vanilla Transformer。元々はテキストシーケンス用に設計されており、決定問題には適さないプロパティがいくつかある可能性があります。

たとえば、軌跡シーケンスにバニラの自己注意メカニズムを使用するのは適切でしょうか?位置埋め込みでは、決定シーケンス内の異なる要素、または同じ要素の異なる部分を区別する必要がありますか?

さらに、さまざまな Decision Transformer アルゴリズムのシーケンスとして軌跡を表す方法には多くのバリエーションがあるため、その中から選択する方法についての体系的な研究がまだ不足しています。

たとえば、このようなアルゴリズムを業界に導入する場合、堅牢な HindSight 情報を選択するにはどうすればよいでしょうか?

そして、バニラの Transformer も膨大な計算コストを伴う構造であるため、トレーニングと推論の段階でコストがかかり、メモリ使用量が多く、キャプチャ能力も制限されます。依存関係の長さ。

これらの問題を軽減するために、NLP の一部の作業により Transformer の構造が改善されましたが、同様の構造を意思決定の問題に使用できるかどうかも検討する価値があります。

Transformer を使用してより一般的なエージェントを実装する

この論文では、ゼネラリストエージェント (ジェネラリストエージェント) Transformer について説明しています。レビューでは、一般的な戦略としてのトランスフォーマーの可能性が示されています。

実際、Transformer の設計では、ブロックの処理と同様の方法で複数のモダリティ (画像、ビデオ、テキスト、音声など) の処理が可能であり、超高速処理の必要性を示しています。 -大容量ネットワークと巨大なデータセットに対する優れた拡張性。

最近の研究では、マルチモーダルおよびクロスドメインのタスクを実行できるエージェントのトレーニングにおいても大幅な進歩が見られました。

ただし、これらのエージェントが大規模なデータセットでトレーニングされていることを考えると、エージェントがデータセットを記憶するだけなのか、効果的な汎化を実行できるのかはまだわかりません。

したがって、強い仮定を持たずに目に見えないタスクを一般化できるエージェントを学習する方法は、まだ研究する価値のある問題です。

さらに、研究者は、Transformer がさまざまなタスクやシナリオに使用できる一般的な世界モデルを学習するのに十分強力であるかどうかに興味を持っています。

Transformers のための RL

この記事では、RL が Transformer モデルからどのようにメリットを受けるかを説明しましたが、その逆は次のとおりです。そうは言っても、RL を使用して Transformer トレーニングを改善することは、十分に調査されていない興味深い未解決の問題のままです。

最近のヒューマンフィードバックからの強化学習 (RLHF) では、報酬モデルを学習し、RL アルゴリズムを使用してトランスフォーマーを微調整して、言語モデルを一致させることができることがわかります。人間の意図は一貫しています。

研究者らは、将来的には、RL が他の分野で Transformer のパフォーマンスをさらに向上させるための有用なツールになる可能性があると考えています。

以上が清北との共同制作！「Transformer+Reinforcement Learning」の詳細を理解するための調査の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7473

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

強化学習における報酬関数設計の問題 Oct 09, 2023 am 11:58 AM

強化学習における報酬関数設計の問題はじめに強化学習は、エージェントと環境の間の相互作用を通じて最適な戦略を学習する方法です。強化学習では、報酬関数の設計がエージェントの学習効果にとって重要です。この記事では、強化学習における報酬関数の設計の問題を調査し、具体的なコード例を示します。報酬関数の役割と目標報酬関数は強化学習の重要な部分であり、特定の状態でエージェントが取得する報酬値を評価するために使用されます。その設計は、エージェントが最適なアクションを選択することで長期的な疲労を最大化するようにガイドするのに役立ちます。

Panda-Gym のロボットアームシミュレーションを使用した Deep Q-learning 強化学習 Oct 31, 2023 pm 05:57 PM

強化学習 (RL) は、エージェントが試行錯誤を通じて環境内でどのように動作するかを学習できる機械学習手法です。エージェントは、望ましい結果につながるアクションを実行すると、報酬または罰を受けます。時間の経過とともに、エージェントは期待される報酬を最大化するアクションを取ることを学習します。RL エージェントは通常、逐次的な決定問題をモデル化するための数学的フレームワークであるマルコフ決定プロセス (MDP) を使用してトレーニングされます。 MDP は 4 つの部分で構成されます。状態: 環境の可能な状態のセット。アクション: エージェントが実行できる一連のアクション。遷移関数: 現在の状態とアクションを考慮して、新しい状態に遷移する確率を予測する関数。報酬機能：コンバージョンごとにエージェントに報酬を割り当てる機能。エージェントの目標は、ポリシー機能を学習することです。

C++ の深層強化学習テクノロジー Aug 21, 2023 pm 11:33 PM

深層強化学習技術は、人工知能の分野の一つとして大きな注目を集めており、複数の国際コンペティションで優勝しており、パーソナルアシスタント、自動運転、ゲームインテリジェンスなどの分野でも広く利用されています。深層強化学習を実現するプロセスにおいて、ハードウェアリソースが限られている場合、効率的で優れたプログラミング言語である C++ が特に重要になります。深層強化学習は、その名前が示すように、深層学習と強化学習の 2 つの分野のテクノロジーを組み合わせたものです。簡単に理解すると、ディープラーニングとは、多層のニューラルネットワークを構築することでデータから特徴を学習し、意思決定を行うことを指します。

強化学習のもう一つの革命! DeepMind が提案する「アルゴリズム蒸留」: 探索可能な事前トレーニング済み強化学習 Transformer Apr 12, 2023 pm 06:58 PM

現在のシーケンスモデリングタスクにおいて、Transformer は最も強力なニューラルネットワークアーキテクチャであると言えます。また、事前トレーニングされた Transformer モデルは、プロンプトを条件として使用したり、コンテキスト内学習を使用して、さまざまな下流タスクに適応したりできます。大規模な事前トレーニング済み Transformer モデルの汎化能力は、テキスト補完、言語理解、画像生成などの複数の分野で検証されています。昨年以来、オフライン強化学習 (オフライン RL) をシーケンス予測問題として扱うことで、モデルがオフラインデータからポリシーを学習できることを証明する関連研究が行われてきました。しかし、現在のアプローチは、学習を含まないデータからポリシーを学習するか、

Go 言語を使用して深層強化学習の研究を行うにはどうすればよいですか? Jun 10, 2023 pm 02:15 PM

深層強化学習（DeepReinforcementLearning）は、深層学習と強化学習を組み合わせた高度な技術で、音声認識、画像認識、自然言語処理などの分野で広く利用されています。 Go 言語は、高速、効率的、信頼性の高いプログラミング言語として、深層強化学習の研究に役立ちます。この記事では、Go言語を使用して深層強化学習の研究を行う方法を紹介します。 1. Go 言語と関連ライブラリをインストールし、深層強化学習に Go 言語の使用を開始します。

Actor-Critic の DDPG 強化学習アルゴリズムを使用した二重関節ロボットアームの制御 May 12, 2023 pm 09:55 PM

この記事では、UnityML-Agents ツールキットを使用して開発された Unity ベースのシミュレーションプログラムである Reacher 環境で二重関節ロボットアームを制御するインテリジェントエージェントのトレーニングを紹介します。私たちの目標は、高精度でターゲット位置に到達することなので、ここでは、連続状態およびアクション空間用に設計された最先端の DeepDeterministicPolicyGradient (DDPG) アルゴリズムを使用できます。現実世界のアプリケーションロボットアームは、製造、生産施設、宇宙探査、捜索救助活動において重要な役割を果たします。ロボットアームを高精度かつ柔軟に制御することが非常に重要です。強化学習技術を採用することで、これらのロボットシステムはリアルタイムで動作を学習し、調整できるようになります。

Kuaishou ユーザー維持率を向上させるために強化学習を使用する方法は? May 07, 2023 pm 06:31 PM

短編ビデオレコメンデーションシステムの中核的な目標は、ユーザー維持率を向上させて DAU の増加を促進することです。したがって、リテンションは各 APP の中核となるビジネス最適化指標の 1 つです。しかし、リテンションはユーザーとシステムの間の複数のインタラクションを経た長期的なフィードバックであり、それを単一の項目または単一のリストに分解することは困難であるため、従来のポイント単位とリストを使用してリテンションを直接最適化することは困難です。賢いモデルたち。強化学習 (RL) 手法は、環境と対話することで長期的な報酬を最適化し、ユーザー維持率を直接最適化するのに適しています。この研究では、保持最適化問題を、無限のホライズン要求粒度を備えたマルコフ決定プロセス (MDP) としてモデル化しています。ユーザーが推奨システムにアクションを決定するよう要求するたびに、複数の異なる短期フィードバック推定値 (視聴時間、視聴時間、

20 分で回路基板の組み立てを学びましょう!オープンソースの SERL フレームワークは 100% の精度制御成功率を誇り、人間の 3 倍高速です Feb 21, 2024 pm 03:31 PM

現在、ロボットは精密な工場制御タスクを学習できるようになりました。近年、ロボットの強化学習技術の分野では、四足歩行や掴み、器用な操作など大きな進歩が見られますが、その多くは実験室での実証段階にとどまっています。ロボット強化学習テクノロジーを実際の運用環境に広く適用するには、依然として多くの課題があり、実際のシナリオでの適用範囲がある程度制限されます。強化学習技術の実用化の過程では、報酬メカニズムの設定、環境のリセット、サンプル効率の向上、行動の安全性の保証など、複数の複雑な問題を克服する必要があります。業界の専門家は、強化学習テクノロジーの実際の実装における多くの問題を解決することは、アルゴリズム自体の継続的な革新と同じくらい重要であると強調しています。この課題に直面して、カリフォルニア大学バークレー校、スタンフォード大学、ワシントン大学、および

See all articles

清北との共同制作！ 「Transformer+Reinforcement Learning」の詳細を理解するための調査

TransformRL の将来

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

清北との共同制作！「Transformer+Reinforcement Learning」の詳細を理解するための調査