深層強化学習の事前トレーニング、オンラインおよびオフラインの調査を体系的にレビューするだけで十分です。
近年、強化学習 (RL) は深層学習によって急速に発展しており、ゲームからロボット工学に至るまでの分野におけるさまざまなブレークスルーにより、複雑で大規模な RL アルゴリズムとシステムの設計に対する人々の関心が刺激されています。ただし、既存の RL 研究では一般に、エージェントが新しいタスクに直面したときにゼロから学習できるため、事前に取得した事前知識を使用して意思決定を支援することが困難であり、その結果、高い計算オーバーヘッドが発生します。
教師あり学習の分野では、事前トレーニング パラダイムが、転送可能な事前知識を取得する効果的な方法として検証されています。大規模なデータセットで事前トレーニングすることにより、ネットワークはモデルはさまざまな下流タスクに迅速に適応できます。同様のアイデアが RL でも試行されており、特に「ジェネラリスト」エージェントに関する最近の研究 [1, 2] は、GPT-3 [3] のようなものが RL 分野でも誕生する可能性があるのではないかと人々に疑問に思わせています。モデル。
しかし、RL 分野での事前トレーニングの適用は、上流タスクと下流タスクの大きな違い、事前トレーニング データを効率的に取得して活用する方法、効果的な伝達などの問題により、RL における事前トレーニング パラダイムの適用の成功が妨げられています。同時に、以前の研究で考慮された実験設定と方法には大きな違いがあり、研究者が現実のシナリオで適切な事前トレーニングモデルを設計することが困難になっています。
RL 分野における事前トレーニングの発展と将来の発展の方向性を整理するために、上海交通大学とテンセントの研究者は、さまざまな設定および解決すべき問題の下での既存の RL 事前トレーニング セグメンテーション手法について検討するためにレビューします。
# #RL 事前トレーニングの概要強化学習 (RL) は、逐次的な意思決定のための一般的な数学的形式を提供します。 RL アルゴリズムとディープ ニューラル ネットワークを通じて、データ駆動型の方法で学習し、指定された報酬関数を最適化するエージェントは、さまざまな分野のさまざまなアプリケーションで人間のパフォーマンスを超えるパフォーマンスを達成しました。ただし、RL は特定のタスクを解決するのに効果的であることが証明されていますが、サンプル効率と一般化能力が依然として現実世界での RL の適用を妨げる 2 つの大きな障害となっています。 RL 研究における標準的なパラダイムは、エージェントが自身または他者によって収集された経験から学習し、単一タスクのランダムな初期化を通じてニューラル ネットワークを最適化するというものです。対照的に、人間の場合、世界についての事前知識は意思決定のプロセスに大きく役立ちます。タスクが以前に見たタスクに関連している場合、人間は、最初から学習することなく、すでに学習した知識を再利用して新しいタスクにすぐに適応する傾向があります。したがって、人間と比較して、RL エージェントはデータ効率が低く、過剰適合する傾向があります。
ただし、機械学習の他の分野における最近の進歩では、大規模な事前トレーニングから構築された事前知識の活用が積極的に推奨されています。幅広いデータで大規模にトレーニングすることにより、大規模な基礎モデルをさまざまな下流タスクに迅速に適応させることができます。この事前トレーニングと微調整のパラダイムは、コンピューター ビジョンや自然言語処理などの分野で効果的であることが証明されています。ただし、事前トレーニングは RL 分野に大きな影響を与えていません。このアプローチは有望ですが、大規模な RL 事前トレーニングの原則を設計するには多くの課題に直面しています。 1) ドメインとタスクの多様性、2) 限られたデータソース、3) 下流タスクの解決の難しさへの迅速な適応。これらの要因は RL の固有の特性から生じるものであり、研究者による特別な考慮が必要です。
事前トレーニングには RL にとって大きな可能性があり、この研究はこの方向に興味がある人にとっての出発点として役立ちます。この記事では、研究者らは深層強化学習に関する既存の事前トレーニング作業の体系的なレビューを実施しようと試みています。
近年、深層強化学習の事前トレーニングにはいくつかの画期的な進歩がありました。まず、AlphaGo では、専門家のデモンストレーションに基づく事前トレーニング (教師あり学習を使用して専門家がとった行動を予測する) が使用されています。教師なしの大規模事前トレーニングを追求するため、教師なし RL の分野が急速に成長しています。これにより、エージェントは報酬信号なしで環境とのインタラクションから学習できるようになります。さらに、オフライン強化学習 (オフライン RL) の急速な発展により、研究者はラベルなしの次善のオフライン データを事前トレーニングに使用する方法をさらに検討するようになりました。最後に、マルチタスクおよびマルチモーダル データに基づくオフライン トレーニング方法により、一般的な事前トレーニング パラダイムへの道がさらに開かれます。
オンライン事前トレーニング
これまで、RL の成功は、緻密で適切に設計された報酬関数によって達成されていました。多くの分野で大きな進歩を遂げてきた従来の RL パラダイムは、大規模な事前トレーニングに拡張する際に 2 つの重要な課題に直面します。まず、RL エージェントは過剰適合しやすく、複雑なタスク報酬で事前トレーニングされたエージェントが、これまで見たことのないタスクで優れたパフォーマンスを達成するのは困難です。さらに、報酬関数の設計は通常非常に費用がかかり、多くの専門知識が必要となるため、実際には間違いなく大きな課題です。
報酬信号を使用しないオンライン事前トレーニングは、人間の関与なしに普遍的な事前知識と教師付き信号を学習するための利用可能なソリューションとなる可能性があります。オンライン事前トレーニングは、人間の監督なしで環境との対話を通じて事前知識を獲得することを目的としています。事前トレーニング段階では、エージェントは長時間環境と対話することができますが、外部報酬を受け取ることはできません。このソリューションは教師なし RL とも呼ばれ、近年研究者によって積極的に研究されています。
エージェントが監視信号なしで環境から事前知識を取得するように動機付けるために、成熟した方法は、エージェントがそれを促す固有の報酬を設計することです。エージェントは、さまざまな情報を収集することで、それに応じて報酬メカニズムを設計します。経験や応用可能なスキルの習得。これまでの研究では、固有の報酬と標準的な RL アルゴリズムを使用したオンライン事前トレーニングを通じて、エージェントが下流のタスクに迅速に適応できることが示されています。
オフライン事前トレーニング
オンライン事前トレーニングは人間の監督なしでも良好な事前トレーニング結果を達成できますが、大規模な場合は-規模のアプリケーションでは、オンライン事前トレーニングはまだ制限されています。結局のところ、オンラインでのやり取りは、大規模で多様なデータセットでトレーニングする必要性とある程度相互排他的です。この問題を解決するために、データ収集と事前トレーニングのリンクを切り離し、他のエージェントや人間から収集した履歴データを事前トレーニングに直接使用したいと考えることがよくあります。
#実行可能な解決策は、オフライン強化学習です。オフライン強化学習の目的は、オフライン データから報酬を最大化する RL ポリシーを取得することです。基本的な課題は、分布シフトの問題、つまりトレーニング データとテスト中に見られるデータの間の分布の違いです。既存のオフライン強化学習手法は、関数近似を使用する際にこの課題を解決する方法に焦点を当てています。たとえば、ポリシー制約メソッドは、データセットに見られないアクションの実行を回避するために、学習されたポリシーを明示的に要求します。また、値正則化メソッドは、値関数を何らかの形式の下限に適合させることによって、値関数の過大評価の問題を軽減します。ただし、オフラインでトレーニングされた戦略が、オフライン データセットでは見られない新しい環境に一般化できるかどうかは、まだ調査されていません。
おそらく、RL ポリシーの学習を回避し、代わりにオフライン データを使用して、下流タスクの収束速度や最終パフォーマンスに有益な事前知識を学習することができます。さらに興味深いことに、私たちのモデルが人間の監視なしでオフライン データを活用できれば、大量のデータから恩恵を受ける可能性があります。この論文では、研究者はこの設定をオフライン事前トレーニングと呼び、エージェントはオフライン データから重要な情報 (適切な表現や行動の事前分布など) を抽出できます。
#総合エージェント向け
以上が深層強化学習の事前トレーニング、オンラインおよびオフラインの調査を体系的にレビューするだけで十分です。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

現在のディープ エッジ検出ネットワークは通常、エンコーダ/デコーダ アーキテクチャを採用しています。このアーキテクチャには、マルチレベルの特徴をより適切に抽出するためのアップ サンプリング モジュールとダウン サンプリング モジュールが含まれています。ただし、この構造では、ネットワークが正確かつ詳細なエッジ検出結果を出力することが制限されます。この問題に対して、AAAI2024 に関する論文は新しい解決策を提供しています。論文のタイトル: DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection 著者: Ye Yunfan (国立国防技術大学)、Xu Kai (国立国防技術大学)、Huang Yuxing (国立国防技術大学)、Yi Renjiao (国立国防技術大学)、Cai Zhiping (防衛工科大学) 論文リンク:https://ar

春節に合わせて、Tongyi Qianwen Model (Qwen) のバージョン 1.5 がオンラインになりました。今朝、新しいバージョンのニュースが AI コミュニティの注目を集めました。大型モデルの新バージョンには、0.5B、1.8B、4B、7B、14B、72Bの6つのモデルサイズが含まれています。その中でも最強バージョンの性能はGPT3.5やMistral-Mediumを上回ります。このバージョンには Base モデルと Chat モデルが含まれており、多言語サポートを提供します。アリババの同義前文チームは、関連技術が同義前文公式ウェブサイトと同義前文アプリでもリリースされたと述べた。さらに、本日の Qwen 1.5 リリースには、32K のコンテキスト長のサポート、Base+Chat モデルのチェックポイントのオープン、および 32K のコンテキスト長のサポートなどのハイライトもあります。

大規模言語モデル (LLM) には通常、数十億のパラメーターがあり、数兆のトークンでトレーニングされます。ただし、このようなモデルのトレーニングとデプロイには非常にコストがかかります。計算要件を軽減するために、さまざまなモデル圧縮技術がよく使用されます。これらのモデル圧縮技術は一般に、蒸留、テンソル分解 (低ランク因数分解を含む)、枝刈り、および量子化の 4 つのカテゴリに分類できます。プルーニング手法は以前から存在していましたが、多くはパフォーマンスを維持するためにプルーニング後にリカバリ微調整 (RFT) を必要とするため、プロセス全体のコストが高くつき、拡張が困難になります。チューリッヒ工科大学とマイクロソフトの研究者は、この問題に対する SliceGPT と呼ばれる解決策を提案しました。この方法の中心となるアイデアは、重み行列の行と列を削除することでネットワークの埋め込みを減らすことです。

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

何?ズートピアは国産AIによって実現するのか?ビデオとともに公開されたのは、「Keling」と呼ばれる新しい大規模な国産ビデオ生成モデルです。 Sora も同様の技術的ルートを使用し、自社開発の技術革新を多数組み合わせて、大きく合理的な動きをするだけでなく、物理世界の特性をシミュレートし、強力な概念的結合能力と想像力を備えたビデオを制作します。データによると、Keling は、最大 1080p の解像度で 30fps で最大 2 分の超長時間ビデオの生成をサポートし、複数のアスペクト比をサポートします。もう 1 つの重要な点は、Keling は研究所が公開したデモやビデオ結果のデモンストレーションではなく、ショートビデオ分野のリーダーである Kuaishou が立ち上げた製品レベルのアプリケーションであるということです。さらに、主な焦点は実用的であり、白紙小切手を書かず、リリースされたらすぐにオンラインに移行することです。Ke Ling の大型モデルは Kuaiying でリリースされました。

昨年 4 月、ウィスコンシン大学マディソン校、マイクロソフト リサーチ、コロンビア大学の研究者が共同で LLaVA (Large Language and Vision Assistant) をリリースしました。 LLaVA は小規模なマルチモーダル命令データセットでのみトレーニングされていますが、一部のサンプルでは GPT-4 と非常によく似た推論結果を示します。その後 10 月に、オリジナルの LLaVA に簡単な変更を加えて 11 のベンチマークの SOTA を更新した LLaVA-1.5 をリリースしました。このアップグレードの結果は非常に刺激的で、マルチモーダル AI アシスタントの分野に新たなブレークスルーをもたらします。研究チームは、推論、OCR、および

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。
