MoEでサブミッション99個を制覇しよう!浙江大学などが新たな総合ロボット戦略GeRMを提案
マルチタスクのロボット学習は、多様で複雑なシナリオに対処する上で非常に重要です。ただし、現在の方法はパフォーマンスの問題とトレーニング データセットの収集の難しさによって制限されています。
この論文では、研究者がオフライン強化学習を使用してデータ活用戦略を最適化し、デモンストレーションや次善のデータから学習することで、人間によるデモンストレーションの限界を超える GeRM (General Robot Model) を提案します。
#著者: Song Wenxuan、Zhao Han、Ding Pengxiang、Cui Can、Lu Shanke、Fan Yaning、Wang Donglin
単位: 西湖大学、浙江大学
論文アドレス: https://arxiv.org/abs/2403.13358
# #プロジェクトアドレス: https://songwxuan.github.io/GeRM/次に、Transformer ベースのビジョン言語アクション モデルを使用して、マルチモーダル入力および出力アクションを処理します。 。
エキスパート ハイブリッド構造を導入することにより、GeRM はより高速な推論速度とより高い全体的なモデル容量を実現し、強化学習パラメータの制限の問題を解決し、学習中のマルチタスク モデルのパフォーマンスを向上させます。計算コストを制御しながら。
一連の実験を通じて、GeRM がトレーニングと推論プロセスの効率性を検証しながら、すべてのタスクで他の方法よりも優れていることが証明されました。
さらに、研究者はトレーニングをサポートするために QUARD-Auto データセットも提供しました。このデータセットの構築は、この記事で提案されているデータ自動収集の新しいパラダイムに従っています。データ収集のコストにより、マルチタスク学習コミュニティの進歩が促進されます。
主な貢献:
#1. 4 脚強化学習のためのハイブリッド エキスパート モデルを初めて提案しました。最適なポリシーを学習できる可能性のある、混合品質のデータでトレーニングします。2. 既存の方法と比較して、GeRM は自身のパラメータの 1/2 だけを活性化し、創発能力を活性化し、同時に訓練プロセス中に高い成功率を示します。より優れたデータ利用戦略を に示します。
3. 完全自動ロボット データ セット収集のパラダイムを提案し、大規模なオープンソース データ セットを収集しました。
方法
GeRM ネットワーク構造を図 1 に示します。デモンストレーション データと失敗データを含む視覚言語入力は、エンコーダを通過した後、8 に入力され、デコーダーは混合エキスパート構造の層を使用してアクション トークンを生成し、最終的には個別のロボット アクション データに変換され、基礎となる戦略を通じてロボットに展開されます。
GeRM Decoder は、Transformer Decoder を含むアーキテクチャ モデルです。フィードフォワード ネットワーク (FFN) は、8 つの異なるエキスパート ネットワークのセットから選択されました。
各層で、トークンごとに、ゲート ネットワークはトークンを処理する 2 人の専門家を選択し、重み付けされた方法で出力を結合します。
さまざまな専門家が、さまざまなタスクやさまざまなアクション次元を得意としており、さまざまなシナリオで問題を解決することで、複数のタスクにわたる共通のモデルを学習します。このアーキテクチャでは、計算コストを本質的に変更せずに、ネットワーク パラメータの量を拡張します。
#図 2 デコーダ構造図
ロボットのマルチモード状態を収集するための自動パラダイムを提案しますデータ。このようにして、デモンストレーション データと準最適データの組み合わせを含む大規模ロボット データセットである QUARD-Auto を構築しました。これには 5 つのタスクと 99 のサブタスクが含まれており、合計 257,000 の軌跡があります。私たちはロボットコミュニティの発展を促進するためにオープンソースを提供します。
#表 1 データ セットの概要
図3 データボリューム統計
実験
#私たちは、99 のサブタスクすべてをカバーする包括的で堅牢な一連の実験を実施し、それぞれのサブタスクを 400 の軌道で慎重にテストしました。
表 1 に示すように、GeRM はすべてのタスクの中で最も成功率が高くなります。 RT-1 や他の GeRM バリアントと比較して、混合品質のデータから効果的に学習し、他の方法よりも優れたパフォーマンスを発揮し、複数のタスクで優れた機能を発揮します。同時に、MoE モジュールは、推論中にいくつかのパラメーターをアクティブにすることで、計算コストとパフォーマンスのバランスをとります。
#表 2 マルチタスクの比較実験
GeRM は、優れたトレーニング効率を示しています。他の方法と比較して、GeRM はわずか数バッチで極めて低い損失と高い成功率を達成し、データ利用戦略を最適化する GeRM の能力を強調しています。
図 4 成功率/損失変化曲線
GeRM は、動的適応パス プランニングの創発能力を実証します。動画にあるように、四足ロボットは初期位置では視野が限られており、移動方向を判断することが困難です。障害物を避けるために、ランダムに左折を選択します。
その後、誤った視覚入力に遭遇した後、ロボットは、元の視野の外側にある正しいターゲットと位置を合わせるために大幅な再方向付けを実行しました。その後、目的地に向かって進み、最終的にその使命を完了します。
このような軌跡はトレーニング データ セットの分布に属さないことに注意してください。これは、シーンのコンテキストにおける動的な適応パス プランニングに対する GeRM の新しい機能、つまり、視覚に基づいて意思決定を行い、将来のパスを計画し、必要に応じて次のステップを変更する機能を示しています。
以上がMoEでサブミッション99個を制覇しよう!浙江大学などが新たな総合ロボット戦略GeRMを提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









Sony InteractiveEntertainmentのチーフアーキテクト(SIE、Sony Interactive Entertainment)のMark Cernyは、パフォーマンスアップグレードAMDRDNA2.xアーキテクチャGPU、およびAMDとの機械学習/人工知能プログラムコードノームの「Amethylst」を含む、次世代ホストPlayStation5Pro(PS5PRO)のハードウェアの詳細をリリースしました。 PS5PROパフォーマンスの改善の焦点は、より強力なGPU、高度なレイトレース、AI搭載のPSSRスーパー解像度関数を含む3つの柱に依然としてあります。 GPUは、SonyがRDNA2.xと名付けたカスタマイズされたAMDRDNA2アーキテクチャを採用しており、RDNA3アーキテクチャがあります。

MicrosoftのWindows検索機能に対する改善は、EUのWindows Insiderチャネルでテストされています。以前は、統合されたWindows検索機能はユーザーによって批判されており、経験が不十分でした。この更新は、検索機能を2つの部分に分割します。ローカル検索とBingベースのWeb検索でユーザーエクスペリエンスを向上させます。検索インターフェイスの新しいバージョンは、デフォルトでローカルファイル検索を実行します。オンラインで検索する必要がある場合は、[Microsoft BingWebsearch]タブをクリックして切り替える必要があります。切り替え後、検索バーには「Microsoft BingWebsearch:」が表示され、ユーザーはキーワードを入力できます。この動きにより、ローカル検索結果とBing検索結果の混合が効果的に回避されます

Centos Shutdownコマンドはシャットダウンし、構文はシャットダウン[オプション]時間[情報]です。オプションは次のとおりです。-hシステムをすぐに停止します。 -pシャットダウン後に電源をオフにします。 -r再起動; -t待機時間。時間は、即時(現在)、数分(分)、または特定の時間(HH:mm)として指定できます。追加の情報をシステムメッセージに表示できます。

GitとGithubは異なるツールです。Gitはバージョン制御用のソフトウェアであり、GithubはGitに基づくオンラインプラットフォームです。 1.GITを使用すると、ファイルの変更と共同開発を追跡できます。 2。Githubは、チーム開発効率を高めるためのコードホスティングおよびコラボレーションツールを提供します。

CentOSシステムでのPytorchモデルの効率的なトレーニングには手順が必要であり、この記事では詳細なガイドが提供されます。 1。環境の準備:Pythonおよび依存関係のインストール:Centosシステムは通常Pythonをプリインストールしますが、バージョンは古い場合があります。 YumまたはDNFを使用してPython 3をインストールし、PIP:sudoyumupdatepython3(またはsudodnfupdatepython3)、pip3install-upgradepipをアップグレードすることをお勧めします。 cuda and cudnn(GPU加速):nvidiagpuを使用する場合は、cudatoolをインストールする必要があります

CENTOSでのZookeeperパフォーマンスチューニングは、ハードウェア構成、オペレーティングシステムの最適化、構成パラメーターの調整、監視、メンテナンスなど、複数の側面から開始できます。特定のチューニング方法を次に示します。SSDはハードウェア構成に推奨されます。ZookeeperのデータはDISKに書き込まれます。十分なメモリ:頻繁なディスクの読み取りと書き込みを避けるために、Zookeeperに十分なメモリリソースを割り当てます。マルチコアCPU:マルチコアCPUを使用して、Zookeeperが並行して処理できるようにします。

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム(UnionFS)は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

Pytorch GPUアクセラレーションを有効にすることで、CentOSシステムでは、PytorchのCUDA、CUDNN、およびGPUバージョンのインストールが必要です。次の手順では、プロセスをガイドします。CUDAおよびCUDNNのインストールでは、CUDAバージョンの互換性が決定されます。NVIDIA-SMIコマンドを使用して、NVIDIAグラフィックスカードでサポートされているCUDAバージョンを表示します。たとえば、MX450グラフィックカードはCUDA11.1以上をサポートする場合があります。 cudatoolkitのダウンロードとインストール:nvidiacudatoolkitの公式Webサイトにアクセスし、グラフィックカードでサポートされている最高のCUDAバージョンに従って、対応するバージョンをダウンロードしてインストールします。 cudnnライブラリをインストールする:
