ロボット学習の観点から見ると、一般的なアプローチは、特定のロボットとタスクに固有のデータセットを収集し、それをポリシーのトレーニングに使用することです。ただし、この方法を使用してゼロから学習する場合、タスクごとに十分なデータを収集する必要があり、結果として得られるポリシーの一般化能力は通常不十分です。
「原則として、他のロボットやタスクから収集された経験は可能な解決策を提供し、モデルがロボット制御のさまざまな問題を認識できるようになり、これらの問題によって下流のタスクでのロボットの全体的なパフォーマンスが向上する可能性があります。さまざまな自然言語やコンピュータビジョンのタスクを処理できる一般的なモデルですが、ロボットの統一的な制御戦略を訓練するための「ユニバーサルロボットモデル」を構築することは依然として困難であり、異なるロボット本体の操作を含む多くの困難を伴います。センサー構成、アクションスペース、タスク仕様、環境、および計算予算。
この目標を達成するために、ロボットの観察をアクションに直接マッピングし、ゼロサンプルソリューションを通じて新しい分野や新しいロボットに一般化するというアプローチの「ロボット基本モデル」に関連するいくつかの研究結果が現れています。これらのモデルは、「ジェネラリスト ロボット ポリシー」 (GRP) と呼ばれることが多く、さまざまなタスク、環境、ロボット システムにわたって低レベルの視覚運動制御を実行するロボットの能力を強調します。
GNM (汎用ナビゲーション モデル) は、さまざまなロボット ナビゲーション シナリオに適しています。RT-X は、言語を通じて 5 つの異なるロボット本体を操作できます。これらのモデルは確かに重要な進歩ですが、複数の制限もあります。入力観測は事前に定義されていることが多く、(単一カメラ入力ビデオ ストリームなど)、新しい領域に合わせて効果的に微調整することが困難です。モデル 最大のバージョンは人々が使用できるものではありません (これは重要です)。
最近、カリフォルニア大学バークレー校、スタンフォード大学、カーネギーメロン大学、Google DeepMind の 18 人の研究者で構成される Octo モデル チームが、画期的な研究結果である Octo モデルを発表しました。このプロジェクトは上記の制限を効果的に克服します。
論文タイトル: Octo: An Open-Source Generalist Robot Policy
モデルの中核は、任意の入力トークン (観察とタスクに基づいて作成された) を出力トークン (その後、アクションにエンコード) にマッピングする Transformer アーキテクチャであり、このアーキテクチャは、さまざまなロボットおよびタスクのデータセットで使用できます。電車。このポリシーは、モデルに入力するトークンを変更するだけで、追加のトレーニングなしでさまざまなカメラ構成を受け入れたり、さまざまなロボットを制御したり、口頭コマンドやターゲット画像によってガイドしたりできます。
最も重要なことは、モデルは、異なるセンサー入力、動作空間、またはロボットの形態を備えた新しいロボット構成にも適応できることです。必要なのは、適切なアダプターを採用し、小さなターゲット ドメイン データ セットと少量のデータを使用することだけです。データを微調整するための予算を計算します。
それだけでなく、Octo はこれまでで最大のロボット操作データセット、Open X-Embodiment データセットからの 800,000 台のロボット デモンストレーションでも事前トレーニングされています。 Octo は、新しい観察およびアクション空間に合わせて効率的に微調整された初の GRP であるだけでなく、完全にオープンソースである初のジェネラリスト ロボット操作戦略 (トレーニング ワークフロー、モデル チェックポイント、およびデータ) でもあります。チームは論文の中で、結合された Octo コンポーネントのユニークで革新的な性質も強調しました。
Octoモデル
アーキテクチャ
Octo のコアは、Transformer の戦略 π に基づいています。これには、入力トークナイザー、Transformer バックボーン ネットワーク、および読み取りヘッドという 3 つの主要な部分が含まれています。
図 2 に示すように、入力トークナイザーの機能は、言語命令、ターゲット、および観測シーケンスをトークンに変換することであり、Transformer バックボーンはこれらのトークンを処理して埋め込みを行い、読み出しヘッドが必要な出力を取得します。つまり行動です。
タスク定義 (言語命令やターゲット画像など) と観察 (カメラビデオストリームなど) を一般的に使用されるトークン化された形式に変換するために、チームは目標を達成しました。トークナイザー:
言語入力の場合、最初にトークン化され、その後、事前にトレーニングされた Transformer を通じて、言語埋め込みトークン シーケンスに処理されます。具体的には、使用したモデルは t5-base (111M) です。
画像の観測とターゲットの場合、浅い畳み込みスタックを通じて処理され、一連の平坦化されたタイルに分割されます。
最後に、学習可能な位置埋め込みをタスクトークンと観察トークンに追加し、それらを特定の順序で配置することによって、Transformer の入力シーケンスが構築されます。
入力を統合トークン シーケンスに処理した後、処理のために Transformer に渡すことができます。これは、観察とアクション シーケンスに基づいて Transformer ベースのポリシーをトレーニングするという以前の研究作業に似ています。
Octo のアテンション モードはブロックごとのマスキングです。観察トークンは、因果関係に従って、同じまたは前のタイム ステップからのトークンとタスク トークンにのみ注意を払うことができます。存在しない観測値に対応するトークンは完全にマスクされます (言語命令のないデータセットなど)。このモジュール設計により、微調整フェーズ中に観察やタスクを簡単に追加または削除できます。
これらの入力トークン モジュールに加えて、チームは学習された読み出しトークンも挿入しました。読み出しトークンは、以前の観察トークンとタスク トークンに注意を払いますが、観察トークンやタスク トークンには注意を払いません。したがって、読み出しトークンは内部埋め込みの読み取りと処理のみが可能ですが、内部埋め込みに影響を与えることはできません。読み出しトークンは BERT の [CLS] トークンと同様に機能し、これまでの一連の観測を埋め込んだコンパクトなベクトルとして機能します。読み取りトークンの埋め込みには、拡散処理を実装した軽量の「アクションヘッダー」が使用されます。このアクション ヘッダーは、複数の連続するアクションの「チャンク」を予測します。
この設計により、ユーザーはダウンストリームの微調整中に、新しいタスクと観測入力またはアクション出力ヘッダーをモデルに柔軟に追加できます。新しいタスク、観測値、または損失関数をダウンストリームに追加する場合、Transformer の事前トレーニングされた重みを全体として保持し、新しい位置埋め込み、新しい軽量エンコーダー、または仕様パラメーターの変更により必要な新しいヘッダーのみを追加できます。これは、画像入力が追加または削除された場合、またはタスク仕様が変更された場合に、事前トレーニング済みモデルの多数のコンポーネントの再初期化または再トレーニングが必要だった以前のアーキテクチャとは異なります。
Octo を真の「ジェネラリスト」モデルにするためには、この柔軟性が非常に重要です。Octo を微調整できれば、トレーニング前の段階で考えられるロボットのセンサーとアクションの構成をすべてカバーすることは不可能であるためです。チューニング ステージ その入力と出力により、ロボット工学コミュニティにとって多用途のツールになります。さらに、標準の Transformer バックボーンを使用したり、ビジュアル エンコーダと MLP 出力ヘッドを融合した以前のモデル設計では、モデル入力のタイプと順序が固定されていました。対照的に、Octo の観測やタスクを切り替える場合、モデルの大部分を再初期化する必要はありません。
トレーニング データ
チームは、Open X-Embodiment から 25 個のデータセットの混合データセットを取得しました。図 3 にデータセットの構成を示します。
トレーニングの目的とトレーニングハードウェア構成の詳細については、元の論文を参照してください。
モデルのチェックポイントとコード
ここからがポイントです!チームは Octo の論文をリリースしただけでなく、以下を含むすべてのリソースを完全にオープンソース化しました:
チームはまた、実験を通じてOctoの実証分析を実施し、基本的なロボットモデルとしてのパフォーマンスを多次元で評価しました:
図 4 は、Octo を評価するための 9 つのタスクを示しています。
Octoを直接使用して複数のロボットを制御します
チームは、Octo、RT-1-X、およびRT-2-Xのゼロサンプル制御機能を比較しました。結果は次のとおりです。図5.
Octo の成功率は RT-1-X (3,500 万パラメータ) よりも 29% 高いことがわかります。 WidowX と RT-1 Robot の評価では、Octo のパフォーマンスは 550 億のパラメーターを備えた RT-2-X のパフォーマンスと同等です。
さらに、RT-1-X と RT-2-X は言語コマンドのみをサポートしますが、Octo はターゲット画像の条件付きもサポートします。チームはまた、WidowX タスクでは、言語に条件付けした場合よりもターゲット画像に条件付けした方が成功率が 25% 高いことも発見しました。これは、ターゲット画像がタスクの完了に関するより多くの情報を提供するためである可能性があります。
Octo はデータを効率的に使用して新しいフィールドに適応できます
表 1 は、データ効率の高い微調整の実験結果を示しています。
Octo を微調整すると、最初からトレーニングしたり、事前トレーニングされた VC-1 重みを使用して事前トレーニングしたりするよりも良い結果が得られることがわかります。 6 つの評価設定全体で、2 位のベースラインに対する Octo の平均アドバンテージは 52% です。
そして、これらすべての評価タスクで、Octo を微調整するときに使用されたレシピとハイパーパラメーターはすべて同じであったことにも言及しなければなりません。これは、チームが非常に優れたデフォルト構成を見つけたことを示しています。
ジェネラリストロボットポリシートレーニングのための設計上の決定
上記の結果は、Octoが実際にゼロショットマルチロボットコントローラーとして使用でき、ポリシー微調整の初期化ベースとしても使用できることを示しています。 。次に、チームは、さまざまな設計上の決定が Octo 戦略のパフォーマンスに与える影響を分析しました。具体的には、モデルのアーキテクチャ、トレーニング データ、トレーニングの目的、モデルのサイズといった側面に焦点を当てています。これを行うために、彼らはアブレーション研究を実施しました。
表 2 は、モデルのアーキテクチャ、トレーニング データ、トレーニング目標に関するアブレーション 研究の結果を示しています。
図 6 は、ゼロサンプルの成功率に対するモデル サイズの影響を示しています。モデルが大きいほど、視覚的なシーンの認識能力が優れていることがわかります。
全体的に、Octo のコンポーネントの有効性は証明されています。
以上が複数の形態とタスクに適応する、最も強力なオープンソースロボット学習システム「Octopus」が誕生の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。