スタンフォード大学の「エビフライと皿洗い」ロボットとほぼ同時に、Google DeepMind も最新の身体化されたインテリジェンスの結果を発表しました。
そして 3 連発 :
まず、意思決定スピードの向上に重点を置いた新モデル, let ロボットの動作速度 (オリジナル Robotics Transformer との比較) は 14% 向上しました。高速でありながら品質は低下せず、精度も 10.6% 向上しました。
次に、一般化機能に特化した新しいフレームワークがあり、ロボットの動作軌跡プロンプトを作成し、それを実行させることができます。これまでに見たことのない 41 のタスクに直面し、63% の成功率を達成しました。
この配列を過小評価しないでください。
以前の 29% と比較すると、改善はかなり大きいです。。 ついに登場した
ロボット データ収集システム これは一度に 20 台のロボットを管理でき、現在その活動から 77,000 件の実験データを収集しています。これらは Google のより良い取り組みに役立ちます。その後のトレーニングの仕事。
それでは、これら 3 つの結果は具体的には何でしょうか?一つずつ見ていきましょう。
ロボットを日常化するための最初のステップ: 目に見えないタスクを直接実行できる
1. 新しいタスクを推進する能力
2. 意思決定速度の向上
この 3 部構成のシリーズの最初の 2 つの成果は、主に次の 2 つの領域の改善です。すべては Google の基本ロボット モデル Robotics Transformer
(略して RT)に基づいて構築されています。 まずは最初の
RT-Trajectory を見てみましょう。これはロボットの一般化に役立ちます。 人間にとって、テーブルの掃除などの作業はわかりやすいですが、ロボットにはよくわかりません。
しかし幸いなことに、この命令をさまざまな方法で伝えることができ、実際の物理的な動作を実行できるようになります。
一般的に、従来の方法は、タスクを特定のアクションにマッピングし、ロボット アームにそれを完了させることです。たとえば、テーブルを拭く作業は、「クランプを閉じる、テーブルに移動する」に分解できます。左に移動し、左にクランプを閉じます。「右に移動」。
明らかに、この方法の一般化能力は非常に貧弱です。
ここで、Google が新たに提案した RT-Trajectory は、視覚的な合図を提供することでロボットにタスクを完了するよう教えます。
具体的には、RT-Trajectory によって制御されるロボットは、トレーニング中に 2D 軌道強化データを追加します。
これらの軌跡は、ルートやキーポイントを含む RGB 画像として表示され、ロボットがタスクの実行を学習する際に、低レベルではあるが非常に役立つヒントを提供します。
このモデルを使用すると、これまでに見たことのないタスクを実行するロボットの成功率が直接 1 倍に増加しました
(Google の基本的なロボット モデル RT-2 と比較して、29%= > 63%)。 さらに言及する価値があるのは、RT-Trajectory がさまざまな方法で軌道を作成できることです。 ) ### 引き起こす。
#日常ロボット化の第 2 ステップ: 意思決定のスピードが速くなければなりません
Google の RT モデルは Transformer アーキテクチャを使用しています。Transformer は強力ですが、二次複雑さを持つ Attendance モジュールに大きく依存しています。
を開発しました。
SARA-RT は、新しいモデル微調整方法を使用して、元の RT モデルをより効率的にします。
この手法は Google では「アップ トレーニング」と呼ばれており、その主な機能は 元の 2 次複雑度を線形複雑度に変換することです。同時に処理を維持することです。品質。
SARA-RT を数十億のパラメーターを持つ RT-2 モデルに適用すると、後者はさまざまなタスクでより高速な演算速度とより高い精度を達成できます。
SARA-RT は、費用のかかる事前トレーニングなしで Transformer を高速化する ユニバーサル メソッドを提供するため、十分に推進できることにも言及する価値があります。
最後に、ロボットが人間によって割り当てられたタスクをよりよく理解できるようにするために、Google はデータから開始し、収集システムである AutoRT を直接構築しました。
このシステムは、大規模モデル (LLM および VLM を含む) とロボット制御モデル (RT) を組み合わせて、現実のさまざまなタスクを実行するようにロボットに継続的に命令します。データを生成および収集するタスク。
具体的なプロセスは次のとおりです。
ロボットを環境に「自由に」接触させ、ターゲットに近づけます。
次に、カメラと VLM モデルを使用して、特定のアイテムを含む目の前のシーンを説明します。
次に、LLM はこの情報を使用して、いくつかの異なるタスクを生成します。
ロボットは生成後すぐに実行されるわけではないことに注意してください。代わりに、LLM を使用して フィルタ どのタスクが独立して完了できるか、どのタスクが人間を必要とするかが決まります。リモコン、そしてどれ それは単に完了することができません。
「ポテトチップスの袋を開ける」ことは、2 つのロボット アーム (デフォルトでは 1 つだけ) が必要なため、実行できません。
このスクリーニング タスクが完了すると、ロボットは実際にそれを実行できるようになります。
最後に、AutoRT システムはデータ収集を完了し、多様性評価を実行します。
レポートによると、AutoRT は一度に最大 20 台のロボットを調整でき、7 か月以内に 6,650 の固有タスクを含む合計 77,000 のテスト データが収集されました。
最後に、このシステムに関して、Google は セキュリティ も重視しています。
結局のところ、AutoRT の収集タスクは現実世界に影響を与えるため、「安全ガードレール」が不可欠です。
具体的には、基本安全コードは、ロボットのタスク スクリーニングを実行する LLM によって提供されており、部分的にはアイザック アシモフのロボット工学の 3 原則 (何よりもまず「ロボット」は人間に危害を加えてはなりません) に影響を受けています。
2 番目の要件は、ロボットが人間、動物、鋭利な物体、または電化製品が関与するタスクを試みてはいけないということです。
しかし、これだけでは十分ではありません。
そこで、AutoRT も装備されています。従来のロボット工学に見られる実用的な安全対策は何層にもわたっています。
たとえば、関節にかかる力が所定の閾値を超えるとロボットは自動的に停止し、すべての動作は人間の視界内にある物理的なスイッチで制御できます。
Google の最新の結果について詳しく知りたいですか?
良いニュースです。ただし、RT-Trajectory にはオンライン ペーパーしかありません。 、残りは次のとおりです コードと論文は一緒にリリースされており、皆さんもぜひチェックしてみてください ~
Google ロボットといえば、RT- 2(この記事のすべての結果も).
このモデルは、54 人の Google 研究者によって 7 か月間構築され、今年 7 月末に発表されました。 .
埋め込みビジュアルテキスト マルチモーダル大規模モデル VLM は、「人間の音声」を理解できるだけでなく、「人間の音声」について推論し、1 ステップでは実行できないいくつかのタスクを実行することもできます。ライオン、クジラ、恐竜の3つのプラスチックのおもちゃから情報を抽出。「絶滅した動物」を正確に拾えるのはすごい。
#汎化能力を獲得意思決定のスピードはわずか 5 か月強です。ロボットの急速な進歩にはため息をつかずにはいられません。ロボットが実際にどのくらいの速さで何千もの家庭に浸透するのか想像できません。
以上がGoogle の DeepMind ロボットが 3 回連続で結果を発表しました。両方の機能が向上し、データ収集システムは同時に 20 台のロボットを管理できるようになりました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。