Google RT-1 モデルはロボットに複数のジョブを依頼し、700 件の命令の成功率は 97% でした-AI-php.cn

異種データソースの統合

ホームページ

テクノロジー周辺機器

Google RT-1 モデルはロボットに複数のジョブを依頼し、700 件の命令の成功率は 97% でした

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 11, 2023 am 11:34 AM

ロボットモデル

コンピュータービジョンや自然言語処理など、機械学習 (ML) 研究の複数のサブフィールドにおける最近の進歩の多くは、すべてのデータを効率的に吸収できる大規模で多様なデータセットと表現を活用することに基づいて構築されています。。

ただし、この高性能モデル手法は、ロボット工学の分野ではあまり応用されていません。

理由は簡単で、第一に、大規模かつ多様なロボットデータが不足しているため、モデルがロボットの幅広い経験を吸収する能力が制限されます。

第 2 に、このようなデータセットから学習して効果的に一般化できる、表現力が高く、スケーラブルで、十分に高速なリアルタイム推論モデルが不足しています。

今回、Google の Robotics Transformer 1 (略して RT-1) は、ロボットの入出力アクション (カメラ画像、タスクの指示、モーターなど) をラベル付けできるマルチタスクモデルです。コマンド) を使用して、実行時の効率的な推論を可能にし、リアルタイム制御を可能にします。

Google RT-1 モデルはロボットに複数のジョブを依頼し、700 件の命令の成功率は 97% でした

#RT-1 は、ロボットがさまざまな環境でさまざまなタスクを実行できるようにするために大量のデータを吸収し、それによって機械を改善しますパフォーマンスと汎用性能力

簡単に言えば、ロボットに複数の仕事を同時に実行させることを意味します。

モデルは、Everyday Robots (EDR) の 13 台のマシンを使用して、700 以上のタスクをカバーする 130,000 のエピソードを含む大規模な現実世界のロボットデータセットでトレーニングされました。ロボットは一定の期間にわたって収集されました。 17か月の。

結果は、RT-1 が既存の手法と比較して、新しいタスク、環境、オブジェクトに対するゼロショットの一般化を大幅に改善できることを示しています。

編集者は慎重に以下に Github リンクを設置しましたので、ご興味がございましたら、ぜひご覧ください。

Google RT-1 モデルはロボットに複数のジョブを依頼し、700 件の命令の成功率は 97% でした

https://github.com/google-research/robotics_transformer# # RT-1 モデル固有の原理

RT-1 は Transformer アーキテクチャに基づいて構築されており、ロボットのカメラから画像履歴を取得し、自然言語で表現されたタスクの説明を入力として受け取り、出力することができます。トークン化されたアクション。

RT-1 のアーキテクチャは、因果マスキングを使用した標準的なカテゴリカルクロスエントロピー目標に対してトレーニングされたデコーダのみのシーケンスモデルのアーキテクチャと似ています。

Google RT-1 モデルはロボットに複数のジョブを依頼し、700 件の命令の成功率は 97% でしたモデルは入力テキスト命令と一連の画像を受け取り、事前トレーニングされた FiLM EfficientNet モデルを通じてトークンにエンコードします。 TokenLearner を介して圧縮し、Transformer を介してアクションタグを出力します。

その主な機能には、画像トークン化、アクショントークン化、トークン圧縮が含まれます。

画像のトークン化: ImageNet で事前トレーニングされた EfficientNet-B3 モデルに画像を渡し、結果の 9×9×512 の空間特徴マップを 81 個のトークンに平坦化します。画像トークナイザーは、自然言語のタスク命令に基づいて条件付けされ、ID に初期化された FiLM レイヤーを使用して、タスクに関連する画像の特徴を早期に抽出します。
アクションのトークン化: ロボットのアクションの次元は、アームの動きの 7 つの変数 (x、y、z、ロール、ピッチ、ヨー、クランプオープン) です。 3 つの基本的なモーション変数 (x、y、yaw)、および 3 つのモード間を切り替えるための追加の離散変数。
トークン圧縮: モデルは、要素アテンションモジュール TokenLearner 圧縮を使用した学習への影響に基づいて、画像トークンのソフトな組み合わせを適応的に選択します。その結果、2.4 以上の圧縮が得られます。 x 推論が速くなります。

Google RT-1 モデルはロボットに複数のジョブを依頼し、700 件の命令の成功率は 97% でした

人間による遠隔操作によるデモンストレーションと、各ロボットの実行命令のテキストによる説明を使用します。 1つのエピソードに注釈を付けます。

このロボットは、「7 自由度のアーム、2 本指のグリッパー、および可動ベース」に依存してタスクを実行します。

データセットで表現されている一連の高度なスキルには、アイテムの選択と配置、引き出しの開閉、引き出しへのアイテムの出し入れ、長くて薄いアイテムを直立させて保持すること、および裏返して操作を待ちます。

異種データソースの統合

RT-1 をさらに進化させるために、別のロボットから収集したデータを使用して RT-1 をトレーニングし、(1) モデルがロボット上でパフォーマンスを発揮するかどうかをテストしました。新しいデータソースが提示されたときに元のタスクが維持されるかどうか、(2) 新しい異なるデータによる一般化においてモデルが改善されるかどうか。

EDR を使用して収集した元のデータセットのアクション仕様と境界に一致するように収集したデータを変換し、各データセットにタスクの指示をラベル付けします。

Kuka データは、各トレーニングバッチで 1:2 の比率で EDR データと混合され、元の EDR スキルの退行を制御します。

Google RT-1 モデルはロボットに複数のジョブを依頼し、700 件の命令の成功率は 97% でした

#写真は複数のロボットからデータを収集する場合の学習方法を示しています

# #結果は、RT-1が他のロボットを観察する経験を通じて新しいスキルを習得できることを示しています。

Kuka のビンピッキングデータとロボット教室からの既存の EDR データで RT-1 がトレーニングされたとき、EDR データのみを使用してトレーニングされた場合、精度が 22% 向上しました。「ほぼ 2 倍」 39%まで。

Google RT-1 モデルはロボットに複数のジョブを依頼し、700 件の命令の成功率は 97% でした

Kuka からのピッキングデータのみを使用して RT-1 をトレーニングし、EDR ロボットからのピッキングデータを使用して評価した場合の精度は 0% です。

実験結果

RT-1 の汎化能力をより深く理解するために、Gato、BC-Z、BC-Z XL の 3 つのベースラインに対するパフォーマンスを調査しました (つまり、RT-1 と同じ数のパラメーターを持つ BC-Z)。

そしてそれを 4 つのカテゴリに分けます:

Google RT-1 モデルはロボットに複数のジョブを依頼し、700 件の命令の成功率は 97% でした

写真はテスト環境を示していますパフォーマンスRT-1 と対照群の #

見たタスクのパフォーマンス (見たタスクのパフォーマンス): トレーニング中に観察されたタスクのパフォーマンス;
目に見えないタスクのパフォーマンス (目に見えないタスクのパフォーマンス): トレーニング中に観察されたパフォーマンストレーニングセット内でスキルとオブジェクトが分離されている目に見えないタスク;
ロバスト性: 邪魔者の介入中パフォーマンスと背景変化のパフォーマンス (新しいキッチン) 、照明、背景シーン)
長期シナリオ: 実際のキッチンでの SayCan のような自然言語命令の実行

RT-1 の高いパフォーマンスと汎用化機能により、SayCan を介した長距離のモバイル操作タスクが可能になります。

SayCan は、ロボットのアフォーダンス内に言語モデルを配置し、少数のプロンプトを使用して、自然言語を表現するという長期的なタスクを一連の低レベルのスキルに分解することで機能します。。

RT-1 と他の 2 つのベースライン (Gato を使用した SayCan および BC-Z を使用した SayCan) を使用して、2 つの実際のキッチンで SayCan を評価しました。

以下の「キッチン 2」は、「キッチン 1」よりも困難な一般化シナリオを示しています。ほとんどのトレーニングデータの収集に使用されるシミュレートされたキッチンは、Kitchen1 をモデルにしています。

Google RT-1 モデルはロボットに複数のジョブを依頼し、700 件の命令の成功率は 97% でした

Kitchen1 の RT-1 を使用した SayCan の実行成功率は 67% であり、他のベースラインよりも優れていることがわかります。

SayCan with Gato および SayCan with BCZ のパフォーマンスは、新しい目に見えないキッチンによって引き起こされる汎化の困難により低下しましたが、それに応じて RT-1 の成功率は低下しませんでした。

以上がGoogle RT-1 モデルはロボットに複数のジョブを依頼し、700 件の命令の成功率は 97% でしたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ホットトピック

Java チュートリアル

1677

CakePHP チュートリアル

1430

Laravel チュートリアル

1333

PHP チュートリアル

1278

C# チュートリアル

1257

Related knowledge

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニングコストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね！」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』（米国数学協会会報）の最新号を送ってくれた。「機械は数学を変えるのか？」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

こんにちは、電気アトラスです！ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか？」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

MLP に代わる KAN は、オープンソースプロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

AI はどのようにロボットをより自律的で順応性のあるものにすることができるのでしょうか? Jun 03, 2024 pm 07:18 PM

産業オートメーション技術の分野では、人工知能 (AI) と Nvidia という無視できない 2 つの最近のホットスポットがあります。元のコンテンツの意味を変更したり、コンテンツを微調整したり、コンテンツを書き換えたり、続行しないでください。「それだけでなく、Nvidia はオリジナルのグラフィックスプロセッシングユニット (GPU) に限定されていないため、この 2 つは密接に関連しています。」このテクノロジーはデジタルツインの分野にまで広がり、新たな AI テクノロジーと密接に関係しています。「最近、NVIDIA は、Aveva、Rockwell Automation、Siemens などの大手産業オートメーション企業を含む多くの産業企業と提携に至りました。シュナイダーエレクトリック、Teradyne Robotics とその MiR および Universal Robots 企業も含まれます。最近、Nvidiahascoll

テスラのロボットは工場で働く、マスク氏：手の自由度は今年22に達する！ May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー（テスラの4680バッテリー）を次のように分類します：公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング：今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジムファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム Apr 26, 2024 am 11:37 AM

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディングボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディングボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンスセグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラデータセットで 49.5% の mAP を達成しました。

$オックスフォード大学の最新情報！ミッキー：2D画像を3D SOTAでマッチング！ (CVPR\'24)$ オックスフォード大学の最新情報！ミッキー：2D画像を3D SOTAでマッチング！ (CVPR\'24) Apr 23, 2024 pm 01:20 PM

前に書かれたプロジェクトのリンク: https://nianticlabs.github.io/mickey/ 2 枚の写真が与えられた場合、それらの写真間の対応関係を確立することで、それらの間のカメラのポーズを推定できます。通常、これらの対応は 2D 対 2D であり、推定されたポーズはスケール不定です。いつでもどこでもインスタント拡張現実などの一部のアプリケーションでは、スケールメトリクスの姿勢推定が必要なため、スケールを回復するために外部深度推定器に依存します。この論文では、3D カメラ空間でのメトリックの対応を予測できるキーポイントマッチングプロセスである MicKey を提案します。画像全体の 3D 座標マッチングを学習することで、相対的なメトリックを推測できるようになります。

See all articles

Google RT-1 モデルはロボットに複数のジョブを依頼し、700 件の命令の成功率は 97% でした

異種データソースの統合

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

Google RT-1 モデルはロボットに複数のジョブを依頼し、700 件の命令の成功率は 97% でした

異種データ ソースの統合

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

異種データソースの統合