Google RT-1 モデルはロボットに複数のジョブを依頼し、700 件の命令の成功率は 97% でした
コンピューター ビジョンや自然言語処理など、機械学習 (ML) 研究の複数のサブフィールドにおける最近の進歩の多くは、すべてのデータを効率的に吸収できる大規模で多様なデータ セットと表現を活用することに基づいて構築されています。 。
ただし、この高性能モデル手法は、ロボット工学の分野ではあまり応用されていません。
理由は簡単で、第一に、大規模かつ多様なロボット データが不足しているため、モデルがロボットの幅広い経験を吸収する能力が制限されます。
第 2 に、このようなデータセットから学習して効果的に一般化できる、表現力が高く、スケーラブルで、十分に高速なリアルタイム推論モデルが不足しています。
今回、Google の Robotics Transformer 1 (略して RT-1) は、ロボットの入出力アクション (カメラ画像、タスクの指示、モーターなど) をラベル付けできるマルチタスク モデルです。コマンド) を使用して、実行時の効率的な推論を可能にし、リアルタイム制御を可能にします。
#RT-1 は、ロボットがさまざまな環境でさまざまなタスクを実行できるようにするために大量のデータを吸収し、それによって機械を改善しますパフォーマンスと汎用性 能力
簡単に言えば、ロボットに複数の仕事を同時に実行させることを意味します。
モデルは、Everyday Robots (EDR) の 13 台のマシンを使用して、700 以上のタスクをカバーする 130,000 のエピソードを含む大規模な現実世界のロボット データセットでトレーニングされました。ロボットは一定の期間にわたって収集されました。 17か月の。
結果は、RT-1 が既存の手法と比較して、新しいタスク、環境、オブジェクトに対するゼロショットの一般化を大幅に改善できることを示しています。
編集者は慎重に以下に Github リンクを設置しましたので、ご興味がございましたら、ぜひご覧ください。
https://github.com/google-research/robotics_transformer# # RT-1 モデル固有の原理
RT-1 は Transformer アーキテクチャに基づいて構築されており、ロボットのカメラから画像履歴を取得し、自然言語で表現されたタスクの説明を入力として受け取り、出力することができます。トークン化されたアクション。RT-1 のアーキテクチャは、因果マスキングを使用した標準的なカテゴリカルクロスエントロピー目標に対してトレーニングされたデコーダのみのシーケンス モデルのアーキテクチャと似ています。
モデルは入力テキスト命令と一連の画像を受け取り、事前トレーニングされた FiLM EfficientNet モデルを通じてトークンにエンコードします。 TokenLearner を介して圧縮し、Transformer を介してアクション タグを出力します。
その主な機能には、画像トークン化、アクショントークン化、トークン圧縮が含まれます。
- 画像のトークン化: ImageNet で事前トレーニングされた EfficientNet-B3 モデルに画像を渡し、結果の 9×9×512 の空間特徴マップを 81 個のトークンに平坦化します。画像トークナイザーは、自然言語のタスク命令に基づいて条件付けされ、ID に初期化された FiLM レイヤーを使用して、タスクに関連する画像の特徴を早期に抽出します。
- アクションのトークン化: ロボットのアクションの次元は、アームの動きの 7 つの変数 (x、y、z、ロール、ピッチ、ヨー、クランプ オープン) です。 3 つの基本的なモーション変数 (x、y、yaw)、および 3 つのモード間を切り替えるための追加の離散変数。
- トークン圧縮: モデルは、要素アテンション モジュール TokenLearner 圧縮を使用した学習への影響に基づいて、画像トークンのソフトな組み合わせを適応的に選択します。その結果、2.4 以上の圧縮が得られます。 x 推論が速くなります。
人間による遠隔操作によるデモンストレーションと、各ロボットの実行命令のテキストによる説明を使用します。 1つのエピソードに注釈を付けます。
このロボットは、「7 自由度のアーム、2 本指のグリッパー、および可動ベース」に依存してタスクを実行します。
データセットで表現されている一連の高度なスキルには、アイテムの選択と配置、引き出しの開閉、引き出しへのアイテムの出し入れ、長くて薄いアイテムを直立させて保持すること、および裏返して操作を待ちます。
異種データ ソースの統合
RT-1 をさらに進化させるために、別のロボットから収集したデータを使用して RT-1 をトレーニングし、(1) モデルがロボット上でパフォーマンスを発揮するかどうかをテストしました。新しいデータ ソースが提示されたときに元のタスクが維持されるかどうか、(2) 新しい異なるデータによる一般化においてモデルが改善されるかどうか。
EDR を使用して収集した元のデータセットのアクション仕様と境界に一致するように収集したデータを変換し、各データセットにタスクの指示をラベル付けします。
Kuka データは、各トレーニング バッチで 1:2 の比率で EDR データと混合され、元の EDR スキルの退行を制御します。
#写真は複数のロボットからデータを収集する場合の学習方法を示しています
# #結果は、RT-1が他のロボットを観察する経験を通じて新しいスキルを習得できることを示しています。
Kuka のビンピッキング データとロボット教室からの既存の EDR データで RT-1 がトレーニングされたとき、EDR データのみを使用してトレーニングされた場合、精度が 22% 向上しました。「ほぼ 2 倍」 39%まで。
Kuka からのピッキング データのみを使用して RT-1 をトレーニングし、EDR ロボットからのピッキング データを使用して評価した場合の精度は 0% です。
実験結果RT-1 の汎化能力をより深く理解するために、Gato、BC-Z、BC-Z XL の 3 つのベースラインに対するパフォーマンスを調査しました (つまり、RT-1 と同じ数のパラメーターを持つ BC-Z)。
そしてそれを 4 つのカテゴリに分けます:
写真はテスト環境を示しています パフォーマンスRT-1 と対照群の #
- 見たタスクのパフォーマンス (見たタスクのパフォーマンス): トレーニング中に観察されたタスクのパフォーマンス;
-
目に見えないタスクのパフォーマンス (目に見えないタスクのパフォーマンス): トレーニング中に観察されたパフォーマンストレーニング セット内でスキルとオブジェクトが分離されている目に見えないタスク;
- ロバスト性: 邪魔者の介入中 パフォーマンスと背景変化のパフォーマンス (新しいキッチン) 、照明、背景シーン)
- 長期シナリオ: 実際のキッチンでの SayCan のような自然言語命令の実行
RT-1 の高いパフォーマンスと汎用化機能により、SayCan を介した長距離のモバイル操作タスクが可能になります。
SayCan は、ロボットのアフォーダンス内に言語モデルを配置し、少数のプロンプトを使用して、自然言語を表現するという長期的なタスクを一連の低レベルのスキルに分解することで機能します。 。
RT-1 と他の 2 つのベースライン (Gato を使用した SayCan および BC-Z を使用した SayCan) を使用して、2 つの実際のキッチンで SayCan を評価しました。
以下の「キッチン 2」は、「キッチン 1」よりも困難な一般化シナリオを示しています。ほとんどのトレーニング データの収集に使用されるシミュレートされたキッチンは、Kitchen1 をモデルにしています。
Kitchen1 の RT-1 を使用した SayCan の実行成功率は 67% であり、他のベースラインよりも優れていることがわかります。
SayCan with Gato および SayCan with BCZ のパフォーマンスは、新しい目に見えないキッチンによって引き起こされる汎化の困難により低下しましたが、それに応じて RT-1 の成功率は低下しませんでした。
以上がGoogle RT-1 モデルはロボットに複数のジョブを依頼し、700 件の命令の成功率は 97% でしたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

産業オートメーション技術の分野では、人工知能 (AI) と Nvidia という無視できない 2 つの最近のホットスポットがあります。元のコンテンツの意味を変更したり、コンテンツを微調整したり、コンテンツを書き換えたり、続行しないでください。「それだけでなく、Nvidia はオリジナルのグラフィックス プロセッシング ユニット (GPU) に限定されていないため、この 2 つは密接に関連しています。」このテクノロジーはデジタル ツインの分野にまで広がり、新たな AI テクノロジーと密接に関係しています。「最近、NVIDIA は、Aveva、Rockwell Automation、Siemens などの大手産業オートメーション企業を含む多くの産業企業と提携に至りました。シュナイダーエレクトリック、Teradyne Robotics とその MiR および Universal Robots 企業も含まれます。最近、Nvidiahascoll

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

1. はじめに ここ数年、YOLO は、計算コストと検出パフォーマンスの効果的なバランスにより、リアルタイム物体検出の分野で主流のパラダイムとなっています。研究者たちは、YOLO のアーキテクチャ設計、最適化目標、データ拡張戦略などを調査し、大きな進歩を遂げました。同時に、後処理に非最大抑制 (NMS) に依存すると、YOLO のエンドツーエンドの展開が妨げられ、推論レイテンシに悪影響を及ぼします。 YOLO では、さまざまなコンポーネントの設計に包括的かつ徹底的な検査が欠けており、その結果、大幅な計算冗長性が生じ、モデルの機能が制限されます。効率は最適ではありませんが、パフォーマンス向上の可能性は比較的大きくなります。この作業の目標は、後処理とモデル アーキテクチャの両方から YOLO のパフォーマンス効率の境界をさらに改善することです。この目的を達成するために
