Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?-AI-php.cn

ロボット学習をスケーラブルなデータ問題に変換する

概要

ホームページ

テクノロジー周辺機器

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

王林

Apr 14, 2023 pm 01:16 PM

グーグルロボット

ボストンダイナミクスのバックフリップは、人工ロボットがもたらす無限の可能性を示しています。

#Google は Boston Dynamics に行動を起こしましたが、 Google は依然としてロボット開発の道を歩み続け、人間の「身体」にアプローチするだけでなく、「知性」においても人間の指示。

Jeff Dean 氏率いる Google Research 年末総括シリーズ「Google Research, 2022 & before」が第 6 回まで更新されました。この問題のテーマは「ロボティクス」で、シニアプロダクトマネージャーの Kendra Byrne が執筆しました。と Google ロボティクス研究科学者の Jie Tan 氏

#私たちが生きているうちに、ロボットテクノロジーが人間の日常生活に参加し、人間の健康、生産性、生活の質を向上させます。

人間中心の空間 (つまり、機械ではなく人間のために設計された空間) での日常の実務にロボット技術を広く使用できるようになる前に、ロボット技術が人々を助けるために安全に行われること。

2022 年、Google はロボットを人間にとってより役立つものにするという課題に焦点を当てます:

ロボットを作るロボットは現実世界の常識的な知識を理解し、適用することができます。
ロボットが非構造化環境でタスクを効果的に実行するために必要な低レベルのスキルの数を拡大します。

LLM とロボットの出会い

大規模言語モデル (LLM) の機能の 1 つは、説明とコンテキストを「人間と機械の両方が理解できる」形式にエンコードできることです。

LLM をロボット工学に適用すると、ユーザーは自然言語命令を通じてのみロボットにタスクを割り当てることができます。視覚モデルやロボット学習方法と組み合わせると、LLM はユーザーのリクエストのコンテキストを理解する方法を提供します。そして、リクエストを完了するために取られるアクションを計画できるようになります。

基本的な方法の 1 つは、LLM を使用して他の事前トレーニング済みモデルに情報を取得させ、シーンで何が起こっているかのコンテキストを構築し、マルチモーダルタスクを予測することです。全体のプロセスはソクラテスの教授法に似ており、教師は生徒に質問をし、合理的な思考プロセスを通じて生徒がそれに答えるように導きます。

研究者らは、「ソクラテスモデル」で、このアプローチがゼロショット画像記述およびビデオテキスト検索タスクで最先端のパフォーマンスを達成できること、また次のような新機能もサポートできることを実証しました。ビデオに関する自由形式の質問に答え、将来のアクティビティ、マルチモーダル支援対話、ロボットによる認識と計画を予測します。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://arxiv.org/abs/2204.00598

「役立つロボットに向けて: ロボットの使いやすさのための基本言語」記事によると、研究者は Everyday Robots と協力して、ロボットユーザビリティモデルの PaLM 言語モデルに基づいて長期的なタスクを計画しました。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

ブログリンク: https://ai.googleblog.com/2022/08/towards-helpful-robots-grounding.html

前回機械学習アプローチでは、ロボットは「スポンジを拾う」などの短いハードコードされたコマンドしか受け付けることができず、タスクを完了するために必要な手順を推論することが困難です。タスクが「できますか」のような抽象的な目標である場合、「何か？」という質問に対処するのはさらに困難です。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

研究者らは、ロボットが実際に達成できるスキルを表すアフォーダンスモデルとともに、長期タスクを完了するための一連のステップを予測するために LLM を使用することを選択しました。与えられた状況で。

強化学習モデルの価値関数は、ロボットがさまざまな状態で実行できるアクションを抽象的に表現したアフォーダンスモデルを構築するために使用できます。これにより、現実世界での長期的なタスクが統合されます。タスクを完了するための「寝室の片付け」。アイテムを正しく選択、配置、配置するなどの短期的なスキルが必要です。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://arxiv.org/abs/2111.03189

LLM モデルとアフォーダンスモデルの両方を備えているからといって、ロボットが正常に完了できるわけではありませんタスクは、内部の独白 (Inner Monologue) を通じて、LLM ベースのタスク計画のループを閉じることができます。人間のフィードバックやシーンの理解などの他の情報ソースを使用すると、ロボットがタスクを正しく完了できないときを検出できます。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://arxiv.org/abs/2207.05608

研究者らは、Everyday Robots のロボットを使用して、LLM が効果的に再利用できることを発見しました。 - 現在または以前に失敗した計画ステップを計画すると、ロボットは失敗から回復し、「一番上の引き出しにコーラを入れる」などの複雑なタスクを完了できます。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

LLM ベースのタスク計画における優れた機能の 1 つは、ロボットが高レベルの目標の中間タスクの変化に応答できることです。たとえば、ユーザー何が起こっているかをロボットに伝えることができる素早い修正を提供したり、ロボットを別のタスクにリダイレクトしたりして、すでに計画されているアクションを変更できる機能は、ユーザーがロボットタスクを対話的に制御およびカスタマイズできるようにする場合に特に役立ちます。

自然言語を使用すると、人間はロボットのタスクを指定して変更することが容易になりますが、人間の記述にリアルタイムで反応するという課題もあります。

研究者らは、推定平均成功率 93.5 % で 87,000 を超える固有の命令を処理できる、リアルタイムでオープンボキャブラリーの言語条件付きロボットを作成するための大規模な模倣学習フレームワークを提案しています。このプロジェクトでは、Google も最大の言語注釈ロボットデータセットをリリースしました。Language-Table

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

紙のリンク: https://arxiv.org/pdf/2210.06407.pdf

そして、LLM を使用してロボットの動きを制御するコードを記述することも、有望な研究の方向性です。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

研究者らが開発したコーディング手法は、タスクの複雑さを増大させる可能性を示しており、ロボットが自律的に新しいコードを生成して API 呼び出しを再結合し、新しい関数を合成し、フィードバックループを表現できるようになります。実行時に新しい動作を合成します。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://arxiv.org/abs/2209.07753

ロボット学習をスケーラブルなデータ問題に変換する

Large言語モデルとマルチモーダルモデルは、現場で何が起こっているのか、ロボットが何をすべきかなど、ロボットが動作する環境を理解するのに役立ちますが、ロボットが物理世界でのタスク (ピッキングなど) を完了するには、低レベルの身体スキルも必要です。オブジェクトを正確に配置します。

人間は考えずにさまざまな動作を実行できるため、これらの身体的スキルを当然のことと考えていますが、ロボットにとっては問題となります。

たとえば、ロボットが物体を持ち上げる場合、環境を感知して理解し、爪と物体の間の空間関係や接触力学を推定し、高自由度のロボットを正確に駆動する必要があります。アームを持ち上げ、適切な力を加えて安定させ、物体を壊さずに掴みます。

これらの低レベルのスキルを学習する際の難しさは、モラベックのパラドックスとして知られています。推論にはほとんど計算を必要としませんが、感覚運動スキルや知覚スキルには大量の計算リソースが必要です。

LLM の成功に触発されて、研究者らはデータ駆動型のアプローチを採用し、低レベルの物理スキルの学習の問題をスケーラブルなデータの問題に変換しました。LLM は、大規模な Transformer モデルの一般化可能性とパフォーマンスを示しました。データ量が増加します。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

紙のリンク: https://robotics-transformer.github.io/assets/rt1.pdf

研究者らはロボットトランスフォーマー 1 (RT-1) モデルを提案し、ロボット操作戦略をトレーニングしました。使用されたトレーニングデータは、Everyday Robots 13 のデータを使用した 130,000 エピソードの大規模な現実世界のロボットデータセットでした。ロボットは 700 以上のタスクをカバーしており、ロボット工学でも同じ傾向が見られます。つまり、データのサイズと多様性が増大することで、新しいタスク、環境、オブジェクトへのモデルの一般化が向上します。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

言語モデルとロボット学習手法 (RT-1 など) の背後で、Transformer モデルはインターネット規模のデータに基づいてトレーニングされますが、LLM との違いは次のとおりです。ロボット工学は、環境の変化と限られた計算のマルチモーダル表現という課題に直面しています。

2020 年、Google は、Transformer のコンピューティング効率を向上させることができる手法である Performers を提案し、ロボット工学を含む複数のアプリケーションシナリオに影響を与えました。

最近研究者らはこの方法を拡張し、シミュレーション学習の利点とシステム制約の堅牢な処理 (モデルの事前推定制御制約) を組み合わせた新しいクラスの暗黙的制御戦略を導入しました。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://performermpc.github.io/

標準的な MPC 戦略と比較して、ロボットの方が優れていることが実験結果で示されています目標達成時には 40% 以上の改善があり、人間の周りを移動する際の社会指標では 65% 以上の改善が見られます。Performance-MPC は 8.3 M パラメータモデルで、モデルのレイテンシはわずか 8 ミリ秒です。トランスフォーマーをロボットに配備することは可能です。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

Google の研究チームは、データ駆動型の手法が、モバイルの操作、ナビゲーション、移動などの幅広いタスクを学習するために、さまざまな環境のさまざまなロボットプラットフォームに適用できることが多いことも実証しました。卓球なども、低レベルのロボット工学スキルを学習するための明確な道筋、つまりスケーラブルなデータ収集を示しています。

インターネット上の豊富なビデオやテキストデータとは異なり、ロボットデータは非常に希少で入手が困難であり、現実世界のインタラクションを表す豊富なデータセットを収集して効果的に使用する方法がデータ駆動型社会の鍵となります。アプローチ。

シミュレーションは、高速かつ安全で並列化が容易なオプションですが、シミュレーションで完全な環境、特に物理環境や人間とコンピューターの対話環境を再現することは困難です。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://arxiv.org/abs/2207.06572

i-Sim2Real で、研究者は単純な人間からブートストラップする方法を実証しました行動モデルを学習し、シミュレーションのトレーニングと現実世界への展開を交互に繰り返すことで、シミュレーションと現実の間の不一致を解決し、反復ごとに人間の相手と卓球をする方法を学習することで、人間の行動モデルと戦略が洗練されます。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

シミュレーションはデータ収集に役立ちますが、シミュレーション戦略を微調整したり、既存の戦略を新しい環境に適応させたりするには、現実世界でのデータ収集が不可欠です。

学習プロセス中、ロボットは簡単に失敗し、ロボット自体やその周囲の環境に損害を与える可能性があります。特に世界との関わり方を模索する初期の学習段階では、トレーニングデータを安全に収集する必要があります。ロボットを作るスキルを習得するだけでなく、失敗しても自律的に回復します。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://arxiv.org/abs/2110.05457

研究者らは、「学習者戦略の切り替え」に基づいた安全な RL フレームワークを提案しました。必要なタスクを実行するために最適化される「安全な回復戦略」と、ロボットが危険な状態にならないようにするための「安全な回復戦略」、ロボットが障害から回復できるように、学習後に学習するためのリセット戦略を学習します。転倒したとき自分で立ち上がる。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

ロボットに関するデータは非常に少ないですが、人間がさまざまなタスクを実行している動画は数多くあります。当然、ロボットと人間の構造は異なるため、重要です。このアイデアは、「異なるエンティティ間での学習の転移」という問題を引き起こします。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://arxiv.org/pdf/2106.03911.pdf

研究者は、クロスエンボディメント逆強化学習強化学習) を開発し、新しいタスクを学習しました。人間を観察することは、人間と同じようにタスクを正確に再現しようとするのではなく、高レベルのタスク目標を学習し、その知識を報酬関数の形で要約することです。インターネット。

もう 1 つの方向は、学習アルゴリズムのデータ効率を向上させて、拡張されたデータ収集のみに依存しないようにすることです。RL は、予測情報、敵対行為の事前情報、誘導戦略の効率などの事前情報を組み込むことで改善されます。その方法。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://arxiv.org/abs/2210.10865

新しい構造化された動的システムアーキテクチャを使用して RL と軌道の組み合わせを組み合わせる新しいソルバーによってサポートされる最適化はさらに改善され、事前情報により探索の課題が軽減され、データがより適切に正規化され、必要なデータ量が大幅に削減されます。

さらに、ロボット工学チームは、より効果的なデータシミュレーション学習にも多額の資金を投資しています。実験では、シンプルな模倣学習メソッド BC-Z が、トレーニングでは見られない新しいタスクに焦点を当てることができることが証明されました。ショットの一般化。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://arxiv.org/pdf/2210.02343.pdf

また、ゲームからの反復模倣学習アルゴリズム GoalsEye も紹介しました。中程度の学習とターゲット条件付き動作の複製の組み合わせは、高速かつ高精度の卓球ゲームに使用されます。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://sites.google.com/view/goals-eye

理論面では、研究者は動的表現シミュレーション学習を研究しました。サンプルの複雑さによるシステムの安定性、および小規模なデータセットを使用したオフライン学習をより適切に調整するためにデモンストレーションデータの障害と回復をキャプチャする役割。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://proceedings.mlr.press/v168/tu22a.html

概要

大規模な人工知能の分野モデルの進歩により、ロボットの学習能力が飛躍的に向上しました。

昨年は、LLM で捉えられたコンテキストの感覚と一連のイベントがロボット工学の長期計画に取り組み、ロボットが人と対話してタスクを完了するのが容易になることがわかりました。また、Transformer モデルアーキテクチャをロボット学習に適用することで、学習の堅牢性とロボットの動作の一般化へのスケーラブルなパスを確認することもできます。

Google は、新年も有用なロボットの開発を継続するために、データセットのオープンソース化を継続することを約束しました。

以上がGoogle AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7569

CakePHP チュートリアル

1386

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

107

Related knowledge

Deepseekをコメントする方法 Feb 19, 2025 pm 05:42 PM

DeepSeekは、強力な情報を取得することですが、その不利な点は遅いことです。

DeepSeekを検索する方法 Feb 19, 2025 pm 05:39 PM

DeepSeekは、特定のデータベースまたはシステムでのみ検索する独自の検索エンジンであり、より速く、より正確です。それを使用する場合、ユーザーはドキュメントを読み、さまざまな検索戦略を試し、ユーザーエクスペリエンスに関するヘルプを求めてフィードバックを求めて、利点を最大限に活用することをお勧めします。

セサミオープンドア交換Webページ登録リンクゲートトレーディングアプリ登録Webサイト最新 Feb 28, 2025 am 11:06 AM

この記事では、SESAME Open Exchange（gate.io）Webバージョンの登録プロセスとGate Tradingアプリを詳細に紹介します。 Web登録であろうとアプリの登録であろうと、公式Webサイトまたはアプリストアにアクセスして、本物のアプリをダウンロードし、ユーザー名、パスワード、電子メール、携帯電話番号、その他の情報を入力し、電子メールまたは携帯電話の確認を完了する必要があります。

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか？ Feb 21, 2025 pm 10:57 PM

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか？ BYBITは、ユーザーにトレーディングサービスを提供する暗号通貨交換です。 Exchangeのモバイルアプリは、次の理由でAppStoreまたはGooglePlayを介して直接ダウンロードすることはできません。1。AppStoreポリシーは、AppleとGoogleがApp Storeで許可されているアプリケーションの種類について厳しい要件を持つことを制限しています。暗号通貨交換アプリケーションは、金融サービスを含み、特定の規制とセキュリティ基準を必要とするため、これらの要件を満たしていないことがよくあります。 2。法律と規制のコンプライアンス多くの国では、暗号通貨取引に関連する活動が規制または制限されています。これらの規制を遵守するために、BYBITアプリケーションは公式Webサイトまたはその他の認定チャネルを通じてのみ使用できます

セサミオープンドアトレーディングプラットフォームダウンロードモバイルバージョンgateioトレーディングプラットフォームのダウンロードアドレス Feb 28, 2025 am 10:51 AM

アプリをダウンロードしてアカウントの安全を確保するために、正式なチャネルを選択することが重要です。

Crypto Digital Asset Trading App（2025グローバルランキング）に推奨されるトップ10 Mar 18, 2025 pm 12:15 PM

この記事では、Binance、Okx、Gate.io、Bitflyer、Kucoin、Bybit、Coinbase Pro、Kraken、Bydfi、Xbit分散化された交換など、注意を払う価値のある上位10の暗号通貨取引プラットフォームを推奨しています。これらのプラットフォームには、トランザクションの数量、トランザクションの種類、セキュリティ、コンプライアンス、特別な機能の点で独自の利点があります。適切なプラットフォームを選択するには、あなた自身の取引体験、リスク許容度、投資の好みに基づいて包括的な検討が必要です。この記事があなたがあなた自身に最適なスーツを見つけるのに役立つことを願っています

セサミオープンドアエクスチェンジウェブページログイン最新バージョンgateio公式ウェブサイトの入り口 Mar 04, 2025 pm 11:48 PM

ログインステップやパスワード回復プロセスなど、セサミオープンエクスチェンジWebバージョンのログイン操作の詳細な紹介も、ログイン障害、ページを開くことができず、プラットフォームにスムーズにログインするのに役立つ検証コードを受信できません。

Binance Binance公式Webサイト最新バージョンログインポータル Feb 21, 2025 pm 05:42 PM

Binance Webサイトログインポータルの最新バージョンにアクセスするには、これらの簡単な手順に従ってください。公式ウェブサイトに移動し、右上隅の[ログイン]ボタンをクリックします。既存のログインメソッドを選択してください。「登録」してください。登録済みの携帯電話番号または電子メールとパスワードを入力し、認証を完了します（モバイル検証コードやGoogle Authenticatorなど）。検証が成功した後、Binance公式WebサイトLogin Portalの最新バージョンにアクセスできます。

See all articles

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

ロボット学習をスケーラブルなデータ問題に変換する

概要

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック