Googleは大型モデルを使用してロボット犬を訓練し、曖昧な指示を理解できるようにし、ピクニックに行くことに興奮している-AI-php.cn

ホームページ

テクノロジー周辺機器

Googleは大型モデルを使用してロボット犬を訓練し、曖昧な指示を理解できるようにし、ピクニックに行くことに興奮している

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 16, 2024 am 11:24 AM

四足ロボット理論インタラクティブシステム

人間と四足ロボットの間のシンプルかつ効果的なインタラクションは、有能なインテリジェントなアシスタントロボットを作成する方法であり、テクノロジーが私たちの想像を超えた方法で私たちの生活を改善する未来を示しています。このような人間とロボットの対話システムの場合、鍵となるのは、四足ロボットに自然言語コマンドに応答する能力を与えることです。

#大規模言語モデル (LLM) は最近急速に開発され、高レベルの計画を実行できる可能性が示されています。ただし、特に本質的に不安定で高周波数の制御信号を必要とする脚式ロボットの場合、LLM が関節角度目標やモータートルクなどの低レベルの命令を理解することは依然として困難です。したがって、既存の研究のほとんどは、ロボットの動作を決定する高レベルの API が LLM に提供されていることを前提としており、これによりシステムの表現能力が根本的に制限されます。

CoRL 2023 論文「SayTap: Language to Quadrupedal Locomotion」で、Google DeepMind と東京大学は、足の接触パターンを接続として使用する新しい方法を提案しました。人間の自然言語命令と低レベルのコマンドを出力するモーションコントローラー。

Googleは大型モデルを使用してロボット犬を訓練し、曖昧な指示を理解できるようにし、ピクニックに行くことに興奮している

論文アドレス: https://arxiv.org/abs/2306.07580
プロジェクト Web サイト: https://saytap.github.io/

フットコンタクトパターンは、四足エージェントが移動するときの足のコンタクトパターンを指します。それらが地面に置かれる順序と方法。これに基づいて、ユーザーが簡単な言語を使ってロボットに歩く、走る、ジャンプするなどの動作を命令できるなど、さまざまな動作動作を柔軟に開発できる対話型四足ロボットシステムを開発しました。

彼らの貢献には、LLM プロンプト設計、報酬関数、および SayTap コントローラーが実現可能な接触パターン分布を使用できるようにするメソッドが含まれます。

研究によると、SayTap コントローラーは複数のモーションモードを実装でき、これらの機能は実際のロボットハードウェアにも転送できることがわかっています。

SayTap メソッド

SayTap メソッドは、4 つの連絡先パターンテンプレートを使用します。マトリックスの各行は、上から下に、それぞれ左前足部 (FL)、右前足部 (FR)、左後足部 (RL)、および右後足部 (RR) の足の接地パターンを示します。 SayTap の制御周波数は 50 Hz で、0 または 1 がそれぞれ 0.02 秒続くことを意味します。この研究では、望ましい足の接地パターンを、サイズ L_w および形状 4 X L_w の周期的なスライディングウィンドウとして定義します。スライディングウィンドウは、接触パターンテンプレートから四足接地フラグを抽出します。これは、時間 t 1 と t L_w の間にロボットの足が地面にあったか空中にあったかを示します。 SayTap メソッドの概要を次の図に示します。

Googleは大型モデルを使用してロボット犬を訓練し、曖昧な指示を理解できるようにし、ピクニックに行くことに興奮している

#SayTap メソッドの概要

#SayTap の概要望ましい足の接触パターンは、自然言語のユーザーコマンドとモーションコントローラーの間の新しいインターフェイスとして機能します。モーションコントローラーは、主要なタスク (指定された速度に従うなど) を実行し、達成される足の接触パターンが望ましい接触パターンにできるだけ近くなるように、特定の時間にロボットの足を地面に置くために使用されます。

これを行うために、各タイムステップで、モーションコントローラーは、希望する足の接触パターンに加えて、関節の位置や速度などの固有受容データとタスク関連のデータを入力として受け取ります。入力 (ユーザー固有の速度コマンドなど)。 DeepMind は強化学習を使用してモーションコントローラーをトレーニングし、それをディープニューラルネットワークとして表現しました。コントローラーのトレーニング中に、研究者らはランダムジェネレーターを使用して望ましい足の接触パターンをサンプリングし、その後、望ましい足の接触パターンを達成する低レベルのロボットアクションを出力するようにポリシーを最適化しました。テスト時には、LLM を使用してユーザーコマンドを足の接触パターンに変換します。

SayTap は、自然言語のユーザーコマンドと低レベルの制御コマンドの間の橋渡しとして足の接触パターンを使用します。 SayTap は、単純で直接的な指示 (「ゆっくり前にジョギングしてください」など) とあいまいなユーザーコマンド (「良いニュースです。今週末ピクニックに行きます!」など) の両方をサポートしています。強化学習に基づくモーションコントローラーを通じて、4 つの

研究によると、適切に設計されたプロンプトを使用することで、LLM はユーザーコマンドを特定の形式に正確にマッピングすることができます。ユーザーのコマンドが構造化されていない、または曖昧な場合でも、研究者らはランダムパターンジェネレーターを使用して、特定のステップに基づいてパターン長 T が異なる複数の接触パターンテンプレートを生成しました。 1 サイクルにおける状態タイプ G の接触率により、モーションコントローラーは広範囲のモーションパターン分布を学習し、より優れた一般化機能を取得できます。詳細については、論文を参照してください。

実験結果

#一般的な足の接触パターンのコンテキストサンプルを 3 つだけ含む単純なプロンプトを使用することで、LLM はさまざまな人間のコマンドを正確に翻訳することができます。

#SayTap プロンプトは簡潔でコンパクトで、次の 4 つのコンポーネントが含まれています。

#(1) LLM が完了する必要があるタスクを説明するために使用される一般的な説明;

(2) 四足歩行に関する基本的な知識に焦点を当てるために Remind LLM を使用した歩行定義および感情との関連性;

(3) 出力形式の定義;

(4) LLM がコンテキストで学習できるようにする例を示します。

研究者らはまた、ロボットが前進または後進、速くまたは遅く、または静止できるように、5 つの速度を設定しました。

シンプルで直接的なコマンドに従います。

#以下のアニメーションは、SayTap が直接明確なコマンドを正常に実行する例を示しています。一部のコマンドは 3 つのコンテキストの例に含まれていませんが、LLM は引き続き実行できます。これは、上記のプロンプトの 2 番目のモジュールである「歩行定義モジュール」をプロンプトで使用します。

構造化されていない、または曖昧なコマンドに従います Googleは大型モデルを使用してロボット犬を訓練し、曖昧な指示を理解できるようにし、ピクニックに行くことに興奮している

Googleは大型モデルを使用してロボット犬を訓練し、曖昧な指示を理解できるようにし、ピクニックに行くことに興奮している

ただし、さらに興味深いのは、構造化されていない曖昧な命令を処理できる SayTap の機能です。いくつかのヒントを使用するだけで、特定の歩き方を一般的な感情的な印象に結びつけることができます。たとえば、ロボットが何か楽しいこと (「ピクニックに行こう!」など) を聞いた後に飛び跳ねるなどです。また、「地面がとても熱い」と言われると、ロボットは足を地面にできるだけ触れないよう素早く移動するなど、情景を正確に表現することができます。

Googleは大型モデルを使用してロボット犬を訓練し、曖昧な指示を理解できるようにし、ピクニックに行くことに興奮している

概要と今後の取り組み

SayTap は四足ロボット用の対話型システムです。さまざまな動作動作を柔軟に開発します。 SayTap は、自然言語と低レベルコントローラーの間のインターフェイスとして、望ましい足の接触パターンを導入します。新しいインターフェースは簡単かつ柔軟であり、ロボットが直接の指示と、ロボットがどのように動作するかを明示的に記述していないコマンドの両方に従うことができます。

DeepMind の研究者らは、今後の主な研究の方向性は、特定の感情を暗示するコマンドによって LLM が望ましい歩行を出力できるかどうかをテストすることであると述べました。上記の結果の歩行定義モジュールで、研究者らは幸せな感情を跳躍歩行に結び付ける文を提供しました。より多くの情報を提供すると、暗黙の感情の解読など、コマンドを解釈する LLM の能力が強化される可能性があります。実験評価では、幸せな感情と弾むような歩き方のリンクにより、ロボットは人間の漠然とした指示に従いながらも精力的に行動することができました。もう 1 つの興味深い将来の研究の方向性は、ビデオやオーディオなどのマルチモーダル入力の導入です。理論的には、これらの信号から変換された足の接触パターンは、ここで新しく提案されたワークフローにも適しており、より興味深い使用例が生まれることが期待されます。

元のリンク: https://blog.research.google/2023/08/saytap- language-to-quadrupedal.html

以上がGoogleは大型モデルを使用してロボット犬を訓練し、曖昧な指示を理解できるようにし、ピクニックに行くことに興奮しているの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1659

CakePHP チュートリアル

1416

Laravel チュートリアル

1310

PHP チュートリアル

1259

C# チュートリアル

1233

Related knowledge

「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 Jul 26, 2024 pm 05:38 PM

現代の製造において、正確な欠陥検出は製品の品質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データセットと比較して、「DefectSpectrum」データセットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています Jul 26, 2024 am 08:40 AM

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープンモデルが開発されています。

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 Aug 08, 2024 pm 09:22 PM

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラルネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ～ 20% に相当します。

Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Jul 26, 2024 pm 02:40 PM

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

PRO | なぜ MoE に基づく大規模モデルがより注目に値するのでしょうか? Aug 07, 2024 pm 07:08 PM

2023 年には、AI のほぼすべての分野が前例のない速度で進化しています。同時に、AI は身体化されたインテリジェンスや自動運転などの主要な分野の技術的限界を押し広げています。マルチモーダルの流れのもと、AI大型モデルの主流アーキテクチャとしてのTransformerの状況は揺るがされるだろうか？ MoE (専門家混合) アーキテクチャに基づく大規模モデルの検討が業界の新しいトレンドになっているのはなぜですか?ラージビジョンモデル (LVM) は、一般的な視覚における新たなブレークスルーとなる可能性がありますか? ...過去 6 か月間にリリースされたこのサイトの 2023 PRO メンバーニュースレターから、上記の分野の技術トレンドと業界の変化を詳細に分析し、新しい分野での目標を達成するのに役立つ 10 の特別な解釈を選択しました。準備してください。この解釈は 2023 年の Week50 からのものです

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データセットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データセットがありますが、これらのデータセットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

Transformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。 Aug 06, 2024 pm 07:34 PM

編集者 | KX 逆合成は創薬や有機合成において重要なタスクであり、そのプロセスを高速化するために AI の使用が増えています。既存の AI 手法はパフォーマンスが不十分で、多様性が限られています。実際には、化学反応は多くの場合、反応物と生成物の間にかなりの重複を伴う局所的な分子変化を引き起こします。これに触発されて、浙江大学のHou Tingjun氏のチームは、単一ステップの逆合成予測を分子列編集タスクとして再定義し、標的分子列を反復的に改良して前駆体化合物を生成することを提案した。そして、高品質かつ多様な予測を実現できる編集ベースの逆合成モデルEditRetroを提案する。広範な実験により、このモデルが標準ベンチマークデータセット USPTO-50 K で優れたパフォーマンスを達成し、トップ 1 の精度が 60.8% であることが示されました。

自然の視点: 医療における人工知能のテストは混乱に陥っています。何をすべきでしょうか? Aug 22, 2024 pm 04:37 PM

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビンシン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージデータを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。

See all articles

Googleは大型モデルを使用してロボット犬を訓練し、曖昧な指示を理解できるようにし、ピクニックに行くことに興奮している

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック