目次
実験
ホームページ テクノロジー周辺機器 AI DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。

May 04, 2023 pm 10:31 PM
ai deepmind

多くの学者の見解では、身体化された知能は AGI に向けた非常に有望な方向性であり、ChatGPT の成功は強化学習に基づく RLHF テクノロジーと切り離すことができません。 DeepMind と OpenAI、どちらが先に AGI を達成できるでしょうか? 答えはまだ明らかにされていないようです。

私たちは、一般的な身体化知能 (つまり、敏捷性と器用さで物理世界で行動し、動物や人間のように理解するエージェント) を作成することが AI 研究者にとって重要なステップであることを理解しています。ロボット工学者の長期的な目標。時間的には、複雑な移動機能を備えたインテリジェントな実体エージェントの作成は、シミュレーションと現実世界の両方で何年も前に遡ります。

近年、進歩のペースは大幅に加速しており、学習ベースの手法が大きな役割を果たしています。 たとえば、深層強化学習は、複雑な知覚主導の全身制御やマルチエージェントの動作など、シミュレートされたキャラクターの複雑なモーション制御の問題を解決できることが示されています。 同時に、深層強化学習は物理ロボットでの使用が増えています。特に、広く使用されている高品質の四足歩行ロボットは、さまざまな堅牢な運動行動を生成する学習のデモンストレーションのターゲットとなっています。

ただし、静的環境での移動は、動物や人間が世界と対話するために体を展開するさまざまな方法の一部にすぎず、この移動様式は多くの研究で使用されています。特に四足ロボットにおいては、全身制御と動作操作が検証されています。関連する動作の例には、木登り、ドリブルやボールキャッチなどのサッカーのスキル、脚を使う簡単な操作などがあります。

その中でも、サッカーに関しては、人間の感覚運動知性の多くの特徴が示されています。サッカーの複雑さには、走る、曲がる、避ける、蹴る、パスする、倒れる、起き上がるなど、機敏でダイナミックなさまざまな動きが必要です。これらのアクションはさまざまな方法で組み合わせる必要があります。プレーヤーはボール、チームメイト、相手プレーヤーを予測し、ゲーム環境に応じて行動を調整する必要があります。この課題の多様性がロボット工学と AI コミュニティで認識され、ロボカップが誕生しました。

ただし、サッカーを上手にプレーするために必要な機敏性、柔軟性、素早い反応、そしてこれらの要素の間のスムーズな移行は、非常に困難で時間がかかることに注意する必要があります。ロボットの手動設計。 最近、DeepMind (現在は Google Brain チームと合併して Google DeepMind を設立) の新しい論文では、二足歩行ロボットの機敏なサッカー スキルを学習するための深層強化学習の使用について検討しています。

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。

#論文アドレス: https://arxiv.org/pdf/2304.13653 .pdf

プロジェクトのホームページ: https://sites.google.com/view/op3-soccer

この論文では、研究者らは動的なマルチエージェント環境における小型ヒューマノイドロボットの全身制御とオブジェクトの相互作用を研究しています。 彼らは、フットボール全体の問題のサブセットを検討し、20 個の制御可能な関節を備えた低コストの小型ヒューマノイド ロボットをトレーニングして 1 対 1 のフットボール ゲームをプレイし、固有受容とゲーム状態の特性を観察しました。 コントローラーを内蔵しているため、ロボットはゆっくりとぎこちなく動きます。しかし、研究者らは、深層強化学習を使用して、動的で機敏な状況適応型運動スキル (歩く、走る、方向転換する、ボールを蹴る、転んでから立ち上がるなど) を統合し、エージェントが自然かつスムーズな方法で複雑な運動スキルを統合しました。 -期の行動。

実験では、エージェントはボールの動きを予測し、ボールを配置し、攻撃をブロックし、バウンドしたボールを使用することを学習しました。エージェントは、スキルの再利用、エンドツーエンドのトレーニング、シンプルな報酬の組み合わせにより、マルチエージェント環境でこれらの行動を実現します。研究者らは、シミュレーションでエージェントをトレーニングし、それらを物理的なロボットに転送し、低コストのロボットでもシミュレーションから現実への転送が可能であることを実証しました。

データがそれ自体を物語ります。ロボットの歩行速度は 156% 増加し、立ち上がるまでの時間は 63% 短縮され、キック速度も 24% 増加しました。ベースラインまで。

技術的な解釈に入る前に、1 対 1 のサッカーの試合におけるロボットのハイライトのいくつかを見てみましょう。たとえば、撮影:

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。######################## ペナルティーキック: ###################### ##

ターン、ドリブル、キックをすべて一度にDeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。


##ブロック:

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。実験設定

ロボットにサッカーを学習させたい場合は、まず基本的な設定が必要です。

環境に関しては、図 1 に示すように、DeepMind はまずカスタマイズされたサッカー環境でエージェントをシミュレートしてトレーニングし、次に戦略を対応する実際の環境に移行します。環境は、長さ 5 メートル、幅 4 メートルのサッカー場と、開口幅 0.8 メートルの 2 つのゴールから構成されていました。シミュレーション環境と実際の環境の両方で、コートはボールを範囲内に保つために傾斜路で囲まれています。実際のコートは、転倒によるロボットの損傷のリスクを軽減し、地面との摩擦を増やすためにゴム製のタイルで覆われています。 DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。#環境をセットアップしたら、次のステップはハードウェアとモーション キャプチャをセットアップすることです。 DeepMind は、高さ 51 cm、重さ 3.5 kg の Robotis OP3 ロボットを使用しており、20 個のサーボ モーターで駆動されます。ロボットには GPU やその他の専用アクセラレータがないため、すべてのニューラル ネットワークの計算は CPU 上で実行されます。ロボットの先頭には Logitech C920 ウェブカメラがあり、オプションで 30 フレーム/秒の RGB ビデオ ストリームを提供できます。

方法

DeepMind の目標は、人々が歩いたり、蹴ったりできるように訓練することです。ボールを投げ、立ち上がって、防御し、エージェントに得点を与える方法を理解し、これらの機能を実際のロボットに移管します。図 3 に示すように、DeepMind はトレーニングを 2 つの段階に分割します。

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。

第 1 フェーズでは、DeepMind は、エージェントを地面から立ち上がらせることと、ゴールを決めることという 2 つの特定のスキルに関する教師の戦略をトレーニングします。

第 2 段階では、第 1 段階の教師戦略を使用してエージェントを制御し、エージェントはますます強力になる敵と効果的に戦う方法を学習します。

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。

#トレーニング

最初は教師のトレーニングです。教師は、目標を達成するためのトレーニングをできるだけ多く受ける必要があります。このラウンド (エピソード) は、エージェントが転倒するか、範囲外に出るか、制限エリア (図 1 の赤でマーク) に進入するか、対戦相手が得点すると終了します。各ラウンドの開始時に、エージェント、相手側、ボールはコート上のランダムな位置と方向に初期化されます。両側がデフォルトのスタンスに初期化されます。敵対者はトレーニングされていないポリシーで初期化されるため、エージェントはこの段階で敵対者を回避する方法を学習しますが、それ以上の複雑な相互作用は発生しません。さらに、各トレーニング段階の報酬とその重みを表 2 に示します。
  • エージェントは、教師のポリシーに従ってその動作を制御しながら、ますます強力な敵と競争します。このようにして、エージェントは、歩く、蹴る、立ち上がる、得点する、守るといった一連のサッカースキルを習得することができます。エージェントが範囲外に出るか、ゴール ボックス内にいる場合、各タイム ステップで固定ペナルティを受けます。

エージェントがトレーニングされた後の次のステップは、トレーニングされたキック戦略をサンプルなしで実際のロボットに転送することです。ゼロショット転送の成功率を向上させるために、DeepMind はシンプルなシステム識別を通じてシミュレートされたエージェントと実際のロボットの間のギャップを減らし、トレーニング中のドメインのランダム化と摂動を通じて戦略の堅牢性を向上させ、獲得するための報酬戦略の形成を含みます。ロボットに害を及ぼす可能性が高すぎる動作。

実験

1v1 競技: サッカー エージェントは、地面からの立ち上がり、転倒からの迅速な回復、そして走って振り返る。ゲーム中、エージェントはこれらすべてのスキルの間を流動的に移行します。

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。

#以下の表 3 は、定量分析の結果を示しています。この結果から、強化学習戦略は人工的に設計された特殊なスキルよりも優れたパフォーマンスを発揮し、エージェントの歩行速度が 156% 速くなり、立ち上がるまでの時間が 63% 短縮されたことがわかります。

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。

#次の図は、エージェントの歩行軌跡を示しています。学習戦略の充実:

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。

#学習戦略の信頼性を評価するために、DeepMind はペナルティ キックとジャンピング ショットのセットピースを設計しました。 、およびシミュレートされた環境と実際の環境で実装されます。初期構成を図 7 に示します。

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。

#実際の環境では、ロボットはペナルティキックタスクで 10 回中 7 回 (70%) の得点を獲得しました。 . 打ち上げミッションで 10 回中 8 回 (80%) をヒットします。シミュレーション実験では、これら 2 つのタスクにおけるエージェントのスコアはより一貫していました。これは、エージェントのトレーニング戦略が現実の環境 (実際のロボット、ボール、床面などを含む) に移され、パフォーマンスがわずかに低下していることを示しています。動作の違いは大きくなりましたが、ロボットは依然として確実に立ち上がってボールを蹴り、得点することができます。結果を図 7 および表 3 に示します。

DeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。

以上がDeepMind が GPT の祝宴に参加しないのはなぜですか?私は小さなロボットにサッカーを教えていたことが判明しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

SQLに新しい列を追加する方法 SQLに新しい列を追加する方法 Apr 09, 2025 pm 02:09 PM

Alter Tableステートメントを使用して、SQLの既存のテーブルに新しい列を追加します。特定の手順には、テーブル名と列情報の決定、テーブルステートメントの変更、およびステートメントの実行が含まれます。たとえば、顧客テーブルに電子メール列を追加します(Varchar(50)):Alter Table Customersはメール(50)を追加します。

SQLに列を追加するための構文は何ですか SQLに列を追加するための構文は何ですか Apr 09, 2025 pm 02:51 PM

sqlに列を追加するための構文は、table table_name add column_name data_type [not null] [default default_value];です。 table_nameはテーブル名、column_nameは新しい列名、data_typeはデータ型であり、nullはnull値が許可されているかどうかを指定しない、デフォルトのdefault_valueがデフォルト値を指定します。

SQLクリアテーブル:パフォーマンスの最適化のヒント SQLクリアテーブル:パフォーマンスの最適化のヒント Apr 09, 2025 pm 02:54 PM

SQLテーブルクリアパフォーマンスを改善するためのヒント:削除の代わりにTruncateテーブルを使用し、スペースを解放し、ID列をリセットします。カスケードの削除を防ぐために、外部のキーの制約を無効にします。トランザクションカプセル化操作を使用して、データの一貫性を確保します。バッチはビッグデータを削除し、制限で行数を制限します。クリアリング後にインデックスを再構築して、クエリ効率を改善します。

sqlに列を追加するときにデフォルト値を設定する方法 sqlに列を追加するときにデフォルト値を設定する方法 Apr 09, 2025 pm 02:45 PM

新しく追加された列のデフォルト値を設定します。3つのテーブルステートメントを使用します。列の追加を指定し、デフォルト値を設定します:table table_name add column_name data_type default_valueを変更します。制約句を使用してデフォルト値を指定します。テーブルテーブルを変更する列列の追加column_name data_type constraint default_constraint default default_value;

削除ステートメントを使用して、SQLテーブルをクリアします 削除ステートメントを使用して、SQLテーブルをクリアします Apr 09, 2025 pm 03:00 PM

はい、削除ステートメントを使用してSQLテーブルをクリアできます。手順は次のとおりです。クリアするテーブルの名前にtable_nameを置き換えます。

Redisメモリの断片化に対処する方法は? Redisメモリの断片化に対処する方法は? Apr 10, 2025 pm 02:24 PM

Redisメモリの断片化とは、再割り当てできない割り当てられたメモリ内に小さな自由領域の存在を指します。対処戦略には、Redisの再起動:メモリを完全にクリアしますが、サービスを割り当てます。データ構造の最適化:Redisに適した構造を使用して、メモリの割り当てとリリースの数を減らします。構成パラメーターの調整:ポリシーを使用して、最近使用されていないキー価値ペアを排除します。永続性メカニズムを使用します:データを定期的にバックアップし、Redisを再起動してフラグメントをクリーンアップします。メモリの使用量を監視する:問題をタイムリーに発見し、対策を講じる。

phpmyAdminはデータテーブルを作成します phpmyAdminはデータテーブルを作成します Apr 10, 2025 pm 11:00 PM

phpMyAdminを使用してデータテーブルを作成するには、次の手順が不可欠です。データベースに接続して、[新しいタブ]をクリックします。テーブルに名前を付けて、ストレージエンジンを選択します(InnoDB推奨)。列名、データ型、null値、その他のプロパティを許可するかどうかなど、列の追加ボタンをクリックして列の詳細を追加します。一次キーとして1つ以上の列を選択します。 [保存]ボタンをクリックして、テーブルと列を作成します。

Oracleデータベースの作成方法Oracleデータベースを作成する方法 Oracleデータベースの作成方法Oracleデータベースを作成する方法 Apr 11, 2025 pm 02:33 PM

Oracleデータベースを作成するのは簡単ではありません。根本的なメカニズムを理解する必要があります。 1.データベースとOracle DBMSの概念を理解する必要があります。 2。SID、CDB(コンテナデータベース)、PDB(プラグ可能なデータベース)などのコアコンセプトをマスターします。 3。SQL*Plusを使用してCDBを作成し、PDBを作成するには、サイズ、データファイルの数、パスなどのパラメーターを指定する必要があります。 4.高度なアプリケーションは、文字セット、メモリ、その他のパラメーターを調整し、パフォーマンスチューニングを実行する必要があります。 5.ディスクスペース、アクセス許可、パラメーター設定に注意し、データベースのパフォーマンスを継続的に監視および最適化します。 それを巧みに習得することによってのみ、継続的な練習が必要であることは、Oracleデータベースの作成と管理を本当に理解できます。

See all articles