ロボットは工場の正確な制御タスクを学習できるようになりました。
#近年、四足歩行などロボットの強化学習技術の分野で大きな進歩が見られます。 、把握、器用さ、制御などですが、それらのほとんどは実験室での実証段階に限定されています。ロボット強化学習テクノロジーを実際の運用環境に広く適用するには、依然として多くの課題があり、実際のシナリオでの適用範囲がある程度制限されます。強化学習技術の実用化の過程では、報酬メカニズムの設定、環境のリセット、サンプル効率の向上、行動の安全性の保証など、複数の複雑な問題を克服する必要があります。業界の専門家は、強化学習テクノロジーの実際の実装における多くの問題を解決することは、アルゴリズム自体の継続的な革新と同じくらい重要であると強調しています。 この課題に直面して、カリフォルニア大学バークレー校、スタンフォード大学、ワシントン大学、Google の学者は、Efficient Robot Reinforcement Learning Suite と呼ばれるツールを共同開発しました。 (SERL). 実際のロボット応用における強化学習テクノロジーの普及促進に特化したオープンソース ソフトウェア フレームワーク。
- プロジェクトのホームページ: https://serl-robot.github.io/
- オープンソース コード: https://github.com/rail- berkeley /serl
- ##論文のタイトル: SERL: サンプル効率的なロボット強化学習のためのソフトウェア スイート
SERL フレームワークには主に次のコンポーネントが含まれています:
1. 効率的な強化学習
強化学習の分野、インテリジェンス エージェント (ロボットなど) は、環境と対話することでタスクの実行方法を学習します。さまざまな行動を試し、行動の結果に基づいて報酬シグナルを取得することで、累積報酬を最大化するように設計された一連の戦略を学習します。 SERL は RLPD アルゴリズムを使用して、ロボットがリアルタイムのインタラクションと以前に収集されたオフライン データから同時に学習できるようにし、ロボットが新しいスキルを習得するのに必要なトレーニング時間を大幅に短縮します。
2. さまざまな報酬規定方法
SERL はさまざまな報酬規定方法を提供し、開発者が報酬を調整できるようにします。特定のタスクのニーズに合わせた構造。たとえば、固定位置の設置タスクではロボットの位置に合わせた報酬を得ることができ、より複雑なタスクでは分類器や VICE を使用して正確な報酬メカニズムを学習できます。この柔軟性は、ロボットが特定のタスクに対して最も効果的な戦略を学習できるように正確に導くのに役立ちます。
3. 再現機能なし
従来のロボット学習アルゴリズムは定期的に環境をリセットする必要があり、次のように処理します。インタラクティブな学習のラウンド。多くのタスクでは、これを自動的に行うことはできません。 SERL が提供する非強化学習機能は、前方ポリシーと後方ポリシーの両方を同時にトレーニングし、相互に環境をリセットします。
4. ロボット制御インターフェイス
SERL は、標準例として Franka マニピュレーター タスク用の一連のジム環境インターフェイスを提供します。 、ユーザーは SERL をさまざまなロボット アームに簡単に拡張できます。
#5. インピーダンス コントローラー
ロボットが安全かつ正確に探索および操作できるようにするために、 SERL は、外部物体との接触後に過剰なトルクが発生しないようにしながら精度を確保するために、Franka ロボット アーム用の特別なインピーダンス コントローラーを提供します。
これらのテクノロジーと手法を組み合わせることで、SERL は高い成功率と堅牢性を維持しながらトレーニング時間を大幅に短縮し、ロボットが短時間で複雑なタスクを学習できるようにします。そしてそれらを現実の世界で効果的に適用します。
図 1 と 2: さまざまなタスクにおける SERL と動作クローニング手法の間の成功率とビート数の比較。同じ量のデータでは、SERL の成功率はクローンの成功率の数倍 (最大 10 倍) 高く、ビート レートは少なくとも 2 倍です。
1. PCB コンポーネント アセンブリ:
PCB ボード上で穴あきコンポーネントを組み立てるのは一般的ですが、困難なロボット作業です。電子部品のピンは非常に曲がりやすく、穴の位置とピンとの公差が非常に小さいため、ロボットの組み立てには正確かつ丁寧な作業が求められます。 SERL は、わずか 21 分間の自律学習で、ロボットが 100% のタスク完了率を達成することを可能にしました。基板の位置が動いたり、視線が部分的に遮られるなどの未知の干渉があっても、ロボットは安定して組立作業を完了することができます。
# 3、4、5: 回路基板コンポーネントのミッションを取り付けるとき、ロボットはトレーニング段階では遭遇しなかったさまざまな干渉に対処し、タスクをスムーズに完了できます。 多くの機械および電子機器の組み立てプロセス機器を設置するには、ケーブルを特定の経路に沿って正確に設置する必要があり、これは精度と適応性が非常に要求される作業です。フレキシブルケーブルは配線工程中に変形しやすく、ケーブルの誤動作やホルダーの位置の変化など、配線工程にさまざまな外乱が加わる可能性があるため、従来の非フレキシブルケーブルでは対応が困難でした。学習方法。 SERL は、わずか 30 分で 100% の成功率を達成できます。グリッパーの位置がトレーニング中のものと異なる場合でも、ロボットは学習したスキルを一般化し、新たな配線の課題に適応して、配線作業を正しく実行することができます。
#特別なトレーニングでは、クリップにケーブルを直接通すこともできます。トレーニング時とは違うポジション。 倉庫管理または小売業業界では、ロボットは物品をある場所から別の場所に移動する必要があることが多く、そのためにはロボットが特定の物品を識別して運ぶことができる必要があります。強化学習のトレーニング プロセス中に、作動が不十分なオブジェクトを自動的にリセットすることは困難です。 SERL のリセット不要の強化学習機能を活用して、ロボットは 1 時間 45 分で 100/100 の成功率で 2 つのポリシーを同時に学習しました。順方向戦略を使用してオブジェクトをボックス A からボックス B に置き、次に逆方向戦略を使用してオブジェクトをボックス B からボックス A に戻します。
#図 9、10、11: SERL は、オブジェクトを右から左に運ぶ戦略と、オブジェクトを左から右に戻す戦略の 2 セットをトレーニングしました。このロボットは、オブジェクトのトレーニングで 100% の成功率を達成するだけでなく、これまで見たことのないオブジェクトをインテリジェントに処理することもできます。 Jianlan Luo は現在、カリフォルニア大学バークレー校の電気・コンピューターサイエンス学部の博士研究員で、バークレー人工知能センター (BAIR) のセルゲイ・レヴィン教授と共同研究しています。彼の主な研究対象は、機械学習、ロボット工学、最適制御です。学界に戻る前は、Google X でフルタイムの研究者として、Stefan Schaal 教授と一緒に働いていました。それ以前は、カリフォルニア大学バークレー校でコンピューター サイエンスの修士号と機械工学の博士号を取得しており、この間、アリス アゴギノ教授およびピーター アッビール教授と協力しました。彼はディープマインドのロンドン本社で客員研究員も務めました。 彼はカリフォルニア大学バークレー校を卒業しました。コンピューターサイエンスと応用数学専攻の学士号。現在、セルゲイ・レヴィン教授率いるRAIL研究室で研究を行っている。彼はロボット学習の分野に強い関心を持っており、ロボットが現実世界で器用な操作スキルを迅速かつ広範囲に習得できるようにする方法の開発に焦点を当てています。 彼はカリフォルニア大学の電気技師です。 , バークレー エンジニアリングとコンピューターサイエンスを専攻する学部4年生。現在、セルゲイ・レヴィン教授率いるRAIL研究室で研究を行っている。彼の研究対象はロボット工学と機械学習の交差点にあり、堅牢性が高く一般化可能な自律制御システムを構築することを目指しています。 彼はバークレー RAIL 研究所の研究エンジニアです、セルゲイ・レヴィン教授が監修。彼は以前、シンガポールの南洋工科大学で学士号を取得し、米国のジョージア工科大学で修士号を取得しました。それ以前は、Open Robotics Foundation のメンバーでした。彼の研究は、機械学習とロボット ソフトウェア テクノロジーの実世界への応用に焦点を当てています。
##彼は 1991 年にミュンヘン工科大学で生まれました。機械工学と人工知能の博士号。彼は、MIT の脳・認知科学部門と人工知能研究所の博士研究員、日本の ATR 人間情報処理研究所の招聘研究員、ジョージア工科大学運動学部の非常勤助教を務めています。米国のペンシルバニア州立大学。また、日本のERATOプロジェクトであるジャワ・キネティック・ブレイン・プロジェクト(ERATO/JST)において計算学習グループのリーダーも務めました。 1997 年に、USC のコンピューター サイエンス、神経科学、生体医工学の教授となり、終身教授に昇進しました。彼の研究対象には、統計と機械学習、ニューラル ネットワークと人工知能、計算神経科学、脳機能イメージング、非線形力学、非線形制御理論、ロボット工学、生体模倣ロボットなどのトピックが含まれます。
彼は、ドイツのマックス プランク インテリジェント システム研究所の創設ディレクターの 1 人であり、そこで長年にわたって自律運動部門を率いていました。彼は現在、Alphabet (Google) の新しいロボット工学子会社である Intrinsic の主席研究員を務めています。 Stefan Schaal は IEEE フェローです。 6. チェルシー フィン
彼女は、コンピュータ サイエンスと電気工学を専攻しています。スタンフォード大学助教授。彼女の研究室 IRIS は、大規模なロボット インタラクションを通じて知能を研究しており、SAIL および ML グループの一部です。彼女は Google Brain チームのメンバーでもあります。彼女は、学習と対話を通じて幅広い知的行動を開発するロボットやその他の知的エージェントの能力に興味を持っています。彼女は以前、カリフォルニア大学バークレー校でコンピューター サイエンスの博士号を取得し、マサチューセッツ工科大学で電気工学とコンピューター サイエンスの学士号を取得しました。 7. アビシェク・グプタ
彼は、University of UniversityのPaul G. Allenです。ワシントンコンピュータサイエンスアンドエンジニアリングスクールの助教授、WEIRD研究所を率いる。以前は、MIT で博士研究員として、ラス テドレイクおよびプルキット アガルワルと協力していました。彼は、カリフォルニア大学バークレー校の BAIR で、Sergey Levine 教授と Pieter Abbeel 教授の指導の下、機械学習とロボット工学の博士号を取得しました。その前に、カリフォルニア大学バークレー校で学士号も取得しました。彼の主な研究目標は、ロボット システムがオフィスや家庭などのさまざまな非構造化環境で複雑なタスクの実行を学習できるようにするアルゴリズムを開発することです。彼は、電気工学およびコンピュータ サイエンスの教授です。カリフォルニア大学バークレー校理学部准教授。彼の研究は、自律エージェントが複雑な動作を学習できるようにするアルゴリズム、特に自律システムがあらゆるタスクの解決方法を学習できるようにする一般的な方法に焦点を当てています。これらの方法の用途には、ロボット工学だけでなく、自律的な意思決定が必要な他のさまざまな分野が含まれます。
以上が20 分で回路基板の組み立てを学びましょう!オープンソースの SERL フレームワークは 100% の精度制御成功率を誇り、人間の 3 倍高速ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。