Googleはゴミの分別を支援する強化学習を使用して23台のロボットを構築するのに2年かかった
強化学習 (RL) を使用すると、ロボットが試行錯誤を通じて対話し、複雑な動作を学習し、時間の経過とともにより優れたものになることができます。 Google のこれまでの研究では、RL によってロボットが物をつかむ、マルチタスクの学習、さらには卓球をするなどの複雑なスキルを習得できるようにする方法が検討されてきました。ロボットの強化学習は大きく進歩しましたが、強化学習を備えたロボットを日常の環境で目にすることはまだありません。現実の世界は複雑かつ多様で、時間の経過とともに常に変化しているため、ロボット システムにとって大きな課題となります。しかし、強化学習はこれらの課題に対処するための優れたツールであるはずです。実際に仕事で練習、改善、学習することで、ロボットは絶えず変化する世界に適応できるはずです。
Google の論文「Deep RL at Scale: Sorting Waste in Office Buildings with a Fleet of Mobile Manipulators」では、研究者が最新の大規模実験を通じてこの問題を解決する方法を模索しています。彼らは 2 年間にわたって 23 台の RL 対応ロボットを導入し、Google のオフィスビルでゴミの分別とリサイクルを行いました。使用されるロボット システムは、実世界のデータからのスケーラブルな深層強化学習と、シミュレーション トレーニングからのガイド付きおよび補助的なオブジェクト認識入力を組み合わせて、エンドツーエンドのトレーニングの利点を維持しながら一般化を向上させます。
論文アドレス: https://rl-at-scale.github.io/assets/rl_at_scale .pdf
##問題設定#人々が廃棄物を適切に分別しないと、リサイクル可能なバッチが汚染され、堆肥が不適切に埋め立て地に廃棄される可能性があります。 Googleの実験では、ロボットがオフィスビルの周りを歩き回り、「ゴミ箱」(リサイクル箱、堆肥箱、その他のゴミ箱)を探した。ロボットのタスクは、各ゴミステーションに到着して廃棄物を分別し、すべてのリサイクル可能なアイテム (缶、ボトル) をリサイクル可能なビンに、すべての堆肥化可能なアイテム (段ボール容器、紙コップ) を堆肥ビンに入れるために、アイテムを異なるビン間で輸送することです。他のすべては他のビンにあります。
実際、この作業は思ったほど簡単ではありません。人々がゴミ箱に捨てたさまざまなアイテムを拾うというサブタスクだけでも、すでに大きな課題です。また、ロボットは各オブジェクトに適切なビンを識別し、できるだけ迅速かつ効率的にそれらを分類する必要があります。現実の世界では、ロボットは次のような実際のオフィスビルの例など、さまざまなユニークな状況に遭遇します。
さまざまな経験から学ぶ職場での継続的な学習が役立ちます。 , しかし、その点に到達する前に、基本的なスキルのセットでロボットをガイドする必要があります。この目的を達成するために、Google は 4 つの経験のソースを使用します: (1) 成功率は低いが、初期の経験を提供するのに役立つ単純な手作業で設計された戦略、(2) シミュレーションから現実への移行を使用して、ある程度の経験を提供するシミュレーション トレーニング フレームワーク(3) ロボットが代表的なゴミステーションを使用して継続的に練習する「ロボット教室」、(4) 実際の導入環境、実際のゴミのあるオフィスビルでロボットが練習する。
# この大規模アプリケーションにおける強化学習の概略図。スクリプトで生成されたデータを使用して、ポリシーの起動をガイドします (左上)。次に、シミュレーションから実際のモデルへのトレーニングが行われ、シミュレーション環境で追加のデータが生成されます (右上)。各導入サイクル中に、「ロボット教室」 (右下) で収集されたデータを追加します。オフィスビルでのデータの展開と収集 (左下)。
ここで使用される強化学習フレームワークは QT-Opt に基づいており、実験室環境やその他の一連のスキルでさまざまなゴミを捕捉するためにも使用されます。シミュレーション環境をガイドする簡単なスクリプト戦略から始めて、強化学習を適用し、CycleGAN ベースの転送方法を使用して、RetinaGAN を使用してシミュレーション画像をより現実的に見せます。ここからが「ロボット教室」の始まりです。実際のオフィスビルは最もリアルな体験を提供しますが、データ収集のスループットには限界があります。分別すべきゴミが大量にある日もあれば、それほど多くない日もあります。ロボットはその経験のほとんどを「ロボット教室」で蓄積してきました。以下に示す「ロボット教室」では、20 台のロボットがゴミの分別作業を練習しています。 #これらのロボットが「ロボット教室」で訓練されるとき同時に、他のロボットも 3 つのオフィスビルにある 30 個のゴミ箱で同時に学習していました。 研究者らは最終的に、「ロボット教室」から 540,000 件の実験データと、実際の展開環境での 325,000 件の実験データを収集しました。データが増加し続けると、システム全体のパフォーマンスが向上します。研究者らは、制御された比較を可能にするために「ロボット教室」で最終システムを評価し、実際の展開でロボットが目にするものに基づいてシナリオを設定しました。最終的なシステムは平均約 84% の精度を達成し、データが追加されるにつれてパフォーマンスは着実に向上しました。現実世界では、研究者らは 2021 年から 2022 年にかけて実際に導入された統計を文書化し、このシステムがゴミ箱内の汚染物質を重量で 40 ~ 50 パーセント削減できることを発見しました。 Google の研究者は論文の中で、テクノロジーの設計、さまざまな設計上の決定の減衰に関する研究、および実験からのより詳細な統計についてのより深い洞察を提供しています。 実験結果は、強化学習ベースのシステムにより、ロボットが実際のオフィス環境で実際のタスクを処理できることを示しています。オフライン データとオンライン データを組み合わせることで、ロボットは現実世界のさまざまな状況に適応できるようになります。同時に、シミュレーション環境や実際の環境を含む、より制御された「教室」環境での学習は、強化学習の「はずみ車」が回転し始める強力な開始メカニズムを提供し、それによって適応性を実現できます。 重要な結果は達成されましたが、やるべきことはまだたくさんあります。最終的な強化学習戦略が常に成功するとは限らず、パフォーマンスを向上させるにはより強力なモデルが必要です。これを次のように拡張します。より幅広いタスク。さらに、他のタスク、他のロボット、さらにはインターネットビデオなどの他の経験源が、シミュレーションや「教室」から得られるスタートアップの経験をさらに補足する可能性があります。これらは今後取り組むべき課題です。 分類パフォーマンス
結論と今後の展望
以上がGoogleはゴミの分別を支援する強化学習を使用して23台のロボットを構築するのに2年かかったの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









vue.jsのオブジェクトに文字列を変換する場合、標準のjson文字列にはjson.parse()が推奨されます。非標準のJSON文字列の場合、文字列は正規表現を使用して処理し、フォーマットまたはデコードされたURLエンコードに従ってメソッドを削減できます。文字列形式に従って適切な方法を選択し、バグを避けるためにセキュリティとエンコードの問題に注意してください。

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合(ポート占有率をチェックして構成の変更)、許可の問題(ユーザー許可を実行するサービスを確認)、構成ファイルエラー(パラメーター設定のチェック)、データディレクトリの破損(テーブルスペースの復元)、INNODBテーブルスペースの問題(IBDATA1ファイルのチェック)、プラグインロード障害(エラーログのチェック)が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

概要:Vue.js文字列配列をオブジェクト配列に変換するための次の方法があります。基本方法:定期的なフォーマットデータに合わせてマップ関数を使用します。高度なゲームプレイ:正規表現を使用すると、複雑な形式を処理できますが、慎重に記述して考慮する必要があります。パフォーマンスの最適化:大量のデータを考慮すると、非同期操作または効率的なデータ処理ライブラリを使用できます。ベストプラクティス:コードスタイルをクリアし、意味のある変数名とコメントを使用して、コードを簡潔に保ちます。

Vue axiosのタイムアウトを設定するために、Axiosインスタンスを作成してタイムアウトオプションを指定できます。グローバル設定:Vue.Prototype。$ axios = axios.create({Timeout:5000});単一のリクエストで:this。$ axios.get( '/api/users'、{timeout:10000})。

MySQLパフォーマンスの最適化は、インストール構成、インデックス作成、クエリの最適化、監視、チューニングの3つの側面から開始する必要があります。 1。インストール後、INNODB_BUFFER_POOL_SIZEパラメーターやclose query_cache_sizeなど、サーバーの構成に従ってmy.cnfファイルを調整する必要があります。 2。過度のインデックスを回避するための適切なインデックスを作成し、説明コマンドを使用して実行計画を分析するなど、クエリステートメントを最適化します。 3. MySQL独自の監視ツール(ShowProcessList、ShowStatus)を使用して、データベースの健康を監視し、定期的にデータベースをバックアップして整理します。これらの手順を継続的に最適化することによってのみ、MySQLデータベースのパフォーマンスを改善できます。

リモートシニアバックエンジニアの求人事業者:サークル場所:リモートオフィスジョブタイプ:フルタイム給与:$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です
