目次
LM-Nav モデルの概要
定性的評価
図 4 は、ロボットがたどる経路の例をいくつか示しています。 (ロボットは頭上の画像や特徴点の空間的な位置を取得することはできず、表示されるのは視覚効果のみであることに注意してください)。
定量的評価
ホームページ テクノロジー周辺機器 AI 強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

Apr 12, 2023 pm 11:55 PM
ロボット 機械学習 事前トレーニング済みモデル

大型モデルが組み込まれたロボットは、地図を見ずに言語の指示に従って目的地に到達することを学習しました。この成果は、強化学習の専門家であるセルゲイ・レヴィン氏の新しい研究によるものです。

目的地が与えられたとき、ナビゲーション トラックなしでスムーズに目的地に到達することはどれほど難しいでしょうか?

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

#このタスクは、方向感覚が苦手な人間にとっても非常に困難です。しかし、最近の研究では、数人の学者が、事前に訓練された 3 つのモデルのみを使用してロボットを「教育」したことがわかりました。

ロボット学習の中核的な課題の 1 つは、人間の高度な指示に従ってロボットがさまざまなタスクを実行できるようにすることであることは誰もが知っています。そのためには、人間の指示を理解し、現実世界でこれらの指示を実行するためのさまざまなアクションを備えたロボットが必要です。

ナビゲーションにおけるタスクに続く指示について、これまでの研究は主に、テキストによる指示が注釈付けされた軌跡から学習することに重点を置いていました。これにより、テキストによる指示の理解が可能になる可能性がありますが、データ注釈のコストがこの技術の広範な使用を妨げています。一方で、最近の研究では、目標条件付きポリシーの自己教師ありトレーニングが堅牢なナビゲーションを学習できることが示されています。これらの手法は、ラベルのない大規模なデータセットに基づいており、ビジョンベースのコントローラーをトレーニングするために事後的に再ラベル付けされます。これらの方法は拡張性があり、汎用的で堅牢ですが、多くの場合、面倒な位置ベースまたは画像ベースのターゲット指定メカニズムの使用が必要になります。

最新の論文では、カリフォルニア大学バークレー校、Google、その他の機関の研究者らは、これら 2 つの方法の利点を組み合わせて、ユーザーの注釈なしでナビゲーション データに適用できるロボット ナビゲーション用の自己監視システムを作成することを目指しています。事前トレーニングされたモデルが自然言語命令を実行する機能。研究者はこれらのモデルを使用して、ロボットにタスクを伝達する「インターフェイス」を構築します。このシステムは、事前トレーニングされた言語モデルと視覚言語モデルの一般化機能を活用して、ロボット システムが複雑な高レベルの命令を受け入れることができるようにします。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

    論文リンク: https://arxiv.org/pdf/2207.04429.pdf
  • コードリンク: https://github.com/blazejosinski/lm_nav

研究者らは、大規模な視覚コーパスでトレーニングされた既製の事前トレーニング済みモデルを活用できることを観察しました。および言語データセット (これらのコーパスは広く入手可能であり、ゼロショット汎化機能を示します) を使用して、特定の命令の追跡を可能にするインターフェイスを作成します。これを達成するために、研究者らは、視覚と言語のロボットに依存しない事前トレーニング済みモデルと、事前トレーニング済みナビゲーション モデルの利点を組み合わせました。具体的には、視覚ナビゲーション モデル (VNM:ViNG) を使用して、ロボットの視覚出力を環境のトポロジカルな「メンタル マップ」に作成しました。自由形式のテキスト命令が与えられると、事前トレーニングされた大規模言語モデル (LLM: GPT-3) を使用して命令が一連のテキスト形式の特徴点にデコードされます。次に、視覚言語モデル (VLM: CLIP) を使用して、特徴点とノードの結合尤度を推論することにより、トポロジー マップ内にこれらのテキスト特徴点を確立します。次に、新しい検索アルゴリズムを使用して確率的目的関数を最大化し、ロボットの指示パスを見つけます。これは VNM によって実行されます。研究の主な貢献は、特定の命令追跡システムである大規模モデルでのナビゲーション方法 (LM Nav) です。これは、3 つの大きな独立した事前トレーニング済みモデルを組み合わせたものです。視覚的観察と物理的動作 (VNM) を活用する自己教師ありロボット制御モデル、具体的な実装環境 (VLM) を使用せずにテキスト内に画像を配置する視覚言語モデル、および大規模なモデルです。テキストを解析して翻訳する言語モデルですが、複雑な現実世界の環境で長期的な視点での指示の追跡を可能にする視覚的根拠や身体的感覚 (LLM) はありません。研究者らは、事前にトレーニングされた視覚モデルと言語モデルをターゲット条件付きコントローラーと組み合わせて、微調整を行わずにターゲット環境で実行可能な指示パスを導き出すというアイデアを初めて具体化しました。注目すべき点は、3 つのモデルすべてが大規模なデータセットでトレーニングされ、自己教師付きの目的関数を持ち、微調整なしですぐに使用できることです。LM Nav のトレーニングでは、ロボット ナビゲーション データに対する人による注釈は必要ありません。

実験では、LM Nav が新しい環境で自然言語の指示にうまく従うと同時に、きめ細かいコマンドを使用して、最長 100 メートルの複雑な郊外ナビゲーション中に経路の曖昧さを取り除くことができることを示しています。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

LM-Nav モデルの概要

では、研究者は事前トレーニングされた画像と言語モデルをどのように使用して、ビジュアル ナビゲーション モデルにテキスト インターフェイスを提供するのでしょうか?

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

1. ターゲット環境における一連の観測結果が与えられた場合、ビジュアル ナビゲーション モデル (VNM) であるターゲットの条件付き距離関数を使用します。部分的に、それらの間の接続性を推測し、環境内の接続性のトポロジ マップを構築します。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

## 2. 大規模言語モデル (LLM) は、自然言語命令を一連の特徴点に解析するために使用されます。ポイントは、ナビゲーションの中間サブ目標として使用できます。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

3. 視覚言語モデル (VLM) は、特徴点フレーズに基づいて視覚的な観察を確立するために使用されます。

視覚言語モデルは、特徴点の説明と画像の同時確率分布を推測します (上のグラフのノードを形成します)。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

4. VLM の確率分布と VNM によって推論されたグラフ接続性を使用して、

は新しい検索アルゴリズムを採用し、環境内の最適な命令パスを検索します。これは、(i) 元の命令を満たし、(ii) 目標を達成できるグラフ内の最短パスです。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

5. 次に、

命令パスは、VNM の一部であるターゲット条件ポリシーによって実行されます。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

実験結果

定性的評価

図 4 は、ロボットがたどる経路の例をいくつか示しています。 (ロボットは頭上の画像や特徴点の空間的な位置を取得することはできず、表示されるのは視覚効果のみであることに注意してください)。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える 図 4(a) では、LM-Nav は以前の走査から単純な特徴点を正常に特定し、ゴールまでの短いパスを見つけることができます。環境内には複数の駐車特徴点がありますが、式 3 の目的関数により、ロボットは状況に応じて正しい駐車特徴点を選択できるため、全体の移動距離が最小限に抑えられます。

図 4(b) は、複数の特徴点を持つ指定されたルートを解析する LM-Nav の機能を強調しています。たとえ指示パスを無視した場合、最後の特徴点に直接到達することが最短ルートであっても、ロボットは依然として A パスを維持します。すべての特徴点を正しい順序で訪問するものが見つかります。

曖昧さを解消するにはディレクティブを使用します。 LM Nav の目標は、最終目標に到達するだけではなく、指示に従うことであるため、指示が異なれば、トラバースも異なる場合があります。図 5 は、命令を変更することで目標への複数のパスを明確にする例を示しています。短いプロンプト (青) の場合、LM Nav はより直接的なパスを優先します。より詳細なルート (マゼンタ) を指定すると、LM Nav はさまざまな特徴点のセットを通る代替パスを選択します。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

# 特徴点が欠落している状況。 LM-Nav は、命令内の特徴点を効果的に解析し、グラフ上で特徴点を特定し、目標へのパスを見つけることができますが、このプロセスは、特徴点が (i) 実環境に存在し、(ii) 特徴点が存在する可能性があるという前提に依存しています。 VLM によって認識されます。図 4(c) は、実行可能パスが特徴点の 1 つである消火栓に到達できず、建物の底部ではなく上部を迂回するパスをたどる状況を示しています。この失敗例は、VLM がロボットの観察から消火栓を検出できないことが原因でした。

特徴点を取得する際の VLM の有効性を独自に評価したところ、研究者らは、VLM がこの種のタスクに最適な既製モデルであるにもかかわらず、CLIP は少数の「ハード」特徴点を取得できないことを発見しました。 、消火栓やセメントミキサーなど。しかし、現実世界の多くの状況では、ロボットは依然として残りの特徴点を訪問するための経路を正常に見つけることができます。

定量的評価

表 1 は、20 個の命令におけるシステムの定量的なパフォーマンスをまとめたものです。実験の 85% で、LM-Nav は衝突や離脱を起こすことなく一貫して指示に従うことができました (平均して 6.4 キロメートルの移動ごとに 1 回の介入)。ナビゲーション モデルのないベースラインと比較して、LM-Nav は効率的で衝突のないターゲット パスの実行において一貫して優れたパフォーマンスを発揮します。失敗したすべての実験において、失敗の原因は、計画段階での能力不足、つまり検索アルゴリズムがグラフ内の特定の「難しい」特徴点を直観的に特定できないこと、その結果、命令が不完全に実行されたことが原因であると考えられます。これらの故障モードの調査により、システムの最も重要な部分は、消火栓などの見慣れない特徴点や、露出不足の画像などの厳しい照明条件下のシーンを検出する VLM の機能であることが明らかになりました。

強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える

以上が強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教えるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

この記事では、SHAP: 機械学習のモデルの説明について説明します。 この記事では、SHAP: 機械学習のモデルの説明について説明します。 Jun 01, 2024 am 10:58 AM

機械学習とデータ サイエンスの分野では、モデルの解釈可能性が常に研究者や実務家に焦点を当ててきました。深層学習やアンサンブル手法などの複雑なモデルが広く適用されるようになったことで、モデルの意思決定プロセスを理解することが特に重要になってきました。 Explainable AI|XAI は、モデルの透明性を高めることで、機械学習モデルに対する信頼と自信を構築するのに役立ちます。モデルの透明性の向上は、複数の複雑なモデルの普及や、モデルを説明するための意思決定プロセスなどの方法によって実現できます。これらの方法には、特徴重要度分析、モデル予測間隔推定、ローカル解釈可能性アルゴリズムなどが含まれます。特徴重要度分析では、入力特徴に対するモデルの影響度を評価することで、モデルの意思決定プロセスを説明できます。モデルの予測間隔の推定

学習曲線を通じて過学習と過小学習を特定する 学習曲線を通じて過学習と過小学習を特定する Apr 29, 2024 pm 06:50 PM

この記事では、学習曲線を通じて機械学習モデルの過学習と過小学習を効果的に特定する方法を紹介します。過小適合と過適合 1. 過適合 モデルがデータからノイズを学習するためにデータ上で過学習されている場合、そのモデルは過適合していると言われます。過学習モデルはすべての例を完璧に学習するため、未確認の新しい例を誤って分類してしまいます。過適合モデルの場合、完璧/ほぼ完璧なトレーニング セット スコアとひどい検証セット/テスト スコアが得られます。若干修正: 「過学習の原因: 複雑なモデルを使用して単純な問題を解決し、データからノイズを抽出します。トレーニング セットとしての小さなデータ セットはすべてのデータを正しく表現できない可能性があるため、2. 過学習の Heru。」

宇宙探査と人類居住工学における人工知能の進化 宇宙探査と人類居住工学における人工知能の進化 Apr 29, 2024 pm 03:25 PM

1950 年代に人工知能 (AI) が誕生しました。そのとき、研究者たちは、機械が思考などの人間と同じようなタスクを実行できることを発見しました。その後、1960 年代に米国国防総省は人工知能に資金を提供し、さらなる開発のために研究所を設立しました。研究者たちは、宇宙探査や極限環境での生存など、多くの分野で人工知能の応用を見出しています。宇宙探査は、地球を超えた宇宙全体を対象とする宇宙の研究です。宇宙は地球とは条件が異なるため、極限環境に分類されます。宇宙で生き残るためには、多くの要素を考慮し、予防策を講じる必要があります。科学者や研究者は、宇宙を探索し、あらゆるものの現状を理解することが、宇宙の仕組みを理解し、潜在的な環境危機に備えるのに役立つと信じています。

C++ での機械学習アルゴリズムの実装: 一般的な課題と解決策 C++ での機械学習アルゴリズムの実装: 一般的な課題と解決策 Jun 03, 2024 pm 01:25 PM

C++ の機械学習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマート ポインター、最新のスレッド ライブラリ、SIMD 命令、サードパーティ ライブラリの使用、コーディング スタイル ガイドラインの遵守、自動化ツールの使用が含まれます。実践的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実装し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

AI はどのようにロボットをより自律的で順応性のあるものにすることができるのでしょうか? AI はどのようにロボットをより自律的で順応性のあるものにすることができるのでしょうか? Jun 03, 2024 pm 07:18 PM

産業オートメーション技術の分野では、人工知能 (AI) と Nvidia という無視できない 2 つの最近のホットスポットがあります。元のコンテンツの意味を変更したり、コンテンツを微調整したり、コンテンツを書き換えたり、続行しないでください。「それだけでなく、Nvidia はオリジナルのグラフィックス プロセッシング ユニット (GPU) に限定されていないため、この 2 つは密接に関連しています。」このテクノロジーはデジタル ツインの分野にまで広がり、新たな AI テクノロジーと密接に関係しています。「最近、NVIDIA は、Aveva、Rockwell Automation、Siemens などの大手産業オートメーション企業を含む多くの産業企業と提携に至りました。シュナイダーエレクトリック、Teradyne Robotics とその MiR および Universal Robots 企業も含まれます。最近、Nvidiahascoll

説明可能な AI: 複雑な AI/ML モデルの説明 説明可能な AI: 複雑な AI/ML モデルの説明 Jun 03, 2024 pm 10:08 PM

翻訳者 | Li Rui によるレビュー | 今日、人工知能 (AI) および機械学習 (ML) モデルはますます複雑になっており、これらのモデルによって生成される出力はブラックボックスになっており、関係者に説明することができません。 Explainable AI (XAI) は、利害関係者がこれらのモデルがどのように機能するかを理解できるようにし、これらのモデルが実際に意思決定を行う方法を確実に理解できるようにし、AI システムの透明性、信頼性、およびこの問題を解決するための説明責任を確保することで、この問題を解決することを目指しています。この記事では、さまざまな説明可能な人工知能 (XAI) 手法を検討して、その基礎となる原理を説明します。説明可能な AI が重要であるいくつかの理由 信頼と透明性: AI システムが広く受け入れられ、信頼されるためには、ユーザーは意思決定がどのように行われるかを理解する必要があります

機械学習における Golang テクノロジーの今後の動向の展望 機械学習における Golang テクノロジーの今後の動向の展望 May 08, 2024 am 10:15 AM

機械学習の分野における Go 言語の応用可能性は次のとおりです。 同時実行性: 並列プログラミングをサポートし、機械学習タスクにおける計算量の多い操作に適しています。効率: ガベージ コレクターと言語機能により、大規模なデータ セットを処理する場合でもコードの効率が保証されます。使いやすさ: 構文が簡潔なので、機械学習アプリケーションの学習と作成が簡単です。

フラッシュ アテンションは安定していますか?メタとハーバードは、モデルの重みの偏差が桁違いに変動していることを発見しました フラッシュ アテンションは安定していますか?メタとハーバードは、モデルの重みの偏差が桁違いに変動していることを発見しました May 30, 2024 pm 01:24 PM

MetaFAIR はハーバード大学と協力して、大規模な機械学習の実行時に生成されるデータの偏りを最適化するための新しい研究フレームワークを提供しました。大規模な言語モデルのトレーニングには数か月かかることが多く、数百、さらには数千の GPU を使用することが知られています。 LLaMA270B モデルを例にとると、そのトレーニングには合計 1,720,320 GPU 時間が必要です。大規模なモデルのトレーニングには、これらのワークロードの規模と複雑さにより、特有のシステム上の課題が生じます。最近、多くの機関が、SOTA 生成 AI モデルをトレーニングする際のトレーニング プロセスの不安定性を報告しています。これらは通常、損失スパイクの形で現れます。たとえば、Google の PaLM モデルでは、トレーニング プロセス中に最大 20 回の損失スパイクが発生しました。数値的なバイアスがこのトレーニングの不正確さの根本原因です。

See all articles