強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教える
大型モデルが組み込まれたロボットは、地図を見ずに言語の指示に従って目的地に到達することを学習しました。この成果は、強化学習の専門家であるセルゲイ・レヴィン氏の新しい研究によるものです。
目的地が与えられたとき、ナビゲーション トラックなしでスムーズに目的地に到達することはどれほど難しいでしょうか?
- 論文リンク: https://arxiv.org/pdf/2207.04429.pdf
- コードリンク: https://github.com/blazejosinski/lm_nav
LM-Nav モデルの概要
では、研究者は事前トレーニングされた画像と言語モデルをどのように使用して、ビジュアル ナビゲーション モデルにテキスト インターフェイスを提供するのでしょうか?
1. ターゲット環境における一連の観測結果が与えられた場合、ビジュアル ナビゲーション モデル (VNM) であるターゲットの条件付き距離関数を使用します。部分的に、それらの間の接続性を推測し、環境内の接続性のトポロジ マップを構築します。
## 2. 大規模言語モデル (LLM) は、自然言語命令を一連の特徴点に解析するために使用されます。ポイントは、ナビゲーションの中間サブ目標として使用できます。
3. 視覚言語モデル (VLM) は、特徴点フレーズに基づいて視覚的な観察を確立するために使用されます。
視覚言語モデルは、特徴点の説明と画像の同時確率分布を推測します (上のグラフのノードを形成します)。
は新しい検索アルゴリズムを採用し、環境内の最適な命令パスを検索します。これは、(i) 元の命令を満たし、(ii) 目標を達成できるグラフ内の最短パスです。
命令パスは、VNM の一部であるターゲット条件ポリシーによって実行されます。
実験結果
定性的評価
図 4 は、ロボットがたどる経路の例をいくつか示しています。 (ロボットは頭上の画像や特徴点の空間的な位置を取得することはできず、表示されるのは視覚効果のみであることに注意してください)。
図 4(a) では、LM-Nav は以前の走査から単純な特徴点を正常に特定し、ゴールまでの短いパスを見つけることができます。環境内には複数の駐車特徴点がありますが、式 3 の目的関数により、ロボットは状況に応じて正しい駐車特徴点を選択できるため、全体の移動距離が最小限に抑えられます。
図 4(b) は、複数の特徴点を持つ指定されたルートを解析する LM-Nav の機能を強調しています。たとえ指示パスを無視した場合、最後の特徴点に直接到達することが最短ルートであっても、ロボットは依然として A パスを維持します。すべての特徴点を正しい順序で訪問するものが見つかります。
曖昧さを解消するにはディレクティブを使用します。 LM Nav の目標は、最終目標に到達するだけではなく、指示に従うことであるため、指示が異なれば、トラバースも異なる場合があります。図 5 は、命令を変更することで目標への複数のパスを明確にする例を示しています。短いプロンプト (青) の場合、LM Nav はより直接的なパスを優先します。より詳細なルート (マゼンタ) を指定すると、LM Nav はさまざまな特徴点のセットを通る代替パスを選択します。
特徴点を取得する際の VLM の有効性を独自に評価したところ、研究者らは、VLM がこの種のタスクに最適な既製モデルであるにもかかわらず、CLIP は少数の「ハード」特徴点を取得できないことを発見しました。 、消火栓やセメントミキサーなど。しかし、現実世界の多くの状況では、ロボットは依然として残りの特徴点を訪問するための経路を正常に見つけることができます。
定量的評価
表 1 は、20 個の命令におけるシステムの定量的なパフォーマンスをまとめたものです。実験の 85% で、LM-Nav は衝突や離脱を起こすことなく一貫して指示に従うことができました (平均して 6.4 キロメートルの移動ごとに 1 回の介入)。ナビゲーション モデルのないベースラインと比較して、LM-Nav は効率的で衝突のないターゲット パスの実行において一貫して優れたパフォーマンスを発揮します。失敗したすべての実験において、失敗の原因は、計画段階での能力不足、つまり検索アルゴリズムがグラフ内の特定の「難しい」特徴点を直観的に特定できないこと、その結果、命令が不完全に実行されたことが原因であると考えられます。これらの故障モードの調査により、システムの最も重要な部分は、消火栓などの見慣れない特徴点や、露出不足の画像などの厳しい照明条件下のシーンを検出する VLM の機能であることが明らかになりました。
以上が強化学習の第一人者であるセルゲイ・レヴィンの新作: 3 つの大きなモデルがロボットに自分の進むべき道を認識するよう教えるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











機械学習とデータ サイエンスの分野では、モデルの解釈可能性が常に研究者や実務家に焦点を当ててきました。深層学習やアンサンブル手法などの複雑なモデルが広く適用されるようになったことで、モデルの意思決定プロセスを理解することが特に重要になってきました。 Explainable AI|XAI は、モデルの透明性を高めることで、機械学習モデルに対する信頼と自信を構築するのに役立ちます。モデルの透明性の向上は、複数の複雑なモデルの普及や、モデルを説明するための意思決定プロセスなどの方法によって実現できます。これらの方法には、特徴重要度分析、モデル予測間隔推定、ローカル解釈可能性アルゴリズムなどが含まれます。特徴重要度分析では、入力特徴に対するモデルの影響度を評価することで、モデルの意思決定プロセスを説明できます。モデルの予測間隔の推定

この記事では、学習曲線を通じて機械学習モデルの過学習と過小学習を効果的に特定する方法を紹介します。過小適合と過適合 1. 過適合 モデルがデータからノイズを学習するためにデータ上で過学習されている場合、そのモデルは過適合していると言われます。過学習モデルはすべての例を完璧に学習するため、未確認の新しい例を誤って分類してしまいます。過適合モデルの場合、完璧/ほぼ完璧なトレーニング セット スコアとひどい検証セット/テスト スコアが得られます。若干修正: 「過学習の原因: 複雑なモデルを使用して単純な問題を解決し、データからノイズを抽出します。トレーニング セットとしての小さなデータ セットはすべてのデータを正しく表現できない可能性があるため、2. 過学習の Heru。」

1950 年代に人工知能 (AI) が誕生しました。そのとき、研究者たちは、機械が思考などの人間と同じようなタスクを実行できることを発見しました。その後、1960 年代に米国国防総省は人工知能に資金を提供し、さらなる開発のために研究所を設立しました。研究者たちは、宇宙探査や極限環境での生存など、多くの分野で人工知能の応用を見出しています。宇宙探査は、地球を超えた宇宙全体を対象とする宇宙の研究です。宇宙は地球とは条件が異なるため、極限環境に分類されます。宇宙で生き残るためには、多くの要素を考慮し、予防策を講じる必要があります。科学者や研究者は、宇宙を探索し、あらゆるものの現状を理解することが、宇宙の仕組みを理解し、潜在的な環境危機に備えるのに役立つと信じています。

C++ の機械学習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマート ポインター、最新のスレッド ライブラリ、SIMD 命令、サードパーティ ライブラリの使用、コーディング スタイル ガイドラインの遵守、自動化ツールの使用が含まれます。実践的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実装し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

産業オートメーション技術の分野では、人工知能 (AI) と Nvidia という無視できない 2 つの最近のホットスポットがあります。元のコンテンツの意味を変更したり、コンテンツを微調整したり、コンテンツを書き換えたり、続行しないでください。「それだけでなく、Nvidia はオリジナルのグラフィックス プロセッシング ユニット (GPU) に限定されていないため、この 2 つは密接に関連しています。」このテクノロジーはデジタル ツインの分野にまで広がり、新たな AI テクノロジーと密接に関係しています。「最近、NVIDIA は、Aveva、Rockwell Automation、Siemens などの大手産業オートメーション企業を含む多くの産業企業と提携に至りました。シュナイダーエレクトリック、Teradyne Robotics とその MiR および Universal Robots 企業も含まれます。最近、Nvidiahascoll

翻訳者 | Li Rui によるレビュー | 今日、人工知能 (AI) および機械学習 (ML) モデルはますます複雑になっており、これらのモデルによって生成される出力はブラックボックスになっており、関係者に説明することができません。 Explainable AI (XAI) は、利害関係者がこれらのモデルがどのように機能するかを理解できるようにし、これらのモデルが実際に意思決定を行う方法を確実に理解できるようにし、AI システムの透明性、信頼性、およびこの問題を解決するための説明責任を確保することで、この問題を解決することを目指しています。この記事では、さまざまな説明可能な人工知能 (XAI) 手法を検討して、その基礎となる原理を説明します。説明可能な AI が重要であるいくつかの理由 信頼と透明性: AI システムが広く受け入れられ、信頼されるためには、ユーザーは意思決定がどのように行われるかを理解する必要があります

機械学習の分野における Go 言語の応用可能性は次のとおりです。 同時実行性: 並列プログラミングをサポートし、機械学習タスクにおける計算量の多い操作に適しています。効率: ガベージ コレクターと言語機能により、大規模なデータ セットを処理する場合でもコードの効率が保証されます。使いやすさ: 構文が簡潔なので、機械学習アプリケーションの学習と作成が簡単です。

MetaFAIR はハーバード大学と協力して、大規模な機械学習の実行時に生成されるデータの偏りを最適化するための新しい研究フレームワークを提供しました。大規模な言語モデルのトレーニングには数か月かかることが多く、数百、さらには数千の GPU を使用することが知られています。 LLaMA270B モデルを例にとると、そのトレーニングには合計 1,720,320 GPU 時間が必要です。大規模なモデルのトレーニングには、これらのワークロードの規模と複雑さにより、特有のシステム上の課題が生じます。最近、多くの機関が、SOTA 生成 AI モデルをトレーニングする際のトレーニング プロセスの不安定性を報告しています。これらは通常、損失スパイクの形で現れます。たとえば、Google の PaLM モデルでは、トレーニング プロセス中に最大 20 回の損失スパイクが発生しました。数値的なバイアスがこのトレーニングの不正確さの根本原因です。
