メタ研究者が AI の新たな試みを行う:地図やトレーニングなしで物理的に移動するようにロボットに教える
Meta Platforms 社の人工知能部門は最近、少量のトレーニング データのサポートを利用して AI モデルに物理世界の歩き方を学習させ、急速な進歩を遂げたと発表しました。
この研究により、AI モデルが視覚的なナビゲーション機能を獲得するまでの時間を大幅に短縮できます。以前は、このような目標を達成するには、大規模なデータセットを使用した「強化学習」を繰り返す必要がありました。
メタ AI 研究者らは、この AI ビジュアル ナビゲーションの探求は仮想世界に大きな影響を与えるだろうと述べています。このプロジェクトの基本的なアイデアは複雑ではありません。単純に観察と探索を通じて、AI が人間と同じように物理空間を移動できるようにするというものです。
メタ AI 部門は次のように説明しました。「たとえば、AR メガネに鍵を見つけるようガイドしてもらいたい場合、AI が不慣れで変化する環境のレイアウトを理解できるようにする方法を見つけなければなりません。結局のところ、これは非常に詳細で小規模な要件であるため、大量の計算能力を消費する高精度のプリセット マップに永久に依存することは不可能です。人間はコーヒー テーブルの正確な位置や長さを知る必要がなく、コーヒー テーブルの隅を簡単に移動できます。
この目的を達成するために、Meta は「身体化 AI」、つまり 3D シミュレーションのインタラクティブなメカニズムを通じて AI システムをトレーニングすることに注力することにしました。この分野でメタ社は、地図やGPSセンサーなしで新しい環境をナビゲートできる有望な「ポイントターゲットナビゲーションモデル」を確立したと述べた。
このモデルは視覚計測と呼ばれる技術を使用しており、AI が視覚入力に基づいて現在位置を追跡することができます。メタ氏は、このデータ拡張技術により、手動でデータに注釈を付ける必要がなく、効果的なニューラル モデルを迅速にトレーニングできると述べました。 Meta 氏はまた、自社の Habitat 2.0 を組み込んだ AI トレーニング プラットフォーム (Realistic PointNav ベンチマーク タスクを使用して仮想空間シミュレーションを実行する) でのテストを完了し、成功率は 94% であると述べました。
Meta 氏は次のように説明しました。「私たちの手法はデータセット内のすべてのシナリオを完全に解決したわけではありませんが、この研究は、現実世界の環境でナビゲートする能力が十分ではないことを最初に証明しました。必ず明示的なマッピングを実装する必要があります。」
マップに依存せずに AI ナビゲーション トレーニングをさらに改善するために、Meta は Habitat-Web と呼ばれるトレーニング データ セットを確立しました。これには、100,000 を超える異なるオブジェクトとゴールのナビゲーションが含まれています。人間が実証した手法。 Webブラウザ上で動作するHabitatシミュレーターはAmazon.comのMechanical Turkサービスにスムーズに接続でき、ユーザーは仮想ロボットを遠隔地から安全に操作できる。メタ氏は、得られたデータはAIエージェントが「最先端の結果」を達成するためのトレーニング資料として使用されると述べた。全体的な空間特性を理解するために部屋をスキャンしたり、隅に障害物があるかどうかを確認したりすることは、すべて AI が人間から学習できる効率的なオブジェクト検索動作です。
さらに、メタ AI チームは、ロボットが独自の「ゼロサンプル セット」を通じてさまざまなセマンティック ナビゲーション タスクや目標モードをナビゲートできるようにする、いわゆる「プラグ アンド プレイ」モジュール式アプローチも開発しました。体験学習フレームワーク」の一般化を実現。このようにして、AI エージェントはリソースを大量に消費するマップやトレーニングを必要とせずに基本的なナビゲーション スキルを習得でき、追加の調整を行わずに 3D 環境でさまざまなタスクを実行できます。
#メタは、これらのエージェントは画像ターゲットを継続的に検索するように訓練されていると説明しています。彼らは環境内のランダムな場所で撮影された写真を受け取り、自律ナビゲーションを使用してその場所を見つけようとします。メタ研究者らは、「我々の手法はトレーニングデータを1/12.5に削減し、最新の転移学習技術よりも成功率が14%高い」と述べた
Constellation Researchのアナリスト、ホルガー・ミュラー氏はインタビューでZhong氏は次のように述べた。メタのこの最新の開発は、メタバース開発計画において重要な役割を果たすことが期待されています。彼は、将来的に仮想世界が標準になるのであれば、AI はこの新しい空間を理解できる必要があり、理解するためのコストはそれほど高くないと考えています。
Mueller 氏はさらに、「AI の物理世界を理解する能力は、ソフトウェアベースの方法によって拡張する必要があります。Meta は現在この道を進んでおり、トレーニングを必要としない AI を開発するなど、身体化された AI において進歩を遂げています。」と付け加えました。 「周囲の環境を自律的に理解できるソフトウェア。これが早期に実用化されるのを楽しみにしています。」
これらの実際の使用例は、私たちからそう遠くないかもしれません。メタ氏は、次のステップは、これらの結果をナビゲーションからモバイル操作に発展させ、特定のタスク(ウォレットを識別して所有者に返すなど)を実行できるAIエージェントを開発することだと述べた。
以上がメタ研究者が AI の新たな試みを行う:地図やトレーニングなしで物理的に移動するようにロボットに教えるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティング システム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元(当サイト注:月額49.9元に相当)、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元(月額41.6元に相当)です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

検索強化生成およびセマンティック メモリを AI コーディング アシスタントに組み込むことで、開発者の生産性、効率、精度を向上させます。 JanakiramMSV 著者の EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG から翻訳。基本的な AI プログラミング アシスタントは当然役に立ちますが、ソフトウェア言語とソフトウェア作成の最も一般的なパターンに関する一般的な理解に依存しているため、最も適切で正しいコードの提案を提供できないことがよくあります。これらのコーディング アシスタントによって生成されたコードは、彼らが解決する責任を負っている問題の解決には適していますが、多くの場合、個々のチームのコーディング標準、規約、スタイルには準拠していません。これにより、コードがアプリケーションに受け入れられるように修正または調整する必要がある提案が得られることがよくあります。

大規模言語モデル (LLM) は巨大なテキスト データベースでトレーニングされ、そこで大量の現実世界の知識を取得します。この知識はパラメータに組み込まれており、必要なときに使用できます。これらのモデルの知識は、トレーニングの終了時に「具体化」されます。事前トレーニングの終了時に、モデルは実際に学習を停止します。モデルを調整または微調整して、この知識を活用し、ユーザーの質問により自然に応答する方法を学びます。ただし、モデルの知識だけでは不十分な場合があり、モデルは RAG を通じて外部コンテンツにアクセスできますが、微調整を通じてモデルを新しいドメインに適応させることが有益であると考えられます。この微調整は、ヒューマン アノテーターまたは他の LLM 作成物からの入力を使用して実行され、モデルは追加の実世界の知識に遭遇し、それを統合します。

Meta Connect 2024イベントは9月25日から26日に予定されており、このイベントで同社は新しい手頃な価格の仮想現実ヘッドセットを発表すると予想されている。 Meta Quest 3S であると噂されている VR ヘッドセットが FCC のリストに掲載されたようです。この提案

GPUを準備しましょう!ついにLlama3.1が登場しましたが、ソースはMeta公式ではありません。今日、新しい Llama 大型モデルのリーク ニュースが Reddit で話題になり、基本モデルに加えて、8B、70B、最大パラメータ 405B のベンチマーク結果も含まれています。以下の図は、Llama3.1 の各バージョンと OpenAIGPT-4o および Llama38B/70B の比較結果を示しています。 70B バージョンでも複数のベンチマークで GPT-4o を上回っていることがわかります。画像ソース: https://x.com/mattshumer_/status/1815444612414087294 明らかに、8B と 70 のバージョン 3.1

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

たった今、待望の Llama 3.1 が正式にリリースされました。 Metaは「オープンソースは新たな時代を導く」と公式に声を上げた。 Meta 氏は公式ブログで、「今日まで、オープンソースの大規模言語モデルは、機能とパフォーマンスの点でクローズド モデルに比べてほとんど遅れを取ってきました。今、私たちはオープンソースが主導する新しい時代の到来を告げています。私たちは MetaLlama3.1405B を一般公開しました」と述べました。これは世界で最大かつ最も強力なオープンソースの基本モデルであると私たちは信じています。現在までに、Llama のすべてのバージョンの合計ダウンロード数は 3 億回を超えており、Meta の創設者兼 CEO のザッカーバーグ氏も次のように書いています。」長い記事「OpenSourceAIsthePathForward」、

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性を実証しています。 「S」で始まる関連研究
