ビデオ ゲームは現実世界をシミュレートする舞台となり、無限の可能性を示しています。 「グランド・セフト・オート」(GTA)を例に挙げると、このゲームではプレイヤーは仮想都市ロスサントスでの多彩な生活を一人称視点で体験することができます。しかし、人間のプレイヤーはロスサントスでのプレイを楽しみ、タスクを完了することができるので、AI ビジュアル モデルを使用して GTA のキャラクターを制御し、タスクを実行する「プレイヤー」になることもできるでしょうか? GTA の AI プレイヤーは、交通ルールを守り、警察の犯罪者逮捕を手伝い、あるいはホームレスの人々が適切な住居を見つけるのを手伝う親切な通行人になる、五つ星の善良な市民の役割を果たすことができるでしょうか?
現在の視覚言語モデル (VLM) は、マルチモーダルな知覚と推論において大幅な進歩を遂げていますが、通常は、より単純な視覚的質問応答 (VQA) または視覚的注釈 (キャプション) タスクに基づいています。ただし、これらのタスク設定では、VLM が実際に現実世界でタスクを完了できるようにすることはできません。実際のタスクでは視覚情報を理解する必要があるだけでなく、モデルが推論を計画し、リアルタイムで更新される環境情報に基づいてフィードバックを提供する能力も必要とされるためです。同時に、生成された計画は、タスクを現実的に完了するために環境内のエンティティを操作できる必要もあります。
既存の言語モデル (LLM) は、提供された情報に基づいてタスク計画を実行できますが、理解することはできません。視覚的な入力. これにより、特定の実世界のタスク、特に一部の身体化された知能タスクを実行するときの言語モデルの適用範囲が大幅に制限されます. テキストベースの入力は、多くの場合、複雑すぎるか精緻化するのが難しいため、言語モデルは効率的に情報を抽出できませんそこからタスクを完了します。現在、プログラム生成において言語モデルが検討されていますが、視覚入力に基づいて構造化され、実行可能で堅牢なコードを生成することについてはまだ深く検討されていません。
インテリジェンスを体現した大規模なモデルを作成する 正確に計画を立て、コマンドを実行できる自律的で状況認識型のシステムを作成するという問題を解決するために、シンガポールの南洋理工大学や清華大学などの学者らがオクトパスを提案しました。 Octopus は、視覚的な入力を通じて学習し、現実世界を理解し、実行可能コードを生成することによってさまざまな実践的なタスクを完了することを目的とした、ビジョンベースのプログラム可能なエージェントです。オクトパスは、ビジュアル入力と実行可能コードの大量のデータ ペアでトレーニングすることにより、ビデオ ゲームのキャラクターを制御してゲームのタスクや複雑な家事を完了する方法を学習しました。
論文リンク: https://arxiv.org/abs/2310.08588
プロジェクト Web ページ: https://choiszt.github.io/Octopus/
オープンソースコードリンク: https://github.com/dongyh20/Octopus
書き直す必要がある内容は、データ収集とトレーニングです。 書き換えられた内容: データ収集とトレーニング
身体化された知能タスクを完了できる視覚言語モデルをトレーニングするために、研究者らはトレーニング データとテスト環境を提供するための 2 つのシミュレーション システムを含む OctoVerse も開発しました。タコのトレーニングに。これら 2 つのシミュレーション環境は、VLM の具体化されたインテリジェンスに利用可能なトレーニングおよびテスト シナリオを提供し、モデルの推論およびタスク計画機能に対してより高い要件を提示します。詳細は次のとおりです:
1. OctoGibson: スタンフォード大学が開発した OmniGibson をベースに開発されており、実生活と一致した合計 476 の家事アクティビティが含まれています。シミュレーション環境全体には 16 の異なるカテゴリの住宅シナリオが含まれており、実際の住宅環境の 155 のインスタンスをカバーしています。モデルは、モデル内に存在する多数の対話型オブジェクトを操作して、最終タスクを完了できます。
2. OctoGTA: 「グランド セフト オート」(GTA) ゲームに基づいて開発され、合計 20 のタスクが構築され、5 つの異なるシナリオに一般化されました。プレイヤーはあらかじめ設定されたプログラムによって固定の場所に配置され、ミッションを達成するために必要なアイテムやNPCが用意されているため、ミッションをスムーズに進めることができる。
下の図は、OctoGibson のタスク分類と、OctoGibson と OctoGTA のいくつかの統計結果を示しています。
構築された 2 つのシミュレーション環境でトレーニング データを効率的に収集するために、研究者は完全なデータ収集システムを確立しました。タスク実行プログラムとして GPT-4 を導入することにより、研究者は、事前に実装された関数を使用して、シミュレーション環境から取得した視覚入力をテキスト情報に変換し、GPT-4 に提供します。 GPT-4 は、現在のステップのタスク プランと実行可能コードを返した後、シミュレーション環境でコードを実行し、現在のステップのタスクが完了したかどうかを判断します。成功した場合は、次のステップの視覚的入力の収集を続けます。失敗した場合は、前のステップの開始位置に戻り、再度データを収集します
#上の図は、データ収集の完全なプロセスを示す例として、OctoGibson 環境でのベーコンの調理タスクを示しています。データ収集の過程で、研究者らはタスク実行中の視覚情報や GPT-4 から返された実行可能コードなどを記録しただけでなく、各サブタスクの成功も記録したことを指摘しておく必要があります。強化学習は、より効率的な VLM の基礎を構築するために導入されます。 GPT-4 は強力ですが、完璧ではありません。エラーは、構文エラーやシミュレーターでの物理的な問題など、さまざまな形で現れる可能性があります。たとえば、図 3 に示すように、状態 #5 と状態 #6 の間では、エージェントが持つベーコンと鍋の間の距離が遠すぎたため、「鍋にベーコンを置く」アクションは失敗しました。このような後退により、タスクは以前の状態にリセットされます。タスクが 10 ステップ経っても完了しない場合、そのタスクは失敗とみなされ、予算の問題によりタスクは終了し、このタスクのすべてのサブタスクのデータ ペアは失敗とみなされます。
研究者らは、一定規模のトレーニング データを収集した後、そのデータを使用してインテリジェントな視覚言語モデル Octopus をトレーニングしました。以下の図は、完全なデータ収集とトレーニングのプロセスを示しています。第 1 段階では、収集したデータを教師付き微調整に使用することで、研究者らは視覚情報を固定フォーマットで入出力として受け取ることができる VLM モデルを構築しました。この段階で、モデルは視覚的な入力情報をミッション計画と実行可能コードにマッピングできます。第 2 段階では、研究者らは RLEF
を導入しました。これは環境フィードバックの強化学習を使用し、以前に収集されたサブタスクの成功を報酬信号として使用して VLM のタスク計画機能をさらに強化し、タスク全体の成功を向上させます。評価
実験結果
研究者らは、構築された OctoGibson 環境で現在の主流の VLM と LLM をテストしました。次の表は、主な実験結果を示しています。さまざまなテスト モデルについて、ビジョン モデルにはさまざまなモデルで使用される視覚モデルがリストされています。LLM の場合、研究者は視覚情報を LLM の入力としてテキストに処理します。このうち、O はシーン内のインタラクティブなオブジェクトに関する情報を提供することを表し、R はシーン内のオブジェクトの相対関係に関する情報を提供することを表し、GT は検出のための追加の視覚モデルを導入せずに実際の正確な情報を使用することを表します。
研究者らは、すべてのテスト タスクについて、完全なテスト統合能力を報告し、さらにそれを 4 つのカテゴリに分類し、それぞれトレーニング セットに存在するシナリオと存在しないシナリオでの新しいタスクの完了を記録しました。さまざまなシナリオで新しいタスクを完了する一般化能力、および単純な後続タスクと複雑な推論タスクの一般化能力。統計の各カテゴリについて、研究者らは 2 つの評価指標を報告しました。1 つ目は、身体化された知能タスクを完了する際のモデルの成功率を測定するためのタスク完了率であり、2 つ目は、タスク計画の精度であり、身体化されたインテリジェンス タスクを完了する際のモデルの成功率。タスク計画を実行するモデルの能力を反映します。
さらに、研究者らは、OctoGibson シミュレーション環境で収集された視覚データに対するさまざまなモデルの応答の例も実証しました。以下の図は、TAPA CodeLLaMA、Octopus、GPT-4V の 3 つのモデルを使用して OctoGibson でビジュアル入力を生成した後の応答を示しています。教師あり微調整のみを受ける Octopus モデルと TAPA CodeLLaMA と比較して、RLEF によってトレーニングされた Octopus モデルのタスク計画がより合理的であることがわかります。より漠然としたミッション コマンド「大きなボトルを見つける」でも、より完全な計画が提供されます。これらのパフォーマンスは、モデルのタスク計画能力と推論能力の向上における RLEF トレーニング戦略の有効性をさらに示しています。
全体的に、既存のモデルはシミュレーション環境で良好なパフォーマンスを示しました。実際のタスクの完了とタスク計画の能力には改善の余地がたくさんあります。研究者らは、いくつかの重要な発見を要約しました:
1.CodeLLaMA はモデルのコード生成機能を向上させることができますが、タスク計画機能を向上させることはできません。
研究者らは、実験結果は CodeLLaMA がモデルのコード生成能力を大幅に向上できることを示していると指摘しました。従来の LLM と比較して、CodeLLaMA を使用すると、より優れた実行可能なコードを取得できます。ただし、一部のモデルは CodeLLaMA を使用してコードを生成しますが、全体的なミッションの成功率は依然としてミッション計画機能によって制限されます。タスク計画機能が弱いモデルの場合、生成されたコードの実行可能性は高くなりますが、最終的なタスクの成功率は依然として低くなります。 Octopus を振り返ると、CodeLLaMA は使用されておらず、コードの実行可能性は若干低下していますが、その強力なタスク計画機能により、全体的なタスクの成功率は依然として他のモデルより優れています。
大量のテキスト情報を入力するとLLM処理が比較的困難になる
実際のテストプロセス中に、研究者たちはTAPAとCodeLLaMAの実験結果を比較し、言語モデルが長いテキスト入力を適切に処理するのは難しいという結論に達しました。研究者は TAPA 手法に従って実際のオブジェクトの情報をタスク計画に使用しますが、CodeLLaMA はより完全な情報を提供するためにオブジェクトとオブジェクト間の相対的な位置関係を使用します。しかし、実験中に研究者らは、環境内に大量の冗長な情報があるため、環境がより複雑になるとテキスト入力が大幅に増加し、LLM が大量の情報から貴重な手がかりを抽出することが困難であることを発見しました。冗長な情報が含まれるため、ミッションの成功率が低下します。これは、LLM の制限も反映しています。つまり、テキスト情報を使用して複雑なシーンを表現すると、大量の冗長で価値のない入力情報が生成されます。
3.Octopus は優れたタスクの汎化能力を示します。
Octopus には強力なタスク一般化機能があり、それは実験結果からもわかります。トレーニング セットに含まれていない新しいシナリオでは、Octopus はタスク完了成功率とタスク計画成功率の両方で既存のモデルを上回りました。これは、同じカテゴリのタスクにおいて視覚言語モデルには固有の利点があり、その一般化パフォーマンスが従来の LLM
4 よりも優れていることも示しています。RLEF はモデルのタスク計画能力を強化できます。
研究者らは、実験結果で 2 つのモデルのパフォーマンス比較を提供しています。1 つは教師あり微調整の最初の段階を経たモデルで、もう 1 つは次の方法でトレーニングされたモデルです。 RLEF。この結果から、RLEF トレーニング後、モデルの全体的な成功率と計画能力が、強力な推論とタスク計画能力を必要とするタスクで大幅に向上したことがわかります。既存の VLM トレーニング戦略と比較して、RLEF はより効率的です。プロット例は、RLEF でトレーニングされたモデルがタスク計画において向上していることを示しています。複雑なタスクに直面した場合、モデルは環境を探索する方法を学習できます。さらに、モデルはタスク計画の点でシミュレーション環境の実際の要件により一致します (たとえば、モデルは目的のオブジェクトに移動する必要があります)。相互作用を開始する前に相互作用するため)、タスクの計画失敗のリスクが軽減されます。
ディスカッション
書き直す必要がある内容は次のとおりです: 溶融テスト
モデルの実際の機能のテスト 評価後、研究者はモデルのパフォーマンスに影響を与える考えられる要因をさらに調査しました。以下の図に示すように、研究者は 3 つの側面から実験を行いました。
書き直す必要がある内容は次のとおりです。 1. トレーニング パラメータの割合
研究者は比較実験を行い、トレーニングを比較しました。 -only ビジュアル モデルと言語モデルの連結レイヤー、トレーニング連結レイヤーと言語モデル、および完全にトレーニングされたモデルのパフォーマンス。結果は、トレーニング パラメーターが増加するにつれて、モデルのパフォーマンスが徐々に向上することを示しています。これは、モデルがいくつかの固定シナリオでタスクを完了できるかどうかにトレーニング パラメーターの数が重要であることを示しています
2. モデル サイズ
研究者らは、より小さい 3B パラメーター モデルをベースライン パフォーマンスと比較しました。 2 つのトレーニング段階における 7B モデルの違い。比較結果は、モデルの全体的なパラメーター量が大きいほど、モデルのパフォーマンスも大幅に向上することを示しています。 VLM の分野における将来の研究では、モデルが対応するタスクを完了する能力を備えていると同時に、モデルの軽量かつ高速な推論速度を確保できるように、適切なモデル トレーニング パラメーターを選択する方法が非常に重要な問題になります。
書き直す必要があるのは: 3. 視覚的入力の連続性。 書き換えられた内容: 3. 視覚入力の一貫性実際の VLM パフォーマンスに対するさまざまな視覚入力の影響を研究するために、研究者たちは実験を実施しました。テスト中、モデルはシミュレーション環境内で順次回転し、ファーストビュー画像と 2 つの鳥瞰図を収集し、これらのビジュアル画像を VLM に順番に入力します。実験では、研究者が視覚画像の順序をランダムに混乱させて VLM に入力すると、VLM のパフォーマンスが大幅に低下します。これは、一方では、VLM にとって完全で構造化された視覚情報の重要性を示していますが、他方では、VLM が視覚入力に応答するときに視覚イメージ間の本質的なつながりに依存する必要があることも反映しています。このつながりがいったん破壊されると、 VLMGPT-4
さらに、研究者らは GPT-4 と GPT もテストしましたシミュレーション環境では -4V 性能はテストされ、統計的に分析されています。 書き直す必要があるのは次のとおりです: 1. GPT-4GPT-4 の場合、テスト プロセス中に、研究者はトレーニングを収集するために使用するときに、入力としてまったく同じテキスト情報を提供します。データ。テスト タスクでは、GPT-4 はタスクの半分を完了できますが、これは一方で、既存の VLM には GPT-4 などの言語モデルと比較してパフォーマンス向上の余地がまだ多くあることを示しています。また、GPT-4 のような強力なパフォーマンスを備えた言語モデルであっても、身体化されたインテリジェンス タスクに直面した場合、そのタスク計画能力とタスク実行能力をさらに向上させる必要があることも示しています。 書き換えが必要な内容は、2. GPT-4Vです。
GPT-4V は直接呼び出すことができる API をリリースしたばかりなので、研究者にはまだそれを試す時間がありませんが、研究者は GPT-4V のパフォーマンスを実証するためにいくつかの例を手動でテストしました。研究者らは、いくつかの例を通じて、GPT-4V にはシミュレーション環境のタスクに対する強力なゼロサンプル汎化機能があり、視覚入力に基づいて対応する実行可能コードを生成することもできるが、一部のタスク計画よりは若干劣ると考えています。 -シミュレーション環境で収集されたデータに基づいて調整されます。
概要
研究者らは、現在の研究のいくつかの制限を指摘しました:
現在の Octopus モデルは、複雑なタスクを処理する際にうまく機能しません。複雑なタスクに直面すると、Octopus はしばしば間違った計画を立て、環境からのフィードバック情報に大きく依存するため、タスク全体を完了することが困難になります
2. Octopus モデルはシミュレーション環境でのみトレーニングされますが、その方法は現実世界に移行すると、一連の問題に直面することになります。たとえば、現実の環境では、モデルがオブジェクトのより正確な相対位置情報を取得することが困難になり、オブジェクトによるシーンの理解を構築することがさらに困難になります。
3. 現時点では、octopus の視覚入力は離散的な静止画像であり、連続的なビデオを処理できるようにすることが将来の課題となります。連続ビデオは、タスクを完了する際のモデルのパフォーマンスをさらに向上させることができますが、連続視覚入力をどのように効率的に処理して理解するかが、VLM のパフォーマンスを向上させる鍵となります
以上がAI モデルを GTA の 5 つ星プレイヤーにしましょう、ビジョンベースのプログラム可能なインテリジェント エージェント、オクトパスが登場しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。