讓AI模型成為GTA五星玩家，基於視覺的可程式智能體Octopus來了-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

讓AI模型成為GTA五星玩家，基於視覺的可程式智能體Octopus來了

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 11, 2023 am 08:34 AM

工程 octopus 模型

讓AI模型成為GTA五星玩家，基於視覺的可程式智能體Octopus來了

電子遊戲已經成為現實世界的模擬舞台，展現出無限的可能性。以《俠盜獵車手》（GTA）為例，在遊戲中，玩家可以以第一人稱視角，在虛擬城市洛聖都中體驗豐富多彩的生活。然而，既然人類玩家能夠在洛聖都中盡情暢遊並完成任務，我們是否也能有一個AI視覺模型來控制GTA中的角色，成為執行任務的「玩家」呢？ GTA中的AI玩家是否能夠扮演一個遵守交通規則的五星級好市民，幫助警方抓捕罪犯，甚至做一個樂於助人的路人，幫助流浪漢找到適合的住所呢？

目前的視覺-語言模型（VLMs）在多模態感知和推理方面已經取得了實質性的進步，但它們通常基於較為簡單的視覺問答（VQA）或視覺標註（Caption）任務。然而，這些任務設定明顯無法讓VLM真正完成現實世界中的任務。因為實際任務不僅需要對視覺資訊的理解，更需要模型具備規劃推理和根據即時更新的環境資訊做出回饋的能力。同時，生成的規劃也需要能夠操縱環境中的實體來真實地完成任務

儘管目前已有的語言模型（LLMs）能夠根據提供的資訊進行任務規劃，但其無法理解視覺輸入，這大大限制了語言模型在執行具體現實任務時的應用範圍，特別是針對一些具身體智能的任務，基於文本輸入往往過於復雜或難以詳盡，這使得語言模型無法高效地從中提取信息以完成任務。目前，語言模型在程式生成方面已經進行了若干探索，但根據視覺輸入生成結構化、可執行、穩健的程式碼的探索仍未深入

為了解決如何使大模型具身智能化的問題，創建能夠準確制定計劃並執行命令的自主和情境感知系統，來自新加坡南洋理工大學，清華大學等的學者提出了Octopus。 Octopus 是一種基於視覺的可程式智能體，它的目的是透過視覺輸入學習，理解真實世界，並以產生可執行程式碼的方式完成各種實際任務。透過在大量視覺輸入和可執行程式碼的資料對的訓練，Octopus學會如何操控電子遊戲的角色完成遊戲任務，或完成複雜的家務活動。

讓AI模型成為GTA五星玩家，基於視覺的可程式智能體Octopus來了

論文連結：https://arxiv.org/abs/2310.08588
計畫網頁： https://choiszt.github.io/Octopus/
開源程式碼連結：https://github.com/dongyh20/Octopus

#需要重寫的內容是：資料收集與訓練重寫後的內容：資料收集與訓練

為了訓練能夠完成具身智慧化任務的視覺- 語言模型，研究者們也開發了OctoVerse，其包含兩個模擬系統用於為Octopus 的訓練提供訓練資料以及測試環境。這兩個模擬環境為 VLM 的具身智能化提供了可用的訓練以及測試場景，對模型的推理和任務規劃能力都提出了更高的要求。具體如下：

1.OctoGibson：基於史丹佛大學開發的 OmniGibson 進行開發，總共包括了 476 個符合現實生活的家務活動。整個模擬環境中包含 16 個不同類別的家庭場景，涵蓋 155 個實際的家庭環境實例。模型可以操作其中存在的大量可交互物件來完成最終的任務。

2.OctoGTA：基於《俠盜獵車手》（GTA）遊戲進行開發，一共構建了 20 個任務並將其泛化到五個不同的場景當中。透過預先設定好的程序將玩家設定在固定的位置，提供完成任務必須的物品和 NPC，以確保任務能順利進行。

下圖展示了 OctoGibson 的任務分類以及 OctoGibson 和 OctoGTA 的一些統計結果。

讓AI模型成為GTA五星玩家，基於視覺的可程式智能體Octopus來了

為了在兩個建構的模擬環境中有效收集訓練數據，研究人員建立了一個完整的數據收集系統。透過引入GPT-4作為任務執行者，研究人員利用預先實現的函數將從模擬環境中獲得的視覺輸入轉化為文字訊息，並提供給GPT-4。在GPT-4返回目前一步的任務規劃和可執行程式碼後，再在模擬環境中執行程式碼，並判斷目前一步的任務是否完成。如果成功，繼續收集下一步的視覺輸入；如果失敗，則回到上一步的起始位置，重新收集資料

讓AI模型成為GTA五星玩家，基於視覺的可程式智能體Octopus來了

上圖以 OctoGibson 環境當中的 Cook a Bacon 任務為例，展示了收集資料的完整流程。需要指出的是，在收集數據的過程中，研究者不僅記錄了任務執行過程中的視覺信息，GPT-4 返回的可執行代碼等，還記錄了每一個子任務的成功情況，這些將作為後續引入強化學習來建立更有效率的VLM 的基礎。 GPT-4 的功能雖然強大，但並非無懈可擊。錯誤可以以多種方式顯現，包括語法錯誤和模擬器中的物理挑戰。例如，如圖 3 所示，在狀態 #5 和 #6 之間，由於 agent 拿著的培根與平底鍋之間的距離太遠，導致「把培根放到平底鍋」的行動失敗。此類挫折會將任務重置到先前的狀態。如果一個任務在 10 步之後仍未完成，則被認定為不成功，我們會因預算問題而終止這個任務，而這個任務的所有子任務的資料對都會認為執行失敗。

讓AI模型成為GTA五星玩家，基於視覺的可程式智能體Octopus來了

研究者在收集了一定規模的訓練資料後，利用這些資料訓練出了一個具備智慧化的視覺-語言模型Octopus。下圖展示了完整的資料收集和訓練過程。在第一階段，透過使用採集的資料進行監督式微調，研究者建構出了一個能夠接收視覺訊息作為輸入，並按照固定格式進行輸出的VLM模型。在這個階段，模型能夠將視覺輸入資訊映射為任務計劃和可執行程式碼。在第二階段，研究者引入了RLEF

利用環境回饋的強化學習，透過先前收集的子任務的成功情況作為獎勵訊號，進一步提升VLM 的任務規劃能力，以提高整體任務的成功率

實驗結果

研究者在建構的OctoGibson 環境中，對於當前主流的VLM 和LLM 進行了測試，下表展示了主要實驗結果。對於不同的測試模型，Vision Model 列舉了不同模型所使用的視覺模型，對於 LLM 來說，研究者將視覺訊息處理為文字作為 LLM 的輸入。其中 O 代表提供了場景中可交互物體的信息，R 代表提供了場景中物體相對關係的信息，GT 代表使用真實準確的信息，而不引入額外的視覺模型來進行檢測。

對於所有的測試任務，研究者報告了完整的測試整合功率，並進一步將其分為四個類別，分別記錄在訓練集中存在的場景中完成新任務，在訓練集中不存在的場景中完成新任務的泛化能力，以及對於簡單的跟隨任務以及複雜的推理任務的泛化能力。對於每一種類別的統計，研究者報告了兩個評價指標，其中第一個為任務的完成率，以衡量模型完成具身智能任務的成功率；第二個為任務規劃準確率，用於體現模型進行任務規劃的能力。

讓AI模型成為GTA五星玩家，基於視覺的可程式智能體Octopus來了

此外，研究人員也展示了 OctoGibson 模擬環境中所採集的視覺數據，不同模型的反應實例。下圖展示了使用 TAPA CodeLLaMA、Octopus以及GPT-4V三種模型在OctoGibson中產生視覺輸入後的回應。可以看出，相較於只進行了監督式微調的Octopus模型和TAPA CodeLLaMA，經過RLEF訓練的Octopus模型的任務規劃更加合理。即使對於較為模糊的任務指令“尋找一個大瓶”，也能提供更完善的計劃。這些表現進一步說明了RLEF訓練策略對於提升模型的任務規劃能力和推理能力的有效性

讓AI模型成為GTA五星玩家，基於視覺的可程式智能體Octopus來了

#總體來說，現有的模型在模擬環境中表現出的實際任務完成度和任務規劃能力依舊有很大的提升空間。研究者們總結了一些較為關鍵的發現：

1.CodeLLaMA 能夠提升模型的程式碼產生能力，但無法提升任務規劃能力。

研究者指出，實驗結果表明，CodeLLaMA能夠顯著提高模型的程式碼產生能力。相較於傳統的LLM，使用CodeLLaMA能夠獲得更好、更高可執行性的程式碼。然而，儘管有些模型使用CodeLLaMA產生程式碼，但整體任務的成功率仍受到任務規劃能力的限制。任務規劃能力較弱的模型，儘管產生的程式碼可執行性較高，但最終任務成功率仍然較低。反觀Octopus，儘管沒有使用CodeLLaMA，代碼可執行性略有下降，但由於其強大的任務規劃能力，整體任務成功率仍然優於其他模型

#當面對大量的文本信息輸入時，LLM 的處理變得相對困難

在实际的测试过程中，研究者通过对比 TAPA 和 CodeLLaMA 的实验结果得出了一个结论，即语言模型很难较好地处理长文本输入。研究者们遵从 TAPA 的方法，使用真实的物体信息来进行任务规划，而 CodeLLaMA 使用物体和物体之间的相对位置关系，以期提供较为完整的信息。但在实验过程中，研究者发现由于环境当中存在大量的冗余信息，因此当环境较为复杂时，文本输入显著增加，LLM 难以从大量的冗余信息当中提取有价值的线索，从而降低了任务的成功率。这也体现了 LLM 的局限性，即如果使用文本信息来表示复杂的场景，将会产生大量冗余且无价值的输入信息。

3.Octopus 表现出了较好的任务泛化能力。

Octopus具有很強的任務泛化能力，通過實驗結果可以得知。在未出現在訓練集中的新場景中，Octopus完成任務的成功率和任務規劃的成功率均優於現有模型。這也展現了視覺-語言模型在同一類別的任務中具有內在優勢，其泛化性能優於傳統的LLM

4.RLEF 能够增强模型的任务规划能力。

研究人员在实验结果中提供了两个模型的性能比较：一个是经过第一阶段监督式微调的模型，另一个是经过RLEF训练的模型。从结果中可以看出，经过RLEF训练后，模型在需要强大的推理和任务规划能力的任务上，整体成功率和规划能力都有显著提高。相比已有的VLM训练策略，RLEF更加高效。示例图表明，经过RLEF训练的模型在任务规划方面有所提高。在面对复杂任务时，模型能够学会在环境中探索；此外，模型在任务规划方面更加符合仿真环境的实际要求（例如，模型需要先移动到要交互的物体，才能开始交互），从而降低任务规划失败的风险

讨论

需要重写的内容是：融化试验

在对模型实际能力进行评估后，研究人员进一步探究了影响模型性能的可能因素。如下图所示，研究人员从三个方面进行了实验

需要重写的内容是：1. 訓練參數的比重

研究者进行了对比实验，比较了仅训练视觉模型和语言模型的连接层、训练连接层和语言模型，以及完整训练模型的性能。结果显示，随着训练参数的增加，模型的性能逐渐提升。这表明，训练参数的数量对于模型在一些固定场景中能否完成任务至关重要

2. 模型的大小

研究人员对比了较小的3B参数模型和基线7B模型在两个训练阶段的性能差异。比较结果表明，当模型整体参数量较大时，模型的性能也会明显提升。未来在VLM领域的研究中，如何选择适当的模型训练参数，以确保模型具备完成对应任务的能力，同时也保证模型的轻量化和快速推理速度，将是一个非常关键的问题

需要重写的内容是：3. 视觉输入的连续性。重写后的内容：3. 视觉输入的连贯性

为了研究不同的视觉输入对实际VLM性能的影响，研究人员进行了实验。在测试过程中，模型在仿真环境中按顺序转动，并采集第一视角图像和两张鸟瞰图，然后按顺序将这些视觉图像输入VLM。在实验中，当研究人员随机打乱视觉图像的顺序再输入VLM时，VLM的性能受到较大的损失。这一方面说明了完整且结构化的视觉信息对VLM的重要性，另一方面也反映了VLM在响应视觉输入时需要依赖视觉图像之间的内在联系，一旦这种联系被破坏，将极大地影响VLM的表现

讓AI模型成為GTA五星玩家，基於視覺的可程式智能體Octopus來了

GPT-4

此外，研究者还对 GPT-4 以及 GPT-4V 在仿真环境当中的性能进行了测试和统计。

需要进行改写的是：1. GPT-4

针对 GPT-4，在测试过程中研究者提供与使用其采集训练数据时完全相同的文本信息作为输入。在测试任务上，GPT-4 能够完成一半的任务，这一方面说明现有的 VLM 相对于 GPT-4 这样的语言模型，从性能上还有很大的提升空间；另一方面也说明，即使是 GPT-4 这样性能较强的语言模型，在面对具身智能任务时，其任务规划能力和任务执行能力依然需要更进一步的提升。

需要重新书写的内容是：2. GPT-4V

由於 GPT-4V 剛發布可以直接呼叫的 API，研究者還來不及嘗試，但研究者們之前也手動測試了一些實例來展現 GPT-4V 的效能。透過一些範例，研究者認為GPT-4V 對於模擬環境當中的任務具有較強的零樣本泛化能力，也能夠根據視覺輸入產生對應的可執行的程式碼，但其在一些任務規劃上稍遜色於在模擬環境採集的資料上微調之後的模型。

總結

研究人員指出了目前工作的一些限制：

目前的Octopus模型在處理複雜任務時表現不佳。面對複雜任務時，Octopus經常會做出錯誤的規劃，並且嚴重依賴環境的反饋訊息，導致難以完成整個任務

2.Octopus 模型僅在仿真環境當中進行訓練，而如何將其遷移到真實世界當中將會面臨一連串的問題。例如，真實環境當中模型將難以得到較為準確的物體相對位置訊息，如何建構起物體對於場景的理解將變得更加困難。

3. 目前，章魚的視覺輸入是離散的靜態圖片，將其能夠處理連續的影片成為未來的挑戰。連續的影片可以進一步提高模型完成任務的效能，但如何有效率地處理和理解連續視覺輸入將成為提升 VLM 表現的關鍵

以上是讓AI模型成為GTA五星玩家，基於視覺的可程式智能體Octopus來了的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1664

CakePHP 教程

1423

Laravel 教程

1319

PHP教程

1269

C# 教程

1248

Related knowledge

ControlNet作者又出爆款！一張圖生成繪畫全過程，兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻，PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了！這次瞄準繪畫領域。新項目PaintsUndo剛上線不久，就收穫1.4kstar（還在瘋狂漲）。項目地址：https://github.com/lllyasviel/Paints-UNDO透過這個項目，用戶輸入一張靜態圖像，PaintsUndo就能自動幫你生成整個繪畫的全過程視頻，從線稿到成品都有跡可循。繪製過程，線條變化多端甚是神奇，最終視頻結果和原始圖像非常相似：我們再來看一個完整的繪

登頂開源AI軟體工程師榜首，UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校（UIUC）張令明老師團隊，包括：StevenXia，四年級博士生，研究方向是基於AI大模型的自動代碼修復；鄧茵琳，四年級博士生，研究方

從RLHF到DPO再到TDPO，大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中，對大語言模型（LLM）的控制與指導始終是核心挑戰之一，旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法（RL

arXiv論文可以發「彈幕」了，史丹佛alphaXiv討論平台上線，LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯！當論文討論細緻到詞句，是什麼體驗？最近，史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv，可以直接在任何arXiv論文之上發布問題和評論。網站連結：https://alphaxiv.org/其實不需要專門訪問這個網站，只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文：可以精準定位到論文中的段落、句子：右側討論區，使用者可以發表問題詢問作者論文想法、細節，例如：也可以針對論文內容發表評論，例如：「給出至

OpenAI超級對齊團隊遺作：兩個大模型博弈一番，輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂，你敢用嗎？隨著機器學習系統在更重要的領域中得到應用，證明為什麼我們可以信任它們的輸出，並明確何時不應信任它們，變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是，要求系統對其輸出產生一種解釋，這種解釋對人類或另一個受信任的系統來說是可讀的，即可以完全理解以至於任何可能的錯誤都可以被發現。例如，為了建立對司法系統的信任，我們要求法院提供清晰易讀的書面意見，解釋並支持其決策。對於大型語言模型來說，我們也可以採用類似的方法。不過，在採用這種方法時，確保語言模型生

黎曼猜想显著突破！陶哲轩强推MIT、牛津新论文，37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近，被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題，與素數分佈的精確性質有關（素數是那些只能被1和自身整除的數字，它們在數論中扮演著基礎性的角色）。在當今的數學文獻中，已有超過一千個數學命題以黎曼猜想（或其推廣形式）的成立為前提。也就是說，黎曼猜想及其推廣形式一旦被證明，這一千多個命題將被確立為定理，對數學領域產生深遠的影響；而如果黎曼猜想被證明是錯誤的，那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

LLM用於時序預測真的不行，連推理能力都沒用到 Jul 15, 2024 pm 03:59 PM

語言模型真的能用於時序預測嗎？根據貝特里奇頭條定律（任何以問號結尾的新聞標題，都能夠用「不」來回答），答案應該是否定的。事實似乎也果然如此：強大如斯的LLM並不能很好地處理時序資料。時序，即時間序列，顧名思義，是指一組依照時間發生先後順序排列的資料點序列。在許多領域，時序分析都很關鍵，包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域，近期不少研究者都在研究如何使用大型語言模型（LLM）來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

首個基於Mamba的MLLM來了！模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。引言近年来，多模态大型语言模型（MLLM）在各个领域的应用取得了显著的成功。然而，作为许多下游任务的基础模型，当前的MLLM由众所周知的Transformer网络构成，这种网

See all articles

讓AI模型成為GTA五星玩家，基於視覺的可程式智能體Octopus來了

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題