3D版Sora來了？ UMass、MIT等提出3D世界模型，具身智慧機器人實現新里程碑-人工智慧-PHP中文網

3D-VLA基礎模型

實驗結果

多模態目標生成

首頁

科技週邊

人工智慧

3D版Sora來了？ UMass、MIT等提出3D世界模型，具身智慧機器人實現新里程碑

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 25, 2024 pm 04:10 PM

ai 3d

在最近的研究中，視覺-語言-動作（VLA，vision-language-action）模型的輸入基本上都是2D數據，沒有整合更通用的3D物理世界。
此外，現有的模型透過學習「感知到動作的直接映射」來進行動作預測，忽略了世界的動態性，以及動作和動態之間的關係。
相較之下，人類在思考時會引入世界模型，可以描繪除對未來情境的想像，從而對下一步的行動進行規劃。
為此，來自馬薩諸塞州大學阿默斯特分校、MIT等機構的研究人員提出了3D-VLA模型，透過引入一類全新的具身基礎模型（embodied foundation models），可以根據生成的世界模型無縫連結3D感知、推理與行動。
3D版Sora來了？ UMass、MIT等提出3D世界模型，具身智慧機器人實現新里程碑

#專案首頁：https://vis-www.cs.umass .edu/3dvla/

論文網址：https://arxiv.org/abs/2403.09631

具體而言，3D-VLA建構在基於3D的大型語言模型（LLM）之上，並引入一組交互token來參與具身環境中。

淦創團隊訓練了一系列具身擴散模型，將產生能力注入模型，並將其對齊到LLM中，以便預測目標影像和點雲。

為了訓練3D-VLA模型，我們從現有的機器人資料集中提取了大量的3D相關信息，建構了一個龐大的3D具身指令資料集。

研究結果顯示，3D-VLA在處理具身環境中的推理、多模態生成和規劃任務時表現出色，這突顯了其在實際場景中的潛在應用價值。

三維具身指令調整資料集（3D Embodied Instruction Tuning Dataset）

由於網路上數十億規模的資料集，VLM在多項任務中展現出卓越的性能，而百萬級視訊動作資料集也為機器人控制的具體VLM奠定了基礎。

然而，目前的資料集大多無法為機器人操作提供足夠的深度或3D標註以及精確控制。這就需要資料集中包含3D空間推理和互動的內容。缺乏3D資訊會讓機器人難以理解和執行需要進行3D空間推理的指令，例如「將最遠處的杯子放在中間的抽屜裡」。

3D版Sora來了？ UMass、MIT等提出3D世界模型，具身智慧機器人實現新里程碑

為了彌補這一差距，研究人員建立了一個大規模的3D指令調優資料集，該資料集提供了足夠的「3D相關資訊」以及「相應的文字指令」以訓練模型。

研究人員設計了一個pipeline從現有的具身資料集中提取3D語言動作對，獲得點雲、深度圖、3D邊界框、機器人的7D動作和文字描述的標註。

3D-VLA基礎模型

3D-VLA是一個用於在具身環境（embodied environment）中進行三維推理、目標生成和決策的世界模型。

3D版Sora來了？ UMass、MIT等提出3D世界模型，具身智慧機器人實現新里程碑

首先在3D-LLM之上建立主幹網絡，並透過增加一系列互動token來進一步增強模型與3D世界互動的能力；再透過預訓練擴散模型並使用投影來對齊LLM和擴散模型，將目標生成能力注入3D-VLA

#骨幹網路

##在第一階段，研究人員依照3D-LLM的方法開發3D-VLA基礎模型：由於收集到的資料集沒有達到從頭開始訓練多模態LLM所需的十億級規模，因此需要利用多視圖特徵產生3D場景特徵，使得視覺特徵能夠無縫整合到預訓練VLM中，不需要自適應。

同時，3D-LLM的訓練資料集主要包含物件（objects）和室內場景，與特定設定不直接一致，所以研究人員選擇使用BLIP2-PlanT5XL作為預訓練模型。

在訓練過程中，解凍token的輸入和輸出嵌入，以及Q-Former的權重。

交互tokens

#為了增強模型對3D場景的理解與環境中的交互，研究人員引入了一組全新的互動tokens

首先，輸入加入了object tokens，包含解析句子中的物件名詞（如 a chocolate bar [loc tokens] on the table），這樣模型就能更好地捕捉到被操作或提及的物件。

其次，為了更好地用語言表達空間訊息，研究人員設計了一組位置token ，用AABB 形式的六個標記來表示三維邊界框。

第三，為了更好地進行動態編碼，框架中引入了來包含靜態場景的嵌入：透過對場景token進行組合，3D-VLA 可以理解動態場景，並管理交錯三維場景和文字的輸入。

透過擴展代表機器人動作的專用標記集，進一步增強了此架構。機器人的動作有7 個自由度，用、和等離散token來表示手臂的預定絕對位置、旋轉和抓手張開度，每個action由 token進行分隔。

注入目標生成能力

#人類能夠對場景的最終狀態進行預先視覺化（pre-visualize），以提升動作預測或決策的準確性，也是建立世界模型的關鍵方面；在初步實驗中，研究人員還發現提供真實的最終狀態可以增強模型的推理和規劃能力。

但訓練MLLM來產生圖像、深度和點雲並不簡單：

首先，視訊擴散模型並不是為具身場景量身訂製的，例如Runway在產生「開啟抽屜」的未來畫面時，場景中會發生視圖變化、物件變形、怪異的紋理替換以及佈局失真等問題。

並且，如何將各種模態的擴散模型整合到單一的基礎模型中仍然是一個難題。

所以研究人員提出的新框架，首先根據圖像、深度和點雲等不同形式對具體的擴散模型進行預訓練，然後在對齊階段將擴散模型的解碼器對齊到3D-VLA的嵌入空間。

3D版Sora來了？ UMass、MIT等提出3D世界模型，具身智慧機器人實現新里程碑

實驗結果

3D-VLA是一個多功能的、基於3D的生成式世界模型，可以在3D世界中執行推理和定位、想像多模態目標內容，並為機器人操作生成動作，研究人員主要從三個方面對3D-VLA進行了評估：3D推理和定位、多模態目標生成和具身行動規劃。

3D推理與定位

#3D-VLA在語言推理任務上優於所有2D VLM方法，研究人員將其歸因於3D資訊的槓桿作用，3D資訊為推理提供了更準確的空間資訊。

3D版Sora來了？ UMass、MIT等提出3D世界模型，具身智慧機器人實現新里程碑

此外，由於資料集中包含一組3D定位標註，3D-VLA學習定位相關對象，有助於模型更專注於關鍵對象進行推理。

研究人員發現3D-LLM在這些機器人推理任務中表現不佳，證明了在機器人相關的3D資料集上收集和訓練的必要性。

3D版Sora來了？ UMass、MIT等提出3D世界模型，具身智慧機器人實現新里程碑

且3D-VLA在定位效能方面表現出明顯優於2D基準方法，這項發現也為標註過程的有效性提供了令人信服的證據，有助於模型獲得強大的3D定位能力。

多模態目標生成

與現有的零樣本遷移到機器人領域的生成方法相比，3D-VLA在大多數指標方面實現了更好的性能，證實了使用「專門為機器人應用設計的資料集」來訓練世界模型的重要性。

3D版Sora來了？ UMass、MIT等提出3D世界模型，具身智慧機器人實現新里程碑

即使在與Instruct-P2P*的直接比較中，3D-VLA也始終性能更優，結果表明，將大型語言模型集成到3D-VLA中可以更全面、更深刻地理解機器人操作指令，從而提高目標影像生成性能。

此外，當從輸入提示符中排除預測的邊界框時，可以觀察到性能略有下降，證實了使用中間預測邊界框的有效性，可以幫助模型理解整個場景，允許模型將更多的注意力分配到給定指令中提到的特定對象，最終增強其想像最終目標圖像的能力。

3D版Sora來了？ UMass、MIT等提出3D世界模型，具身智慧機器人實現新里程碑

點雲產生的結果對比中，具有中間預測邊界框的3D-VLA性能最好，證實了在理解指令和場景的背景下結合大型語言模型和精確物件定位的重要性。

具身行動規劃

#3D-VLA在RLBench動作預測中的大多數任務中超過了基線模型的性能，顯示了其具有規劃能力。

3D版Sora來了？ UMass、MIT等提出3D世界模型，具身智慧機器人實現新里程碑

值得注意的是，基準模型需要用到歷史觀察、物件狀態和當前狀態訊息，而3D-VLA模型只透過開環控制執行。

3D版Sora來了？ UMass、MIT等提出3D世界模型，具身智慧機器人實現新里程碑

此外，模型的泛化能力在撿杯（pick-up-cup）任務中得到了證明，3D-VLA在CALVIN中也取得了較好的結果，研究人員將這種優勢歸因於定位感興趣的對象和想像目標狀態的能力，為推斷動作提供了豐富的資訊。

以上是3D版Sora來了？ UMass、MIT等提出3D世界模型，具身智慧機器人實現新里程碑的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1666

CakePHP 教程

1425

Laravel 教程

1327

PHP教程

1273

C# 教程

1253

Related knowledge

C 中的chrono庫如何使用？ Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔，讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分，它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說，chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性，還提供了更高的精度和靈活性。讓我們從基礎開始，chrono庫主要包括以下幾個關鍵組件：std::chrono::system_clock：表示系統時鐘，用於獲取當前時間。 std::chron

如何理解C 中的DMA操作？ Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess，直接內存訪問技術，允許硬件設備直接與內存進行數據傳輸，不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序，實現方式因係統而異。 2)直接訪問內存可能帶來安全風險，需確保代碼的正確性和安全性。 3)DMA可提高性能，但使用不當可能導致系統性能下降。通過實踐和學習，可以掌握DMA的使用技巧，在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

怎樣在C 中處理高DPI顯示？ Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現：1)理解DPI和縮放，使用操作系統API獲取DPI信息並調整圖形輸出；2)處理跨平台兼容性，使用如SDL或Qt的跨平台圖形庫；3)進行性能優化，通過緩存、硬件加速和動態調整細節級別來提升性能；4)解決常見問題，如模糊文本和界面元素過小，通過正確應用DPI縮放來解決。

C 中的實時操作系統編程是什麼？ Apr 28, 2025 pm 10:15 PM

C 在實時操作系統（RTOS）編程中表現出色，提供了高效的執行效率和精確的時間管理。 1）C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2）利用面向對象特性，C 可以設計靈活的任務調度系統。 3）C 支持高效的中斷處理，但需避免動態內存分配和異常處理以保證實時性。 4）模板編程和內聯函數有助於性能優化。 5）實際應用中，C 可用於實現高效的日誌系統。

給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中，添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column，刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時，需指定位置以優化查詢性能和數據結構；刪除字段前需確認操作不可逆；使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

怎樣在C 中測量線程性能？ Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析，步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析，步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能，並優化代碼。

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括：1. Binance（幣安）：提供Binance Futures量化模塊，低手續費，支持AI輔助交易。 2. OKX（歐易）：支持多賬戶管理和智能訂單路由，提供機構級風控。獨立量化策略平台有：3. 3Commas：拖拽式策略生成器，適用於多平台對沖套利。 4. Quadency：專業級算法策略庫，支持自定義風險閾值。 5. Pionex：內置16 預設策略，低交易手續費。垂直領域工具包括：6. Cryptohopper：雲端量化平台，支持150 技術指標。 7. Bitsgap：