目錄
3D-VLA基礎模型
實驗結果
多模態目標生成
首頁 科技週邊 人工智慧 3D版Sora來了? UMass、MIT等提出3D世界模型,具身智慧機器人實現新里程碑

3D版Sora來了? UMass、MIT等提出3D世界模型,具身智慧機器人實現新里程碑

Mar 25, 2024 pm 04:10 PM
ai 3d

在最近的研究中,視覺-語言-動作(VLA,vision-language-action)模型的輸入基本上都是2D數據,沒有整合更通用的3D物理世界。
此外,現有的模型透過學習「感知到動作的直接映射」來進行動作預測,忽略了世界的動態性,以及動作和動態之間的關係。
相較之下,人類在思考時會引入世界模型,可以描繪除對未來情境的想像,從而對下一步的行動進行規劃。
為此,來自馬薩諸塞州大學阿默斯特分校、MIT等機構的研究人員提出了3D-VLA模型,透過引入一類全新的具身基礎模型(embodied foundation models),可以根據生成的世界模型無縫連結3D感知、推理與行動。
3D版Sora來了? UMass、MIT等提出3D世界模型,具身智慧機器人實現新里程碑

#專案首頁:https://vis-www.cs.umass .edu/3dvla/

論文網址:https://arxiv.org/abs/2403.09631

具體而言,3D-VLA建構在基於3D的大型語言模型(LLM)之上,並引入一組交互token來參與具身環境中。

淦創團隊訓練了一系列具身擴散模型,將產生能力注入模型,並將其對齊到LLM中,以便預測目標影像和點雲。

為了訓練3D-VLA模型,我們從現有的機器人資料集中提取了大量的3D相關信息,建構了一個龐大的3D具身指令資料集。

研究結果顯示,3D-VLA在處理具身環境中的推理、多模態生成和規劃任務時表現出色,這突顯了其在實際場景中的潛在應用價值。

三維具身指令調整資料集(3D Embodied Instruction Tuning Dataset)

由於網路上數十億規模的資料集,VLM在多項任務中展現出卓越的性能,而百萬級視訊動作資料集也為機器人控制的具體VLM奠定了基礎。

然而,目前的資料集大多無法為機器人操作提供足夠的深度或3D標註以及精確控制。這就需要資料集中包含3D空間推理和互動的內容。缺乏3D資訊會讓機器人難以理解和執行需要進行3D空間推理的指令,例如「將最遠處的杯子放在中間的抽屜裡」。

3D版Sora來了? UMass、MIT等提出3D世界模型,具身智慧機器人實現新里程碑

#

為了彌補這一差距,研究人員建立了一個大規模的3D指令調優資料集,該資料集提供了足夠的「3D相關資訊」以及「相應的文字指令」以訓練模型。

研究人員設計了一個pipeline從現有的具身資料集中提取3D語言動作對,獲得點雲、深度圖、3D邊界框、機器人的7D動作和文字描述的標註。

3D-VLA基礎模型

3D-VLA是一個用於在具身環境(embodied environment)中進行三維推理、目標生成和決策的世界模型。

3D版Sora來了? UMass、MIT等提出3D世界模型,具身智慧機器人實現新里程碑

首先在3D-LLM之上建立主幹網絡,並透過增加一系列互動token來進一步增強模型與3D世界互動的能力;再透過預訓練擴散模型並使用投影來對齊LLM和擴散模型,將目標生成能力注入3D-VLA

#骨幹網路

##在第一階段,研究人員依照3D-LLM的方法開發3D-VLA基礎模型:由於收集到的資料集沒有達到從頭開始訓練多模態LLM所需的十億級規模,因此需要利用多視圖特徵產生3D場景特徵,使得視覺特徵能夠無縫整合到預訓練VLM中,不需要自適應。

同時,3D-LLM的訓練資料集主要包含物件(objects)和室內場景,與特定設定不直接一致,所以研究人員選擇使用BLIP2-PlanT5XL作為預訓練模型。

在訓練過程中,解凍token的輸入和輸出嵌入,以及Q-Former的權重。

交互tokens

#為了增強模型對3D場景的理解與環境中的交互,研究人員引入了一組全新的互動tokens

首先,輸入加入了object tokens,包含解析句子中的物件名詞(如 a chocolate bar [loc tokens] on the table),這樣模型就能更好地捕捉到被操作或提及的物件。

其次,為了更好地用語言表達空間訊息,研究人員設計了一組位置token ,用AABB 形式的六個標記來表示三維邊界框。

第三,為了更好地進行動態編碼,框架中引入了來包含靜態場景的嵌入:透過對場景token進行組合,3D-VLA 可以理解動態場景,並管理交錯三維場景和文字的輸入。

透過擴展代表機器人動作的專用標記集,進一步增強了此架構。機器人的動作有7 個自由度,用 等離散token來表示手臂的預定絕對位置、旋轉和抓手張開度,每個action由 token進行分隔。

注入目標生成能力

#人類能夠對場景的最終狀態進行預先視覺化(pre-visualize),以提升動作預測或決策的準確性,也是建立世界模型的關鍵方面;在初步實驗中,研究人員還發現提供真實的最終狀態可以增強模型的推理和規劃能力。

但訓練MLLM來產生圖像、深度和點雲並不簡單:

首先,視訊擴散模型並不是為具身場景量身訂製的,例如Runway在產生「開啟抽屜」的未來畫面時,場景中會發生視圖變化、物件變形、怪異的紋理替換以及佈局失真等問題。

並且,如何將各種模態的擴散模型整合到單一的基礎模型中仍然是一個難題。

所以研究人員提出的新框架,首先根據圖像、深度和點雲等不同形式對具體的擴散模型進行預訓練,然後在對齊階段將擴散模型的解碼器對齊到3D-VLA的嵌入空間。

3D版Sora來了? UMass、MIT等提出3D世界模型,具身智慧機器人實現新里程碑

實驗結果

3D-VLA是一個多功能的、基於3D的生成式世界模型,可以在3D世界中執行推理和定位、想像多模態目標內容,並為機器人操作生成動作,研究人員主要從三個方面對3D-VLA進行了評估:3D推理和定位、多模態目標生成和具身行動規劃。

3D推理與定位

#3D-VLA在語言推理任務上優於所有2D VLM方法,研究人員將其歸因於3D資訊的槓桿作用,3D資訊為推理提供了更準確的空間資訊。

3D版Sora來了? UMass、MIT等提出3D世界模型,具身智慧機器人實現新里程碑

此外,由於資料集中包含一組3D定位標註,3D-VLA學習定位相關對象,有助於模型更專注於關鍵對象進行推理。

研究人員發現3D-LLM在這些機器人推理任務中表現不佳,證明了在機器人相關的3D資料集上收集和訓練的必要性。

3D版Sora來了? UMass、MIT等提出3D世界模型,具身智慧機器人實現新里程碑

且3D-VLA在定位效能方面表現出明顯優於2D基準方法,這項發現也為標註過程的有效性提供了令人信服的證據,有助於模型獲得強大的3D定位能力。

多模態目標生成

與現有的零樣本遷移到機器人領域的生成方法相比,3D-VLA在大多數指標方面實現了更好的性能,證實了使用「專門為機器人應用設計的資料集」來訓練世界模型的重要性。

3D版Sora來了? UMass、MIT等提出3D世界模型,具身智慧機器人實現新里程碑

即使在與Instruct-P2P*的直接比較中,3D-VLA也始終性能更優,結果表明,將大型語言模型集成到3D-VLA中可以更全面、更深刻地理解機器人操作指令,從而提高目標影像生成性能。

此外,當從輸入提示符中排除預測的邊界框時,可以觀察到性能略有下降,證實了使用中間預測邊界框的有效性,可以幫助模型理解整個場景,允許模型將更多的注意力分配到給定指令中提到的特定對象,最終增強其想像最終目標圖像的能力。

3D版Sora來了? UMass、MIT等提出3D世界模型,具身智慧機器人實現新里程碑

點雲產生的結果對比中,具有中間預測邊界框的3D-VLA性能最好,證實了在理解指令和場景的背景下結合大型語言模型和精確物件定位的重要性。

具身行動規劃

#3D-VLA在RLBench動作預測中的大多數任務中超過了基線模型的性能,顯示了其具有規劃能力。

3D版Sora來了? UMass、MIT等提出3D世界模型,具身智慧機器人實現新里程碑

值得注意的是,基準模型需要用到歷史觀察、物件狀態和當前狀態訊息,而3D-VLA模型只透過開環控制執行。

3D版Sora來了? UMass、MIT等提出3D世界模型,具身智慧機器人實現新里程碑

此外,模型的泛化能力在撿杯(pick-up-cup)任務中得到了證明,3D-VLA在CALVIN中也取得了較好的結果,研究人員將這種優勢歸因於定位感興趣的對象和想像目標狀態的能力,為推斷動作提供了豐富的資訊。

以上是3D版Sora來了? UMass、MIT等提出3D世界模型,具身智慧機器人實現新里程碑的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

大宗交易的虛擬貨幣交易平台排行榜top10最新發布 大宗交易的虛擬貨幣交易平台排行榜top10最新發布 Apr 22, 2025 am 08:18 AM

選擇大宗交易平台時應考慮以下因素:1. 流動性:優先選擇日均交易量超50億美元的平台。 2. 合規性:查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性:冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力:是否提供專屬客戶經理和定制化交易工具。

數字貨幣交易所App前十名蘋果版下載入口匯總 數字貨幣交易所App前十名蘋果版下載入口匯總 Apr 22, 2025 am 09:27 AM

提供各種複雜的交易工具和市場分析。覆蓋 100 多個國家,日均衍生品交易量超 300 億美元,支持 300 多個交易對與 200 倍槓桿,技術實力強大,擁有龐大的全球用戶基礎,提供專業的交易平台、安全存儲解決方案以及豐富的交易對。

排名前十的虛擬貨幣交易app有哪些 十大數字貨幣交易所平台推薦 排名前十的虛擬貨幣交易app有哪些 十大數字貨幣交易所平台推薦 Apr 22, 2025 pm 01:12 PM

2025年安全的數字貨幣交易所排名前十依次為:1. Binance,2. OKX,3. gate.io,4. Coinbase,5. Kraken,6. Huobi,7. Bitfinex,8. KuCoin,9. Bybit,10. Bitstamp,這些平台均採用了多層次的安全措施,包括冷熱錢包分離、多重簽名技術以及24/7的監控系統,確保用戶資金的安全。

穩定幣有哪些?穩定幣如何交易? 穩定幣有哪些?穩定幣如何交易? Apr 22, 2025 am 10:12 AM

常見的穩定幣有:1. 泰達幣(USDT),由Tether發行,與美元掛鉤,應用廣泛但透明性曾受質疑;2. 美元幣(USDC),由Circle和Coinbase發行,透明度高,受機構青睞;3. 戴幣(DAI),由MakerDAO發行,去中心化,DeFi領域受歡迎;4. 幣安美元(BUSD),由幣安和Paxos合作,交易和支付表現出色;5. 真實美元(TUSD),由TrustTo

目前有多少穩定幣交易所?穩定幣種類有多少? 目前有多少穩定幣交易所?穩定幣種類有多少? Apr 22, 2025 am 10:09 AM

截至2025年,穩定幣交易所數量約為千家。 1. 法定貨幣支持的穩定幣包括USDT、USDC等。 2. 加密貨幣支持的穩定幣如DAI、sUSD。 3. 算法穩定幣如TerraUSD。 4. 還有混合型穩定幣。

幣圈十大交易所有哪些 最新幣圈app推薦 幣圈十大交易所有哪些 最新幣圈app推薦 Apr 24, 2025 am 11:57 AM

選擇可靠的交易所至關重要,Binance、OKX、Gate.io等十大交易所各具特色,CoinGecko、Crypto.com等新app也值得關注。

2025下一個千倍幣可能有哪些 2025下一個千倍幣可能有哪些 Apr 24, 2025 pm 01:45 PM

截至2025年4月,有七个加密货币项目被认为具有显著增长潜力:1. Filecoin(FIL)通过分布式存储网络实现快速发展;2. Aptos(APT)以高性能Layer 1公链吸引DApp开发者;3. Polygon(MATIC)提升以太坊网络性能;4. Chainlink(LINK)作为去中心化预言机网络满足智能合约需求;5. Avalanche(AVAX)以快速交易和

DLC是什麼幣 DLC幣前景怎麼樣 DLC是什麼幣 DLC幣前景怎麼樣 Apr 24, 2025 pm 12:03 PM

DLC幣是基於區塊鏈的加密貨幣,旨在提供高效、安全的交易平台,支持智能合約和跨鏈技術,適用於金融和支付領域。

See all articles