目錄
實驗結果
定性結果
總結
首頁 科技週邊 人工智慧 開源VLMs的潛力被RoboFlamingo框架釋放

開源VLMs的潛力被RoboFlamingo框架釋放

Jan 17, 2024 pm 02:12 PM
ai 訓練

近年來,大模型的研究正在加速推進,它逐漸在各類任務上展現出多模態的理解和時間空間上的推理能力。機器人的各類具身操作任務天然就對語言指令理解、場景感知和時空規劃等能力有著很高的要求,這自然引申出一個問題:能不能充分利用大模型能力,將其遷移到機器人領域,直接規劃底層動作序列呢?

ByteDance Research利用開源的多模態語言視覺大模型OpenFlamingo開發了易用的RoboFlamingo機器人操作模型,只需單機訓練。 VLM可透過簡單微調變成Robotics VLM,適用於語言互動的機器人操作任務。

在機器人操作資料集CALVIN上,OpenFlamingo進行了驗證。實驗結果表明,RoboFlamingo僅使用了1%帶有語言標註的數據,就在一系列機器人操作任務中取得了SOTA的表現。隨著RT-X資料集的開放,採用開源資料預訓練的RoboFlamingo,並進行不同機器人平台的微調,有望成為一個簡單有效的機器人大模型流程。論文也測試了不同策略頭、不同訓練範式和不同Flamingo結構的VLM在機器人任務上的微調表現,並得出了一些有趣的結論。

開源VLMs的潛力被RoboFlamingo框架釋放

  • 專案首頁:https://roboflamingo.github.io
  • 程式碼位址:https://github.com/RoboFlamingo/RoboFlamingo
  • ##論文網址:https://arxiv.org/ abs/2311.01378

#研究背景

開源VLMs的潛力被RoboFlamingo框架釋放

基於語言的機器人操作是具身智慧領域的重要應用,涉及多模態資料的理解和處理,包括視覺、語言和控制等。近年來,視覺語言基礎模型(VLMs)在圖像描述、視覺問答和圖像生成等領域取得了顯著進展。然而,將這些模型應用於機器人操作仍面臨挑戰,例如如何整合視覺和語言訊息,以及如何處理機器人操作的時序性。解決這些挑戰需要在多個方面進行改進,例如改進模型的多模態表示能力,設計更有效的模型融合機制,以及引入適應機器人操作時序性的模型結構和演算法。此外,還需要發展更豐富的機器人資料集,以訓練和評估這些模型。透過持續的研究和創新,基於語言的機器人操作有望在實際應用中發揮更大的作用,為人類提供更智慧、便利的服務。

為了解決這些問題,ByteDance Research的機器人研究團隊對現有的開源VLM(Visual Language Model)——OpenFlamingo進行了微調,並設計了一套新的視覺語言操作框架,稱為RoboFlamingo。這個框架的特點是利用VLM實現了單步驟視覺語言理解,並透過額外的policy head模組處理歷史資訊。透過簡單的微調方法,RoboFlamingo能夠適應基於語言的機器人操作任務。這一框架的引入有望解決當前機器人操作中存在的一系列問題。

RoboFlamingo 在基於語言的機器人操作資料集CALVIN 上進行了驗證,實驗結果表明,RoboFlamingo 只利用了1% 的帶語言標註的數據即在一系列機器人操作任務上取得了SOTA 的表現(多任務學習的task sequence 成功率為66%,平均任務完成數量為4.09,基線方法為38%,平均任務完成數量為3.06;zero-shot 任務的成功率為24%,平均任務完成數量為2.48,基線方法為1%,平均任務完成數量為0.67),並且能夠透過開環控制實現即時回應,可以靈活部署在較低效能的平台上。這些結果表明,RoboFlamingo 是一種有效的機器人操作方法,可以為未來的機器人應用提供有用的參考。

方法

開源VLMs的潛力被RoboFlamingo框架釋放

本工作利用現有的基於圖像 - 文字對的視覺語言基礎模型,透過訓練端到端的方式產生機器人每一步的相對動作。模型由三個主要模組組成:Vision encoder,Feature fusion decoder 和 Policy head。 在 Vision encoder 模組中,當前視覺觀測首先被輸入到 ViT 中,然後透過 resampler 對 ViT 輸出的 token 進行 down sample。這一步驟有助於減小模型的輸入維度,從而提高了訓練效率。 Feature fusion decoder 模組將 text token 作為輸入,並透過交叉注意力機制將視覺編碼器的輸出作為查詢,實現了視覺與語言特徵的融合。在每個 layer 中,feature fusion decoder 首先執行交叉注意力操作,然後執行自我注意操作。這些操作有助於提取語言和視覺特徵之間的相關性,從而更好地產生機器人的動作。 在 Feature fusion decoder 輸出的當前和歷史 token 序列的基礎上,Policy head 直接輸出當前的 7 DoF 相對動作,包括了 6-dim 的機械臂末端位姿和 1-dim 的 gripper open/close。最後,對 feature fusion decoder 進行 max pooling 後將其送入 Policy head 中,從而產生相對動作。 透過這種方式,我們的模型能夠有效地將視覺和語言訊息融合在一起,產生出準確的機器人動作。這對於機器人控制和自主導航等領域有著廣泛的應用前景。

在訓練過程中,RoboFlamingo 利用預訓練的 ViT、LLM 和 Cross Attention 參數,並且只微調 resampler、cross attention 和 policy head 的參數。

實驗結果

資料集:

開源VLMs的潛力被RoboFlamingo框架釋放

CALVIN(Composing Actions from Language and Vision)是一個開源的模擬基準測試,用於學習基於語言的long-horizo​​n 操作任務。與現有的視覺 - 語言任務資料集相比,CALVIN 的任務在序列長度、動作空間和語言上都更為複雜,並支援靈活地指定感測器輸入。 CALVIN 分為 ABCD 四個 split,每個 split 對應了不同的 context 和 layout。

定量分析:

開源VLMs的潛力被RoboFlamingo框架釋放

#RoboFlamingo 在各設定和指標上的表現均為最佳,說明了其具有很強的模仿能力、視覺泛化能力以及語言泛化能力。 Full 和 Lang 表示模型是否使用未配對的視覺資料進行訓練(即沒有語言配對的視覺資料);Freeze-emb 指的是凍結融合解碼器的嵌入層;Enriched 表示使用 GPT-4 增強的指令。

消融實驗:

開源VLMs的潛力被RoboFlamingo框架釋放

#不同的policy head:

#實驗考察了四種不同的策略頭部:MLP w/o hist、MLP w hist、GPT 和LSTM。其中,MLP w/o hist 直接根據當前觀測預測歷史,其性能最差,MLP w hist 將歷史觀測在vision encoder 端進行融合後預測action,性能有所提升;GPT 和LSTM 在policy head 處分別顯式、隱式地維護歷史訊息,其表現最好,說明了透過policy head 進行歷史資訊融合的有效性。

視覺-語言預訓練的影響:

#預訓練對於 RoboFlamingo 的表現提升起到了關鍵作用。實驗顯示,透過預先在大型視覺語言資料集上進行訓練,RoboFlamingo 在機器人任務中表現得更好。

模型大小與性能:

雖然通常更大的模型會帶來更好的性能,但實驗結果表明,即使是較小的模型,也能在某些任務上與大型模型媲美。

指令微調的影響:

指令微調是一個強大的技巧,實驗結果表明,它可以進一步提高模型的效能。

定性結果

相對於基準法,RoboFlamingo 不但完整執行了5 個連續的子任務,且對於基準頁執行成功的前兩個子任務, RoboFlamingo 所使用的步數也明顯較少。

開源VLMs的潛力被RoboFlamingo框架釋放

總結

#本工作為語言互動的機器人操作策略提供了一個新穎的基於現有開源VLMs 的框架,使用簡單微調就能達到出色的效果。 RoboFlamingo 為機器人技術研究者提供了一個強大的開源框架,能夠更輕鬆地發揮開源 VLMs 的潛能。工作中豐富的實驗結果或許可以為機器人技術的實際應用提供寶貴的經驗和數據,有助於未來的研究和技術發展。

以上是開源VLMs的潛力被RoboFlamingo框架釋放的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

WorldCoin(WLD)價格預測2025-2031:到2031年WLD會達到4美元嗎? WorldCoin(WLD)價格預測2025-2031:到2031年WLD會達到4美元嗎? Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制,在加密货币市场中脱颖而出,吸引了众多投资者的目光。WLD凭借其创新技术,特别是结合OpenAI人工智能技术,在众多山寨币中表现突出。但未来几年,数字资产的走势如何呢?让我们一起预测WLD的未来价格。2025年WLD价格预测预计2025年WLD将实现显著增长。市场分析显示,WLD平均价格可能达到1.31美元,最高可能触及1.36美元。然而,在熊市情况下,价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

跨鏈交易什麼意思?跨鏈交易所有哪些? 跨鏈交易什麼意思?跨鏈交易所有哪些? Apr 21, 2025 pm 11:39 PM

支持跨鏈交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,這些平台通過各種技術支持多鏈資產交易。

虛擬幣價格上漲或者下降是為什麼 虛擬幣價格上漲或者下降的原因 虛擬幣價格上漲或者下降是為什麼 虛擬幣價格上漲或者下降的原因 Apr 21, 2025 am 08:57 AM

虛擬幣價格上漲因素包括:1.市場需求增加,2.供應量減少,3.利好消息刺激,4.市場情緒樂觀,5.宏觀經濟環境;下降因素包括:1.市場需求減少,2.供應量增加,3.利空消息打擊,4.市場情緒悲觀,5.宏觀經濟環境。

Aavenomics是修改AAVE協議令牌並介紹令牌回購的建議,已達到法定人數 Aavenomics是修改AAVE協議令牌並介紹令牌回購的建議,已達到法定人數 Apr 21, 2025 pm 06:24 PM

Aavenomics是修改AAVE協議令牌並引入令牌回購的提議,已為AAVEDAO實現了一個法定人數。 AAVE連鎖計劃(ACI)創始人馬克·澤勒(MarcZeller)在X上宣布了這一點,並指出它標誌著該協議的新時代。 AAVE連鎖倡議(ACI)創始人MarcZeller在X上宣布,Aavenomics提案包括修改AAVE協議令牌和引入令牌回購,已為AAVEDAO實現了法定人數。根據Zeller的說法,這標誌著該協議的新時代。 AaveDao成員以壓倒性的投票支持該提議,即在周三以每週100

如何在幣安拿下 KERNEL 空投獎勵 全流程攻略 如何在幣安拿下 KERNEL 空投獎勵 全流程攻略 Apr 21, 2025 pm 01:03 PM

在加密貨幣的繁華世界裡,新機遇總是不斷湧現。當下,KernelDAO (KERNEL) 空投活動正備受矚目,吸引著眾多投資者的目光。那麼,這個項目究竟是什麼來頭? BNB Holder 又能從中獲得怎樣的好處?別急,下面將為你一一揭曉。

混合型區塊鏈交易平台有哪些 混合型區塊鏈交易平台有哪些 Apr 21, 2025 pm 11:36 PM

選擇加密貨幣交易所的建議:1. 流動性需求,優先選擇幣安、Gate.io或OKX,因其訂單深度與抗波動能力強。 2. 合規與安全,Coinbase、Kraken、Gemini具備嚴格監管背書。 3. 創新功能,KuCoin的軟質押和Bybit的衍生品設計適合進階用戶。

幣圈行情實時數據免費平台推薦前十名發布 幣圈行情實時數據免費平台推薦前十名發布 Apr 22, 2025 am 08:12 AM

適合新手的加密貨幣數據平台有CoinMarketCap和非小號。 1. CoinMarketCap提供全球加密貨幣實時價格、市值、交易量排名,適合新手與基礎分析需求。 2. 非小號提供中文友好界面,適合中文用戶快速篩選低風險潛力項目。

Rexas Finance(RXS)可以在2025年超過Solana(Sol),Cardano(ADA),XRP和Dogecoin(Doge) Rexas Finance(RXS)可以在2025年超過Solana(Sol),Cardano(ADA),XRP和Dogecoin(Doge) Apr 21, 2025 pm 02:30 PM

在波動劇烈的加密貨幣市場中,投資者正尋求超越熱門幣種的替代方案。 Solana(SOL)、Cardano(ADA)、XRP和Dogecoin(DOGE)等知名加密貨幣,儘管佔據著一定的市場地位,但也面臨著市場情緒、監管不確定性和可擴展性等挑戰。然而,一個新興項目RexasFinance(RXS)正在嶄露頭角。它並非依靠名人效應或炒作,而是專注於將現實世界資產(RWA)與區塊鏈技術結合,為投資者提供一種創新的投資方式。這一策略使其有望成為2025年最成功的項目之一。 RexasFi

See all articles