AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文由 HMI Lab 完成。 HMI Lab依托北京大學視訊與視覺技術國家工程研究中心與多媒體資訊處理全國重點實驗室兩大平台,長期從事機器學習、多模態學習和具身智慧方向的研究。本工作第一作者為劉家銘博士,研究方向為開放世界的多模態具身大模型與持續學習技術。本工作第二作者為劉夢真,研究方向為視覺基礎模型與機器人操縱。指導教師為仉尚航,北京大學電腦學院研究員、博士生導師、博雅青年學者。從事多模態大模型與具身智能研究,取得了一系列重要研究成果,在人工智慧頂級期刊和會議上發表論文 80 餘篇,Google引用 9700 餘次。榮獲世界人工智慧頂會 AAAI 最佳論文獎,名列世界最大學術原始碼倉庫 Trending Research 第一位。 為了賦予機器人端到端的推理和操縱能力,本文創新性地將視覺編碼器與高效的狀態空間語言模型集成,構建了全新的RoboMamba 多模態大模型,使其具備視覺常識任務和機器人相關任務的推理能力,並且都取得了先進的性能表現。同時,本文發現當 RoboMamba 具備強大的推理能力後,我們可以透過極低的訓練成本讓 RoboMamba 掌握多種操縱位姿預測能力。
論文:RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation
論文連結:https://arxiv.org/ab2400672302032302302302302302302302302302302302302030230230230302302303030字sites.google.com/view/robomamba-web
Github:https://github.com/lmzpai/roboMamba
圖1.5規劃、提示性任務規劃、長程任務規劃、可操縱性判斷、可操縱性產生、未來與過去預測、末端執行器位姿預測等。
機器人操縱的一個基本目標是使模型能夠理解視覺場景並執行動作。儘管現有的機器人多模態大模型(MLLM)可以處理一系列基本任務,但它們仍然面臨兩個方面的挑戰:1) 處理複雜任務的推理能力不足;2) MLLM 微調和推理的計算成本較高。最近提出的狀態空間模型(SSM),即 Mamba,其具備線性推理複雜度同時在序列建模中展示了令人期待的能力。受此啟發,我們推出了端到端機器人 MLLM—RoboMamba,它利用 Mamba 模型提供機器人推理和行動能力,同時保持高效的微調和推理能力。
具體來說,我們首先將視覺編碼器與 Mamba 整合在一起,透過共同訓練將視覺資料與語言嵌入對齊,使我們的模型具有視覺常識和與機器人相關的推理能力。為了進一步增強 RoboMamba 的操縱位姿預測能力,我們探索了一種僅使用簡單 Policy Head 的高效微調策略。我們發現,一旦 RoboMamba 擁有足夠的推理能力,它可以透過極少的微調參數(模型的 0.1%)和微調時間(20 分鐘)來掌握多種操作技能。在實驗中,RoboMamba 在通用和機器人評估基準上展示了出色的推理能力,如圖 2 所示。同時,我們的模型在模擬和現實世界實驗中展示了令人印象深刻的操縱位姿預測能力,其推理速度比現有的機器人 MLLMs 快 7 倍。
以上是北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作的詳細內容。更多資訊請關注PHP中文網其他相關文章!