首頁 科技週邊 人工智慧 家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型

家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型

Jan 09, 2024 pm 07:30 PM
工程 sage

這幾天,家事都被機器人搶著乾了。

前腳來自史丹佛的會用鍋子的機器人剛登場,後腳又來了個會用咖啡機的機器人 Figure-01 。

家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型

Figure-01只需觀看示範視頻,再進行10小時的訓練,就能熟練操作咖啡機。從放入咖啡膠囊到按下啟動鍵,一氣呵成。

然而,要使機器人能夠獨立學會使用各種家具和家電,遇到它們時不需要示範視頻,這是一個難以解決的問題。這需要機器人具備強大的視覺感知和決策規劃能力,以及精確的操縱技能。

現在,一個三維具身圖文大模型系統為上述難題提供了新思路。該系統將基於三維視覺的精準幾何感知模型與擅長規劃的二維圖文大模型結合了起來,無需樣本數據,即可解決與家具家電相關的複雜長程任務。

這項研究由史丹佛大學的 Leonidas Guibas 教授、北京大學的王鶴教授團隊,與智源人工智慧研究院合作完成。

家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型

論文連結:https://arxiv.org/abs/2312.01307

計畫首頁:https://geometry.stanford.edu/projects/ sage/

程式碼:https://github.com/geng-haoran/SAGE

研究問題概述

家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型

##圖1:根據人類指令,機械手臂能夠無師自通地使用各種家用電器。

近日,PaLM-E 和 GPT-4V 帶動了圖文大模型在機器人任務規劃中的應用,視覺語言引導下的泛化機器人操控成為了熱門研究領域。

過去的常見方法是建立一個兩層的系統,上層的圖文大模型做規劃和技能調度,下層的操控技能策略模型負責物理地執行動作。但當機器人在家務活中面對各種從未見過並且需要多步驟操作的家用電器時,現有方法中的上下兩層都將束手無策。

以目前最先進的圖文大模型GPT-4V 為例,雖然它可以對單張圖片進行文字描述,但涉及可操作零件檢測、計數、定位及狀態估計時,它仍然錯誤百出。圖二中的紅色高亮部分是 GPT-4V 在描述抽屜櫃、烤箱和立櫃的圖片時出現的各種錯誤。基於錯誤的描述,機器人再進行技能調度,顯然不太可靠。

家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型

圖2:GP#T-4V 無法很好地處理計數,偵測,定位,狀態估計等泛化操控所關注的任務。

下層的操控技能策略模型負責在各種各樣的實際情況中執行上層圖文大模型給出的任務。現有的研究成果大部分是基於規則生硬地對一些已知物體的抓取點位和操作方式進行了編碼,無法泛應對沒見過的新物體類別。而基於端到端的操作模型(如 RT-1,RT-2 等)只使用了 RGB 模態,缺乏對距離的準確感知,對新環境中如高度等變化的泛化性較差。

受王鶴教授團隊先前的 CVPR Highlight 工作 GAPartNet [1] 啟迪,研究團隊將重點放在了各種類別的家用電器中的通用零件(GAPart)之上。雖然家用電器千變萬化,但總有幾樣零件不可或缺,每個家電和這些通用的零件之間存在相似的幾何和互動模式。

由此,研究團隊在 GAPartNet [1] 這篇論文中引入了 GAPart 這個概念。 GAPart 指可泛化可互動的零件。 GAPart 出現在不同類別的鉸接物上,例如,在保險箱,衣櫃,冰箱中都能找到鉸接門這種零件。如圖 3,GAPartNet [1] 在各類物件上標示了 GAPart 的語意與位姿。

家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型

圖3:GAPart:可泛化可互動的零件[1]。 #

在先前研究的基礎上,研究團隊創造性地將基於三維視覺的 GAPart 引入了機器人的物體操控系統 SAGE 。 SAGE 將透過可泛化的三維零件檢測 (part detection),精確的位姿估計 (pose estimation) 為 VLM 和 LLM 提供資訊。新方法在決策層解決了二維圖文模型精細計算和推理能力不足的問題;在執行層,新方法透過基於 GAPart 位姿的魯棒物理操作 API 實現了對各個零件的泛化性操作。

SAGE 構成了首個三維具身圖文大模型系統,為機器人從感知、物理交互再到反饋的全鏈路提供了新思路,為機器人能夠智能、通用地操控家具家電等複雜物體探尋了一條可行的道路。

系統介紹

圖 4 展示了 SAGE 的基本流程。首先,一個能夠解讀上下文的指令解釋模組將解析輸入機器人的指令和其觀察結果,將這些解析轉換為下一步機器人動作程式以及與其相關的語義部分。接下來,SAGE 將語意部分(如容器 container)與需要進行操作部分(如滑動按鈕 slider button)對應起來,並產生動作(如按鈕的 「按壓 press」 動作)來完成任務。

家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型

圖 4:方法概覽。

#
為了方便大家理解整個系統流程,一起來看看在無需樣本的情況下,讓機械手臂使用操作一款沒見過的微波爐的例子。

指令解析:從視覺和指令輸入到可執行的技能指令

輸入指令和RGBD 影像觀測後,解釋器首先使用VLM 和GAPartNet [1] 產生了場景描述。隨後,LLM(GPT-4)將指令和場景描述作為輸入,產生語義零件和動作程式。或者也可以在這個環節輸入特定的使用手冊。 LLM 將基於輸入產生一個可操作零件的目標。
家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型
圖 5:場景描述的產生(以 zero-shot 使用微波爐為例)。

為了更好地協助動作生成,場景描述包含物件資訊、零件資訊以及一些與互動相關的資訊。在產生場景描述之前,SAGE 也會採用專家級 GAPart 模型 [1] 為 VLM 產生專家描述作為提示。這種兼收了兩種模型的優點的方法效果良好。
家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型
圖 6:指令理解與動作規劃(以 zero-shot 使用微波爐為例)。

零件互動訊息的理解與感知
家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型
##圖7:零件理解。

在輸入觀察結果的過程中,SAGE 綜合了GroundedSAM 的二維(2D)提示和來自GAPartNet 的三維(3D)提示,然後這些提示被用作可操作零件的具體定位。研究團隊利用 ScoreNet、非極大值抑制(NMS)和 PoseNet 等展示了新方法的感知結果。

其中:(1)對於零件感知評估基準,文章直接採用了 SAM [2]。然而,在操作流程中,文章使用了 GroundedSAM,它也考慮了作為輸入的語義零件。 (2)如果大型語言模型(LLM)直接輸出了一個可操作零件的目標,那麼定位過程將被繞過。
家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型
圖 8:零件理解(以 zero-shot 使用微波爐為例)。

動作產生

#一旦將語意零件定位到可操作零件之上,SAGE 將在這個零件上產生可執行的操作動作。首先,SAGE 將估計零件的姿態,根據鉸接類型(平移或旋轉)計算鉸接狀態(零件軸線和位置)和可能的運動方向。然後,它再根據以上估算產生機器人操作零件的動作。

在啟動微波爐這個任務中,SAGE 首先預測機械手臂應該以初始夾爪姿態作為主要動作。再根據 GAPartNet [1] 中定義的預定策略產生動作。這個策略是根據零件姿態和鉸接狀態來決定的。例如,為了打開一個有旋轉鉸接的門,起始位置可以在門的邊緣或把手上,其軌跡是沿著門鉸鏈定向的圓弧。

互動回饋

#到目前為止,研究團隊只使用了一個初始觀測來產生開環交互。這時,他們引入了一種機制,可以進一步利用在互動過程中獲得的觀測結果,更新感知結果並相應調整操作。為了實現這一目標,研究團隊為互動過程中引入了一個兩部分的回饋機制。

應注意,在首次觀測的感知過程中可能會出現遮蔽和估算錯誤。
家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型
圖 9:直接開門不能打開,該輪互動失敗(以 zero-shot 使用微波爐為例)。

為了解決這些問題,研究者進而提出了一個模型,利用互動式觀測 (Interactive Perception) 來增強操作。在整個互動過程中,目標夾持器和零件狀態的追蹤得以維持。如果出现显著的偏差,规划器可以自行选择以下四种状态之一:「继续」、「转移到下一步」、「停止并重新规划」或 「成功」。

例如,如果设置夹持器沿着一个关节旋转 60 度,但门只打开了 15 度,大型语言模型(LLM)规划器会选择 「停止并重新规划」。这种互动跟踪模型确保 LLM 在互动过程中能够具体问题具体分析,在微波炉启动失败的挫折中也能重新「站起来」。

家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型

图 10:通过交互反馈和重新规划,机器人意识到按钮打开的方法并成功。

实验结果

研究团队首先搭建了一个大规模语言指导的铰接物体交互的测试基准。
家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型
图 11:SAPIEN 模拟实验。

他们使用了 SAPIEN 环境 [4] 进行了模拟实验,并设计了 12 项语言引导的铰接物体操作任务。对于微波炉、储物家具和橱柜的每个类别,各设计了 3 个任务,包括在不同初始状态下的开启状态和关闭状态。其他任务为「打开锅盖」、「按下遥控器的按钮」和「启动搅拌器」。实验结果显示,在几乎所有任务中 SAGE 都表现卓越。

家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型

图 12:真机演示。

研究团队同时也进行了大规模真实世界实验,他们使用 UFACTORY xArm 6 和多种不同的铰接物体进行操作。上图的左上部分展示了一个启动搅拌器的案例。搅拌器的顶部被感知为一个用于装果汁的容器,但其实际功能需要按下一个按钮来开启。SAGE 的框架有效地连接了其语义和动作理解,并成功执行了任务。

上图右上部分展示了机器人,需要按下(下压)紧急停止按钮来停止操作,旋转(向上)来重启。借助用户手册的辅助输入,在 SAGE 指导下的机械臂完成了这两个任务。上图底部的图片展示了开启微波炉任务中的更多细节。

家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型

图 13:更多真机演示和指令解读示例。

总结

SAGE是首个能够生成通用的家具家电等复杂铰接物体操控指令的三维视觉语言模型框架。它通过在零件级别上连接物体语义和可操作性理解,将语言指令的动作转化为可执行的操控。

此外,文章还研究了将通用的大型视觉 / 语言模型与领域专家模型相结合的方法,以增强网络预测的全面性和正确性,更好地处理这些任务并实现最先进的性能。实验结果表明,该框架具有强大的泛化能力,可以在不同物体类别和任务上展示出优越的性能。此外,文章还为语言指导的铰接物体操作提供了一个新的基准测试。

团队介绍

SAGE 这一研究成果来自斯坦福大学 Leonidas Guibas 教授实验室、北京大学王鹤教授具身感知和交互(EPIC Lab)以及智源人工智能研究院。论文的作者为北京大学学生、斯坦福大学访问学者耿浩然(共同一作)、北京大学博士生魏松林(共同一作)、斯坦福大学博士生邓丛悦,沈博魁,指导老师为 Leonidas Guibas 教授和王鹤教授。

参考文献:

[1] Haoran Geng,Helin Xu,Chengyang Zhao,Chao Xu,Li Yi,Siyuan Huang,and He Wang。Gapartnet: Cross-category domaingeneralizable object perception and manipulation via generalizable and actionable parts。arXiv preprint arXiv:2211.05272,2022.

[2] Kirillov,Alexander,Eric Mintun,Nikhila Ravi,Hanzi Mao,Chloe Rolland,Laura Gustafson,Tete Xiao et al。"Segment anything." arXiv preprint arXiv:2304.02643 (2023).

[3] Zhang,Hao,Feng Li,Shilong Liu,Lei Zhang,Hang Su,Jun Zhu,Lionel M。 Ni,and Heung-Yeung Shum。 "Dino: Detr with improved denoising anchor boxes for end-to-end object detection." arXiv preprint arXiv:2203.03605 (2022).

###########################################################################################' ,Fanbo,Yuzhe Qin,Kaichun Mo,Yikuan Xia,Hao Zhu,Fangchen Liu,Minghua Liu et al。 "Sapien: A simulated part-based interactive environment." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,pp。 11097-11107。2020.#########

以上是家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4 公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4 Jul 17, 2024 am 10:14 AM

把因果鏈展示給LLM,它就能學會公理。 AI已經在幫助數學家和科學家做研究了,例如著名數學家陶哲軒就曾多次分享自己借助GPT等AI工具研究探索的經驗。 AI要在這些領域大戰拳腳,強大可靠的因果推理能力是不可或缺的。本文要介紹的研究發現:在小圖譜的因果傳遞性公理演示上訓練的Transformer模型可以泛化用於大圖譜的傳遞性公理。也就是說,如果讓Transformer學會執行簡單的因果推理,就可能用於更複雜的因果推理。該團隊提出的公理訓練框架是一種基於被動資料來學習因果推理的新範式,只有演示

See all articles