家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型
這幾天,家事都被機器人搶著乾了。
前腳來自史丹佛的會用鍋子的機器人剛登場,後腳又來了個會用咖啡機的機器人 Figure-01 。
Figure-01只需觀看示範視頻,再進行10小時的訓練,就能熟練操作咖啡機。從放入咖啡膠囊到按下啟動鍵,一氣呵成。
然而,要使機器人能夠獨立學會使用各種家具和家電,遇到它們時不需要示範視頻,這是一個難以解決的問題。這需要機器人具備強大的視覺感知和決策規劃能力,以及精確的操縱技能。
論文連結:https://arxiv.org/abs/2312.01307
計畫首頁:https://geometry.stanford.edu/projects/ sage/
程式碼:https://github.com/geng-haoran/SAGE
研究問題概述
##圖1:根據人類指令,機械手臂能夠無師自通地使用各種家用電器。
近日,PaLM-E 和 GPT-4V 帶動了圖文大模型在機器人任務規劃中的應用,視覺語言引導下的泛化機器人操控成為了熱門研究領域。 過去的常見方法是建立一個兩層的系統,上層的圖文大模型做規劃和技能調度,下層的操控技能策略模型負責物理地執行動作。但當機器人在家務活中面對各種從未見過並且需要多步驟操作的家用電器時,現有方法中的上下兩層都將束手無策。 以目前最先進的圖文大模型GPT-4V 為例,雖然它可以對單張圖片進行文字描述,但涉及可操作零件檢測、計數、定位及狀態估計時,它仍然錯誤百出。圖二中的紅色高亮部分是 GPT-4V 在描述抽屜櫃、烤箱和立櫃的圖片時出現的各種錯誤。基於錯誤的描述,機器人再進行技能調度,顯然不太可靠。圖2:GP#T-4V 無法很好地處理計數,偵測,定位,狀態估計等泛化操控所關注的任務。
下層的操控技能策略模型負責在各種各樣的實際情況中執行上層圖文大模型給出的任務。現有的研究成果大部分是基於規則生硬地對一些已知物體的抓取點位和操作方式進行了編碼,無法泛應對沒見過的新物體類別。而基於端到端的操作模型(如 RT-1,RT-2 等)只使用了 RGB 模態,缺乏對距離的準確感知,對新環境中如高度等變化的泛化性較差。 受王鶴教授團隊先前的 CVPR Highlight 工作 GAPartNet [1] 啟迪,研究團隊將重點放在了各種類別的家用電器中的通用零件(GAPart)之上。雖然家用電器千變萬化,但總有幾樣零件不可或缺,每個家電和這些通用的零件之間存在相似的幾何和互動模式。 由此,研究團隊在 GAPartNet [1] 這篇論文中引入了 GAPart 這個概念。 GAPart 指可泛化可互動的零件。 GAPart 出現在不同類別的鉸接物上,例如,在保險箱,衣櫃,冰箱中都能找到鉸接門這種零件。如圖 3,GAPartNet [1] 在各類物件上標示了 GAPart 的語意與位姿。圖3:GAPart:可泛化可互動的零件[1]。 #
在先前研究的基礎上,研究團隊創造性地將基於三維視覺的 GAPart 引入了機器人的物體操控系統 SAGE 。 SAGE 將透過可泛化的三維零件檢測 (part detection),精確的位姿估計 (pose estimation) 為 VLM 和 LLM 提供資訊。新方法在決策層解決了二維圖文模型精細計算和推理能力不足的問題;在執行層,新方法透過基於 GAPart 位姿的魯棒物理操作 API 實現了對各個零件的泛化性操作。
SAGE 構成了首個三維具身圖文大模型系統,為機器人從感知、物理交互再到反饋的全鏈路提供了新思路,為機器人能夠智能、通用地操控家具家電等複雜物體探尋了一條可行的道路。
系統介紹
圖 4 展示了 SAGE 的基本流程。首先,一個能夠解讀上下文的指令解釋模組將解析輸入機器人的指令和其觀察結果,將這些解析轉換為下一步機器人動作程式以及與其相關的語義部分。接下來,SAGE 將語意部分(如容器 container)與需要進行操作部分(如滑動按鈕 slider button)對應起來,並產生動作(如按鈕的 「按壓 press」 動作)來完成任務。
圖 4:方法概覽。
#





图 12:真机演示。
研究团队同时也进行了大规模真实世界实验,他们使用 UFACTORY xArm 6 和多种不同的铰接物体进行操作。上图的左上部分展示了一个启动搅拌器的案例。搅拌器的顶部被感知为一个用于装果汁的容器,但其实际功能需要按下一个按钮来开启。SAGE 的框架有效地连接了其语义和动作理解,并成功执行了任务。
上图右上部分展示了机器人,需要按下(下压)紧急停止按钮来停止操作,旋转(向上)来重启。借助用户手册的辅助输入,在 SAGE 指导下的机械臂完成了这两个任务。上图底部的图片展示了开启微波炉任务中的更多细节。
图 13:更多真机演示和指令解读示例。
总结
团队介绍
SAGE 这一研究成果来自斯坦福大学 Leonidas Guibas 教授实验室、北京大学王鹤教授具身感知和交互(EPIC Lab)以及智源人工智能研究院。论文的作者为北京大学学生、斯坦福大学访问学者耿浩然(共同一作)、北京大学博士生魏松林(共同一作)、斯坦福大学博士生邓丛悦,沈博魁,指导老师为 Leonidas Guibas 教授和王鹤教授。
参考文献:
[1] Haoran Geng,Helin Xu,Chengyang Zhao,Chao Xu,Li Yi,Siyuan Huang,and He Wang。Gapartnet: Cross-category domaingeneralizable object perception and manipulation via generalizable and actionable parts。arXiv preprint arXiv:2211.05272,2022.
[2] Kirillov,Alexander,Eric Mintun,Nikhila Ravi,Hanzi Mao,Chloe Rolland,Laura Gustafson,Tete Xiao et al。"Segment anything." arXiv preprint arXiv:2304.02643 (2023).
[3] Zhang,Hao,Feng Li,Shilong Liu,Lei Zhang,Hang Su,Jun Zhu,Lionel M。 Ni,and Heung-Yeung Shum。 "Dino: Detr with improved denoising anchor boxes for end-to-end object detection." arXiv preprint arXiv:2203.03605 (2022).
###########################################################################################' ,Fanbo,Yuzhe Qin,Kaichun Mo,Yikuan Xia,Hao Zhu,Fangchen Liu,Minghua Liu et al。 "Sapien: A simulated part-based interactive environment." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,pp。 11097-11107。2020.#########
以上是家具家電通用三維圖文大模型系統中的首創無需指導、泛化使用形象化模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

把因果鏈展示給LLM,它就能學會公理。 AI已經在幫助數學家和科學家做研究了,例如著名數學家陶哲軒就曾多次分享自己借助GPT等AI工具研究探索的經驗。 AI要在這些領域大戰拳腳,強大可靠的因果推理能力是不可或缺的。本文要介紹的研究發現:在小圖譜的因果傳遞性公理演示上訓練的Transformer模型可以泛化用於大圖譜的傳遞性公理。也就是說,如果讓Transformer學會執行簡單的因果推理,就可能用於更複雜的因果推理。該團隊提出的公理訓練框架是一種基於被動資料來學習因果推理的新範式,只有演示
