一句指令就能沖咖啡、倒紅酒、鎚釘子,清華具身智能CoPa「動」手了
近期,具身智慧方向取得了許多進展。從Google的 RT-H 到 OpenAI、Figure 聯合打造的 Figure 01,機器人的互動性、通用性越來越強。
如果未來機器人成為人們日常生活的助手,你期待它們能完成哪些任務?泡一杯熱氣騰騰的手沖咖啡,整理桌面,甚至幫你精心安排一場浪漫的約會,這些任務,只需一句指令,清華的具身智能新框架“CoPa”都能完成。
CoPa(Robotic Manipulation through Spatial Constraints of Parts)是清華大學機器人研究團隊在高陽教授的領導下提出的最新智慧框架。這個框架首次實現了機器人在多種場景下,面對長距離任務和複雜的3D行為時的泛化能力。
論文網址:https://arxiv.org/abs/2403.08248
計畫首頁: https://copa-2024.github.io/
由於對視覺語言大模型(VLMs)的獨特應用,CoPa 在沒有經過任何特定訓練的情況下可以在開放的場景中泛化,並且可以處理複雜的指令。 CoPa 最引人注目的地方在於展現出對場景中物體物理屬性的深入理解,以及其精確的規劃和操作能力。
在該任務中,CoPa 不僅可以理解複雜桌面陳設中每個物體的作用,還可以透過精確的控制,完成對它們的物理操作。例如「把水從水壺倒到漏斗中」這項任務,機器人將水壺移動到漏斗的上方,精確地將其旋轉至適當的角度,使得水可以從壺口流到漏斗中。
CoPa 還能精心安排一場浪漫的約會。在了解研究人員的約會需求後,CoPa 幫助其佈置了精美的西餐桌。
在深入理解使用者需求的同時,CoPa 也展現了精確的操作物體本領。例如「把花插入花瓶」這個任務,機器人首先抓住了花的莖,將其旋轉至正對著花瓶,最後將其插入。

方法介紹
#演算法流程
#大多數操作任務可以分解為兩個階段:物體的抓取,以及完成任務所需的後續動作。例如,在開抽屜時,我們需要先抓住抽屜的把手,再沿著直線拉出抽屜。基於此,研究人員設計了兩個階段,即首先透過「任務導向的抓取模組(Task-Oriented Grasping)」產生機器人抓取物體的位姿,再透過「任務相關的運動規劃模組(Task-Aware Motion Planning)」產生抓取後完成任務所需的位姿。機器人在相鄰位姿之間的轉移可以透過傳統的路徑規劃演算法來實現。
重要部分偵測模組
研究人員觀察到大多數操作任務都需要對場景中的物件具有細緻的“部分級(part-level)理解」。例如在用小刀切東西時,我們會握著刀柄而非刀刃;在戴眼鏡時,我們會拿著鏡框而非鏡片。基於這個觀察,研究團隊設計了「由粗到細的部分檢測(coarse-to-fine part grounding)模組」來定位場景中和任務相關的部分。具體來說,CoPa 先透過粗粒度物體偵測來定位場景中和任務相關的物體,隨後透過細粒度部分偵測來定位這些物體上和任務相關的部分。
在「任務導向的抓取模組」中,CoPa 首先透過此重要部分偵測模組定位抓取的位置(例如工具的柄),該位置資訊被用來過濾GraspNet(可以產生場景中所有可能的抓取位姿的模型)所產生的抓取位姿,進而得到最終的抓取位姿。
任務相關的運動規劃模組
為了讓視覺語言大模型來幫助機器人進行操作任務,該研究需要設計一個接口,該接口既可以讓大模型以語言的方式推理,又有利於機器人操作。研究團隊發現,在執行任務的過程中,與任務相關的物體通常會受到許多空間幾何的限制。例如,在為手機充電時,充電頭必須正對著充電口;在蓋瓶蓋時,蓋子必須被正放在瓶口位置。基於此,研究團隊提出使用空間限製作為視覺語言大模型和機器人之間的橋樑。具體來說,CoPa 首先透過視覺語言大模型產生任務相關的物體在完成任務時需要滿足的空間限制,再透過一個求解模組基於這些限制解出機器人的位姿。
實驗結果
#CoPa 能力評估
CoPa 在現實世界中操作任務中展現了極強的泛化能力。得益於對視覺語言大模型中蘊含的常識知識的利用,CoPa 對場景中物體的物理屬性有深入的理解。
例如,在「錘釘子」任務中,CoPa 首先抓住了錘柄,再將錘子旋轉至鎚頭正對著釘子,最後向下錘。此任務要求精確辨識出錘柄、錘面以及釘面,並充分理解它們的空間關係,證明 CoPa 對場景中物體的物理屬性具有深入的理解。
在「把橡皮放进抽屉」任务中,CoPa 首先定位到了橡皮的位置,然后发现橡皮的一部分被纸包裹着,于是聪明地抓取了该部分,确保橡皮不会被弄脏。
在「把勺子插入杯子」任务中,CoPa 首先抓住了勺柄,将其平移旋转至竖直朝下,并正对着杯子,最后将其插入杯中,证明 CoPa 可以很好的理解完成任务时物体需要满足的空间几何限制。
研究团队在 10 个现实世界任务上进行了充分的定量实验。如表一所示,CoPa 在处理这些复杂任务的表现上显著超过了基线方法以及许多消融变种方法。
消融实验
研究人员通过一系列消融实验证明了 CoPa 框架中如下三个组成部分的重要性:基础模型、由粗到细的部分检测、空间限制生成。实验结果如上方表一中所示。
基础模型
表中 CoPa w/o foundation 消融实验去除了 CoPa 中对基础模型的使用,转而通过检测模型来定位物体,以及基于规则的方法生成空间限制。实验结果表明该消融变种的成功率很低,证明了基础模型中蕴含的丰富常识知识在 CoPa 中的重要作用。比如在「扫螺母」任务中,该消融变种不知道场景中哪个工具适合用来扫。
由粗到细的部分检测
表中 CoPa w/o coarse-to-fine 消融实验去除了 CoPa 由粗到细的部分检测设计,转而直接使用细粒度分割来定位物体。该变种在定位物体重要部分相对困难的任务中表现显著降低。比如在「锤钉子」任务中,缺少「由粗到细」这一设计导致很难识别出锤面。
空间限制生成
表中 CoPa w/o constraint 消融实验去除了 CoPa 的空间限制生成模块,转而让视觉语言大模型直接输出机器人的目标位姿的具体数值。实验表明根据场景图片直接输出机器人目标位姿是十分困难的。比如在「倒水」任务中,水壶需要被倾斜一定的角度,该变种完全无法生成此时机器人的位姿。
了解更多内容,请参考原论文。
以上是一句指令就能沖咖啡、倒紅酒、鎚釘子,清華具身智能CoPa「動」手了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

但可能打不過公園裡的老大爺?巴黎奧運正在如火如荼地進行中,乒乓球項目備受關注。同時,機器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢?大概和人類業餘選手不相上下:正手反手都會:對手採用多種打法,機器人也能招架得住:接不同旋轉的發球:不過,比賽激烈程度似乎不如公園老大爺對戰。對機器人來說,乒乓球運動

8月21日,2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相,並最新發布元蘿蔔AI下棋機器人-國際象棋專業版(以下簡稱「元蘿蔔國象機器人」),成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品,全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新,首次在家用機器人上實現了透過機械爪拾取立體棋子,並進行人機對弈、人人對弈、記譜複盤等功能,

開學將至,該收心的不只即將開啟新學期的同學,可能還有AI大模型。前段時間,Reddit擠滿了吐槽Claude越來越懶的網友。 「它的水平下降了很多,經常停頓,甚至輸出也變得很短。在發布的第一周,它可以一次性翻譯整整4頁文稿,現在連半頁都輸出不了!」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”,滿滿地

在北京舉行的世界機器人大會上,人形機器人的展示成為了現場絕對的焦點,在星塵智能的展台上,由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲,能文能武,吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏,讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道,公司創始人來傑解釋到,絲滑動作的背後,是硬體側追求最好力控和最仿人身體指標(速度、負載等),而是在AI側則採集人的真實動作數據,讓機器人遇強則強,快速學習進化。而敏捷

本屆ACL大會,投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL在NLP領域的學術影響力都名列第一,它也是CCF-A類推薦會議。今年的ACL大會已是第62屆,接收了400餘篇NLP領域的前沿工作。昨天下午,大會公佈了最佳論文等獎項。此次,最佳論文獎7篇(兩篇未公開)、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎(ResourceAward)3篇、社會影響力獎(

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時,加上最近老上頭條的1X人形機器人NEO,你可能會產生一種感覺:我們似乎開始進入機器人時代了。事實上,這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道,有用的機器人往往需要與環境進行複雜精妙的交互,而環境則可被表示成空間域和時間域上的限制。舉個例子,如果要讓機器人倒茶,那麼機器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩移動,一直到讓壺口與杯口對齊,之後以一定角度傾斜茶壺。這

會議簡介隨著科技的快速發展,人工智慧成為了推動社會進步的重要力量。在這個時代,我們有幸見證並參與分散式人工智慧(DistributedArtificialIntelligence,DAI)的創新與應用。分散式人工智慧是人工智慧領域的重要分支,這幾年引起了越來越多的關注。基於大型語言模型(LLM)的智能體(Agent)異軍突起,透過結合大模型的強大語言理解和生成能力,展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型,成為目前AI圈的熱門話題。 Au

今天下午,鸿蒙智行正式迎来了新品牌与新车。8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为
