把大象裝冰箱總共要幾步?英偉達發布ProgPrompt,讓語言模式為機器人安排計劃
對機器人來說,任務規劃(Task Planning)是一個繞不過去的難題。
想要完成一個真實世界的任務,首先你得知道把大象裝冰箱總共要幾步。
即便是比較簡單的丟蘋果任務也包含多個子步驟,機器人得先觀察蘋果的位置,如果沒有看到蘋果就要持續尋找,然後靠近蘋果,把蘋果抓起來,找到並靠近垃圾桶。
如果垃圾桶是關著的,還得先把它打開,然後再把蘋果丟進去,關上垃圾桶。
但每個任務的具體實作細節不可能都由人來設計,如何透過一句指令來產生動作序列就成了難題。
用指令產生序列?這不正是語言模式的工作麼?
過去有研究人員使用大型語言模型(LLMs)根據輸入的任務指令對潛在的下一步行動空間進行評分,然後產生行動序列。 指令由自然語言進行描述,不包含額外的領域資訊。
但這類方法要么需要列舉所有可能的下一步行動進行評分,要么生成的文本在形式上沒有任何限制,其中可能包含在當前環境下特定機器人不可能採取的行動。
最近南加州大學和英偉達聯合推出了一個新模型ProgPrompt,同樣使用語言模型對輸入指令進行任務規劃,其中包含了一個程式化的提示結構,使得生成的計畫在不同的環境、具有不同能力的機器人、不同的任務中都能發揮作用。
在保證任務的規範性上,研究者採用產生python風格程式碼的形式來提示語言模型哪些動作是可用的、環境中有哪些物件以及哪些程式是可執行的。
例如輸入「丟蘋果」指令就可以產生以下程式。
ProgPrompt模型在虛擬家庭任務中達到了sota效能,研究人員也將該模型部署在一個用於桌面任務的實體機器人手臂上。
妙用語言模型
想要完成日常家庭任務(everyday household tasks)既需要對世界具有常識性理解,也需要當前環境的情境知識。
為了創建一個「做晚餐」的任務計劃,智能體最起碼需要知道的常識包括:物體的功能,如爐子和微波爐可以用來加熱;行動的邏輯順序,在添加食物之前必須先預熱烤箱;以及物體和行動的任務相關性,例如加熱和尋找食材首先是與“晚餐”相關的行動。
但如果沒有狀態回授(state feedback),這種推理就無法進行。
智能體需要知道目前環境中哪裡有食物,例如冰箱裡是否有魚,或冰箱裡是否有雞肉。
在大型语料库上训练的自回归大型语言模型可以在输入提示的条件下生成文本序列,具有显著的多任务泛化能力。
比如输入「做晚饭」,语言模型可以生成后续序列,如打开冰箱、拿起鸡肉、拿起苏打水、关闭冰箱、打开电灯开关等。
生成的文本序列需要映射到智能体的行动空间中,比如生成的指令是「伸手拿起一罐泡菜」,对应的可执行动作可能就是「拿起罐子」,然后模型会计算出一个行动的概率评分值。
但缺少环境反馈的情况下,如果冰箱里没有鸡肉,却仍然选择「拿起鸡肉」行动,就会导致任务失败,因为「做晚饭」并没有包含任何关于世界状态的信息。
ProgPrompt模型在任务规划中巧妙地利用了编程语言结构,因为现有的大规模语言模型通常都在编程教程和代码文档的语料中进行过预训练。
ProgPrompt为语言模型提供了一个Pythonic的程序头部作为提示,导入了可用的动作空间、预期参数和环境中可用的物体。
然后定义了诸如make_dinner, throw_away_banana等函数,其主体是对物体进行操作的动作序列,然后通过断言计划的先决条件,例如在试图打开冰箱之前靠近冰箱,以及用恢复行动来应对断言失败的情况,以此纳入环境的状态反馈。
最重要的是,ProgPrompt程序中还包括了自然语言编写的注释,用以解释行动的目标,从而提高了生成的计划程序执行任务的成功率。
ProgPrompt
有了完整的想法,ProgPrompt的整体工作流程就清晰了,主要包括三部分,Pythonic函数构建、构造编程语言提示、任务计划的生成和执行。
1、将机器人计划表述为Pythonic函数
计划函数包括对动作原语(action primitive)的API调用,总结动作并添加注释,以及跟踪执行的断言。
每个动作原语需要一个物体作为参数,比如「把三文鱼放进微波炉」任务中,包括对find(salmon)的调用,其中find就是一个动作原语。
利用代码中的注释来为后续的动作序列提供自然语言的总结,注释有助于将高层次的任务分解成合乎逻辑的子任务,即「抓取三文鱼」和「把三文鱼放进微波炉」。
注释也可以让语言模型了解当前的目标,减少不连贯、不一致或重复输出的可能性,类似于思维链(chain of thought)生成中间结果。
断言(assertions)提供了一个环境反馈机制,以确保前提条件成立,并在不成立时实现错误恢复,比如在抓取行动之前,计划断言智能体已经接近了三文鱼,否则智能体需要先执行find行动。
2、构造编程语言prompt
prompt需要向语言模型提供关于环境和主要行动的信息,包括观察、行动原语、例子,并生成了一个Pythonic提示,供语言模型补全。
然後,語言模型將
在微波爐鮭魚在這個任務中,LLM可以產生的且合理的第一步是取出鮭魚,但負責執行計劃的智能體可能沒有這樣一個動作原語。
為了讓語言模型了解智能體的動作原語,將其在prompt中透過import語句導入,也就將輸出限制為在目前環境下可用的函數上。
要改變智能體的行為空間,只需要更新import的函數清單即可。
變數objects以字串清單的形式提供了環境中的所有可用物件。
prompt還包括一些完全可執行的程式計劃作為範例,每個範例任務都示範如何使用給定環境中的可用動作和目標來完成一個給定的任務,如throw_away_lime
3、任務計劃的生成和執行
##給定任務之後,計劃完全是由語言模型根據ProgPrompt提示推斷出來的,然後可以將生成的計劃在虛擬智能體或實體機器人系統上執行,需要用到一個解釋器,針對環境執行每個行動命令。
在執行過程中,斷言檢查以閉環的方式進行,並根據當前環境狀態提供回饋。
在實驗部分,研究人員在虛擬家庭(VH)模擬平台評估了此方法。
VH的狀態包括一組物體和對應的屬性,例如鮭魚在微波爐內部(in),或靠近(agent_close_to)等。
行動空間包括抓取(grab)、放入(putin)、放回(putback)、行走(walk),尋找(find)、打開(open)、關閉( close)等。
最終實驗了3個VH環境,每個環境包括115種不同的物體,研究人員創建了一個包含70個家務任務的資料集,抽象程度很高,指令都是「微波鮭魚」這類的,並為之創造一個ground-truth的行動序列。
在虛擬家庭上對生成的程序進行評估後,評估指標包括成功率(SR),目標條件召回(GCR)和可執行性(Exec),從結果上可以看到ProgPrompt明顯優於基準和LangPrompt,表格中也展示了每個特徵是如何提升效能的。
研究人員同樣在真實世界進行了實驗,使用一個帶有平行爪子的Franka-Emika熊貓機器人,並假設可以獲得一個拾取和放置(pick-and-place)的策略。
該策略將目標物件和目標容器的兩個點雲作為輸入,並執行拾取和放置操作,將物件放在容器上或裡面。
系統實作引入一個開放詞彙的物件偵測模型ViLD來辨識和分割場景中的物體,並建立prompt中的可用物件清單。
與在虛擬環境中不同的是,這裡物件列表是每個計畫函數的局部變量,這樣可以更靈活地適應新物件。
語言模型輸出的計畫中包含形式為grab和putin等函數呼叫。
由於現實世界的不確定性,實驗設定中並沒有實作基於斷言的閉環選項。
可以看到,機器人在分類任務中,能夠識別出香蕉和草莓是水果,並產生計劃步驟,將它們放在盤子裡,而將瓶子放在盒子裡。
以上是把大象裝冰箱總共要幾步?英偉達發布ProgPrompt,讓語言模式為機器人安排計劃的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

機器之能報道編輯:吳昕國內版的人形機器人+大模型組隊,首次完成疊衣服這類複雜柔性材料的操作任務。隨著融合了OpenAI多模態大模型的Figure01揭開神秘面紗,國內同行的相關進展一直備受關注。就在昨天,國內"人形機器人第一股"優必選發布了人形機器人WalkerS深入融合百度文心大模型後的首個Demo,展示了一些有趣的新功能。現在,得到百度文心大模型能力加持的WalkerS是這個樣子的。和Figure01一樣,WalkerS沒有走動,而是站在桌子後面完成一系列任務。它可以聽從人類的命令,折疊衣物

在工業自動化技術領域,最近有兩個熱點很難被忽視:人工智慧(AI)和英偉達(Nvidia)。不要改變原內容的意思,微調內容,重寫內容,不要續寫:「不僅如此,這兩者密切相關,因為英偉達在不僅僅局限於其最開始的圖形處理單元(GPU),正在將其GPU科技擴展到數位孿生領域,同時緊密連接著新興的AI技術。泰瑞達機器人及其MiR和優傲機器人公司。 Recently,Nvidiahascoll

開放LLM社群正是百花齊放、競相爭鳴的時代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現優良的模型。但是,相較於以GPT-4-Turbo為代表的專有大模型,開放模型在許多領域仍有明顯差距。在通用模型之外,也有一些專精關鍵領域的開放模型已被開發出來,例如用於程式設計和數學的DeepSeek-Coder-V2、用於視覺-語言任務的InternVL

本站6月2日消息,在目前正在進行的黃仁勳2024台北電腦展主題演講上,黃仁勳介紹生成式人工智慧將推動軟體全端重塑,展示其NIM(NvidiaInferenceMicroservices)雲端原生微服務。英偉達認為「AI工廠」將掀起一場新產業革命:以微軟開創的軟體產業為例,黃仁勳認為生成式人工智慧將推動其全端重塑。為方便各種規模的企業部署AI服務,英偉達今年3月推出了NIM(NvidiaInferenceMicroservices)雲端原生微服務。 NIM+是一套經過優化的雲端原生微服務,旨在縮短上市時間

近來,Layer1區塊鏈VanarChain憑藉高漲幅以及與AI巨頭英偉達合作備受市場關注。 VanarChain走紅背後,除了經歷多次品牌轉型,主打遊戲、元宇宙和AI等熱門概念也為這個項目賺足了熱度和話題。在進行轉型之前,Vanar的前身是TerraVirtua,成立於2018年,最初是一個支援付費訂閱、提供虛擬實境(VR)和擴增實境(AR)內容的平台,並接受加密貨幣支付。該平台由聯合創始人GaryBracey和JawadAshraf創建,其中GaryBracey在參與電玩遊戲製作和開發方面擁有超

以下10款類人機器人正在塑造我們的未來:1、ASIMO:ASIMO由Honda開發,是最知名的人形機器人之一。 ASIMO高4英尺,重119磅,配備先進的感測器和人工智慧功能,使其能夠在複雜的環境中導航並與人類互動。 ASIMO的多功能性使其適用於各種任務,從幫助殘疾人到在活動中進行演示。 2、Pepper:由SoftbankRobotics創建,Pepper旨在成為人類的社交伴侶。憑藉其富有表現力的面孔和識別情緒的能力,Pepper可以參與對話、在零售環境中提供幫助,甚至提供教育支持。 Pepper的

近幾年最受消費者歡迎的智慧家電,掃拖機器人可謂是其中之一。它所帶來的操作便利性,甚至是無需操作,讓懶人們釋放了雙手,讓消費者能夠從日常的家務中「解放」出來,也能拿更多的時間花在自己喜歡的事情上,變相提高了生活品質。藉著這股熱潮,市面上幾乎所有的家電產品品牌都在做自己的掃拖機器人,一時間使得整個掃拖機器人市場熱鬧非凡。但市場的快速拓張必然會帶來一個隱患:很多廠商會採用機海戰術的方式快速佔領更多的市場份額,從而導致很多新品並沒有什麼升級點,說它是“套娃”機型也不為過。不過,並不是所有的掃拖機器人都是

本站4月17日消息,集邦諮詢(TrendForce)近日發布報告,認為英偉達Blackwell新平台產品需求看漲,預估帶動台積電2024年CoWoS封裝總產能提升逾150%。英偉達Blackwell新平台產品包含B系列的GPU,以及整合英偉達自家GraceArmCPU的GB200加速卡等。集邦諮詢確認為供應鏈目前非常看好GB200,預估2025年出貨量預計超過百萬片,在英偉達高階GPU中的佔比達到40-50%。在英偉達計畫下半年交付GB200以及B100等產品,但上游晶圓封裝方面須進一步採用更複
