李飛飛兩位高徒聯合指導：能看懂「多模態提示」的機器人，zero-shot性能提升2.9倍-人工智慧-PHP中文網

機器人與多模態prompt

新基準VIM-BENCH

VIMA模型

首頁

科技週邊

人工智慧

李飛飛兩位高徒聯合指導：能看懂「多模態提示」的機器人，zero-shot性能提升2.9倍

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 08:37 PM

機器人智慧

人工智慧領域的下一個發展機會，有可能是為AI模型裝上一個「身體」，與真實世界進行互動來學習。

相比現有的自然語言處理、電腦視覺等在特定環境下執行的任務來說，開放領域的機器人技術顯然更難。

李飛飛兩位高徒聯合指導：能看懂「多模態提示」的機器人，zero-shot性能提升2.9倍

例如prompt-based學習可以讓單一語言模型執行任意的自然語言處理任務，例如寫程式碼、做摘要、問答，只需要修改prompt即可。

但機器人技術中的任務規範種類更多，例如模仿單樣本演示、遵照語言指示或實現某一視覺目標，這些通常都被視為不同的任務，由專門訓練後的模型來處理。

最近來自英偉達、史丹佛大學、瑪卡萊斯特學院、加州理工、清華大學和德州大學奧斯汀分校的研究人員共同提出一個基於Transformer的通用機器人智能體VIMA，利用多模態的prompt，實現極高的泛化效能，能夠處理大量的機器人操作任務。

李飛飛兩位高徒聯合指導：能看懂「多模態提示」的機器人，zero-shot性能提升2.9倍

論文連結：https://arxiv.org/abs/2210.03094

專案連結：https://vimalabs.github.io/

#程式碼連結：https://github.com/vimalabs/ VIMA

輸入prompt為交錯所使用的文字與視覺符號。

為了訓練和評估VIMA，研究人員提出了一個新的模擬基準資料集，包含上千個由程式產生的帶有多模態提示的桌面任務，和60多萬條專家軌跡用於模仿學習，以四個等級來評估模型的泛化性能。

在同等尺寸的模型、等量訓練資料的情況下，VIMA在最難的zero-shot的泛化設定下任務成功率為當下sota方法的2.9倍。

在訓練資料減少10倍的情況下，VIMA的表現仍比其他方法好2.7倍。

目前所有的程式碼、預訓練模型、資料集和模擬基準都已完全開源。

論文的第一作者是Yunfan Jiang，史丹佛大學碩士二年級學生，目前在英偉達研究院實習。 2020年本科畢業於愛丁堡大學。他主要的研究方向為具身人工智慧（embodied AI），即透過與環境的互動來學習。具體研究內容為如何利用大規模的基礎模型來實現開放式的的具身智能體（embodied agents）

李飛飛兩位高徒聯合指導：能看懂「多模態提示」的機器人，zero-shot性能提升2.9倍

##論文包含兩位導師，都是李飛飛曾經的學生。

朱玉可，本科畢業於浙江大學，並取得了浙江大學和加拿大西蒙弗雷澤大學的雙學位。碩士和博士研究生就讀於史丹佛大學，師從李飛飛，並於2019年8月取得博士學位。朱玉可現任UT Austin電腦科學系助理教授，同時是機器人感知與學習實驗室的主任，以及英偉達研究院高級研究科學家。

範麟熙，博士畢業於史丹佛大學，師從李飛飛，目前是NVIDIA AI的研究科學家。主要研究方向為開發通用且強大的自主智能體（generally capable autonomous agents），具體的研究工作涵蓋了基礎模型、策略學習、機器人技術、多模式學習和大規模系統。

機器人與多模態prompt

Transformer在NLP領域多任務已經實現相當高的性能，只有一個模型就能同時完成問答、機器翻譯、文本摘要等。

實作不同任務的介面就在於輸入的文字提示，從而將具體的任務需求傳遞給通用大模型。

能不能把這種prompt介面用在通用機器人智能體上呢？

對於一個家務機器人來說，理想情況下，只需要輸入給我拿#，機器人就可以按照圖片把杯子拿過來。

當機器人需要學習新技能時，最好可以透過輸入影片示範就能學習。如果機器人需要與不熟悉的物體互動時，只需要透過圖例即可輕鬆解釋。

同時為了確保安全部署，使用者可以進一步指定視覺約束，例如不要進入房間

李飛飛兩位高徒聯合指導：能看懂「多模態提示」的機器人，zero-shot性能提升2.9倍

為了實現這些功能，VIMA模型主要包含三個部分：

1、形式化多模態提示，將機器人操縱任務轉換為序列建模問題；

2、一個新的機器人智能體模型，能夠進行多任務操作

3、一個具有不同任務的大規模基準，以系統地評估智能體的可擴展性和通用性

首先，由多模態提示帶來的彈性可以讓開發者指定和建構一個模型即可支援大量的任務規範，這篇論文中主要考慮六類任務：

1、簡單物體操縱（Simple object manipulation），任務提示形如put

2、實現視覺目標（Visual goal reaching），操縱物體實現目標設置，例如重新排列（rearragement）；

3、接納新概念（Novel concept grounding），提示中包含一些不常見的詞，例如dax, blicket等，可以透過在提示內的圖像進行解釋，然後直接在指令中使用，可以測試智能體對新概念的認知速度；

4、單樣本影片模仿（One-shot video imitation），觀看影片演示，並學習如何以相同的移動路徑對一個特定物體進行複現；

5、滿足視覺限制（Visual constraint satisfaction），機器人必須小心地操縱物體，來避免觸犯安全性限制；

6、視覺推理（Visual reasoning），有一些任務要求智能體需要會推理，例如「把所有和

需要注意的是，這六類任務並非互斥，例如有的任務可能會透過示範影片（imitation）引入了一個之前沒見過的動詞（Novel Concept）

新基準VIM-BENCH

巧婦難為無米之炊，為了訓練模型，研究人員同時準備了一些配套資料作為多模態機器人學習基準VIMA-BENCH。

在模擬環境（Simulation Environment）上，現有的基準一般都是針對特定的任務規範，目前還沒有一個基準能夠提供豐富的多模態任務套件和全面的測試平台來有針對性地探測代理能力。

為此，研究人員透過擴展Ravens機器人模擬器來建立VIMA-BENCH，支援可擴展的物件和紋理集合，以組成多模態提示，並按程式產生大量的任務。

具體來說，VIMA-BENCH提供了17個多模態提示範本的元任務，可以被實例化為1000個獨立的任務。每個元任務屬於上述6種任務規範方法中的一種或多種。

VIMA-BENCH可以透過腳本化的oracle智能體產生大量的模仿學習資料。

在觀察與行動（Observation and Actions）上，模擬器的觀察空間包括從正面視圖和自上而下視圖渲染的RGB影像，基準也提供真實的物體分割和邊界框，用於訓練以物體為中心的模型。

VIM-BENCH從前人工作中繼承了高級動作空間，由最基礎的運動技能組成，如“取放”、“擦拭”等，具體由終端效果的姿勢所決定。

模擬器還具有腳本化的oracle程式，可以透過使用特權模擬器的狀態信息，如所有物體的精確位置，以及多模態指令的基礎解釋，產生專家示範。

最終，研究人員透過預先編程的oracles產生了一個大型的專家軌跡離線資料集用於模仿學習。資料集包括每個元任務的5萬條軌跡，共65萬條成功的軌跡。

同時保留一個物件模型和紋理的子集方便評估，並將17個元任務中的4個用於zero-shot泛化性測試。

VIMA-BENCH的每個任務標準只有成功和失敗，不存在中間狀態的獎勵訊號。

在測試時，研究人員在實體模擬器中執行智能體策略，以計算出成功率，所有評估的元任務的平均成功率為最終報告的指標。

評估協議包含四個層次以系統地探測智能體的泛化能力，每一級都更偏離訓練分佈，因此嚴格來說一級比一級難。

1、放置泛化（Placement generalization）：在訓練過程中，所有的提示都是逐字逐句的，但在測試時，桌面上的物體放置是隨機的。

2、組合泛化（Combinatorial generalization）：所有的材料（形容詞）和三維物體（名詞）在訓練中都能看到，但在測試中會出現一些新的組合形式。

3、新物件泛化（Novel object generalization）：測試提示和模擬的工作空間包括新的形容詞和物件。

4、新任務泛化（Novel task generalization）：測試時帶有新提示模板的新元任務

VIMA模型

多模態prompt中總共包含三種格式：

#1、文字，使用預先訓練的T5模型進行分詞及取得詞向量；

2、整個桌面的場景，首先使用Mask R-CNN辨識出所有的獨立物體，每個物體由一個bounding box和裁剪圖像表示，然後使用一個bounding bo編碼器和ViT分別進行編碼。

3、單一物件的圖像，同樣使用ViT獲得tokens，然後將結果序列輸入到預先訓練的T5編碼器模型中。

李飛飛兩位高徒聯合指導：能看懂「多模態提示」的機器人，zero-shot性能提升2.9倍

機器人控制器（Robot Controller），即解碼器的輸入為提示序列上進行多次交叉注意力層後的表示和軌跡歷史序列。

這樣的設計可以增強對prompt的連接度；更好地保留且更深地處理原始prompt tokens；更好的計算效率。

在測試階段的實驗設計，主要為了回答三個問題：

##1、VIMA和先前的SOTA基於Transformer的智能體在多模態提示的多種任務上的性能對比；

#2、VIMA在模型容量和資料量上的縮放性（scaling properties）；

3、不同的視覺分詞器，條件提示和條件編碼是否會影響最終的決策。

對比的基準模型包括Gato, Flamingo和Decision Transformer(DT)

#首先在模型縮放（Model scaling）上，研究人員對所有方法從2M到200M參數量進行訓練，編碼器的尺寸始終保持為T5-base，在所有層次的zero-shot泛化性評估上，VIMA都絕對好於其他工作。

儘管Gato和Flamingo在更大尺寸的模型上性能有所提升，VIMA也仍然好於所有模型。

李飛飛兩位高徒聯合指導：能看懂「多模態提示」的機器人，zero-shot性能提升2.9倍

在資料縮放（Data scaling）上，研究人員對各個方法的訓練資料採取0.1%, 1% , 10%和全量模仿學習數據集的不同實驗，VIMA僅需1%的數據，就能實現其他方法用10倍的數據訓練的L1和L2泛化性指標。在L4指標上，只要1%的訓練數據，VIMA就已經要比其他模型在全量數據上訓練效果要好了。

李飛飛兩位高徒聯合指導：能看懂「多模態提示」的機器人，zero-shot性能提升2.9倍

在漸進泛化（Progressive Generalization）效能對比中，在面向更難的泛化任務中，沒有採用任何微調。 VIMA模型的效能倒退最少，尤其是從L1到L2和L1到L3，而其他模型退化超過了20%，這也意味著VIMA學習到了更泛化的策略，更健壯的表徵。

參考資料：

https://arxiv.org/ abs/2210.03094#

以上是李飛飛兩位高徒聯合指導：能看懂「多模態提示」的機器人，zero-shot性能提升2.9倍的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7849

Java教學

1649

CakePHP 教程

1403

Laravel 教程

1300

PHP教程

1241

Related knowledge

五官亂飛，張嘴、瞪眼、挑眉，AI都能模仿到位，影片詐騙要防不住了 Dec 14, 2023 pm 11:30 PM

好強大的AI模仿能力，真的防不住，完全防不住。現在AI的發展已經達到這種程度了嗎？你前腳讓自己的五官亂飛，後腳，一模一樣的表情就被復現出來，瞪眼、挑眉、噘嘴，不管多麼誇張的表情，都模仿的非常到位。加大難度，讓眉毛挑的再高些，眼睛睜的再大些，甚至連嘴型都是歪的，虛擬人物頭像也能完美復現表情。當你在左邊調整參數時，右邊的虛擬頭像也會相應地改變動作給嘴巴、眼睛一個特寫，模仿的不能說完全相同，只能說表情一模一樣（最右邊）。這項研究來自慕尼黑工業大學等機構，他們提出了GaussianAvatars，這種

第二代Ameca來了！和觀眾對答如流，臉部表情更逼真，會說幾十種語言 Mar 04, 2024 am 09:10 AM

人形機器人Ameca升級第二代了！最近，在世界行動通訊大會MWC2024上，世界上最先進機器人Ameca又現身了。會場周圍，Ameca引來一大波觀眾。得到GPT-4加持後，Ameca能夠對各種問題做出即時反應。「來一段舞蹈」。當被問及是否有情感時，Ameca用一系列的面部表情做出回應，看起來非常逼真。就在前幾天，Ameca背後的英國機器人公司EngineeredArts剛剛示範了團隊最新的開發成果。影片中，機器人Ameca具備了視覺能力，能看見並描述房間整個狀況、描述具體物體。最厲害的是，她還能

2 個月不見，人形機器人 Walker S 會摺衣服了 Apr 03, 2024 am 08:01 AM

機器之能報道編輯：吳昕國內版的人形機器人+大模型組隊，首次完成疊衣服這類複雜柔性材料的操作任務。隨著融合了OpenAI多模態大模型的Figure01揭開神秘面紗,國內同行的相關進展一直備受關注。就在昨天，國內"人形機器人第一股"優必選發布了人形機器人WalkerS深入融合百度文心大模型後的首個Demo，展示了一些有趣的新功能。現在，得到百度文心大模型能力加持的WalkerS是這個樣子的。和Figure01一樣，WalkerS沒有走動，而是站在桌子後面完成一系列任務。它可以聽從人類的命令，折疊衣物

AI如何使機器人更具自主性和適應性？ Jun 03, 2024 pm 07:18 PM

在工業自動化技術領域，最近有兩個熱點很難被忽視：人工智慧(AI)和英偉達(Nvidia)。不要改變原內容的意思，微調內容，重寫內容，不要續寫：「不僅如此，這兩者密切相關，因為英偉達在不僅僅局限於其最開始的圖形處理單元（GPU），正在將其GPU科技擴展到數位孿生領域，同時緊密連接著新興的AI技術。泰瑞達機器人及其MiR和優傲機器人公司。 Recently,Nvidiahascoll

首個自主完成人類任務機器人出現，五指靈活速度超人，大模型加持虛擬空間訓練 Mar 11, 2024 pm 12:10 PM

這週，由OpenAI、微軟、貝佐斯和英偉達投資的機器人公司FigureAI宣布獲得接近7億美元的融資，計劃在未來一年內研發出可獨立行走的人形機器人。而特斯拉的擎天柱也屢屢傳出好消息。沒人懷疑，今年會是人形機器人爆發的一年。一家位於加拿大的機器人公司SanctuaryAI最近發布了一款全新的人形機器人Phoenix。官方號稱它能以和人類一樣的速率自主完成許多工作。世界上第一台能以人類速度自主完成任務的機器人Pheonix可以輕輕地抓取、移動並優雅地將每個物件放置在它的左右兩側。它能夠自主辨識物體的

人形機器人會變魔術了，春晚節目組了解一下 Feb 04, 2024 am 09:03 AM

一眨眼的功夫，機器人都已經學會變魔術了？只見它先是拿起桌上的水勺，向觀眾證明了裡面什麼也沒有……然後，它又把手中雞蛋似的物體放了進去，然後把水勺放回桌子上，開始「施法」… …就在它把水勺再次拿起的時候，奇蹟發生了。原先放進去的雞蛋不翼而飛，跳出的東西變成了一個籃球……再來看一遍連貫動作：△此動圖為二倍速一套動作下來如行雲流水，只有把視頻用0.5倍速反复觀看，才終於發現其中的端倪了：如果手速再快一些，大概真的就可以瞞天過海了。有網友感嘆，機器人變魔術的程度比自己還要高：為我們表演這段魔術的，是Mag

雲鯨逍遙001掃拖機器人，長「腦子」了！｜體驗 Apr 26, 2024 pm 04:22 PM

近幾年最受消費者歡迎的智慧家電，掃拖機器人可謂是其中之一。它所帶來的操作便利性，甚至是無需操作，讓懶人們釋放了雙手，讓消費者能夠從日常的家務中「解放」出來，也能拿更多的時間花在自己喜歡的事情上，變相提高了生活品質。藉著這股熱潮，市面上幾乎所有的家電產品品牌都在做自己的掃拖機器人，一時間使得整個掃拖機器人市場熱鬧非凡。但市場的快速拓張必然會帶來一個隱患：很多廠商會採用機海戰術的方式快速佔領更多的市場份額，從而導致很多新品並沒有什麼升級點，說它是“套娃”機型也不為過。不過，並不是所有的掃拖機器人都是

塑造未來的十款類人機器人 Mar 22, 2024 pm 08:51 PM

以下10款類人機器人正在塑造我們的未來：1、ASIMO：ASIMO由Honda開發，是最知名的人形機器人之一。 ASIMO高4英尺，重119磅，配備先進的感測器和人工智慧功能，使其能夠在複雜的環境中導航並與人類互動。 ASIMO的多功能性使其適用於各種任務，從幫助殘疾人到在活動中進行演示。 2、Pepper：由SoftbankRobotics創建，Pepper旨在成為人類的社交伴侶。憑藉其富有表現力的面孔和識別情緒的能力，Pepper可以參與對話、在零售環境中提供幫助，甚至提供教育支持。 Pepper的

See all articles

李飛飛兩位高徒聯合指導：能看懂「多模態提示」的機器人，zero-shot性能提升2.9倍

機器人與多模態prompt

新基準VIM-BENCH

VIMA模型

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題