大模型+機器人，詳盡的綜述報告來了，多位華人學者參與-人工智慧-PHP中文網

大模型的出色能力有目共睹，而如果將它們整合進機器人，則有望讓機器人擁有一個更智能的大腦，為機器人領域帶來新的可能性，例如自動駕駛、家用機器人、工業機器人、輔助機器人、醫療機器人、現場機器人和多機器人系統。

預先訓練的大型語言模型（LLM）、大型視覺- 語言模型（VLM）、大型音訊- 語言模型（ALM）和大型視覺導航模型（VNM）可以用於更好地處理機器人領域的各種任務。將基礎模型整合進機器人是一個快速發展的領域，機器人社群最近已經開始探索將這些大模型用於需要重新書寫的是：知覺、預測、規劃和控制等機器人領域。

最近，一支由史丹佛大學、普林斯頓大學以及英偉達和Google DeepMind等多家企業組成的聯合研究團隊發布了一篇綜述報告，總結了機器人研究領域中基礎模型的發展和未來挑戰

大模型+機器人，詳盡的綜述報告來了，多位華人學者參與

論文網址：https://arxiv.org/pdf/2312.07843.pdf
重寫的內容是：論文庫：https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

團隊成員中有很多我們熟悉的華人學者，包括朱玉可、宋舒然、吳佳俊、盧策吾等。

廣泛使用大規模資料進行預訓練的基礎模型，在微調後可以適用於各種下游任務。這些基礎模型在視覺和語言處理領域取得了重大突破，其中包括BERT、GPT-3、GPT-4、CLIP、DALL-E和PaLM-E等相關模型

在基礎模型出現之前，用於機器人的傳統深度學習模型的訓練所使用的都是為不同任務收集的有限資料集。相反，基礎模型則是會使用大範圍多樣化資料進行預先訓練，在其他領域（例如自然語言處理、電腦視覺和醫療保健）的應用證明了其適應能力、泛化能力和整體表現表現。最終，基礎模型也有望在機器人領域展現出自己的潛力。圖 1 展示了基礎模型在機器人領域的概況。

大模型+機器人，詳盡的綜述報告來了，多位華人學者參與

比較相比於針對特定任務的模型，從基礎模型遷移知識有可能減少訓練時間和運算資源。尤其是在機器人相關領域，多模態基礎模型可以將從不同感測器收集的多模態異質資料融合和對齊成緊湊的緊湊同質表徵，而這正是機器人理解和推理所需的。其學習到的表徵可望用於自動化技術棧的任何部分，包括需要重新書寫的是：知覺、決策和控制。

不僅如此，基礎模型還能提供零樣本學習能力，也就是讓 AI 系統有能力在沒有任何範例或針對性訓練的前提下執行任務。這能讓機器人將所學廣泛到全新的用例，並增強機器人在非結構化環境中的適應能力和靈活性。

將基礎模型整合進機器人系統能提升機器人需要重新書寫的是：知覺環境以及與環境互動的能力，有可能實現上下文需要重新書寫的是：知覺型機器人系統。

舉個例子，在需要重新書寫的是：知覺領域，大型視覺- 語言模型（VLM）能夠學習視覺和文字資料之間的關聯，從而具備跨模態理解能力，從而輔助零樣本影像分類、零樣本目標偵測和3D 分類等任務。再舉個例子，3D 世界中的語言定基（language grounding，即將VLM 的上下文理解與3D 現實世界對齊）可以透過將話語與3D 環境中的具體物件、位置或動作關聯起來，從而增強機器人的空間需要重新書寫的是：知覺能力。

在決策或規劃領域，研究發現 LLM 和 VLM 可以輔助機器人規範涉及高層規劃的任務。

透過利用與操作、導航和互動有關的語言線索，機器人可以執行更複雜的任務。例如對於模仿學習和強化學習等機器人策略學習技術，基礎模型似乎有能力提升資料效率和情境理解能力。特別是語言驅動的獎勵可透過提供經過塑造的獎勵來引導強化學習智能體。

另外，研究者也已經在利用語言模型來為策略學習技術提供回饋。一些研究表明，VLM 模型的視覺問答（VQA）能力可以用於機器人使用案例。舉個例子，已有研究者使用 VLM 來回答與視覺內容相關的問題，以幫助機器人完成任務。另外，也有研究者使用 VLM 來幫助資料標註，為視覺內容產生描述標籤。

儘管基礎模型在視覺和語言處理方面具備變革性的能力，但對於現實世界的機器人任務來說，基礎模型的泛化和微調依然頗具挑戰性。

這些挑戰包括：

1) 資料缺乏：如何取得網路規模級的資料來支援機器人操作、定位、導航等任務，並且如何利用這些資料進行自我監督訓練；

2) 巨大的差異性：如何應對物理環境、實體機器人平台和潛在的機器人任務的巨大多樣性，同時保持基礎模型所需的通用性；

3) 不確定性的量化問題：如何解決實例層面的不確定性（例如語言歧義或LLM 幻覺）、分佈層面的不確定性和分佈移位問題，尤其是閉環的機器人部署引起的分佈移位問題。

4) 安全評估：如何在部署之前、更新過程中、工作過程中對基於基礎模型的機器人系統進行嚴格測試。

5) 即時效能：如何應對某些基礎模型推理時間長的問題—— 這會有礙基礎模型在機器人上的部署，以及如何加速基礎模型的推理—— 這是在線決策所需的。

這篇綜述論文總結了目前機器人領域中基礎模型的使用。研究人員調查了目前的方法、應用和挑戰，並提出了未來研究方向來解決這些挑戰。他們還指出了將基礎模型用於實現機器人自主能力可能存在的潛在風險

基礎模型背景知識

基礎模型具有數以十億計的參數，而且使用互聯網級別的大規模資料進行預訓練。訓練如此龐大且複雜的模型需要非常高的成本。取得、處理和管理資料的成本也會很高。其訓練過程需要大量的運算資源，需要使用GPU或TPU等專用硬件，並且還需要用於模型訓練的軟體和基礎設施，這都需要資金投入。此外，基礎模型的訓練時間也很長，這也會導致高成本。因此，這些模型通常作為可插拔模組使用，即將基礎模型整合到各種應用中，而無需進行大量的客製化工作

表 1 給出了常用基礎模型的細節。

大模型+機器人，詳盡的綜述報告來了，多位華人學者參與

本節將聚焦在LLM、視覺Transformer、VLM、具身多模態語言模型和視覺生成模型。此外，還將介紹用於訓練基礎模型的不同訓練方法

他們首先介紹了一些相關的術語和數學知識，其中涉及token 化、生成模型、判別模型、Transformer 架構、自回歸模型、掩碼式自動編碼、對比學習和擴散模型。

然後他們介紹了大型語言模型（LLM）的範例和歷史背景。之後重點說明了視覺 Transformer、多模態視覺 - 語言模型（VLM）、具身多模態語言模型、視覺生成模型。

機器人研究

這一節關注的是機器人決策、規劃和控制。在這一領域，大型語言模型（LLM）和視覺語言模型（VLM）都有潛力用於增強機器人的能力。舉個例子，LLM 可以促進任務規範過程，讓機器人可以接收和解讀來自人類的高階指令。

VLM 也有望為這一領域做出貢獻。 VLM 擅長分析視覺資料。要讓機器人做出明智的決策和執行複雜的任務，視覺理解能力是至關重要的。現在，機器人可以使用自然語言線索來增強自己執行操作、導航和互動相關任務的能力。

基於目標的視覺 - 語言策略學習（不管是透過模仿學習還是強化學習）有望透過基礎模型獲得提升。語言模型也能為策略學習技術提供回饋。這個回饋循環有助於持續提升機器人的決策能力，因為機器人可以根據從 LLM 收到的回饋來優化自己的行動。

這一節關注的是 LLM 和 VLM 在機器人決策領域的應用。

這一節分為六個部分。其中第一部分介紹了用於決策和控制和機器人策略學習，其中包括基於語言的模仿學習和語言輔助的強化學習。

第二部分是基於目標的語言 - 圖像價值學習。

第三部分介紹了使用大型語言模型來規劃機器人任務，其中包括透過語言指令來說明任務以及使用語言模型產生任務規劃的程式碼。

第四部分是用於決策的脈絡學習（ICL）。

下一個要介紹的是機器人變形金剛

第六部分則是開放詞彙庫的機器人導航和操作。

表 2 給出了一些特定於機器人的基礎模型，其中報告了模型的大小和架構、預訓練任務、推理時間和硬體設定。

大模型+機器人，詳盡的綜述報告來了，多位華人學者參與

要重新書寫的是：知覺

與周圍環境互動的機器人會接收不同模態的感官訊息，例如影像、視訊、音訊和語言。這種高維度資料對機器人在環境中的理解、推理和互動至關重要。基礎模型可以將這些高維輸入轉換成容易解讀和操作的抽象結構化表徵。尤其是多模態基礎模型可讓機器人將不同感官的輸入整合成一個統一的表徵，其中包含語意、空間、時間和可供性資訊。這些多模態模型需要跨模態的交互，通常需要對齊不同模態的元素來確保一致性和相互對應。例如圖像描述任務就需要文字和圖像資料對齊。

這一節將專注於與機器人需要重新書寫的是：知覺相關的一系列任務，這些任務可使用基礎模型來對齊模態，從而獲得提升。其中的重點是視覺和語言。

這一節分為五個部分，首先是開放詞彙庫的目標檢測和3D 分類，然後是開放詞彙庫的語義分割，接下來是開放詞彙庫的3D 場景和目標表徵，然後是學習到的功能可供性，最後是預測模型。

具身AI

近段時間，有研究顯示LLM 可以成功用於具身AI 領域，其中「具身（embodied）」通常是指在世界模擬器中的虛擬具身，而非具有實體機器人身體。

這方面已經出現了一些有趣的框架、資料集和模型。其中尤其值得一提的是將 Minecraft 遊戲用作訓練具身智能體的平台。舉個例子，Voyager 使用了 GPT-4 來引導智能體探索 Minecraft 環境。其能透過上下文 prompt 設計來與 GPT-4 互動，而無需對 GPT-4 的模型參數進行微調。

強化學習是機器人學習領域的重要研究方向，研究者們正在嘗試使用基礎模型來設計獎勵函數以優化強化學習

對於機器人執行高層規劃，研究者一直在探索使用基礎模型來輔助。此外，還有一些研究者試圖將基於思考鏈的推理和動作生成方法應用於具身智能體

#挑戰與未來方向

這一節會給出將基礎模型用於機器人的相關挑戰。該團隊也會探索可望解決這些挑戰的未來研究方向。

第一個挑戰是克服訓練用於機器人的基礎模型時的數據稀缺問題，其中包括：

1. 使用未經結構化的遊戲數據和未標記的人類視頻來拓展機器人學習

2. 使用圖像修復（Inpainting）來增強數據

3. 克服訓練3D 基礎模型時的缺少3D 數據的問題

#4. 通過高保真模擬來產生合成資料

5. 使用VLM 進行資料增強使用VLM 進行資料增強是一種有效的方法

6. 機器人的物理技能受限於技能的分佈

第二個挑戰則與即時效能有關，其中關鍵的是基礎模型的推理時間。