首頁 > 科技週邊 > 人工智慧 > 全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能

全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能

王林
發布: 2024-07-26 16:07:54
原創
535 人瀏覽過
全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

具身智能是實現通用人工智慧的必經之路,其核心是透過智能體與數位空間和物理世界的互動來完成複雜任務。近年來,多模態大模型和機器人技術得到了長足發展,具身智慧成為全球科技和產業競爭的新焦點。然而,目前缺少一篇能夠全面解析具身智能發展現況的綜述。因此,鵬城實驗室多智能體與具身智能研究所聯合中山大學HCP 實驗室的研究人員,對具身智能的最新進展進行了全面解析,推出了多模態大模型時代的全球首篇具身智能綜述。

該綜述調查了近 400 篇文獻,從多個維度對具身智能的研究進行了全面解析。這篇綜述首先介紹了一些具代表性的具身機器人和具身模擬平台,深入分析了其研究重點和限制。接著,透徹解析了四個主要研究內容:1) 具身感知,2) 具身交互,3) 具身智能體和4) 虛擬到現實的遷移,這些研究內容涵蓋了最先進的方法、基本範式和全面的資料集。此外,該綜述也探討了數位空間和實體世界中具身智能體面臨的挑戰,並強調其在動態數位和實體環境中主動互動的重要性。最後,這篇綜述總結了具身智能的挑戰和局限,並討論了其未來的潛在方向。本綜述希望能為具身智能研究提供基礎性參考,並推動相關技術創新。此外,該綜述還在 Github 發布了具身智慧 paper list,相關的論文和程式碼倉庫將持續更新,歡迎關注。

全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能

  • 論文地址: https://arxiv.org/pdf/2407.06886
  • 具身智能Paper List: https://github.com/HCPLab-SYSU/Embed_AI_Paper List: https://github.com/HCPLab-SYSU/Embed_AI_Paperper_List
    1. 具身智能的前世今生

具身智能的概念最初由艾倫・圖靈在1950 年建立的具身圖靈測試中提出,旨在確定智能體是否能顯示出不僅限於解決虛擬環境(數位空間)中抽象問題的智慧(智能體是具身智慧的基礎,存在於數位空間和實體世界中,並以各種實體的形式具象化,這些實體不僅包括機器人,還包括其他設備。因此,具身智能的發展被視為一條實現通用人工智慧的基本途徑。深入探討具身智能的複雜性、評估其當前的發展現狀並思考其未來的發展軌跡顯得尤為重要。如今,具身智慧涵蓋了電腦視覺、自然語言處理和機器人技術等多個關鍵技術,其中最具代表性的是
具身感知、具身互動、具身智能體和虛擬到現實的遷移
。在具身任務中,具身智能體必須充分理解語言指令中的人類意圖,積極主動探索周圍環境,全面感知來自虛擬和物理環境的多模態元素,並執行適當的操作以完成複雜任務。多模態模型的快速進展展示了在複雜環境中相較於傳統深度強化學習方法更強的多樣性、靈活性和泛化能力。最先進的視覺編碼器預訓練的視覺表示提供了對物體類別、姿態和幾何形狀的精確估計,使具身模型能夠全面感知複雜和動態的環境。強大的大語言模型使機器人更好地理解人類的語言指令並為具身機器人對齊視覺和語言表示提供了可行的方法。世界模型展示了顯著的模擬能力和對物理定律的良好理解,使具身模型能夠全面理解物理和真實環境。這些進展使具身智能體能夠全面感知複雜環境,自然地與人類互動,並可靠地執行任務。下圖展示了具身智能體的典型架構。

                             了全面概述,包括:(1)具身機器人 —— 具身智能在實體世界中的硬體方案;(2)
具身模擬平台

—— 高效且安全地訓練具身智能體的數位空間;(3)全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能具身感知

—— 主動感知3D 空間並綜合多種感官模態;(4)
具身交互 —— 有效合理地與環境互動甚至改變環境以完成指定任務;(5)具身智能體 —— 利用多模態大模型理解抽象指令並將其拆分為一系列子任務再逐步完成;(6)虛擬到現實的遷移
—— 將數位空間中學習到的技能遷移泛化到物理世界中。下圖展示了具身智慧從數位空間到實體世界所涵蓋的體系架構。本綜述旨在提供具身智能的全面背景知識、研究趨勢和技術見解。

                             本綜述整體架構中
具具身智能體積極與物理環境互動,涵蓋了廣泛的具身形態,包括機器人、智慧家電、智慧眼鏡和自動駕駛車輛等。其中,機器人作為最突出的具身型態之一,備受關注。根據不同的應用場景,機器人被設計成各種形式,以充分利用其硬體特性來完成特定任務。如下圖所示,具身機器人一般可分為:(1)固定基座型機器人,如機械手臂,常應用在實驗室自動化合成、教育、工業等領域中;(2)輪式機器人,因高效的機動性而聞名,廣泛應用於物流、倉儲和安全檢查;(3)履帶機器人,具有強大的越野能力和機動性,在農業、建築和災難場景的應對方面顯示出潛力;(4)四足機器人,以其穩定性和適應性而聞名,非常適合複雜地形的探測、救援任務和軍事應用。 (5)人形機器人,以其靈巧手為關鍵,在服務業、醫療保健和協作環境等領域廣泛應用。 (6)仿生機器人,透過模擬自然生物的有效運動和功能,在複雜和動態的環境中執行任務。
                              

全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能

3. 具身智慧模擬平台
具身模擬平台對於具身智慧至關重要,因為它們提供了成本效益高的實驗手段,能夠透過模擬潛在的危險場景來確保安全,具有在多樣化環境中進行測試的可擴展性,具備快速原型設計能力,能夠為更廣泛的研究群體提供便利,提供用於精確研究的可控環境,產生用於訓練和評估的數據,並提供演算法比較的標準化基準。為了使智能體能夠與環境互動,必須建構一個逼真的模擬環境。這需要考慮環境的物理特性、物件的屬性及其交互作用。如下圖所示,本綜述將對兩種模擬平台進行分析:基於底層模擬的通用平台和基於真實場景的模擬平台。
                                                     以真實情境為基礎的模擬平台

全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能

4. 具身知覺
4. 具身感知

星” 是以具身為中心的視覺推理和社會智能。如下圖所示,有別於僅僅辨識影像中的物體,具有具身感知能力的智能體必須在物理世界中移動並與環境互動,這需要對三維空間和動態環境有更透徹的理解。具身感知需要具備視覺感知和推理能力,理解場景中的三維關係,並基於視覺訊息預測和執行複雜任務。本綜述從主動視覺感知、3D 視覺定位、視覺語言導航、非視覺感知(觸覺感測器)等方面進行介紹。 全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能

                               主動視覺知覺架構

具身互動指的是智能體在實體或模擬空間中與人類和環境互動的場景。典型的具身互動任務包括具身問答和具身抓取。如下圖所示,在具身問答任務中,智能體需要從第一人稱視角探索環境,以收集回答問題所需的資訊。具有自主探索和決策能力的智能體不僅要考慮採取哪些行動來探索環境,還需決定何時停止探索以回答問題,如下圖所示。

                               中對身體進行問答時進行互動互動也涉及基於人類指令執行操作,例如抓取和放置物體,從而完成智能體、人類和物體之間的互動。如圖所示,具身抓取需要全面的語意理解、情境感知、決策和穩健的控制規劃。具身抓取方法將傳統的機器人運動學抓取與大型模型(如大語言模型和視覺語言基礎模型)結合,使智能體能夠在多感官感知下執行抓取任務,包括視覺主動感知、語言理解和推理。

全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能

                              語言上使用
智能體被定義為能夠感知環境並採取行動以實現特定目標的自主實體。多模態大模型的最新進展進一步擴大了智能體在實際場景中的應用。當這些基於多模態大模型的智能體被具身化為實體實體時,它們能夠有效地將其能力從虛擬空間轉移到物理世界,從而成為具身智能體。為了使具身智能體在資訊豐富且複雜的現實世界中運行,它們已經被開發出強大的多模態感知、互動和規劃能力。如下圖所示,為了完成任務,具身智能體通常涉及以下過程:

(1)將抽象而複雜的任務分解為具體的子任務,即高層次的具身任務規劃。

全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能(2)透過有效利用具身感知和具身互動模型,或利用基礎模型的策略功能,逐步實施這些子任務,稱為低層次的具身行動規劃。

值得注意的是,任務規劃涉及在行動前進行思考,因此通常在數位空間中考慮。相較之下,行動規劃必須考慮與環境的有效互動,並將這些資訊回饋給任務規劃器以調整任務規劃。因此,對於具身智能體來說,將其能力從數位空間對齊並推廣到物理世界至關重要。

                             虛擬到現實的遷移

具身智慧中的虛擬到現實的遷移(Sim-to-Real adaptation)指的是將模擬環境(數位空間)中學習到的能力或行為轉移到現實世界(物理世界)的過程。該過程包括驗證和改進在模擬中開發的演算法、模型和控制策略的有效性,以確保它們在物理環境中表現穩定可靠。為了實現模擬到現實的適應,具身世界模型、資料收集與訓練方法、具身控制演算法是三個關鍵要素,下圖展示了五種不同的 Sim-to-Real 範式。

                              五種虛擬到現實中的遷移方案
與未來方向。

儘管具身智能發展迅速,但它面臨著一些挑戰,並呈現出令人興奮的未來方向:
(1)
高品質機器人資料集
。獲取足夠的真實世界機器人數據仍然是一項重大挑戰。收集這些數據既耗時又耗費資源。單純依靠模擬資料會加劇模擬到現實的差距問題。創建多樣化的真實世界機器人資料集需要各個機構之間緊密且廣泛的合作。此外,開發更真實和高效的模擬器對於提高模擬數據的品質至關重要。為了建構能夠在機器人領域實現跨場景和跨任務應用的通用具身模型,必須建立大規模資料集,利用高品質的模擬環境資料來輔助真實世界的資料。

(2)
人類示範資料的有效利用
。有效利用人類演示數據包括​​利用人類展示的動作和行為來訓練和改進機器人系統。這個過程包括收集、處理和從大規模、高品質的資料集中學習,其中人類執行機器人需要學習的任務。因此,重要的是有效利用大量非結構化、多標籤和多模態的人類演示資料結合動作標籤資料來訓練具身模型,使其能夠在相對較短的時間內學習各種任務。透過高效利用人類演示數據,機器人系統可以實現更高水準的性能和適應性,使其更能在動態環境中執行複雜任務。

(3)
複雜環境認知
。複雜環境認知是指具身智能體在實體或虛擬環境中感知、理解和導航複雜現實世界環境的能力。對於非結構化的開放環境,目前的工作通常依賴預先訓練的 LLM 的任務分解機制,利用廣泛的常識知識進行簡單任務規劃,但缺乏具體場景理解。增強知識轉移和在複雜環境中的泛化能力是至關重要的。一個真正多功能的機器人系統應該能夠理解並執行自然語言指令,跨越各種不同和未見過的場景。這需要開發適應性強且可擴展的具身智能體架構。

(4)
長程任務執行
。執行單一指令通常涉及機器人執行長程任務,例如 「打掃廚房」 這樣的命令,包含重新排列物品、掃地、擦桌子等活動。成功完成這些任務需要機器人能夠規劃並執行一系列低階動作,且持續較長時間。儘管目前的高階任務規劃器已顯示出初步的成功,但由於缺乏對具身任務的調整,它們在多樣化場景中往往顯得不足。解決這項挑戰需要開發具備強大感知能力和大量常識知識的高效規劃器。

(5)
因果關係發現
。現有的數據驅動的具身智能體是基於數據內部的相關性做出決策。然而,這種建模方法無法使模型真正理解知識、行為和環境之間的因果關係,導致策略存在偏差。這使得它們難以在現實世界環境中以可解釋、穩健和可靠的方式運作。因此,具身智能體需要以世界知識為驅動,具備自主的因果推理能力。

(6)
持續學習
。在機器人應用中,持續學習對於在多樣化環境中部署機器人學習策略至關重要,但這一領域仍未被充分探索。雖然一些最新研究已經探討了持續學習的子主題,例如漸進式學習、快速運動適應和人機互動學習,但這些解決方案通常針對單一任務或平台設計,尚未考慮基礎模型。開放的研究問題和可行的方法包括:1) 在最新數據上進行微調時混合不同比例的先前數據分佈,以緩解災難性遺忘,2) 從先前分佈或課程中開發有效的原型,用於新任務的推理學習,3) 提高線上學習演算法的訓練穩定性和樣本效率,4) 確定將大容量模型無縫整合到控制框架中的原則性方法,可能透過分層學習或慢- 快控制,實現即時推理。

(7)
統一評估基準
。儘管有許多基準用於評估低階控制策略,但它們在評估技能方面常常存在顯著差異。此外,這些基準中包含的物件和場景通常受到模擬器限制。為了全面評估具身模型,需要使用逼真的模擬器涵蓋多種技能的基準。在高階任務規劃方面,許多基準透過問答任務來評估規劃能力。However, a more ideal approach would be to comprehensively evaluate the execution capabilities of high-level mission planners and low-level control strategies, especially in executing long-duration missions and measure success rates, rather than relying solely on the evaluation of planners alone. This comprehensive approach enables a more comprehensive assessment of the capabilities of embodied intelligent systems.

In short, embodied intelligence enables intelligent agents to perceive, recognize and interact with various objects in digital space and the physical world, showing its importance in realizing general artificial intelligence. This review provides a comprehensive review of embodied robots, embodied simulation platforms, embodied perception, embodied interaction, embodied agents, virtual-to-reality robot control, and future research directions, which have implications for promoting the development of embodied intelligence. Significance.

About the Institute of Multi-Agent and Embodied Intelligence of Pengcheng Laboratory

The Institute of Multi-Agent and Embodied Intelligence affiliated to Pengcheng Laboratory brings together dozens of experts in intelligent science and robotics Top young scientists in the field, relying on independently controllable AI infrastructure such as Pengcheng Cloud Brain and China Computing Network, are committed to building multi-agent collaboration and simulation training platforms, cloud collaborative embodied multi-modal large models and other general basic platforms to empower It can meet major application needs such as industrial Internet, social governance and services.

以上是全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:jiqizhixin.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板