首頁 科技週邊 人工智慧 全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能

全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能

Jul 26, 2024 pm 04:07 PM
理論 具身智能 鵬城實驗室

全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

具身智能是實現通用人工智慧的必經之路,其核心是透過智能體與數位空間和物理世界的互動來完成複雜任務。近年來,多模態大模型和機器人技術得到了長足發展,具身智慧成為全球科技和產業競爭的新焦點。然而,目前缺少一篇能夠全面解析具身智能發展現況的綜述。因此,鵬城實驗室多智能體與具身智能研究所聯合中山大學HCP 實驗室的研究人員,對具身智能的最新進展進行了全面解析,推出了多模態大模型時代的全球首篇具身智能綜述。

該綜述調查了近 400 篇文獻,從多個維度對具身智能的研究進行了全面解析。這篇綜述首先介紹了一些具代表性的具身機器人和具身模擬平台,深入分析了其研究重點和限制。接著,透徹解析了四個主要研究內容:1) 具身感知,2) 具身交互,3) 具身智能體和4) 虛擬到現實的遷移,這些研究內容涵蓋了最先進的方法、基本範式和全面的資料集。此外,該綜述也探討了數位空間和實體世界中具身智能體面臨的挑戰,並強調其在動態數位和實體環境中主動互動的重要性。最後,這篇綜述總結了具身智能的挑戰和局限,並討論了其未來的潛在方向。本綜述希望能為具身智能研究提供基礎性參考,並推動相關技術創新。此外,該綜述還在 Github 發布了具身智慧 paper list,相關的論文和程式碼倉庫將持續更新,歡迎關注。

全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能

  • 論文地址: https://arxiv.org/pdf/2407.06886
  • 具身智能Paper List: https://github.com/HCPLab-SYSU/Embed_AI_Paper List: https://github.com/HCPLab-SYSU/Embed_AI_Paperper_List
    1. 具身智能的前世今生

具身智能的概念最初由艾倫・圖靈在1950 年建立的具身圖靈測試中提出,旨在確定智能體是否能顯示出不僅限於解決虛擬環境(數位空間)中抽象問題的智慧(智能體是具身智慧的基礎,存在於數位空間和實體世界中,並以各種實體的形式具象化,這些實體不僅包括機器人,還包括其他設備。因此,具身智能的發展被視為一條實現通用人工智慧的基本途徑。深入探討具身智能的複雜性、評估其當前的發展現狀並思考其未來的發展軌跡顯得尤為重要。如今,具身智慧涵蓋了電腦視覺、自然語言處理和機器人技術等多個關鍵技術,其中最具代表性的是
具身感知、具身互動、具身智能體和虛擬到現實的遷移
。在具身任務中,具身智能體必須充分理解語言指令中的人類意圖,積極主動探索周圍環境,全面感知來自虛擬和物理環境的多模態元素,並執行適當的操作以完成複雜任務。多模態模型的快速進展展示了在複雜環境中相較於傳統深度強化學習方法更強的多樣性、靈活性和泛化能力。最先進的視覺編碼器預訓練的視覺表示提供了對物體類別、姿態和幾何形狀的精確估計,使具身模型能夠全面感知複雜和動態的環境。強大的大語言模型使機器人更好地理解人類的語言指令並為具身機器人對齊視覺和語言表示提供了可行的方法。世界模型展示了顯著的模擬能力和對物理定律的良好理解,使具身模型能夠全面理解物理和真實環境。這些進展使具身智能體能夠全面感知複雜環境,自然地與人類互動,並可靠地執行任務。下圖展示了具身智能體的典型架構。

                             了全面概述,包括:(1)具身機器人 —— 具身智能在實體世界中的硬體方案;(2)
具身模擬平台

—— 高效且安全地訓練具身智能體的數位空間;(3)全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能具身感知

—— 主動感知3D 空間並綜合多種感官模態;(4)
具身交互 —— 有效合理地與環境互動甚至改變環境以完成指定任務;(5)具身智能體 —— 利用多模態大模型理解抽象指令並將其拆分為一系列子任務再逐步完成;(6)虛擬到現實的遷移
—— 將數位空間中學習到的技能遷移泛化到物理世界中。下圖展示了具身智慧從數位空間到實體世界所涵蓋的體系架構。本綜述旨在提供具身智能的全面背景知識、研究趨勢和技術見解。

                             本綜述整體架構中
具具身智能體積極與物理環境互動,涵蓋了廣泛的具身形態,包括機器人、智慧家電、智慧眼鏡和自動駕駛車輛等。其中,機器人作為最突出的具身型態之一,備受關注。根據不同的應用場景,機器人被設計成各種形式,以充分利用其硬體特性來完成特定任務。如下圖所示,具身機器人一般可分為:(1)固定基座型機器人,如機械手臂,常應用在實驗室自動化合成、教育、工業等領域中;(2)輪式機器人,因高效的機動性而聞名,廣泛應用於物流、倉儲和安全檢查;(3)履帶機器人,具有強大的越野能力和機動性,在農業、建築和災難場景的應對方面顯示出潛力;(4)四足機器人,以其穩定性和適應性而聞名,非常適合複雜地形的探測、救援任務和軍事應用。 (5)人形機器人,以其靈巧手為關鍵,在服務業、醫療保健和協作環境等領域廣泛應用。 (6)仿生機器人,透過模擬自然生物的有效運動和功能,在複雜和動態的環境中執行任務。
                              

全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能

3. 具身智慧模擬平台
具身模擬平台對於具身智慧至關重要,因為它們提供了成本效益高的實驗手段,能夠透過模擬潛在的危險場景來確保安全,具有在多樣化環境中進行測試的可擴展性,具備快速原型設計能力,能夠為更廣泛的研究群體提供便利,提供用於精確研究的可控環境,產生用於訓練和評估的數據,並提供演算法比較的標準化基準。為了使智能體能夠與環境互動,必須建構一個逼真的模擬環境。這需要考慮環境的物理特性、物件的屬性及其交互作用。如下圖所示,本綜述將對兩種模擬平台進行分析:基於底層模擬的通用平台和基於真實場景的模擬平台。
                                                     以真實情境為基礎的模擬平台

全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能

4. 具身知覺
4. 具身感知

星” 是以具身為中心的視覺推理和社會智能。如下圖所示,有別於僅僅辨識影像中的物體,具有具身感知能力的智能體必須在物理世界中移動並與環境互動,這需要對三維空間和動態環境有更透徹的理解。具身感知需要具備視覺感知和推理能力,理解場景中的三維關係,並基於視覺訊息預測和執行複雜任務。本綜述從主動視覺感知、3D 視覺定位、視覺語言導航、非視覺感知(觸覺感測器)等方面進行介紹。 全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能

                               主動視覺知覺架構

具身互動指的是智能體在實體或模擬空間中與人類和環境互動的場景。典型的具身互動任務包括具身問答和具身抓取。如下圖所示,在具身問答任務中,智能體需要從第一人稱視角探索環境,以收集回答問題所需的資訊。具有自主探索和決策能力的智能體不僅要考慮採取哪些行動來探索環境,還需決定何時停止探索以回答問題,如下圖所示。

                               中對身體進行問答時進行互動互動也涉及基於人類指令執行操作,例如抓取和放置物體,從而完成智能體、人類和物體之間的互動。如圖所示,具身抓取需要全面的語意理解、情境感知、決策和穩健的控制規劃。具身抓取方法將傳統的機器人運動學抓取與大型模型(如大語言模型和視覺語言基礎模型)結合,使智能體能夠在多感官感知下執行抓取任務,包括視覺主動感知、語言理解和推理。

全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能

                              語言上使用
智能體被定義為能夠感知環境並採取行動以實現特定目標的自主實體。多模態大模型的最新進展進一步擴大了智能體在實際場景中的應用。當這些基於多模態大模型的智能體被具身化為實體實體時,它們能夠有效地將其能力從虛擬空間轉移到物理世界,從而成為具身智能體。為了使具身智能體在資訊豐富且複雜的現實世界中運行,它們已經被開發出強大的多模態感知、互動和規劃能力。如下圖所示,為了完成任務,具身智能體通常涉及以下過程:

(1)將抽象而複雜的任務分解為具體的子任務,即高層次的具身任務規劃。

全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能(2)透過有效利用具身感知和具身互動模型,或利用基礎模型的策略功能,逐步實施這些子任務,稱為低層次的具身行動規劃。

值得注意的是,任務規劃涉及在行動前進行思考,因此通常在數位空間中考慮。相較之下,行動規劃必須考慮與環境的有效互動,並將這些資訊回饋給任務規劃器以調整任務規劃。因此,對於具身智能體來說,將其能力從數位空間對齊並推廣到物理世界至關重要。

                             虛擬到現實的遷移

具身智慧中的虛擬到現實的遷移(Sim-to-Real adaptation)指的是將模擬環境(數位空間)中學習到的能力或行為轉移到現實世界(物理世界)的過程。該過程包括驗證和改進在模擬中開發的演算法、模型和控制策略的有效性,以確保它們在物理環境中表現穩定可靠。為了實現模擬到現實的適應,具身世界模型、資料收集與訓練方法、具身控制演算法是三個關鍵要素,下圖展示了五種不同的 Sim-to-Real 範式。

                              五種虛擬到現實中的遷移方案
與未來方向。

儘管具身智能發展迅速,但它面臨著一些挑戰,並呈現出令人興奮的未來方向:
(1)
高品質機器人資料集
。獲取足夠的真實世界機器人數據仍然是一項重大挑戰。收集這些數據既耗時又耗費資源。單純依靠模擬資料會加劇模擬到現實的差距問題。創建多樣化的真實世界機器人資料集需要各個機構之間緊密且廣泛的合作。此外,開發更真實和高效的模擬器對於提高模擬數據的品質至關重要。為了建構能夠在機器人領域實現跨場景和跨任務應用的通用具身模型,必須建立大規模資料集,利用高品質的模擬環境資料來輔助真實世界的資料。

(2)
人類示範資料的有效利用
。有效利用人類演示數據包括​​利用人類展示的動作和行為來訓練和改進機器人系統。這個過程包括收集、處理和從大規模、高品質的資料集中學習,其中人類執行機器人需要學習的任務。因此,重要的是有效利用大量非結構化、多標籤和多模態的人類演示資料結合動作標籤資料來訓練具身模型,使其能夠在相對較短的時間內學習各種任務。透過高效利用人類演示數據,機器人系統可以實現更高水準的性能和適應性,使其更能在動態環境中執行複雜任務。

(3)
複雜環境認知
。複雜環境認知是指具身智能體在實體或虛擬環境中感知、理解和導航複雜現實世界環境的能力。對於非結構化的開放環境,目前的工作通常依賴預先訓練的 LLM 的任務分解機制,利用廣泛的常識知識進行簡單任務規劃,但缺乏具體場景理解。增強知識轉移和在複雜環境中的泛化能力是至關重要的。一個真正多功能的機器人系統應該能夠理解並執行自然語言指令,跨越各種不同和未見過的場景。這需要開發適應性強且可擴展的具身智能體架構。

(4)
長程任務執行
。執行單一指令通常涉及機器人執行長程任務,例如 「打掃廚房」 這樣的命令,包含重新排列物品、掃地、擦桌子等活動。成功完成這些任務需要機器人能夠規劃並執行一系列低階動作,且持續較長時間。儘管目前的高階任務規劃器已顯示出初步的成功,但由於缺乏對具身任務的調整,它們在多樣化場景中往往顯得不足。解決這項挑戰需要開發具備強大感知能力和大量常識知識的高效規劃器。

(5)
因果關係發現
。現有的數據驅動的具身智能體是基於數據內部的相關性做出決策。然而,這種建模方法無法使模型真正理解知識、行為和環境之間的因果關係,導致策略存在偏差。這使得它們難以在現實世界環境中以可解釋、穩健和可靠的方式運作。因此,具身智能體需要以世界知識為驅動,具備自主的因果推理能力。

(6)
持續學習
。在機器人應用中,持續學習對於在多樣化環境中部署機器人學習策略至關重要,但這一領域仍未被充分探索。雖然一些最新研究已經探討了持續學習的子主題,例如漸進式學習、快速運動適應和人機互動學習,但這些解決方案通常針對單一任務或平台設計,尚未考慮基礎模型。開放的研究問題和可行的方法包括:1) 在最新數據上進行微調時混合不同比例的先前數據分佈,以緩解災難性遺忘,2) 從先前分佈或課程中開發有效的原型,用於新任務的推理學習,3) 提高線上學習演算法的訓練穩定性和樣本效率,4) 確定將大容量模型無縫整合到控制框架中的原則性方法,可能透過分層學習或慢- 快控制,實現即時推理。

(7)
統一評估基準
。儘管有許多基準用於評估低階控制策略,但它們在評估技能方面常常存在顯著差異。此外,這些基準中包含的物件和場景通常受到模擬器限制。為了全面評估具身模型,需要使用逼真的模擬器涵蓋多種技能的基準。在高階任務規劃方面,許多基準透過問答任務來評估規劃能力。However, a more ideal approach would be to comprehensively evaluate the execution capabilities of high-level mission planners and low-level control strategies, especially in executing long-duration missions and measure success rates, rather than relying solely on the evaluation of planners alone. This comprehensive approach enables a more comprehensive assessment of the capabilities of embodied intelligent systems.

In short, embodied intelligence enables intelligent agents to perceive, recognize and interact with various objects in digital space and the physical world, showing its importance in realizing general artificial intelligence. This review provides a comprehensive review of embodied robots, embodied simulation platforms, embodied perception, embodied interaction, embodied agents, virtual-to-reality robot control, and future research directions, which have implications for promoting the development of embodied intelligence. Significance.

About the Institute of Multi-Agent and Embodied Intelligence of Pengcheng Laboratory

The Institute of Multi-Agent and Embodied Intelligence affiliated to Pengcheng Laboratory brings together dozens of experts in intelligent science and robotics Top young scientists in the field, relying on independently controllable AI infrastructure such as Pengcheng Cloud Brain and China Computing Network, are committed to building multi-agent collaboration and simulation training platforms, cloud collaborative embodied multi-modal large models and other general basic platforms to empower It can meet major application needs such as industrial Internet, social governance and services.

以上是全球首篇!研究近400篇文獻,鵬城實驗室&中大深度解析具身智能的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
<🎜>掩蓋:探險33-如何獲得完美的色度催化劑
2 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1677
14
CakePHP 教程
1430
52
Laravel 教程
1333
25
PHP教程
1278
29
C# 教程
1257
24
突破傳統缺陷檢測的界限,\'Defect Spectrum\'首次實現超高精度豐富語意的工業缺陷檢測。 突破傳統缺陷檢測的界限,\'Defect Spectrum\'首次實現超高精度豐富語意的工業缺陷檢測。 Jul 26, 2024 pm 05:38 PM

在現代製造業中,精準的缺陷檢測不僅是確保產品品質的關鍵,更是提升生產效率的核心。然而,現有的缺陷檢測資料集常常缺乏實際應用所需的精確度和語意豐富性,導致模型無法辨識特定的缺陷類別或位置。為了解決這個難題,由香港科技大學廣州和思謀科技組成的頂尖研究團隊,創新地開發了「DefectSpectrum」資料集,為工業缺陷提供了詳盡、語義豐富的大規模標註。如表一所示,相較於其他工業資料集,「DefectSpectrum」資料集提供了最多的缺陷標註(5438張缺陷樣本),最細緻的缺陷分類(125個缺陷類別

數百萬晶體資料訓練,解決晶體學相位問題,深度學習方法PhAI登Science 數百萬晶體資料訓練,解決晶體學相位問題,深度學習方法PhAI登Science Aug 08, 2024 pm 09:22 PM

編輯|KX時至今日,晶體學所測定的結構細節和精度,從簡單的金屬到大型膜蛋白,是任何其他方法都無法比擬的。然而,最大的挑戰——所謂的相位問題,仍然是從實驗確定的振幅中檢索相位資訊。丹麥哥本哈根大學研究人員,開發了一種解決晶體相問題的深度學習方法PhAI,利用數百萬人工晶體結構及其相應的合成衍射數據訓練的深度學習神經網絡,可以產生準確的電子密度圖。研究表明,這種基於深度學習的從頭算結構解決方案方法,可以以僅2埃的分辨率解決相位問題,該分辨率僅相當於原子分辨率可用數據的10%到20%,而傳統的從頭算方

英偉達對話模式ChatQA進化到2.0版本,上下文長度提到128K 英偉達對話模式ChatQA進化到2.0版本,上下文長度提到128K Jul 26, 2024 am 08:40 AM

開放LLM社群正是百花齊放、競相爭鳴的時代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現優良的模型。但是,相較於以GPT-4-Turbo為代表的專有大模型,開放模型在許多領域仍有明顯差距。在通用模型之外,也有一些專精關鍵領域的開放模型已被開發出來,例如用於程式設計和數學的DeepSeek-Coder-V2、用於視覺-語言任務的InternVL

GoogleAI拿下IMO奧數銀牌,數學推理模型AlphaProof面世,強化學習 is so back GoogleAI拿下IMO奧數銀牌,數學推理模型AlphaProof面世,強化學習 is so back Jul 26, 2024 pm 02:40 PM

對AI來說,奧數不再是問題了。本週四,GoogleDeepMind的人工智慧完成了一項壯舉:用AI做出了今年國際數學奧林匹克競賽IMO的真題,並且距拿金牌僅一步之遙。上週剛結束的IMO競賽共有六道賽題,涉及代數、組合學、幾何和數論。谷歌提出的混合AI系統做對了四道,獲得28分,達到了銀牌水準。本月初,UCLA終身教授陶哲軒剛剛宣傳了百萬美元獎金的AI數學奧林匹克競賽(AIMO進步獎),沒想到7月還沒過,AI的做題水平就進步到了這種水平。 IMO上同步做題,做對了最難題IMO是歷史最悠久、規模最大、最負

PRO | 為什麼基於 MoE 的大模型更值得關注? PRO | 為什麼基於 MoE 的大模型更值得關注? Aug 07, 2024 pm 07:08 PM

2023年,幾乎AI的每個領域都在以前所未有的速度進化,同時,AI也不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下,Transformer作為AI大模型主流架構的局面是否會撼動?為何探索基於MoE(專家混合)架構的大模型成為業界新趨勢?大型視覺模型(LVM)能否成為通用視覺的新突破? ……我們從過去的半年發布的2023年本站PRO會員通訊中,挑選了10份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀,助您在新的一年裡為大展宏圖做好準備。本篇解讀來自2023年Week50

為大模型提供全新科學複雜問答基準與評估體系,UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架 為大模型提供全新科學複雜問答基準與評估體系,UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架 Jul 25, 2024 am 06:42 AM

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

準確率達60.8%,浙大基於Transformer的化學逆合成預測模型,登Nature子刊 準確率達60.8%,浙大基於Transformer的化學逆合成預測模型,登Nature子刊 Aug 06, 2024 pm 07:34 PM

編輯|KX逆合成是藥物發現和有機合成中的關鍵任務,AI越來越多地用於加快這一過程。現有AI方法性能不盡人意,多樣性有限。在實踐中,化學反應通常會引起局部分子變化,反應物和產物之間存在很大重疊。受此啟發,浙江大學侯廷軍團隊提出將單步逆合成預測重新定義為分子串編輯任務,迭代細化目標分子串以產生前驅化合物。並提出了基於編輯的逆合成模型EditRetro,該模型可以實現高品質和多樣化的預測。大量實驗表明,模型在標準基準資料集USPTO-50 K上取得了出色的性能,top-1準確率達到60.8%。

現場削黃瓜、摺衣服,曾爆火的刮鬍子機器人再進化,穹徹的具身智慧大腦來了! 現場削黃瓜、摺衣服,曾爆火的刮鬍子機器人再進化,穹徹的具身智慧大腦來了! Jul 11, 2024 pm 12:42 PM

7月4日,在2024世界人工智慧大會上,具身智慧公司穹徹智慧Noematrix(展位號:H1-A715)宣布推出圓頂具身大腦NoematrixBrain,加速具身智慧大模型落地。結合實體機器人,穹徹在完全開放的環境中向現場觀眾近距離展示了「隨手一扔就能疊的衣物折疊」(無限自由度物體操作,複雜物體理解堪比人類)和「削完就能吃的黃瓜削皮」(不規則曲面操作,精細度甚至超越人類水平)等突破性技術,以及家庭地面整理等落地應用。透過這些即時示範和真實互動,穹徹具身大腦的

See all articles