揭示基礎模型與機器人發展道路的綜述
無需改變原意,機器人是一種技術,可以有無限的可能性,尤其是當與智慧技術結合時。最近,一些具有革命性應用的大型模型有望成為機器人的智慧中樞,幫助機器人感知和理解世界,做出決策和規劃
近日,CMU 的Yonatan Bisk 和Google DeepMind夏斐(Fei Xia)領導的聯合團隊發布了一篇綜述報告,介紹了基礎模型在機器人領域的應用和發展。報告的 first aurthor 是 CMU 的博士四年級學生胡亞非(Yafei Hu),他的研究集中在機器人和人工智慧的交叉應用上。與他合作的是謝泉廷(Quanting Xie),專注於透過基礎模型探索具身智能(embodied intelligence)。
論文網址:https://arxiv.org/pdf/2312.08782.pdf
開發能自主適應不同環境的機器人是人類一直以來的夢想,但這卻是一條漫長且充滿挑戰的道路。先前,利用傳統深度學習方法的機器人感知系統通常需要大量有標註資料來訓練監督學習模型,而如果透過眾包方式來標註大型資料集,成本又非常高。
此外,由於經典監督學習方法的泛化能力有限,為了將這些模型部署到具體的場景或任務,這些訓練得到的模型通常還需要精心設計的領域適應技術,而這又通常需要進一步的資料收集和標註步驟。類似地,經典的機器人規劃和控制方法通常需要仔細地建模世界、智能體自身的動態和 / 或其它智能體的動態。這些模型通常是針對各個特定環境或任務所建構的,而當情況有變時,就需要重新建構模型。這說明經典模型的遷移性能也有限。
事實上,對於許多用例,建立有效模型的成本要不是太高,就是完全無法辦到。儘管基於深度(強化)學習的運動規劃和控制方法有助於緩解這些問題,但它們仍舊會受到分佈移位(distribution shift)和泛化能力降低的影響。
雖然在開發通用型機器人系統上正面臨諸多挑戰,但自然語言處理(NLP)和電腦視覺(CV)領域近來卻進展迅猛,其中包括用於NLP 的大型語言模型(LLM)、用於高保真圖像生成的擴散模型、用於零樣本/ 少樣本生成等CV 任務的能力強大的視覺模型和視覺語言模型。
所謂的「基礎模型(foundation model)」其實就是大型預訓練模型(LPTM)。它們具備強大的視覺和語言能力。近來這些模型也已經在機器人領域中得到應用,並有望賦予機器人系統開放世界感知、任務規劃甚至運動控制能力。除了將現有的視覺和 / 或語言基礎模型用於機器人領域,還有研究團隊正針對機器人任務開發基礎模型,例如用於操控的動作模型或用於導航的運動規劃模型。這些機器人基礎模型展現了強大的泛化能力,能適應不同的任務甚至具身方案。也有研究者直接將視覺 / 語言基礎模型用於機器人任務,這展現了將不同機器人模組融合成單一統一模型的可能性。
儘管視覺和語言基礎模型在機器人領域前景可期,全新的機器人基礎模型也正在開發中,但機器人領域仍有許多挑戰難以解決。
從實際部署角度看,模型往往是不可復現的,無法泛化到不同的機器人形態(多具身泛化)或難以準確理解環境中的哪些行為是可行的(或可接受的)。此外,大多數研究使用的都是基於 Transformer 的架構,關注的重點是對物件和場景的語義感知、任務層面的規劃、控制。而機器人系統的其它部分則少有人研究,例如針對世界動態的基礎模型或可以執行符號推理的基礎模型。這些都需要跨領域泛化能力。
最後,我們也需要更多大型真實世界數據以及支援多樣化機器人任務的高保真度模擬器。
這篇綜述論文總結了機器人領域所使用的基礎模型,目標是理解基礎模型能以怎樣的方式幫助解決或緩解機器人領域的核心挑戰。
在這篇綜述中,研究人員使用的"基礎模型(foundation models)"這個術語包含了機器人領域的兩個方面:(1) 目前已存在的主要視覺和語言模型,主要是透過零樣本和上下文學習來實現;(2) 使用機器人生成的數據專門開發和應用基礎模型,解決機器人任務。研究人員總結了相關論文中關於基礎模型的方法,並對這些論文的實驗結果進行了統合分析
綜述的整體結構
預備知識
為了幫助讀者更好地理解這篇綜述的內容,團隊首先提供了一節預備知識的內容
他們首先將介紹機器人學的基礎知識以及當前最佳技術。這裡主要聚焦於基礎模型時代之前機器人領域所使用的方法。這裡進行簡單說明,詳情請參閱原論文。
- 機器人的主要元件可分為感知、決策與規劃、動作產生三大部分。 該團隊將機器人感知分為被動感知、主動感知和狀態估計。
- 在機器人決策和規劃部分,研究者分經典規劃方法和基於學習的規劃方法進行了介紹。
- 機器的動作生成也有經典控制方法和基於學習的控制方法。
接下來團隊將介紹基礎模型並主要集中在NLP 和CV 領域,涉及的模型包括:LLM、VLM、視覺基礎模型、文字條件式圖像生成模型。
機器人領域面臨的挑戰
典型機器人系統的不同模組所面臨的五大核心挑戰。圖 3 展示了這五大挑戰的分類。
#泛化
機器人系統往往難以準確地感知和理解其環境。它們也沒有能力將在一個任務上的訓練成果泛化到另一個任務,這會進一步限制它們在真實世界中的實用性。此外,由於機器人硬體不同,將模型遷移用於不同形態的機器人也很困難。透過將基礎模型用於機器人,可以部分解決泛化問題。而在不同機器人形態上泛化這樣更進一步的問題還有待解答。
資料稀缺
為了開發出可靠的機器人模型,大規模的高品質資料至關重要。人們已經在努力嘗試從現實世界收集大規模資料集,包括自動駕駛、機器人操作軌跡等。並且從人類演示收集機器人數據的成本很高。不過,由於任務和環境的多樣性,在現實世界中收集足夠且廣泛的數據的過程會更加複雜。在現實世界收集資料還會有安全方面的疑慮。另外,在現實世界中,大規模收集數據非常困難,而要收集到訓練基礎模型所使用的互聯網規模級的圖像/文本數據,那就更困難了。
為了解決這些挑戰,許多研究工作都試圖在模擬環境中產生合成資料。這些模擬環境能夠提供非常逼真的虛擬世界,使得機器人能夠在接近真實場景的情況下學習和運用自己的技能。然而,使用模擬環境也存在一些局限性,特別是在物體多樣性方面,這導致所學到的技能難以直接應用於真實世界情境
一種頗具潛力的方法是協作式資料收集,即將不同實驗室環境和機器人類型的資料收集在一起,如圖4a 所示。但是,該團隊深度研究了 Open-X Embodiment Dataset,發現在資料類型可用性方面仍有一些限制。
模型與原文要求
經典的規劃和控制方法通常需要精心設計的環境和機器人模型。先前的學習為基礎的方法(如模仿學習和強化學習)是以端到端的方式訓練策略,也就是直接根據感官輸入獲取控制輸出,這樣能避免建構和使用模型。這些方法能部分解決依賴明確模型的問題,但它們往往難以泛化地用於不同的環境和任務。
有兩個問題要解決:(1) 如何學習那些與模型無關,能夠良好泛化的策略? (2) 如何學習優秀的世界模型,從而應用經典的模型為基礎的方法?
任務規範
為了得到通用型智能體,一大關鍵挑戰是理解任務規範並將其根植於機器人對世界的當前理解。通常而言,這些任務規範由使用者提供,但使用者只能有限地理解機器人的認知和物理能力的限制。這會帶來許多問題,包括能為這些任務規範提供什麼樣的最佳實踐,還有起草這些規範是否夠自然簡單。基於機器人對自身能力的理解,理解和解決任務規範中的模糊性也充滿挑戰。
不確定性和安全性
#為了在現實世界中部署機器人,一大關鍵挑戰是處理環境和任務規範中固有的不確定性。根據來源的不同,不確定性可以分為認知不確定性(缺乏知識導致不確定)和偶然不確定性(環境中固有的噪音)。
不確定性量化(UQ)的成本可能會高得讓研究和應用難以為繼,也可能讓下游任務無法被最優地解決。有鑑於基礎模型大規模過度參數化的性質,為了在不犧牲模型泛化性能的同時實現可擴展性,提供能保留訓練方案同時又盡可能不改變底層架構的 UQ 方法至關重要。設計能提供對自身行為的可靠置信度估計,並反過來聰明地請求清晰說明回饋的機器人仍然是一個尚未解決的挑戰。
最近雖有一些進展,但要確保機器人有能力學習經驗,從而在全新環境中微調自己的策略並確保安全,這一點還依然充滿挑戰。
目前研究方法概況
本文也總結了用於機器人的基礎模型的當前研究方法。團隊將機器人領域使用的基礎模型分成了兩大類:用於機器人的基礎模型和重寫的內容是:機器人基礎模型(RFM)。
機器人的基礎模型是指無需額外微調或訓練,以零樣本的方式將視覺和語言基礎模型用於機器人。機器人基礎模型可以透過視覺- 語言預訓練初始化來進行熱啟動,或直接在機器人資料集上訓練模型
詳細分類
用於機器人的基礎模型
#這段內容的重寫如下:這部分內容著重於在機器人領域中將視覺和語言基礎模型應用到零樣本情境。其中,主要包括將VLM零樣本部署到機器人感知應用中,以及將LLM的情境學習能力應用於任務層面與運動層面的規劃與動作生成。圖6展示了一些典型的研究工作
#重寫的內容是:機器人基礎模型(RFM)
隨著包含來自真實機器人的狀態-動作對的機器人資料集的成長,重寫的內容是:機器人基礎模型(RFM)類別同樣變得越來越有可能成功。這些模型的特點是使用了機器人資料來訓練模型解決機器人任務。
研究團隊在討論中總結了不同類型的 RFM。首先是能夠在單一機器人模組中執行特定任務的 RFM,也被稱為單目標機器人基礎模型。例如,能夠產生控制機器人低層動作的 RFM 或能夠產生更高層運動規劃的模型。文章中也介紹了能夠在多個機器人模組中執行任務的RFM,即通用模型,可以執行感知、控制甚至非機器人任務
##基礎模型在解決機器人挑戰方面有什麼作用?
前文列出了機器人領域面臨的五大挑戰。這裡將介紹基礎模型可以如何幫助解決這些挑戰。
所有與視覺訊息相關的基礎模型(如 VFM、VLM 和 VGM)都可用於機器人的感知模組。而 LLM 的功能更多樣化,可用於規劃和控制。重寫的內容是:機器人基礎模型(RFM)通常用於規劃和動作生成模組。表 1 總結了解決不同機器人挑戰的基礎模型。
從表中可以看出,所有的基礎模型都能夠很好地泛化不同機器人模組的任務。特別是LLM在任務規範方面表現出色。另一方面,RFM則擅長應對動態模型的挑戰,因為大多數RFM都是無模型方法。對於機器人的感知能力而言,泛化能力和模型的挑戰是相互關聯的。如果感知模型已經具備了良好的泛化能力,那麼就不需要獲取更多的數據來進行領域適應或額外微調了
另外,在安全挑戰方面還缺乏研究,這會是重要的未來研究方向。
目前的實驗和評估概況
這一部分總結了目前研究成果的資料集、基準和實驗。
資料集和基準
#僅依靠從語言和視覺資料集學到的知識是存在局限的。正如一些研究成果表明的那樣,摩擦力和重量等一些概念無法僅透過這些模態輕鬆學習。
因此,為了讓機器人智能體能更好地理解世界,研究社群不僅在適應來自語言和視覺領域的基礎模型,也在推進開發用於訓練和微調這些模型的大型多樣化多模態機器人資料集。
目前這些工作可以分為兩個主要方向:一方面是從現實世界收集數據,另一方面是從模擬世界收集數據並將其遷移到現實世界。每個方向都有其優點和缺點。從現實世界收集的資料集包括 RoboNet、Bridge Dataset V1、Bridge-V2、. Language-Table、RT-1 等。常用的模擬器包括Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym 等
##對目前方法的評估分析(Meta-Analysis)
該團隊的另一個重大貢獻是對本綜述報告中提到的論文中的實驗進行了元分析,這可以為理清以下問題有所幫助:1. 人們研究解決的是哪些任務?
2. 訓練模型使用了哪些資料集或模擬器?測試用的機器人平台有哪些?
3. 研究社群使用了哪些基礎模型?解決任務的效果如何?
4. 這些方法中較常使用哪些基礎模型?
表 2-7 和圖 11 給出了分析結果。
該團隊透過Meta-analysis 得到的一些主要觀察:
###研究社群對機器人操作任務(Manipulation)的關注不平衡
#泛化能力(Generalization)和穩健性需要提升
對低層動作(Low-level Control)的探索很有限
#控制頻率太低(
缺乏統一的測試基準(Metrics)和測試平台(Simulation or Hardware),使得對比變得非常困難。
討論和未來方向
該團隊總結了一些仍待解決的挑戰和值得討論的研究方向:
- 如何為機器人具身設定標準基礎(grounding)?
- 安全(Safety)和不確定性(Uncertainty)?
- 端對端方法(end-to-end)和模組化(Modular)方法是否無法相容?
- 對具身的物理變化的適應#能力
- 世界模型(World Model)方法還是與模型無關的方法?
- 新機器人平台與多感官資訊
以上是揭示基礎模型與機器人發展道路的綜述的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影
