Google具身智能新研究:比RT-2優秀的RT-H來了
隨著大語言模型如GPT-4與機器人技術的結合日益緊密,人工智慧正逐漸走向現實世界。因此,與具身智能相關的研究也引起越來越多的關注。在許多研究計畫中,Google的"RT"系列機器人一直處於前沿地位,這一趨勢在近期開始加速(詳見《大模型正在重構機器人,GoogleDeepmind如何定義未來的具身智慧》)。
去年7月,GoogleDeepMind推出了RT-2,這是全球第一個能夠控制機器人進行視覺-語言-動作(VLA )交互作用的模型。只要用對話的方式下達指令,RT-2就能在大量圖片中辨識出黴黴,並將一罐可樂送到她手中。
如今,這個機器人又進化了。最新版的 RT 機器人名為「RT-H」,它能透過將複雜任務分解成簡單的語言指令,再將這些指令轉化為機器人行動,來提高任務執行的準確性和學習效率。舉例來說,給定一項任務,如「蓋上開心果罐的蓋子」和場景圖像,RT-H 會利用視覺語言模型(VLM)預測語言動作(motion),如「向前移動手臂」和「向右旋轉手臂」,然後根據這些語言動作,預測機器人的行動(action)。
行動層級對於最佳化機器人任務執行的準確性和學習效率至關重要。這種層級結構使得 RT-H 在各種機器人任務中的表現明顯優於 RT-2,為機器人提供了更有效率的執行路徑。
以下是論文的詳細資訊。
論文概覽
- ##論文標題:RT-H: Action Hierarchies Using Language
專案連結:https://rt-hierarchy.github.io/
語言是人類推理的引擎,它使我們能夠將複雜概念分解為更簡單的組成部分,糾正我們的誤解,並在新環境中推廣概念。近年來,機器人也開始利用語言高效、組合式的結構來分解高層次概念、提供語言修正或實現在新環境下的泛化。
這些研究通常遵循一個共同的範式:面對一個用語言描述的高層任務(如「拿起可樂罐」),它們學習將觀察和語言中的任務描述映射到低層次機器人行動的策略,這需要透過大規模多任務資料集實現。語言在這些場景中的優勢在於編碼類似任務之間的共享結構(例如,「拿起可樂罐」與「拿起蘋果」),從而減少了學習從任務到行動映射所需的資料。然而,隨著任務變得更加多樣化,描述每個任務的語言也變得更加多樣(例如,「拿起可樂罐」與「倒一杯水」),這使得僅透過高層次語言學習不同任務之間的共享結構變得更加困難。
為了學習多樣化的任務,研究者的目標是更準確地捕捉這些任務之間的相似性。 ############他們發現語言不僅可以描述高階任務,還能細緻地說明完成任務的方法 —— 這種表示更細膩,更貼近具體動作。例如,「拿起可樂罐」這項任務可以分解為一系列更細節的步驟,即「語言動作(language motion)」:首先「手臂向前伸」,接著「抓緊罐子」,最後「手臂上舉」。研究者的核心洞見是,透過將語言動作作為連結高階任務描述與底層動作之間的中間層,可以利用它們來建構一個透過語言動作形成的行動層級。 ############建立這種行動層級有幾大好處:######
- 它使不同任務之間在語言動作層面上能夠更好地共享數據,使得語言動作的組合和在多任務數據集中的泛化性得到增強。例如,「倒一杯水」與「拿起可樂罐」雖在語義上有所不同,但在執行到撿起物體之前,它們的語言動作完全一致。
- 語言動作不是簡單的固定原語,而是根據當前任務和場景的具體情況透過指令和視覺觀察來學習的。例如,「手臂向前伸」並沒具體說明移動的速度或方向,這取決於具體任務和觀察情況。學習到的語言動作的上下文依賴性和靈活性為我們提供了新的能力:當策略未能百分之百成功時,允許人們對語言動作進行修正(見圖 1 中橙色區域)。進一步地,機器人甚至可以從這些人類的修正中學習。例如,在執行「拿起可樂罐」的任務時,如果機器人提前關閉了夾爪,我們可以指導它「保持手臂前伸的姿勢更久一些」,這種在特定場景下的微調不僅易於人類指導,也更容易機器人學習。
鑑於語言動作存在以上優勢,來自GoogleDeepMind 的研究者設計了一個端到端的框架-RT-H( Robot Transformer with Action Hierarchies,即使用行動層級的機器人Transformer),專注於學習這類行動層級。 RT-H 透過分析觀察結果和高層次任務描述來預測當前的語言動作指令,從而在細節層面上理解如何執行任務。接著,利用這些觀察、任務以及推斷出的語言動作,RT-H 為每一步驟預測相應的行動,語言動作在此過程中提供額外的上下文,幫助更準確地預測具體行動(圖1 紫色區域) 。
此外,他們還開發了一種自動化方法,從機器人的本體感受中提取簡化的語言動作集,建立了包含超過2500 個語言動作的豐富資料庫,無需手動標註。
RT-H 的模型架構借鑒了RT-2,後者是一個在互聯網規模的視覺與語言資料上共同訓練的大型視覺語言模型(VLM),旨在提升策略學習效果。 RT-H 採用單一模型同時處理語言動作和行動查詢,充分利用廣泛的互聯網規模知識,為行動層級的各個層次提供支援。
在實驗中,研究者發現使用語言動作層級在處理多樣化的多任務資料集時能夠帶來顯著的改善,相比RT-2 在一系列任務上的表現提高了15%。他們也發現,修正語言動作能夠在同樣的任務上達到接近完美的成功率,展現了學習到的語言動作的彈性和情境適應性。此外,透過對模型進行語言動作介入的微調,其表現超過了 SOTA 互動模仿學習方法(如 IWR)50%。最終,他們證明了 RT-H 中的語言動作能夠更好地適應場景和物體變化,相比於 RT-2 展現了更優的泛化表現。
RT-H 架構詳解
為了有效地捕捉跨多任務資料集的共享結構(不由高階任務描述表徵), RT-H 旨在學習明確利用行動層級策略。
具體來說,研究團隊將中間語言動作預測層引入策略學習。描述機器人細粒度行為的語言動作可以從多任務資料集中捕捉有用的信息,並且可以產生高效能的策略。當學習到的策略難以執行時,語言動作可以再次發揮作用:它們為與給定場景相關的線上人工修正提供了直覺的介面。經過語言動作訓練的策略可以自然地遵循低程度的人工修正,並在給定修正資料的情況下成功完成任務。此外,該策略甚至可以根據語言修正資料進行訓練,並進一步提高其效能。
如圖2 所示,RT-H 有兩個關鍵階段:先根據任務描述和視覺觀察預測語言動作,然後根據預測的語言動作、具體任務、觀察結果推斷精確的行動。
RT-H 使用 VLM 主幹網路並遵循 RT-2 的訓練過程來進行實例化。與 RT-2 類似,RT-H 透過協同訓練利用了互聯網規模資料中自然語言和影像處理的大量先驗知識。為了將這些先驗知識合併到行動層級的所有層次中,單一模型會同時學習語言動作和行動查詢。
實驗結果
為了全面評估RT-H 的效能,研究團隊設定了四個關鍵的實驗問題:
- Q1(效能):帶有語言的行動層級是否可以提高多任務資料集上的策略效能?
- Q2(情境性):RT-H 學得的語言動作是否與任務和場景情境有關?
- Q3(修正):在語言動作修正上訓練比遠距(teleoperated)修正更好嗎?
- Q4(概括):行動層級是否可以提高分佈外設定的穩健性?
資料集方面,該研究採用一個大型多任務資料集,其中包含 10 萬個具有隨機物件姿態和背景的演示樣本。此資料集結合了以下資料集:
- Kitchen:RT-1 和 RT-2 使用的資料集,由 70K 樣本中的 6 個語意任務類別組成。
- Diverse:由更複雜的任務組成的新資料集,具有超過 24 個語義任務類別,但只有 30K 樣本。
該研究將此組合資料集稱為 Diverse Kitchen (D K) 資料集,並使用自動化程式對其進行語言動作標記。為了評估在完整Diverse Kitchen 資料集上訓練的RT-H 的性能,該研究針對八項具體任務進行了評估,包括:
1)將碗直立放在櫃檯上
2)打開開心果罐
#3)關閉開心果罐
##4 )將碗移離穀物分配器
5)將碗放在穀物分配器下方
##6)將燕麥片放入碗中7)從籃子拿湯匙
#8)從分配器中拉出餐巾
選擇這八個任務是因為它們需要複雜的動作序列和高精度。
實際上,看似不同的任務之間具備一些共享結構,例如這些任務中每一個都需要一些拾取行為來開始任務,並且透過學習跨不同任務的語言動作的共享結構,RT -H 可以完成拾取階段而無需任何修正。
即使當RT-H 不再能夠泛化其語言動作預測時,語言動作修正通常也可以泛化,因此只需進行有些修正就可以成功完成任務。這顯示語言動作在擴大新任務資料收集方面的潛力。
有興趣的讀者可以閱讀論文原文,了解更多研究內容。
以上是Google具身智能新研究:比RT-2優秀的RT-H來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

詳細介紹芝麻開門交易所網頁版登入口操作,含登錄步驟、找回密碼流程,還針對登錄失敗、無法打開頁面、收不到驗證碼等常見問題提供解決方法,助你順利登錄平台。

本文詳細介紹了芝麻開門交易所(Gate.io)網頁版和Gate交易App的註冊流程。 無論是網頁註冊還是App註冊,都需要訪問官方網站或應用商店下載正版App,然後填寫用戶名、密碼、郵箱和手機號等信息,並完成郵箱或手機驗證。

本文推荐十大值得关注的加密货币交易平台,涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋,例如币安以其全球最大的交易量和丰富的功能著称,而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。 希望本文能帮助您找到最适合自

本文詳細介紹了歐易OKEx賬號的註冊、使用和註銷流程。註冊需下載APP,輸入手機號或郵箱註冊,完成實名認證。使用方面涵蓋登錄、充值提現、交易以及安全設置等操作步驟。而註銷賬號則需要聯繫歐易OKEx客服,提供必要信息並等待處理,最終獲得賬號註銷確認。 通過本文,用戶可以輕鬆掌握歐易OKEx賬號的完整生命週期管理,安全便捷地進行數字資產交易。

本指南提供了 Bitget 交易所官方 App 的詳細下載和安裝步驟,適用於安卓和 iOS 系統。指南整合了來自多個權威來源的信息,包括官網、App Store 和 Google Play,並強調了下載和賬戶管理過程中的注意事項。用戶可以從官方渠道下載 App,包括應用商店、官網 APK 下載和官網跳轉,並完成註冊、身份驗證和安全設置。此外,指南還涵蓋了常見問題和注意事項,例如

本指南提供了 Bitget 交易所官方 App 的詳細下載和安裝步驟,適用於安卓和 iOS 系統。指南整合了來自多個權威來源的信息,包括官網、App Store 和 Google Play,並強調了下載和賬戶管理過程中的注意事項。用戶可以從官方渠道下載 App,包括應用商店、官網 APK 下載和官網跳轉,並完成註冊、身份驗證和安全設置。此外,指南還涵蓋了常見問題和注意事項,例如

原文標題:Bittensor=AIBitcoin?原文作者:S4mmyEth,DecentralizedAIResearch原文編譯:zhouzhou,BlockBeats編者按:本文討論了Bittensor,一個去中心化的AI平台,希望通過區塊鏈技術打破集中式AI公司的壟斷,推動開放、協作的AI生態系統。 Bittensor採用子網模型,允許不同AI解決方案的出現,並通過TAO代幣激勵創新。儘管AI市場已成熟,但Bittensor面臨競爭風險,可能會受到其他開源
