近年來,機器人領域湧現出許多有趣的進展,例如機器狗會跳舞,會踢足球,雙足機器人搬東西。通常這些機器人都依賴根據感官輸入來產生控制策略。儘管這種方法避免了開發狀態估計模組、建模物件屬性和調整控制器增益的挑戰,但需要大量的領域專業知識。即使取得了許多進展,但學習瓶頸讓機器人難以執行任意任務,無法實現通用的目標。
要了解機器人學習的關鍵,一個核心的問題是:我們如何收集機器人的訓練資料?一種方法是透過自監督的資料收集策略收集有關機器人的資料。雖然這種方法比較穩健,但即使是相對簡單的操作任務,通常也需要數千小時與真實世界互動的大量資料。另一種是在模擬資料上進行訓練,然後遷移到真實機器人(Sim2Real)。這允許機器人以快幾個數量級的速度學習複雜的機器人行為。然而,設定模擬機器人環境和指定模擬器參數通常需要廣泛的領域專業知識。
實際上還有第三種方法,收集訓練資料還可以要求人類教師提供演示,然後訓練機器人快速模仿人類的演示。這種模仿方法最近在各種具有挑戰性的操作問題中顯示出巨大的潛力。然而,這些工作中的大多數都存在一個根本性的限制——為機器人收集高品質的演示數據是很困難的。
基於上述問題,來自紐約大學和 Meta AI 的研究者提出了 HOLO-DEX,這是一個收集演示資料和訓練靈巧機器人的新框架。它使用 VR 頭戴裝置(例如 Quest 2)將人類教師置於身臨其境的虛擬世界中。在這個虛擬世界中,教師可以從機器人的眼睛中查看機器人「看到」的場景,並透過內建的姿勢偵測器控制 Allegro 機械手。
看起來就像是人類「手把手」教機器人做動作:
HOLODEX 允許人類透過低延遲的觀察回饋系統為機器人無縫提供高品質的演示數據,它有以下三個優點:
論文連結:https://arxiv.org/pdf/2210.06463.pdf
#專案連結:https://holo-dex.github.io/
程式碼連結:https:/ /github.com/SridharPandian/Holo-Dex
#為了評估HOLO-DEX 的性能,該研究在六個需要靈巧操作的任務上進行了實驗,包括手持物、單手旋開瓶蓋等。研究發現人類教師使用 HOLO-DEX 可以比單一影像遙操作(teleoperation)的先前工作快 1.8 倍。在 4/6 任務上,HOLO-DEX 學習策略的成功率超過了 90%。此外,研究還發現透過 HOLO-DEX 學到的靈巧策略可以泛化到新的、未見過的目標物。
總的來說,研究的貢獻包括:
此外,HOLO-DEX 相關的混合實境API、研究收集的演示和訓練程式碼均已開源:https://holo-dex.github.io/
HOLO-DEX 架構概覽如下圖1 所示,HOLO-DEX 分兩個階段運行。在第一階段,人類教師使用虛擬實境 (VR) 頭顯向機器人提供演示。這個階段包括創建一個用於教學的虛擬世界、估計(estimate)教師的手部姿勢、將教師的手部姿勢重定位到機械手上,最後控制機器人的手部。在第一階段收集了一些演示之後,HOLO-DEX 的第二階段學習視覺策略來解決演示的任務。
該研究使用Meta Quest 2 VR 頭戴裝置將人類教師置於虛擬世界中,解析度是1832 × 1920,刷新率是72 Hz。這款頭戴裝置的基礎版售價為 399 美元,相對較輕,只有 503 克,這讓教師的演示操作更輕鬆舒適。更重要的是,Quest 2 的 API 介面允許創建自訂的混合現實世界,將機器人系統與 VR 中的診斷面板一起進行視覺化。
使用VR 頭顯估計手部姿勢相比之前關於靈巧遙操作的工作相比,使用VR 頭顯在人類教師的手部姿勢估計方面有三個好處。首先,由於 Quest 2 使用 4 個單色攝像頭,其手勢估計器比單攝像頭估計器強大得多。其次,由於攝影機是內部校準的,因此它們不需要以前的多攝影機遙操作框架中所需的專門校準程序。第三,由於手部姿勢估計器是整合到設備中的,因此它能夠以 72Hz 的頻率傳輸即時姿勢。先前有研究指出,靈巧遙操作的一個重大挑戰是以高精度和高頻率獲取手部姿勢,HOLO-DEX 透過使用商業級 VR 頭顯著簡化了這個問題。
手部姿勢重定向下一步,從 VR 擷取的教師手部姿勢需要重定位到機器手上。這首先要計算教師手部各個關節的角度,然後一種直接的重定向方法是「命令」機器人的關節變動到對應的角度。這種方法適用於該研究中除拇指以外的所有手指,但 Allegro 機械手的形態與人類不是完全匹配的,拇指不能完全應用這種方法。
為了解決這個問題,研究將教師拇指指尖的空間座標映射到機器人的拇指指尖,然後透過逆運動學求解器計算拇指的關節角度。需要注意的是,由於 Allegro 機械手沒有小拇指,研究也忽略了教師的小拇指角度。
整個姿勢重定向過程不需要任何校準或教師特定的調整來收集演示。但研究發現可以透過尋找從教師拇指到機器人拇指的特定映射來改善拇指重定向。整個過程的計算成本很低,並且可以以 60 Hz 的頻率傳輸所需的機器手姿勢。
Allegro Hand 透過 ROS 通訊框架進行非同步控制。給定重定向程式計算的機器手關節位置,該研究使用 PD 控制器以 300Hz 輸出所需扭矩。為了減少穩態誤差,該研究使用重力補償模組來計算偏移扭矩。在延遲測試中,研究發現當 VR 耳機與機器人手在同一本地網路上時,可以實現低於 100 毫秒的延遲。低延遲和低錯誤率對於 HOLO-DEX 至關重要,因為這允許人類教師對機器手進行直觀的遙操作。
當人類教師控制機器手時,他們可以即時看到機器人的變化(60Hz)。這允許教師糾正機器手的執行錯誤。在教學過程中,研究以 5Hz 的頻率記錄來自三個 RGBD 攝影機的觀察資料和機器人的動作資訊。由於記錄多個攝影機所需的大量資料佔用空間和相關頻寬,該研究不得不降低記錄頻率。
收集資料後就進入了第二階段,HOLO-DEX 要在資料上訓練視覺策略。研究採用最近鄰模仿 (INN) 演算法進行學習。在先前的工作中,INN 被證明可以在 Allegro 手上產生基於狀態的靈巧策略。 HOLO-DEX 更進一步,並證明這些視覺策略可以推廣到各種靈巧操作任務中的新物件。
為了選擇獲得低維嵌入的學習演算法,該研究嘗試了幾種最先進的自監督學習演算法,發現BYOL 提供了最好的最近鄰結果,因此選擇BYOL作為基本的自監督學習方法。
下表 1 展示了 HOLO-DEX 收集成功演示的速度比 DIME 快 1.8 倍。對於需要精確 3D 運動的 3/6 任務,該研究發現單一影像遙操作甚至不足以收集單一演示。
該研究檢視了各種模仿學習策略在靈巧任務上的表現,不同策略下每個任務的成功率如下表2 所示。
由於研究提出的策略是基於視覺的,並且不需要明確估計對象的狀態,因此它們能與訓練中未見過的對象相容。該研究評估了其手動操作策略,這些策略經過訓練可在多種視覺外觀和幾何形狀的物件上執行平面旋轉、物件翻轉和 Can Spinning 任務,如下圖 5 所示。
此外,研究還在不同任務的不同大小的資料集上測試了HOLO-DEX 的效能,視覺化結果如下圖所示。
#以上是戴著VR頭盔教機器人抓握,機器人當場就學會了的詳細內容。更多資訊請關注PHP中文網其他相關文章!