李飛飛團隊新作：腦控機器人做家務，讓腦機介面具備少樣本學習能力-人工智慧-PHP中文網

能動腦的，絕對不用動手的。

未來也許只要動動念頭，就能讓機器人幫你做好家事。史丹佛大學的吳佳俊和李飛飛團隊近日提出的 NOIR 系統能讓使用者透過非侵入式腦電圖裝置控制機器人完成日常任務。

NOIR 能將你的腦電圖訊號解碼為機器人技能庫。現在它已能完成例如烹飪壽喜燒、熨衣服、磨起司、玩井字遊戲，甚至撫摸機器狗等任務。這個模組化的系統具備強大的學習能力，可以應付日常生活中複雜多變的任務。

大腦與機器人介面（BRI）堪稱是人類藝術、科學和工程的集大成之作。我們已經在不勝枚舉的科幻作品和創意藝術中見到它，例如《駭客任務》和《阿凡達》；但真正實現BRI 卻非易事，需要突破性的科學研究，創造出能與人類完美協同運作的機器人系統。

對於這樣的系統，一大關鍵組件是機器與人類溝通的能力。在人機協作和機器人學習過程中，人類傳達意圖的方式包括動作、按按鈕、注視、面部表情、語言等等。而透過神經訊號直接與機器人通訊則是最令人興奮卻也最具挑戰性的前景。

近日，由史丹佛大學吳佳俊和李飛飛領導的一個多學科聯合團隊提出了一個通用型的智慧 BRI 系統 NOIR（Neural Signal Operated Intelligent Robots / 神經訊號操控的智慧機器人）。

論文地址：https://openreview.net/pdf?id=eyykI3UIHa

專案網站：https://noir-corl.github.io/

該系統基於非侵入式的腦電圖（EEG）技術。據介紹，該系統依據的主要原理是分層式共享自治（hierarchical shared autonomy），即人類定義高層目標，而機器人則透過執行低層級運動指令來實現目標。該系統納入了神經科學、機器人學和機器學習領域的新進展，並取得了優於先前方法的進展。該團隊總結了所做的貢獻。

首先，NOIR 是通用型的，可用於多樣化的任務，也易於不同社區使用。研究表明，NOIR 可以完成多達 20 種日常活動；相比之下，先前的 BRI 系統通常是針對一項或少數幾項任務設計的，或者只是模擬系統。此外，只需少量培訓，一般人群也能使用 NOIR 系統。

其次，NOIR 中的 I 表示這個機器人系統是智慧的（intelligent），具備自適應能力。機器人配備了一個多樣化的技能庫，讓其無需密集的人類監督也能執行低層級動作。使用參數化的技能原語，例如 Pick (obj-A) 或 MoveTo (x,y)，機器人可以自然地取得、解讀和執行人類的行為目標。

此外，NOIR 系統還有能力在協作過程中學習人類想達成的目標。研究表明，透過利用基礎模型的最新進展，該系統甚至能適應很有限的數據。這能顯著提升系統的效率。

NOIR 的關鍵技術貢獻包括一個模組化的解碼神經訊號以獲知人類意圖的工作流程。要知道，從神經訊號解碼出人類意圖目標是極具挑戰性的。為此，團隊的做法是將人類意圖分解為三大組分：要操控的物體（What）、與該物體互動的方式（How）、互動的位置（Where）。他們的研究顯示可以從不同類型的神經數據中解碼出這些訊號。這些分解後的訊號可以自然地對應於參數化的機器人技能，並且可以有效地傳達給機器人。

在20 項涉及桌面或移動操作的家庭活動（包括製作壽喜燒、熨燙衣物、玩井字棋、摸機器狗狗等）中，三名人類受試者成功地使用了NOIR 系統，即透過他們的大腦訊號完成了這些任務！

實驗表明，透過以人類為師進行少樣本機器人學習，可以顯著提升 NOIR 系統的效率。這種使用人腦訊號協作來建構智慧機器人系統的方法潛力巨大，可用於為人們（尤其是殘障人士）開發至關重要的輔助技術，提升他們的生活品質。

NOIR 系統

這項研究力圖解決的挑戰包括：1. 如何建構適用於各種任務的通用 BRI 系統？ 2. 如何解碼來自人腦的相關通訊訊號？ 3. 如何提升機器人的智慧與適應能力，進而實現更有效率的協作？圖 2 給出了此系統的概況。

在這個系統中，人類作為規劃智能體，做的是感知、規劃以及向機器人傳達行為目標；而機器人則要使用預定義的原語技能實現這些目標。

為了實現打造通用 BRI 系統的整體目標，需要將這兩種設計協同整合在一起。為此，團隊提出了一個全新的大腦訊號解碼工作流程，並為機器人配備了一套參數化的原始技能庫。最後，團隊使用少樣本模仿學習技術讓機器人具備了更有效率的學習能力。

大腦：模組化的解碼工作流程

如圖3 所示，人類意圖會被分解成三個組分：要操控的物體（What）、與該物體互動的方式（How）、互動的位置（Where）。

要從腦電圖訊號解碼出具體的使用者意圖，難度可不小，但可以透過穩態視覺誘發電位（SSVEP）和運動意象（motor imagery）來完成。簡單來說，這個過程包括：

選取具有穩態視覺誘發電位（SSVEP）的物體
透過運動意象（MI）選擇技能與參數
透過運動意象（MI）選擇技能與參數

透過肌肉收緊來確認中斷

機器人：參數化的原語技能

參數化的原語技能可以針對不同的任務進行組合和復用，從而實現複雜多樣的操作。此外，對人類而言，這些技能非常直觀。人類和智能體都不需要了解這些技能的控制機制，因此人們可以透過任何方法實現這些技能，只要它們是穩健的且能適應多樣化的任務。李飛飛團隊新作：腦控機器人做家務，讓腦機介面具備少樣本學習能力

團隊在實驗中使用了兩台機器人：一台是用於桌面操作任務的 Franka Emika Panda 機械手臂，另一台是用於移動操作任務的 PAL Tiago 機器人。下表給出了這兩台機器人的原語技能。

使用機器人學習實現高效的 BRI

上述的模組化解碼工作流程和原語技能庫為 NOIR 奠定了基礎。但是，這種系統的效率還能進一步提升。機器人應能在協作過程中學習使用者的物品、技能和參數選擇偏好，以便未來能預測使用者希望達成的目標，達到更好的自動化，也讓解碼更簡單容易。由於每一次執行時，物品的位置、姿態、排列和實例可能會有所不同，因此就需要學習和泛化能力。另外，學習演算法應具有較高的樣本效率，因為收集人類資料的成本很高。

🎜團隊為此採用了兩種方法：基於檢索的少樣本物品和技能選取、單樣本技能參數學習。 🎜🎜基於檢索的少樣本物品和技能選取。此方法可以學習所觀察狀態的隱含表徵。給定一個觀察到的新狀態，它會在隱藏空間中找到最相似的狀態以及對應的動作。圖 4 給出了此方法的概況。 🎜

在任務執行期間，由影像和人類選擇的「物品 - 技能」對構成的資料點會被記錄下來。這些影像首先會被一個預先訓練的 R3M 模型編碼，以提取出對機器人操控任務有用的特徵，然後再讓它們通過一些可訓練的全連接層。這些層的訓練使用了具有三元組損失的對比學習，這會鼓勵帶有相同「物品 - 技能」標籤的圖像在隱藏空間中處於更相近的位置。所學習到的圖像嵌入和“物品 - 技能”標籤會被儲存到記憶體中。

在測試期間，模型會檢索隱藏空間中最近的數據點，然後將與該數據點關聯的“物品 - 技能”對建議給人類。

單樣本技能參數學習。參數選取需要人類大量參與，因為這個過程需要透過運動意象（MI）進行精準的遊標操作。為了減少人類的工作量，團隊提出了一種學習演算法，可以根據給定的用作遊標控制起始點的「物品 - 技能」對來預測參數。假設使用者已經成功定位了拿起一個杯子把手的精確關鍵點，那麼未來還需要再次指定這個參數嗎？最近 DINOv2 等基礎模型取得了不少進展，已經可以找到相應的語義關鍵點，從而無需再次指定參數。

相比於先前的工作，這裡提出的新演算法是單樣本的並且預測的是具體的 2D 點，而非語意片段。如圖 4 所示，給定一張訓練影像（360 × 240）和參數選擇 (x, y)，模型預測不同的測試影像中語義上對應的點。團隊具體使用的是預先訓練的 DINOv2 模型來獲得語意特徵。

實驗和結果

任務。實驗所選取的任務來自 BEHAVIOR 和 Activities of Daily Living 基準，這兩個基準能在某種程度上反映人類的日常需求。圖 1 展示了實驗任務，其中包含 16 個桌面任務和 4 個行動操作任務。

下面展示了製作三明治和照顧新冠病人的實驗過程範例。

實驗流程。實驗過程中，使用者待在一個隔離房間中，保持靜止，在螢幕上觀看機器人，單純地依靠大腦訊號與機器人溝通。

系統性能。表 1 總結了兩個指標下的系統表現：成功之前的嘗試次數和成功時完成任務的時間。

儘管這些任務跨度長，難度大，但 NOIR 還是得到了非常鼓舞人心的結果：平均而言，只需嘗試 1.83 次就能完成任務。

解碼準確度。解碼大腦訊號的準確度是 NOIR 系統成功的一大關鍵。表 2 總結了不同階段的解碼準確度。可以看到，基於 SSVEP 的 CCA（典型相關分析）能達到 81.2% 的高準確度，也就是說物品選取大體上是準確的。

物品和技能選取結果。那麼，新提出的機器人學習演算法能否提升 NOIR 的效率呢？研究者首先對物品和技能選取學習進行了評估。為此，他們為 MakePasta 任務收集了一個離線資料集，其中每一對「物品 - 技能」都有 15 個訓練樣本。給定一張圖像，當同時預測了正確的物品和技能時，就認為該預測是正確的。結果見表 3。