機器人落地「秘訣」：持續學習、知識遷移與自主參與-人工智慧-PHP中文網

機器人落地「秘訣」：持續學習、知識遷移與自主參與

本文轉自雷鋒網，如需轉載請至雷鋒網官網申請授權。

2022年5月23日，一年一度的機器人技術領域的頂級國際會議 ICRA 2022 (IEEE International Conference on Robotics and Automation) 在美國費城如期舉行。

這是ICRA舉辦的第39年。 ICRA 是 IEEE 機器人和自動化學會的旗艦會議，也是機器人研究者展示和討論他們工作的主要國際論壇。

在今年的ICRA上，亞馬遜的三位首席機器人專家，Sidd Srinivasa、 Tye Brady 和 Philipp Michel 簡單討論了在現實世界中建立人機互動的機器人系統所面臨的挑戰。

機器人落地「秘訣」：持續學習、知識遷移與自主參與

圖註：從左到右為亞馬遜機器人人工智慧主管Sidd Srinivasa，亞馬遜機器人公司（全球）首席技術專家Tye Brady，以及亞馬遜Scout 應用科學高級經理Philipp MichelSidd

Srinivasa是全球知名的機器人專家，IEEE Fellow，現任華盛頓大學波音特聘教授，同時是Amazon 機器人人工智慧專案的負責人，負責管理協助Amazon 物流中心員工的自主機器人的演算法，研究可以收拾和包裝產品的機器人和可自主搬卸和運輸貨物的推車式機器人。

Tye Brady是亞馬遜機器人公司（全球）首席技術專家，MIT航空航天工程碩士背景。而Philipp Michel與Sidd Srinivasa同為CMU機器人研究所的博士校友，是亞馬遜Scout機器人計畫的高階經理人。

在探討解決機器人落地挑戰的問題上，他們提出了自己的看法。 AI科技評論作了不改原意的整理，如下：

Q: 你們在機器人領域的研究分別解決不同的問題，這些問題之間有什麼相同點？

Sidd Srinivasa：機器人研究的一個重要困難是：我們生活在一個開放的世界。我們甚至不知道即將面對的「輸入」是什麼。在我們的營運中心，我需要操控超過2000萬件物品，而且這些物品還以每天成千上萬的數量在增加。大部分時候，我們的機器人並不清楚它們所拾起的物品是什麼，但它們需要小心地拾起物品，並在不損壞物品的前提下將物品快速包裝。

Philipp Michel：對Scout來說，困難點是在人行道上遇到的物體，以及運送的環境。我們在美國四個州都部署了私人送貨設備。天氣狀況、光照條件……我們從一開始就明確要處理大量的變量，使機器人能夠適應複雜的環境。

Tye Brady：在開發執行機器人的過程中，我們有一個顯著的優勢，就是在半結構化的環境中展開運作。我們可以自行製定機器人的交通規則，了解環境真的有助於我們的科學家和工程師深入理解我們要移動、操作、分類和識別的物體，完成訂單。也就是說，我們可以在真實世界中實現對科技的追求。

Philipp Michel ：還有另一個共同點，就是我們非常依賴從資料中學習，以解決問題。 Scout 會在執行任務的過程中接收真實世界的數據，然後不斷迭代開發用於感知、定位和導航的機器學習解決方案。

Sidd Srinivasa：我完全同意（從數據中學習解決問題）。我認為機器學習和自適應控制是超線性規模拓展的關鍵。如果我們部署了成千上萬的機器人，我們不可能有成千上萬的科學家和工程師來研究它們，我們需要依賴真實世界的數據，實現超線性地成長。

另外，我認為開放的世界會迫使我們思考怎麼「持續學習」。我們的機器學習模型往往是基於一些輸入資料分佈來訓練的，但因為這是一個開放的世界，會遇到「協變量轉移」（covariate shift）的問題，也就是看到的資料與分佈不匹配，這會導致機器學習模型常常沒來由地過於自信。

因此，我們所做的大量工作就是創建一個「watchdogs」（看門狗，一種監督設備），用來識別輸入資料分佈何時偏離了它所受訓的分佈。然後，我們再進行「重要性抽樣」（importance sampling），這樣我們就可以挑選出已經改變的數據，重新訓練機器學習模型。

Philipp Michel：這也是為什麼我們想要在不同的地方訓練機器人的原因之一，這樣我們就可以儘早知道機器人可能遇到的現實數據，反過來迫使我們開發能夠解決新數據的方案。

Sidd Srinivasa：這的確是個好主意。擁有多機器人的優點之一就是系統能夠辨識出變化的內容，重新進行訓練，然後將這些知識分享給其他機器人。

想到一個分類機器人的故事：在世界的某個角落，一個機器人遇到一個新的包裝類型。一開始，它很困擾，因為它從來沒有見過這種情況，也無法辨識出來。後來出現了一個新的解決方案：這隻機器人可以將新的包裝類型傳送給世界上所有機器人。如此一來，當這種新包裝類型出現在其他地方，其餘機器人就知道該如何處理了。相當於有了一個「備份」，新的數據出現在一個點，其他點都會知道，因為系統已經能夠重新自我訓練、並分享資訊了。

Philipp Michel：我們的機器人也在做類似的事情。如果我們的機器人遇到之前沒有遇到的新障礙，我們會嘗試調整模型來識別與處理這些障礙，然後將新的模型部署到所有的機器人上。

讓我夜不能寐的一件事情是，我們的機器人會在人行道上遇到新的物體，但這些物體在接下來的三年都不會再遇到，例如：人們在萬聖節上用來裝飾草坪的滴水獸，或是人們在野餐的桌子上放一把傘、讓桌子看起來不像「野餐桌」。對於這種情況，所有的機器學習演算法都無法辨識出這是一張野餐桌。

因此，我們的部分研究還是關於如何平衡無需糾結的普通事物與具體類別的事物。如果這是一個敞開的井蓋口，那麼機器人一定要善於識別，不然它會掉下去。但如果它只是一個隨機的盒子，我們可能不需要知道這個盒子的層次結構，只需要知道這是我們要繞過去的物體。

Sidd Srinivasa：另一個挑戰是，當你改變你的模型時，可能會出現意想不到的後果。改變後的模型也許不會影響機器人的感知，但可能會改變機器人「煞車」方式，導致兩個月後滾珠軸承磨損。在端到端的系統中，未來許多有趣的研究都是關於「理解系統部分變更對整個系統效能的影響」。

Philipp Michel：我們花了很多時間思考是否應該分割機器人堆疊的不同部分。在他們之間做整合能帶來很多好處，但也是有限的。一個極端情況是攝影機到電機到扭矩的學習，這在任何現實世界的機器人應用中都是非常具有挑戰性的。還有就是傳統的機器人堆棧，它被很好地分成了定位、感知、規劃和控制等部分。

我們還花了很多時間思考堆疊應該如何隨著時間的推移而發展，把這些部分更緊密地結合在一起時效能有什麼提升？同時，我們希望有一個系統盡可能保持可解釋性。我們試圖最大化利用整個堆疊的學習組件集成，同時保留可解釋性和安全功能的數量。

Sidd Srinivasa：這個觀點很讚，我完全同意 Philipp 的觀點，用一個模型來統治所有模型未必是正確的。但通常，我們最終建立的機器學習模型共享一個主幹，有多個應用的頭。一個物體是什麼，分割物體意味著什麼？可能類似挑選、堆放或包裝，但是每一個都需要專門的頭，搭載在專門任務的主幹上。

Philipp Michel：我們考慮的一些因素是電池、行程、溫度、空間和運算限制。因此，我們需要有效率地使用我們的模型、最佳化模型、並嘗試盡可能多地利用共享主幹，就像 Sidd 提到的，不同的頭用於不同的任務。

機器人落地「秘訣」：持續學習、知識遷移與自主參與