交大校友獲最佳論文，機器人頂會CoRL 2022獎公佈-人工智慧-PHP中文網

自 2017 年首次舉辦以來，CoRL 已經成為了機器人學與機器學習交叉領域的全球頂級學術會議之一。 CoRL 是機器人學習研究的 single-track 會議，涵蓋機器人學、機器學習和控制等多個主題，包括理論與應用。

2022年的CoRL大會於12月14日至18日在新西蘭奧克蘭舉行。

交大校友獲最佳論文，機器人頂會CoRL 2022獎公佈

本屆大會共收到504篇投稿，最後接收34篇Oral論文、163篇Poster論文，接收率為39%。

交大校友獲最佳論文，機器人頂會CoRL 2022獎公佈

目前，CoRL 2022 公佈了最佳論文獎、最佳系統論文獎、特別創新獎等全部獎項。賓州大學GRASP實驗室碩士、上海交通大學校友Kun Huang獲得了大會最佳論文獎。

最佳論文獎

獲得本屆大會最佳論文獎的是來自賓州大學的一項研究。

交大校友獲最佳論文，機器人頂會CoRL 2022獎公佈

#論文標題：Training Robots to Evaluate Robots: Example-Based Interactive Reward Functions for Policy Learning
作者：Kun Huang、Edward Hu、Dinesh Jayaraman
論文連結：https://openreview.net/pdf?id=sK2aWU7X9b8

論文摘要：通常來說，物理交互作用有助於揭示不太明顯的訊息，例如我們可能會拉一下桌腳來評估它是否穩固，或者把一個水瓶倒過來檢查它是否漏水，該研究建議可以透過訓練機器人來自動獲得這種互動行為，以評估機器人嘗試執行技能的結果。這些評估反過來作為IRF（interactive reward functions），用於訓練強化學習策略以執行目標技能，例如擰緊桌腳。此外，即使在完全訓練完成之後，IRF也可以作為改善線上任務執行的驗證機制。對於任何給定的任務， IRF訓練非常方便，並且不需要進一步的規範。

評估結果表明，IRF 可以實現顯著的性能改進，甚至可以透過訪問演示或精心設計的獎勵來超越基準。例如下圖中，機器人必須先關門，然後旋轉對稱的門把手才能完全鎖住門。

門鎖（door locking）評估範例示範

下面實驗的目的是將3 個視覺上相同的塊堆疊成一個穩定的塔，其中的一個小方塊明顯比其他兩塊重，所以最佳策略是將它放在底部。

堆疊評估範例示範

#為了檢查演算法的穩健性和通用性，研究使用具有9 個關節的D'Claw 在真實機器人擰緊實驗中對其進行測試。此任務的目的是將4-prong閥門順時針旋轉約 180° 進入擰緊狀態（閥門底座上的白線）。

交大校友獲最佳論文，機器人頂會CoRL 2022獎公佈

#作者介紹

本次獲得CoRL 2022最佳論文獎的作者共有三位，分別是Kun Huang、Edward Hu、Dinesh Jayaraman 。

Dinesh Jayaraman為賓州大學GRASP實驗室的助理教授，他領導著感知、行動和學習(PAL)研究小組，致力於電腦視覺、機器學習和機器人技術的交叉問題研究。

Kun Huang為賓州大學GRASP實驗室碩士，在Dinesh Jayaraman教授的指導下研究強化學習。他在密西根大學獲得了電腦科學學士學位，在那裡他與 Dmitry Berenson 教授一起研究機器人感知。 Kun Huang本科畢業於上海交通大學，研究興趣包含機器人與現實世界的應用。 Kun Huang 在碩士期間曾在 Waymo 實習，畢業後將加入 Cruise 擔任機器學習工程師。

領英首頁：https://www.linkedin.com/in/kun-huang-620034171/

Edward S. Hu為賓州大學GRASP實驗室的博士生，師從Dinesh Jayaraman教授。他的主要研究興趣包括基於模型的強化學習等。 Edward在南加州大學獲得了電腦科學碩士和學士學位，在那裡他與Joseph J. Lim教授一起研究機器人的強化和模仿學習。

最佳論文入圍名單

這次會議共有3篇論文入圍最佳論文獎項，除了最終得獎的論文以外，其他2篇分別是：

交大校友獲最佳論文，機器人頂會CoRL 2022獎公佈

論文標題：Learning Agile Skills via Adversarial Imitation of Rough Partial Demonstrations
#作者：Chenhao Li、Marin Vlastelica、Sebastian Blaes、Jonas Frey、Felix Grimminger、Georg Martius
##論文連結：https://arxiv.org/pdf/ 2206.11693.pdf

交大校友獲最佳論文，機器人頂會CoRL 2022獎公佈

論文標題：Supercharging Imitation with Regularized Optimal Transport
作者：Siddhant Haldar 、 Vaibhav Mathur、Denis Yarats、Lerrel Pinto
論文連結：https://arxiv.org/pdf/2206.15469.pdf

最佳系統論文獎

獲得本屆大會最佳系統論文獎的是來自CMU、UC伯克利的一項研究。

交大校友獲最佳論文，機器人頂會CoRL 2022獎公佈

論文標題：Legged Locomotion in Challenging Terrains using Egocentric Vision
#作者：Ananye Agarwal,Ashish Kumar,Jitendra Malik, Deepak Pathak
論文連結：https://arxiv.org/pdf/2211.07638.pdf

論文摘要：動物能夠利用視覺進行精確而敏捷的運動，而複製這種能力一直是機器人技術的長期目標。傳統的方法是將這個問題分解為海拔測繪和落腳點規劃階段（foothold planning phase）。然而，海拔測繪很容易受到故障和大面積噪音的影響，需要專門的硬體而且在生物學上是不可行的。

在本文中，研究者提出了第一個能夠穿越樓梯、路邊、墊腳石和空隙的端到端運動系統，並在一個中等大小、使用單一正面的在深度攝影機的四足機器人上展示了這一結果。由於機器人體積小，需要發現其他地方沒有的專門的步態模式。攝影機需要掌握記住過去的資訊的策略，以估計身後腳下的地形。

研究者在模擬環境中訓練了機器人的策略。訓練分為兩個階段：首先使用強化學習訓練一個具有低運算成本的深度影像變體的策略，然後將其提煉為使用監督學習的深度的最終策略。

交大校友獲最佳論文，機器人頂會CoRL 2022獎公佈

最終的策略可遷移到現實世界，並且能夠在機器人有限的運算能力上即時運行。它可以穿越大量的地形，同時對諸如濕滑表面和岩石地形等乾擾具有穩健性。

墊腳石和空隙

#機器人能夠跨過各種配置的吧台凳，並調整步長以跨過大間隙。由於後腳附近沒有攝像頭，機器人必須記住吧台凳的位置並在相應的位置放置後腳。

交大校友獲最佳論文，機器人頂會CoRL 2022獎公佈

樓梯和路邊

該機器人能夠爬上24厘米高、30公分寬的樓梯。策略適用於各種照明條件下的不同樓梯和路邊。在分佈不均勻的樓梯，機器人最初會被卡住，但最終能夠使用爬升行為跨越這些障礙。

交大校友獲最佳論文，機器人頂會CoRL 2022獎公佈

非結構化地形

機器人可以穿越不屬於其訓練類別之一的非結構化地形，顯示了系統的泛化能力。

交大校友獲最佳論文，機器人頂會CoRL 2022獎公佈

#在黑暗中的移動

深度相機使用紅外線投射圖案，即使在幾乎沒有環境光的情況下也能準確估計深度。

穩健性

#策略對大力量（從高處投擲5 公斤重物）和濕滑表面（水倒在塑膠布上）具有穩健性。

交大校友獲最佳論文，機器人頂會CoRL 2022獎公佈

作者介紹

這項研究共有四位作者。

Jitendra Malik現為UC伯克利電機工程與電腦科學系Arthur J. Chick教授，他的研究領域包括電腦視覺、人類視覺的計算建模、電腦圖形學和生物圖像分析等。

本次獲獎研究的作者之一Ashish Kumar是他的博士生。

Deepak Pathak現為卡內基美隆大學助理教授，他在加州大學柏克萊分校獲得博士學位，研究的主題包括機器學習、機器人和電腦視覺。

本次獲獎研究的作者之一Ananye Agarwal是他的博士生。

此外，Deepak Pathak還有一項研究在本次大會最佳系統論文獎的入圍名單之內。

交大校友獲最佳論文，機器人頂會CoRL 2022獎公佈

論文標題：Deep Whole-Body Control: Learning a Unified Policy for Manipulation and Locomotion
作者：Zipeng Fu, Xuxin Cheng, Deepak Pathak
論文連結：https://arxiv.org/abs/2210.10044

特別創新獎

這次大會也選出了特別創新獎，這項研究由Google的多位研究者共同完成。

交大校友獲最佳論文，機器人頂會CoRL 2022獎公佈

論文標題：Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
#作者：Brian Ichter 、 Anthony Brohan 、Michael Ahn 等
#論文連結：https://arxiv.org/pdf/2204.01691.pdf

#論文摘要：大型語言模型可以編碼關於世界的大量語義知識，這樣的知識對機器人非常有用。然而，語言模型存在這樣一個缺點，即對真實世界缺乏經驗，這使得其在給定任務上很難利用語義進行決策。

來自Google的研究者建議透過預訓練技能來提供大型語言模型在現實世界的基礎，這些技能用於約束模型，以提出既可行又適合上下文的自然語言操作。機器人可以充當語言模型的「手和眼睛」，而語言模型提供關於任務的高級語義知識。該研究展示了低階技能如何與大型語言模型結合，以便語言模型提供有關執行複雜和時間擴展指令的過程的高級知識，而與這些技能相關的值函數提供了將這些知識連接到特定物理環境所需的基礎。

研究者將大型語言模型（LLM）與機器人的物理任務組合到一起時用到了這樣一個原則：除了讓LLM 簡單地解釋一條指令之外，還可以用它來評估單一動作對完成整個高階指令有幫助的機率。簡單來說，每個動作可以有一個語言描述，我們可以透過 prompt 語言模型讓它為這些動作打分數。此外，如果每個動作都有一個相應的 affordance 函數，可以量化它從當前狀態（例如學到的價值函數）獲得成功的可能性。兩個機率值的乘積就是機器人能成功地完成一個對於指令有幫助的動作的機率。根據這個機率將一系列動作排序，選取機率最高的一個。

交大校友獲最佳論文，機器人頂會CoRL 2022獎公佈