四分鐘對打300多次,Google教會機器人打乒乓球
讓一位乒乓球愛好者和機器人對打,按照機器人的發展趨勢來看,誰輸誰贏還真說不準。
機器人擁有靈巧的可操作性、腿部運動靈活、抓握能力出色… 已被廣泛應用於各種挑戰任務。但在與人類互動緊密的任務中,機器人的表現又是如何呢?就拿乒乓球來說,這需要雙方高度配合,而且球的運動非常快速,這對演算法提出了重大挑戰。
在乒乓球比賽中,首要的就是速度和精準度,這對學習演算法提出了很高的要求。同時,這項運動具有高度結構化(具有固定的、可預測的環境)和多智能體協作(機器人可以與人類或其他機器人一起對打)兩大特點,使其成為研究人機互動和強化學習問題的理想實驗平台。
來自Google的機器人研究團隊已經建立了這樣一個平台來研究機器人在多人、動態和互動環境中學習所面臨的問題。谷歌為此也特別寫了一篇博客,來介紹他們一直在研究的兩個項目 Iterative-Sim2Real(i-S2R) 和 GoalsEye。 i-S2R 讓機器人能夠與人類玩家進行超過 300 次的對打,而 GoalsEye 則使機器人能夠從業餘愛好者那裡學習到一些有用的策略(目標條件策略)。
i-S2R 策略讓機器人和人類對打,雖然機器人的握拍姿勢看起來不太專業,但也不會漏掉一個球:
#你來我往,還挺像那麼回事,妥妥打出了高質量球的感覺。
而GoalsEye 策略則能將球回到桌面指定位置,就和指哪打哪差不多:
i-S2R:利用模擬器與人類合作進行遊戲
在這個計畫中,機器人旨在學習與人類合作,即盡可能長時間地與人類進行對打。由於直接針對人類玩家進行訓練既乏味又耗時,因此Google採用了基於模擬的方法。然而,這又面臨一個新的問題,基於模擬的方法很難準確地模擬人類行為、閉環互動任務等。
在 i-S2R 中,Google提出了一種在人機互動任務中可以學習人類行為的模型,並在機器人乒乓球平台上對其進行實例化。谷歌已經建立了一個系統,可以與業餘人類玩家一起實現高達 340 次擊球對打(如下所示)。
人與機器人對打4 分鐘,來回多達340 次
##學習人類行為模式讓機器人準確的學習人類行為還面臨以下問題:如果一開始就沒有足夠好的機器人策略,就無法收集關於人類如何與機器人互動的高品質數據。但如果沒有人類行為模型,從一開始就無法獲得機器人策略,這個問題有點繞,就像先有雞還是先有蛋的問題。一種方法是直接在現實世界中訓練機器人策略,但這通常很慢,成本高昂,並且會帶來與安全相關的挑戰,當人們參與其中時,這些挑戰會進一步加劇。
如下圖所示,i-S2R 使用一個簡單的人類行為模型作為近似起點,並在模擬訓練和現實世界部署之間交替進行。每次迭代中,人類行為模型和策略都會被調整。
#
i-S2R 方法
#Google根據玩家類型對實驗結果進行了細分:初學者(佔40% 的玩家)、中級(佔40% 的玩家)和高級(佔20% 的玩家)。由實驗結果可得,對於初學者和中級玩家(佔 80% 的玩家),i-S2R 的表現都明顯優於 S2R FT(sim-to-real plus fine-tuning)。
以玩家類型分割的i-S2R 結果
GoalsEye:可精確擊中指定位置
在GoalsEye 中,Google也展示了一種方法,該方法結合了行為克隆技術(behavior cloning techniques)來學習精確的目標定位策略。
這裡Google重點關注乒乓球的精確度,他們希望機器人可以將小球精確地回到球檯上的任意指定位置,就如下圖所顯示的指哪打哪。為實現以下效果,他們也採用了 LFP(Learning from Play)、GCSL(Goal-Conditioned Supervised Learning)。
GoalsEye 策略瞄準直徑 20cm 的圓圈(左)。人類玩家可以瞄準同樣的目標(右)
#在最初的2480 次演示中,Google的訓練策略僅在9% 的時間內準確地擊中半徑為30 公分的圓形目標。在經過了大約 13500 次演示後,小球達到目標的準確率上升到 43%(右下圖)。
關於這兩個項目的更多介紹,請參考以下連結:
- #Iterative-Sim2Real 首頁:https://sites.google.com/view/is2r
- GoalsEye 首頁:https://sites.google.com /view/goals-eye
以上是四分鐘對打300多次,Google教會機器人打乒乓球的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

本文推荐十大值得关注的加密货币交易平台,涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋,例如币安以其全球最大的交易量和丰富的功能著称,而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。 希望本文能帮助您找到最适合自

本文詳細介紹了歐易OKEx賬號的註冊、使用和註銷流程。註冊需下載APP,輸入手機號或郵箱註冊,完成實名認證。使用方面涵蓋登錄、充值提現、交易以及安全設置等操作步驟。而註銷賬號則需要聯繫歐易OKEx客服,提供必要信息並等待處理,最終獲得賬號註銷確認。 通過本文,用戶可以輕鬆掌握歐易OKEx賬號的完整生命週期管理,安全便捷地進行數字資產交易。

本文提供Binance幣安註冊及安全設置的完整指南,涵蓋註冊前的準備工作(包括設備、郵箱、手機號及身份證明文件準備),詳細介紹了官網及APP兩種註冊方式,以及不同級別的身份驗證(KYC)流程。此外,文章還重點講解瞭如何設置資金密碼、開啟雙重驗證(2FA,包括谷歌身份驗證器和短信驗證)以及設置防釣魚碼等關鍵安全步驟,幫助用戶安全便捷地註冊和使用Binance幣安平台進行加密貨幣交易。 請務必在交易前了解相關法律法規及市場風險,謹慎投資。

如何優化jieba分詞以改善景區評論的關鍵詞提取?在使用jieba分詞處理景區評論數據時,如果發現分詞結果不理�...

gate.io手機app使用教程:1、安卓用戶,訪問 Gate.io 官方網站,下載安卓安裝包,您可能需要在手機設置中允許安裝來自未知來源的應用;2、ios用戶,在 App Store 中搜索 "Gate.io" 下載。

虛擬貨幣“最老”排行榜如下:1. 比特幣(BTC),發行於2009年1月3日,是首個去中心化數字貨幣。 2. 萊特幣(LTC),發行於2011年10月7日,被稱為“比特幣的輕量版”。 3. 瑞波幣(XRP),發行於2011年,專為跨境支付設計。 4. 狗狗幣(DOGE),發行於2013年12月6日,基於萊特幣代碼的“迷因幣”。 5. 以太坊(ETH),發行於2015年7月30日,首個支持智能合約的平台。 6. 泰達幣(USDT),發行於2014年,是首個與美元1:1錨定的穩定幣。 7. 艾達幣(ADA),發

本文詳細介紹了歐易OKEx網頁版登錄的完整步驟,包括準備工作(確保網絡連接穩定及瀏覽器更新)、訪問官網(注意網址準確性,避免釣魚網站)、找到登錄入口(點擊官網首頁右上角的“登錄”按鈕)、輸入登錄信息(郵箱/手機號及密碼,支持驗證碼登錄)、完成安全驗證(滑動驗證、谷歌驗證或短信驗證)等五個步驟,最終成功登錄後即可進行數字資產交易等操作。 安全便捷的登錄流程,保障用戶資產安全。

2025年全球虛擬幣交易平台Top 10推薦,助您玩轉數字貨幣市場!本文將為您深度解析幣安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所等十家頂級平台的核心優勢和特色功能。無論是追求高流動性、豐富的交易類型,還是注重安全合規、創新功能,都能在此找到適合您的平台。 我們將從交易品種、安全性、特色功能等方面進行全面對比,助您選擇最合適的虛擬貨幣交易平台,把握2025年數字貨幣投資機遇
