DeepMind為何缺席GPT盛宴？原來在教小機器人踢足球-人工智慧-PHP中文網

想要讓機器人學會踢足球，首先需要一些基本設定。

方法

實驗

首頁

科技週邊

人工智慧

DeepMind為何缺席GPT盛宴？原來在教小機器人踢足球

王林

May 04, 2023 pm 10:31 PM

ai deepmind

在許多學者看來，具身智能是通往 AGI 的一個非常有前途的方向，而 ChatGPT 的成功也離不開以強化學習為基礎的 RLHF 技術。 DeepMind vs. OpenAI，究竟誰能率先實現 AGI，答案似乎還未揭曉。

我們知道，創建通用的具身智能（即以敏捷、靈巧的方式在物理世界採取行動並像動物或人類一樣進行理解的智能體）是AI 研究者和機器人專家的長期目標之一。從時間上來看，創建具有複雜運動能力的智慧具身智能體可以追溯到很多年前，無論是在模擬還是真實世界中。

近年來進展速度大大加快，其中基於學習的方法發揮了重大作用。 例如深度強化學習已被證明能夠解決模擬角色的複雜運動控制問題，包括複雜、感知驅動的全身控製或多智能體行為。 同時，深度強化學習也越來越常應用於實體機器人。尤其是廣泛使用的高品質四足機器人，它們已經成為了透過學習產生一系列穩健運動行為的演示目標。

不過，靜態環境中的運動只是動物與人類部署其身體與世界互動的眾多方式的一部分，這種運動形態已在許多研究全身控制和運動操縱的工作中得到驗證，尤其是四足機器人。相關運動範例包括攀爬、運球或接球等足球技巧，以及使用腿部進行簡單操作。

其中對於足球運動來說，它展示了人類感覺運動智慧的許多特徵。足球的複雜性要求各種高敏捷和動態動作，包括跑動、轉身、迴避、踢球、傳球、跌倒爬起等。這些動作需要以多種方式進行組合。球員則需要對球、隊友和對方球員做出預測，並根據比賽環境調整動作。這種挑戰的多樣性已在機器人和 AI 社群中得到認可，並誕生了機器人世界盃 RoboCup。

不過應看到，踢好足球所需的敏捷、靈活和迅速反應以及這些要素之間的平滑過渡對於手動設計機器人來說挑戰很大且耗費時間。 近日，DeepMind（現已與Google大腦團隊合併為 Google DeepMind）的新論文探討了利用深度強化學習為雙足機器人學習敏捷的足球技巧。

DeepMind為何缺席GPT盛宴？原來在教小機器人踢足球

#論文網址：https://arxiv.org/pdf/2304.13653 .pdf

專案首頁：https://sites.google.com/view/op3-soccer

在這篇論文中，研究者研究了動態多智能體環境中小型類人機器人的全身控制和物件互動。 他們考慮了整個足球問題的一個子集，訓練了一個具有 20 個可控關節的低成本微型類人機器人來玩 1 v1 足球比賽，並觀察本體感覺和比賽狀態特徵。 透過內建的控制器，機器人緩慢笨拙地移動。不過，研究者使用深度強化學習將智能體以自然流暢方式組合起來的動態敏捷的上下文自適應運動技巧（如走、跑、轉身以及踢球和跌倒爬起）合成為了複雜的長期行為。

在實驗中，智能體學會了預測球的運動、定位、阻擋、利用反彈球等。智能體在多智能體環境中出現這些行為得益於技能重複使用、端到端訓練和簡單獎勵的組合。研究者在模擬中訓練智能體並將它們遷移到實體機器人中，證明了即使對於低成本機器人而言，模擬到真實的遷移也是可能的。

用數據說話，機器人的行走速度提升了 156%，起身的時間減少了 63%，踢球的速度也比基準提升了 24%。

在進入技術解讀之前，我們先看一些機器人在 1v1 足球比賽中的精彩時刻。例如射門：

DeepMind為何缺席GPT盛宴？原來在教小機器人踢足球

罰點球：

DeepMind為何缺席GPT盛宴？原來在教小機器人踢足球

轉向、盤帶和踢球，一氣呵成

DeepMind為何缺席GPT盛宴？原來在教小機器人踢足球

#：

DeepMind為何缺席GPT盛宴？原來在教小機器人踢足球

DeepMind為何缺席GPT盛宴？原來在教小機器人踢足球 #實驗設定

想要讓機器人學會踢足球，首先需要一些基本設定。

環境方面，DeepMind 首先在自訂的足球環境中模擬訓練智能體，然後將策略遷移到對應的真實環境中，如圖 1 所示。環境包括一個長 5 公尺、寬 4 公尺的足球場，以及兩個球門，每個球門的開口寬度均為 0.8 公尺。在模擬和真實環境中，球場都以坡道為界，確保球在界內。真正的球場上舖有橡膠地磚，以減少摔倒損壞機器人的風險並增加地面摩擦。

環境設定好後，接著就是硬體和動作捕捉的設定。 DeepMind 採用 Robotis OP3 機器人，它身高 51 厘米，重 3.5 kg，由 20 個伺服馬達驅動。該機器人沒有 GPU 或其他專用加速器，因此所有神經網路運算都在 CPU 上運行。機器人的頭部是羅技 C920 網路攝影機，它可以選擇以每秒 30 幀的速度提供 RGB 視訊串流。

DeepMind為何缺席GPT盛宴？原來在教小機器人踢足球

方法

#DeepMind 的目標是訓練可以走路、踢球、起身、防守、懂得如何得分的智能體，然後再將這些功能遷移到真正的機器人身上。 DeepMind 將訓練分成兩個階段進行，如圖 3 所示。

DeepMind為何缺席GPT盛宴？原來在教小機器人踢足球在第一階段，DeepMind 針對兩種特定技能訓練教師策略，這兩種技能包括智能體從地面上站起來和得分。

在第二階段，第一階段的教師策略被用來規範智能體，同時智能體學會有效對抗越來越強大的對手。

#####################訓練#########首先是教師訓練。教師需要接受盡可能多的進球訓練。當智能體摔倒、出界、進入禁區 (圖 1 中以紅色標記) 或對手得分時，這一回合（Episodes）終止。在每一回合的開始，對智能體、另一方和球在球場上的隨機位置和方向進行初始化。雙方都初始化為預設站姿。對手使用未經訓練的策略進行初始化，因此，智能體在這個階段學會避開對手，但不會發生進一步複雜的互動。此外，每個訓練階段的獎勵及其權重如表 2 所示。 ###########################接著智能體與越來越強大的對手競爭，同時將其行為規範到教師策略。這樣一來智能體能夠掌握一系列足球技能：行走、踢球、起身、得分和防守。當智能體出界或在球門禁區內時，它會在每個時間步受到固定的懲罰。 ######

智能體訓練好後，接下來就是將訓練好的踢球策略零樣本遷移到真實機器人。為了提高零樣本遷移成功率，DeepMind 透過簡單的系統識別減少了模擬智能體與真實機器人的差距，透過訓練期間的領域隨機化和擾動提高了策略的穩健性，以及包括塑造獎勵策略以獲得不太可能損害機器人的行為。

實驗

1v1 比賽：足球智能體可以處理多種緊急行為，包括靈活的運動技能，例如從地面起身、快速從跌倒中恢復、奔跑和轉身。在遊戲過程中，智能體以流暢的方式在所有這些技能之間轉換。

DeepMind為何缺席GPT盛宴？原來在教小機器人踢足球

下表 3 為量化分析結果。從結果可以看出強化學習策略比專門的人工設計的技能表現更好，智能體的行走速度快了 156%，起身時間少了 63%。

DeepMind為何缺席GPT盛宴？原來在教小機器人踢足球

下圖為智能體的行走軌跡，相較之下，由學習策略產生的智能體軌跡結構更豐富：

DeepMind為何缺席GPT盛宴？原來在教小機器人踢足球

為了評估學習策略的可靠性，DeepMind 設計了點球和起跳射門定位球，並在模擬環境和真實環境中實現。初始配置如圖 7 所示。

DeepMind為何缺席GPT盛宴？原來在教小機器人踢足球

在真實環境中，機器人在罰球任務中10 次中了7 次(70%)，在起射任務中10 次中了8 次(80%)。而在模擬實驗中，智能體在這兩項任務中的得分較為一致，顯示智能體的訓練策略遷移到真實環境（包括真實機器人、球、地板表面等），表現略有下降，行為差異有所增加，但機器人仍然能夠可靠地起身、踢球和得分。結果如圖 7 和表 3 所示。

DeepMind為何缺席GPT盛宴？原來在教小機器人踢足球

以上是DeepMind為何缺席GPT盛宴？原來在教小機器人踢足球的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1664

CakePHP 教程

1423

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

Related knowledge

C 中的chrono庫如何使用？ Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔，讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分，它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說，chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性，還提供了更高的精度和靈活性。讓我們從基礎開始，chrono庫主要包括以下幾個關鍵組件：std::chrono::system_clock：表示系統時鐘，用於獲取當前時間。 std::chron

如何理解C 中的DMA操作？ Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess，直接內存訪問技術，允許硬件設備直接與內存進行數據傳輸，不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序，實現方式因係統而異。 2)直接訪問內存可能帶來安全風險，需確保代碼的正確性和安全性。 3)DMA可提高性能，但使用不當可能導致系統性能下降。通過實踐和學習，可以掌握DMA的使用技巧，在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

怎樣在C 中處理高DPI顯示？ Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現：1)理解DPI和縮放，使用操作系統API獲取DPI信息並調整圖形輸出；2)處理跨平台兼容性，使用如SDL或Qt的跨平台圖形庫；3)進行性能優化，通過緩存、硬件加速和動態調整細節級別來提升性能；4)解決常見問題，如模糊文本和界面元素過小，通過正確應用DPI縮放來解決。

C 中的實時操作系統編程是什麼？ Apr 28, 2025 pm 10:15 PM

C 在實時操作系統（RTOS）編程中表現出色，提供了高效的執行效率和精確的時間管理。 1）C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2）利用面向對象特性，C 可以設計靈活的任務調度系統。 3）C 支持高效的中斷處理，但需避免動態內存分配和異常處理以保證實時性。 4）模板編程和內聯函數有助於性能優化。 5）實際應用中，C 可用於實現高效的日誌系統。

怎樣在C 中測量線程性能？ Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析，步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析，步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能，並優化代碼。

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括：1. Binance（幣安）：提供Binance Futures量化模塊，低手續費，支持AI輔助交易。 2. OKX（歐易）：支持多賬戶管理和智能訂單路由，提供機構級風控。獨立量化策略平台有：3. 3Commas：拖拽式策略生成器，適用於多平台對沖套利。 4. Quadency：專業級算法策略庫，支持自定義風險閾值。 5. Pionex：內置16 預設策略，低交易手續費。垂直領域工具包括：6. Cryptohopper：雲端量化平台，支持150 技術指標。 7. Bitsgap：

給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中，添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column，刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時，需指定位置以優化查詢性能和數據結構；刪除字段前需確認操作不可逆；使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

C 中的字符串流如何使用？ Apr 28, 2025 pm 09:12 PM

C 中使用字符串流的主要步驟和注意事項如下：1.創建輸出字符串流並轉換數據，如將整數轉換為字符串。 2.應用於復雜數據結構的序列化，如將vector轉換為字符串。 3.注意性能問題，避免在處理大量數據時頻繁使用字符串流，可考慮使用std::string的append方法。 4.注意內存管理，避免頻繁創建和銷毀字符串流對象，可以重用或使用std::stringstream。

See all articles

DeepMind為何缺席GPT盛宴？原來在教小機器人踢足球

想要讓機器人學會踢足球，首先需要一些基本設定。

方法

實驗

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題