深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

王林

Oct 05, 2023 pm 04:21 PM

產業 rt-x open x-embodiment

機器人技術為什麼遠遠落後於自然語言處理（NLP）、視覺和其他人工智慧領域？除了其他困難外，數據短缺是主要原因。為了解決這個問題，GoogleDeepMind 聯合其他機構推出了開放式X-Embodiment 資料集，並成功訓練出了更強大的RT-X 模型

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

在大模型不斷取得突破的2023，把大模型當作大腦來輔助運作的具身智慧機器人研究也正在被快速推進。

2 個多月前，GoogleDeepMind 推出了第一個控制機器人的視覺- 語言- 動作（VLA）模型—RT-2。這個模型讓機器人不僅能解讀人類的複雜指令，還能看懂眼前的物體（即使物體以前從未見過），並且依照指令採取動作。例如，你讓機器人拿起桌上「已滅絕的動物」。它會抓起眼前的恐龍玩偶。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

當時，一位Google高層稱，RT-2 是機器人製造和程式設計方式的重大飛躍。「由於這一變化，我們不得不重新考慮我們的整個研究規劃了。」

#更令人吃驚的是，時間僅僅過去了兩個多月， DeepMind 的這個機器人模型又進步了，而且一下就提高了兩倍。

這是怎麼實現的呢？

我們知道，機器人通常在做某一件事情上非常專業，但通用能力很差。一般情況下，你必須針對每項任務、每個機器人和環境訓練一個模型。改變一個變數往往需要從頭開始。但是，如果我們能將各種機器人學的知識結合起來，創造出訓練通用機器人的方法呢？

這就是 DeepMind 在過去一段時間所做的事情。他們匯集了來自22 種不同機器人類型的數據，以創建Open X-Embodiment 數據集，然後在之前的模型（RT-1 和RT-2）的基礎上，訓練出了能力更強的RT-X（分別為RT-1-X 和RT-2-X）。

他們在五個不同的研究實驗室測試了RT-1-X 模型，結果顯示，與針對每個機器人獨立開發的方法相比，新方法在五種不同的常用機器人中平均成功率提高了50%。他們還表明，在上述數據集上訓練的 RT-2-X 在現實世界機器人技能上的表現提高了 2 倍，而且，透過學習新數據，RT-2-X 掌握了許多新技能。這項工作表明，在來自多個機器人類型資料上訓練的單一模型比在來自單一機器人類型資料上訓練的模型在多個機器人上的表現要好得多。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

值得一提的是，這項研究並非由 DeepMind 獨立完成，而是他們與 33 個學術實驗室通力合作的結果。他們致力於以開放和負責任的方式開發這項技術。

目前，Open X-Embodiment 資料集和 RT-1-X 模型檢查點已經對廣泛的研究社群開放。

英偉達資深人工智慧科學家Jim Fan表示今天可能是機器人的ImageNet時刻。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

Google研究員Karol Hausman也表達了同樣的感嘆：機器人的ImageNet時刻終於到來了。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

Open X-Embodiment 資料集，機器人的ImageNet 時刻

資料集以及基於資料集訓練的模型在推進AI 進步方面發揮了關鍵作用。正如 ImageNet 推動了電腦視覺的研究，Open X-Embodiment 也推動了機器人技術的發展。

一直以來，建立多樣化資料集是訓練通用模型的關鍵，這些訓練好的模型可以控制許多不同類型的機器人，遵循不同的指令，對複雜任務進行基本推理，並有效地進行泛化。然而，對於任何單一實驗室來說，收集這樣的資料集都過於耗費資源。

為此，DeepMind 與 33 個機構的學術研究實驗室展開合作，從而建構了 Open X-Embodiment 資料集。他們從 22 個機器人實例中收集數據，這些數據涵蓋超過 100 萬個片段，展示了機器人 500 多項技能和在 150,000 項任務上的表現。該數據集是同類中最全面的機器人數據集。

^{作用中使用 00 個任務的樣本，包括 500 多種技能和 50000 個任務。}

^與

RT-1-X：成功率提升50%

#RT-X 基於兩個robotics transformer（RT）模型建構而成。

具體而言，他們使用RT-1 訓練RT-1-X，其中RT-1 是建立在Transformer 架構上的35M 參數網絡，專為機器人控制而設計，如圖3 所示。

此外，他們還在RT-2 上訓練RT-2-X，其中RT-2 是一系列大型視覺語言動作模型(VLA)，在網路規模的視覺和語言資料以及機器人控制資料上訓練而成。

為了評估 RT-1-X，DeepMind 將其與在特定任務上（例如開門）開發的模型進行了比較。結果顯示，使用 Open X-Embodiment 資料集訓練的 RT-1-X 平均效能優於原始模型 50%。

時中增加平均成功率上為 1-1-X-X-1-X-X-X-X-X-X-X-X-X-X-X-X-X-X-X-X-X- 效果等級。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

^{來自不同合作機構的關於RT-1-X 的效果展示}

RT-2 -X：無障礙解鎖新技能

為了研究RT-X 的知識遷移能力，DeepMind 又進行了其他實驗。這些實驗涉及 RT-2 資料集中不存在的物件和技能，但這些物件和技能存在於另一個機器人的資料集中。結果表明，在掌握新技能方面，RT-2-X 的成功率是其先前最佳的 RT-2 的三倍。這也說明了，與其他平台的資料進行聯合訓練可以為 RT-2-X 賦予原始資料集中不存在的額外技能，使其能夠執行新穎的任務。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

#一系列結果表明，RT-2-X 實現了RT-2 以前無法實現的技能，包括對空間更好的理解。例如，如果我們要求機器人「將蘋果移到布料附近」、又或要求機器人「將蘋果移到布料上」，為了實現目標要求，機器人會採取完全不同的軌跡。只需將介詞從“near”更改為“on”，就可以調整機器人採取的動作。

RT-2-X 表明，將其他機器人的資料結合到RT-2-X 訓練中可以改善機器人的任務執行範圍，但前提是使用足夠高容量的架構。

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

^{RT-2-X (55B): 目前在學術實驗室中執行未知任務的最大模型之一}

研究啟發：機器人需要相互學習，研究人員也一樣

##機器人研究正處於令人興奮的早期階段。 DeepMind 的這項新研究表明，透過利用更多樣化的數據和更好的模型進行擴展學習，有可能開發出更有用的輔助機器人。與世界各地的實驗室合作並分享資源，對於以開放和負責任的方式推動機器人研究至關重要。 DeepMind 希望透過開放資料來源和提供安全但有限的模型來減少障礙，並加快研究。機器人技術的未來有賴於機器人之間的相互學習，最重要的是，讓研究人員能夠互相學習。

這項工作證明，模型可以在不同環境下通用，無論是在GoogleDeepMind 的機器人上，還是在世界各地不同大學的機器人上，其性能都得到了顯著提高。未來的研究可以探索如何將這些進步與 RoboCat 的自我完善特性結合，使模型能夠根據自身經驗不斷改進。未來的另一個方向是進一步探索不同資料集的混合會如何影響跨具身智能體泛化，以及這種泛化是如何是實現的。

如果你想了解有關RT-X 的更多信息，可以參考DeepMind 發布的這篇論文：

論文連結：https://robotics-transformer-x.github.io/paper.pdf
專案連結：https://robotics-transformer -x.github.io/

#參考連結：https://www.deepmind.com/blog/scaling -up-learning-across-many-different-robot-types

####

以上是深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

AI Hentai Generator

免費產生 AI 無盡。

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7504

CakePHP 教程

1378

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

DeepMind機器人打乒乓球，正手、反手溜到飛起，全勝人類初學者 Aug 09, 2024 pm 04:01 PM

但可能打不過公園裡的老大爺？巴黎奧運正在如火如荼地進行中，乒乓球項目備受關注。同時，機器人打乒乓球也取得了新突破。剛剛，DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址：https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢？大概和人類業餘選手不相上下：正手反手都會：對手採用多種打法，機器人也能招架得住：接不同旋轉的發球：不過，比賽激烈程度似乎不如公園老大爺對戰。對機器人來說，乒乓球運動

首配機械爪！元蘿蔔亮相2024世界機器人大會，發布首個走進家庭的西洋棋機器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相，並最新發布元蘿蔔AI下棋機器人－國際象棋專業版（以下簡稱「元蘿蔔國象機器人」），成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品，全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新，首次在家用機器人上實現了透過機械爪拾取立體棋子，並進行人機對弈、人人對弈、記譜複盤等功能，

Claude也變懶了！網友：學會給自己放假了 Sep 02, 2024 pm 01:56 PM

開學將至，該收心的不只即將開啟新學期的同學，可能還有AI大模型。前段時間，Reddit擠滿了吐槽Claude越來越懶的網友。「它的水平下降了很多，經常停頓，甚至輸出也變得很短。在發布的第一周，它可以一次性翻譯整整4頁文稿，現在連半頁都輸出不了！」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”，滿滿地

世界機器人大會上，這家承載「未來養老希望」的國產機器人被包圍了 Aug 22, 2024 pm 10:35 PM

在北京舉行的世界機器人大會上，人形機器人的展示成為了現場絕對的焦點，在星塵智能的展台上，由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲，能文能武，吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏，讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道，公司創始人來傑解釋到，絲滑動作的背後，是硬體側追求最好力控和最仿人身體指標（速度、負載等），而是在AI側則採集人的真實動作數據，讓機器人遇強則強，快速學習進化。而敏捷

ACL 2024獎項發表：華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 Aug 15, 2024 pm 04:37 PM

本屆ACL大會，投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議，由國際計算語言學協會組織，每年舉辦一次。一直以來，ACL在NLP領域的學術影響力都名列第一，它也是CCF-A類推薦會議。今年的ACL大會已是第62屆，接收了400餘篇NLP領域的前沿工作。昨天下午，大會公佈了最佳論文等獎項。此次，最佳論文獎7篇（兩篇未公開）、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎（ResourceAward）3篇、社會影響力獎（

鴻蒙智行享界S9全場景新品發表會，多款重磅新品齊發 Aug 08, 2024 am 07:02 AM

今天下午，鸿蒙智行正式迎来了新品牌与新车。8月6日，华为举行鸿蒙智行享界S9及华为全场景新品发布会，带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品，从智慧出行、智慧办公到智能穿戴，华为全场景智慧生态持续构建，为消费者带来万物互联的智慧体验。鸿蒙智行：深度赋能，推动智能汽车产业升级华为联合中国汽车产业伙伴，为

李飛飛團隊提出ReKep，讓機器人具備空間智能，還能整合GPT-4o Sep 03, 2024 pm 05:18 PM

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時，加上最近老上頭條的1X人形機器人NEO，你可能會產生一種感覺：我們似乎開始進入機器人時代了。事實上，這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道，有用的機器人往往需要與環境進行複雜精妙的交互，而環境則可被表示成空間域和時間域上的限制。舉個例子，如果要讓機器人倒茶，那麼機器人首先需要抓住茶壺手柄並使之保持直立，不潑灑出茶水，然後平穩移動，一直到讓壺口與杯口對齊，之後以一定角度傾斜茶壺。這

實測7款「Sora級」影片生成神器，誰有本事登上「鐵王座」？ Aug 05, 2024 pm 07:19 PM

機器之能報道編輯：楊文誰能成為AI視訊圈的King？美劇《權力的遊戲》中，有一把「鐵王座」。傳說，它由巨龍「黑死神」熔掉數千把敵人丟棄的利劍鑄成，象徵無上的權威。為了坐上這張鐵椅，各大家族展開了一場場爭鬥和廝殺。而自Sora出現以來，AI電圈也掀起了一場轟轟烈烈的「權力的遊戲」，這場遊戲的玩家主要有大洋彼岸的RunwayGen-3、Luma，國內的快手可靈、字節即夢、智譜清影、Vidu、PixVerseV2等。今天我們就來測評一下，看看究竟誰有資格登上AI視訊圈的「鐵王座」。 -1-文生視頻

See all articles

深度學習巨頭DeepMind在ImageNet資料集上取得突破性進展，為機器人研究帶來新的里程碑

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題