GPT4教機器人盤轉筆,那叫一個絲滑!
最近,那個啟發了數學家陶哲軒的GPT-4,在聊天中又開始教機器人如何轉筆了
專案叫Agent Eureka,是由英偉達、賓州大學、加州理工學院、德州大學奧斯汀分校聯手研發的。他們的研究結合了 GPT-4 結構的能力和強化學習的優勢,讓 Eureka 能設計出精妙的獎勵函數。
GPT-4 的程式設計能力賦予 Eureka 強大的獎勵函數設計技巧。這意味著,在大部分任務中,Eureka 自己設計的獎勵方案,甚至比人類專家更出色。這讓它能完成一些人類難以完成的任務,包括轉筆、打開抽屜,盤核桃,甚至更複雜的任務,如拋接球,操作剪刀等等。
圖片
圖片
雖然目前這些都是在模擬環境中完成的,但這已經非常厲害了。
專案已經開源,專案地址和論文地址已經放在文末
簡單總結下論文的核心要點。
論文探討如何使用大型語言模型(LLM)來設計並最佳化機器學習中的獎勵函數。這是一個重要的課題,因為設計好的獎勵函數可以大幅提升機器學習模型的效能,但是設計這樣的函數是非常困難的。
研究人員提出了一種名為EUREKA的新演算法。 EUREKA採用LLM來產生和改進獎勵函數。在測試中,EUREKA在29種不同的強化學習環境中達到了人類級別的性能,並在83%的任務中超越了人類專家設計的獎勵函數
EUREKA成功解決了一些以前無法通過人工設計獎勵函數解決的複雜操作任務,例如模擬「Shadow Hand」手部快速轉筆的操作
此外,EUREKA 提供了一種全新的方法,能夠根據人類的反饋來產生更加有效、更符合人類期望的獎勵函數
EUREKA 的工作方式包括三個主要步驟:
#將環境作為上下文:EUREKA 使用環境的源代碼作為上下文,以產生可執行的獎勵函數
2. 演化搜尋:EUREKA 透過演化搜尋的方式,不斷提出和改進獎勵函數
3. 獎勵反思:EUREKA 根據策略訓練的統計資料產生獎勵品質的文本總結,從而自動和有針對性地改進獎勵函數。 3. 獎勵反思:EUREKA 根據策略訓練的統計數據產生獎勵品質的文本總結,以便自動且有針對性地改進獎勵函數
這項研究可能會對強化學習和獎勵函數設計領域產生深遠影響,因為它提供了一種新的、有效的方法來自動產生和改進獎勵函數,而且這種方法的性能在許多情況下超過了人類專家。
計畫網址:https://www.php.cn/link/e6b738eca0e6792ba8a9cbcba6c1881d
#論文連結:https://www.php.cn/ link/ce128c3e8f0c0ae4b3e843dc7cbab0f7
以上是GPT4教機器人盤轉筆,那叫一個絲滑!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

寫在前面&筆者的個人理解目前,在整個自動駕駛系統當中,感知模組扮演了其中至關重要的角色,行駛在道路上的自動駕駛車輛只有通過感知模組獲得到準確的感知結果後,才能讓自動駕駛系統中的下游規控模組做出及時、正確的判斷和行為決策。目前,具備自動駕駛功能的汽車中通常會配備包括環視相機感測器、光達感測器以及毫米波雷達感測器在內的多種數據資訊感測器來收集不同模態的信息,用於實現準確的感知任務。基於純視覺的BEV感知演算法因其較低的硬體成本和易於部署的特點,以及其輸出結果能便捷地應用於各種下游任務,因此受到工業

人形機器人Ameca升級第二代了!最近,在世界行動通訊大會MWC2024上,世界上最先進機器人Ameca又現身了。會場周圍,Ameca引來一大波觀眾。得到GPT-4加持後,Ameca能夠對各種問題做出即時反應。 「來一段舞蹈」。當被問及是否有情感時,Ameca用一系列的面部表情做出回應,看起來非常逼真。就在前幾天,Ameca背後的英國機器人公司EngineeredArts剛剛示範了團隊最新的開發成果。影片中,機器人Ameca具備了視覺能力,能看見並描述房間整個狀況、描述具體物體。最厲害的是,她還能

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

機器之能報道編輯:吳昕國內版的人形機器人+大模型組隊,首次完成疊衣服這類複雜柔性材料的操作任務。隨著融合了OpenAI多模態大模型的Figure01揭開神秘面紗,國內同行的相關進展一直備受關注。就在昨天,國內"人形機器人第一股"優必選發布了人形機器人WalkerS深入融合百度文心大模型後的首個Demo,展示了一些有趣的新功能。現在,得到百度文心大模型能力加持的WalkerS是這個樣子的。和Figure01一樣,WalkerS沒有走動,而是站在桌子後面完成一系列任務。它可以聽從人類的命令,折疊衣物

在工業自動化技術領域,最近有兩個熱點很難被忽視:人工智慧(AI)和英偉達(Nvidia)。不要改變原內容的意思,微調內容,重寫內容,不要續寫:「不僅如此,這兩者密切相關,因為英偉達在不僅僅局限於其最開始的圖形處理單元(GPU),正在將其GPU科技擴展到數位孿生領域,同時緊密連接著新興的AI技術。泰瑞達機器人及其MiR和優傲機器人公司。 Recently,Nvidiahascoll

這週,由OpenAI、微軟、貝佐斯和英偉達投資的機器人公司FigureAI宣布獲得接近7億美元的融資,計劃在未來一年內研發出可獨立行走的人形機器人。而特斯拉的擎天柱也屢屢傳出好消息。沒人懷疑,今年會是人形機器人爆發的一年。一家位於加拿大的機器人公司SanctuaryAI最近發布了一款全新的人形機器人Phoenix。官方號稱它能以和人類一樣的速率自主完成許多工作。世界上第一台能以人類速度自主完成任務的機器人Pheonix可以輕輕地抓取、移動並優雅地將每個物件放置在它的左右兩側。它能夠自主辨識物體的

C++sort函數底層採用歸併排序,其複雜度為O(nlogn),並提供不同的排序演算法選擇,包括快速排序、堆排序和穩定排序。

人工智慧(AI)與執法領域的融合為犯罪預防和偵查開啟了新的可能性。人工智慧的預測能力被廣泛應用於CrimeGPT(犯罪預測技術)等系統,用於預測犯罪活動。本文探討了人工智慧在犯罪預測領域的潛力、目前的應用情況、所面臨的挑戰以及相關技術可能帶來的道德影響。人工智慧和犯罪預測:基礎知識CrimeGPT利用機器學習演算法來分析大量資料集,識別可以預測犯罪可能發生的地點和時間的模式。這些資料集包括歷史犯罪統計資料、人口統計資料、經濟指標、天氣模式等。透過識別人類分析師可能忽視的趨勢,人工智慧可以為執法機構
