深度學習技術如何解決機器人處理可變形物體的難題
譯者 | 李睿
審校 | 孫淑娟
對人類來說,處理可變形物體並不比處理剛性物體困難多少。人們自然學會塑造它們,折疊它們,並以不同的方式操縱它們,並且仍然能夠識別它們。
但對於機器人和人工智慧系統來說,操縱可變形物體是一個巨大的挑戰。例如機器人必須採取一系列步驟將麵團做成披薩餅皮。當麵團改變形狀時必須進行記錄和跟踪,同時,它必須為每一步的工作選擇正確的工具。對於目前的人工智慧系統來說,這些都是具有挑戰性的任務,它們在處理具有更可預測狀態的剛體物體時更加穩定。
現在,麻省理工學院、卡內基美隆大學和加州大學聖地牙哥分校的研究人員開發的一種新的深度學習技術,有望使機器人系統在處理可變形物體時更加穩定。這項名為DiffSkill的技術使用深度神經網路來學習簡單的技能,並使用規劃模組來結合這些技能,以解決需要多個步驟和工具的任務。
透過強化學習和深度學習處理可變形物體
如果人工智慧系統想要處理一個物體,它必須能夠偵測和定義它的狀態,並預測它未來的樣子。對於剛性物體來說,這是一個基本上已經解決的問題。透過一組良好的訓練範例,深度神經網路將能夠從不同角度檢測剛性物體。當涉及可變形物體時,其多種狀態空間變得更加複雜。
卡內基美隆大學博士生、DiffSkill論文的主要作者林星宇說,「對於剛性物體,我們可以用六個數字來描述它的狀態:三個數字表示它的XYZ座標,另外三個數字表示它的方向。
然而,諸如麵團或織物之類的可變形物體具有無限的自由度,因此更難精確地描述它們的狀態。此外,與剛性物體相比,它們的變形方式也更難用數學方法建模。」
可微物理模擬器的發展使基於梯度的方法能夠應用於解決可變形物體操作任務。這與傳統的強化學習方法不同,傳統的強化學習方法試圖透過純粹的試誤互動來學習環境和物件的動態。
DiffSkill的靈感來自PlasticineLab,這是一個可微分的實體模擬器,並在2021的ICLR會議上展出。 PlasticineLab表明,可微模擬器可以幫助完成短期任務。
PlasticineLab是一個基於可微分物理的可變形物件模擬器。它適用於訓練基於梯度的模型
但是可微分模擬器仍然在處理需要多個步驟和使用不同工具的長期問題。基於可微分模擬器的人工智慧系統還要求了解環境的完整模擬狀態和相關物理參數。這對於現實世界的應用程式尤其有限制,在這些應用程式中,代理通常透過視覺和深度感覺資料(RGB-D)感知世界。
林星宇說,「我們開始詢問是否可以將完成任務所需的步驟提取為技能,並學習有關技能的抽象概念,以便我們可以將它們連結起來以解決更複雜的任務。」
DiffSkill是一個框架,其中人工智慧代理使用可微物理模型學習技能抽象,並將它們組合起來以完成複雜的操作任務。
他過去的工作重點是使用強化學習來操縱可變形的物體,例如布料、繩索和液體。對於DiffSkill,他選擇麵團操作是因為它帶來的挑戰。
他說,「麵團操作特別有趣,因為它不容易用機器人抓取器完成,而是需要依次使用不同的工具,這是人類擅長但機器人不太常見的事情。」
經過訓練,DiffSkill可以只使用RGB-D輸入成功完成一組麵團操作任務。
採用神經網路學習抽象技能
DiffSkill訓練神經網路從可微物理模擬器獲得的初始狀態和參數預測目標狀態的可行性
DiffSkill由兩個關鍵組件組成:一個是使用神經網路學習個人技能的“神經技能抽象器”,另一個是用於解決長期任務的“規劃器”。
DiffSkill使用可微分物理模擬器為技能抽象器產生訓練範例。這些範例顯示如何使用單一工具實現短期目標,例如使用擀麵棍攤開麵團或使用抹刀移動麵團。
這些範例以RGB-D視訊的形式呈現給技能抽象化者。給定圖像觀察,技能抽象器必須預測期望的目標是否可行。該模型透過將其預測與物理模擬器的實際結果進行比較來學習和調整其參數。
對麵團等可變形物體的機器人操作需要對不同工具的使用進行長期推理。 DiffSkill方法利用可微分的模擬器來學習和組合這些具有挑戰性的任務的技能。
同時,DiffSkill訓練變分自編碼器(VAE)以學習物理模擬器產生的範例的潛在空間表示。變分自編碼器(VAE)在保留重要特徵,並丟棄與任務無關的資訊。透過將高維度影像空間轉換為潛在空間,變分自編碼器(VAE)在使DiffSkill能夠在較長的視野內進行規劃和透過觀察感官資料預測結果方面發揮了重要作用。
訓練變分自編碼器(VAE)的重要挑戰之一是確保它學習正確的特徵並推廣到現實世界。在真實世界中,視覺資料的組成不同於實體模擬器產生的資料。例如,擀麵棍或砧板的顏色與任務無關,但擀麵棍的位置和角度以及麵團的位置與任務有關。
目前,研究人員正在使用一種稱為「域隨機化」的技術,將訓練環境的不相關屬性(如背景和照明)隨機化,並保留工具的位置和方向等重要特徵。這使得訓練變分自編碼器(VAE)在應用於現實世界時更加穩定。
林星宇說,「做到這一點並不容易,因為我們需要涵蓋模擬和現實世界(稱為sim2real gap)之間所有可能的差異,更好的方法是使用3D點雲作為場景的表示,這更容易從模擬轉移到現實世界。事實上,我們正在開發一個使用點雲作為輸入的後續項目。」
規劃可變形物體的長期任務
DiffSkill使用規劃模組來評估可以實現目標的不同技能組合和序列
#一旦技能抽象器被訓練,DiffSkill使用規劃器模組來解決長期任務。規劃者必須確定從初始狀態到目的地所需的技能數量和順序。
這個規劃器會迭代可能的技能組合以及它們所產生的中間結果。變分自動編碼器在這裡派上用場。 DiffSkill不是預測完整的圖像結果,而是使用VAE來預測實現最終目標的中間步驟的潛在空間結果。
抽象技能和潛在空間表示的組合使得繪製從初始狀態到目標的軌蹟的計算效率更高。事實上,研究人員不需要優化搜尋功能,而是對所有組合進行了詳盡的搜尋。
林星宇說,「由於我們正在規劃技能,計算工作不會太多,而且時間也不長。這種詳盡的搜尋消除了為規劃師設計草圖的需要,可能會導致設計師沒有以更一般的方式考慮新穎的解決方案,儘管我們在嘗試的有限任務中沒有觀察到這一點。此外,還可以應用更複雜的搜尋技術。」
DiffSkill論文指出,「在在單一NVIDIA 2080Ti GPU上,每個技能組合的最佳化都可以在大約10秒鐘內高效完成。」
使用DiffSkill準備比薩麵團
#研究人員對DiffSkill的性能進行了測試,比較了幾種已應用於可變形物體的基線方法,包括兩種無模型強化學習演算法和一種僅使用物理模擬器的軌跡優化器
#這些模型在需要多個步驟和工具的多個任務上進行了測試。例如在其中一項任務中,人工智慧代理人必須用抹刀將麵團提起,將其放在砧板上,然後用擀麵杖將其攤開。
研究結果表明,DiffSkill在僅使用感官資訊解決長期、多工具任務方面明顯優於其他技術。實驗表明,在經過良好訓練後,DiffSkill的規劃器可以在初始狀態和目標狀態之間找到良好的中間狀態,並找到合適的技能序列來解決任務。
DiffSkill的規劃器可以非常精確地預測中間步驟
林星宇说,“其中一个要点是,一组技能可以提供非常重要的时间抽象,使我们能够进行长期推理。这也类似于人类处理不同任务的方式:在不同的时间抽象中思考,而不是思考下一秒该做什么。”
但是,DiffSkill的容量也有限制。例如,当执行需要三阶段规划的任务之一时,DiffSkill的性能会显著下降(尽管它仍然优于其他技术)。林星宇还提到,在某些情况下,可行性预测器会产生误报。研究人员认为,学习更好的潜在空间可以帮助解决这个问题。
研究人员还在探索改进DiffSkill的其他方向,包括一种更有效的规划算法,可以用于更长时间的任务。
林星宇表示,希望有一天,他可以在真正的披萨制作机器人上使用DiffSkill。他说,“我们还远远没有做到这一点。控制、sim2real转移和安全方面出现了各种挑战。但我们现在更有信心尝试开展一些长期任务。”
原文标题:This deep learning technique solves one of the tough challenges of robotics,作者:Ben Dickson
以上是深度學習技術如何解決機器人處理可變形物體的難題的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

本站6月27日訊息,剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體,依託於抖音平台且基本面向該平台用戶製作短影片內容,並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級,推出全新SVIP,包含多種AI黑科技,例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面,剪映SVIP月費79元,年費599元(本站註:折合每月49.9元),連續包月則為59元每月,連續包年為499元每年(折合每月41.6元) 。此外,剪映官方也表示,為提升用戶體驗,向已訂閱了原版VIP

透過將檢索增強生成和語意記憶納入AI編碼助手,提升開發人員的生產力、效率和準確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。雖然基本AI程式設計助理自然有幫助,但由於依賴對軟體語言和編寫軟體最常見模式的整體理解,因此常常無法提供最相關和正確的程式碼建議。這些編碼助手產生的代碼適合解決他們負責解決的問題,但通常不符合各個團隊的編碼標準、慣例和風格。這通常會導致需要修改或完善其建議,以便將程式碼接受到應

想了解更多AIGC的內容,請造訪:51CTOAI.x社群https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同於網路上隨處可見的傳統問題庫,這些問題需要跳脫常規思維。大語言模型(LLM)在數據科學、生成式人工智慧(GenAI)和人工智慧領域越來越重要。這些複雜的演算法提升了人類的技能,並在許多產業中推動了效率和創新性的提升,成為企業保持競爭力的關鍵。 LLM的應用範圍非常廣泛,它可以用於自然語言處理、文字生成、語音辨識和推薦系統等領域。透過學習大量的數據,LLM能夠產生文本

大型語言模型(LLM)是在龐大的文字資料庫上訓練的,在那裡它們獲得了大量的實際知識。這些知識嵌入到它們的參數中,然後可以在需要時使用。這些模型的知識在訓練結束時被「具體化」。在預訓練結束時,模型實際上停止學習。對模型進行對齊或進行指令調優,讓模型學習如何充分利用這些知識,以及如何更自然地回應使用者的問題。但是有時模型知識是不夠的,儘管模型可以透過RAG存取外部內容,但透過微調使用模型適應新的領域被認為是有益的。這種微調是使用人工標註者或其他llm創建的輸入進行的,模型會遇到額外的實際知識並將其整合

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

编辑|萝卜皮自2021年发布强大的AlphaFold2以来,科学家们一直在使用蛋白质结构预测模型来绘制细胞内各种蛋白质结构的图谱、发现药物,并绘制每种已知蛋白质相互作用的「宇宙图」。就在刚刚,GoogleDeepMind发布了AlphaFold3模型,该模型能够对包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物进行联合结构预测。AlphaFold3的准确性对比过去许多专用工具(蛋白质-配体相互作用、蛋白质-核酸相互作用、抗体-抗原预测)有显著提高。这表明,在单个统一的深度学习框架内,可以实现

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

本站8月1日消息,SK海力士今天(8月1日)發布博文,宣布將出席8月6日至8日,在美國加州聖克拉拉舉行的全球半導體記憶體峰會FMS2024,展示諸多新一代產品。未來記憶體和儲存高峰會(FutureMemoryandStorage)簡介前身是主要面向NAND供應商的快閃記憶體高峰會(FlashMemorySummit),在人工智慧技術日益受到關注的背景下,今年重新命名為未來記憶體和儲存高峰會(FutureMemoryandStorage),以邀請DRAM和儲存供應商等更多參與者。新產品SK海力士去年在
