強化學習大牛Sergey Levine新作:三個大模型教會機器人認路
內建大模型的機器人,在不看地圖的情況下,學會了按照語言指令到達目的地,這項成果來自於強化學習大牛 Sergey Levine 的新作。
給定一個目的地,在沒有導航軌跡的情況下順利到達,有多難?
對於方向感不好的人類來說,這個任務也是很有挑戰性。但在最近的一項研究中,幾位學者只用三個預訓練模型就把機器人「教會了」。
我們都知道,機器人學習的核心挑戰之一是讓機器人能夠按照人類的高階指令執行各種各樣的任務。這就要求機器人能夠理解人類的指令,並配備大量不同的動作,以便在現實世界中執行這些指令。
對於導航中的指令遵循任務來說,先前的工作主要集中在從帶有文字指令註釋的軌跡中學習。這樣可能可以實現對文字指令的理解,但資料註釋的成本問題阻礙了這種技術的廣泛使用。另一方面,最近的工作表明,自監督訓練的目標條件策略可以學習到穩健的導航。這些方法基於大型的、無標記的資料集,透過事後重新標記來訓練基於視覺的控制器。這些方法具有可擴展性、通用性和穩健性,但通常需要使用基於位置或影像的笨重的目標規範機制。
在一篇最新的論文中,UC 伯克利、谷歌等機構的研究者旨在結合這兩種方法的優勢,使機器人導航的自監督系統能夠適用於沒有任何用戶註釋的導航數據,利用預訓練模型的能力來執行自然語言指令。研究者使用這些模型來建構一個「介面」,用來向機器人傳達任務。這個系統借助於預訓練的語言和視覺 - 語言模型的概括能力,使機器人系統能夠接受複雜的高級指令。
- 論文連結:https://arxiv.org/pdf/2207.04429.pdf
- 程式碼連結: https://github.com/blazejosinski/lm_nav
#研究者觀察到,可以利用在視覺和語言資料集的大型語料庫上訓練的現成預訓練模型(這些語料庫廣泛可用,並顯示零樣本泛化能力)來創建介面,以實現具體的指令追蹤。為了實現這一點,研究者結合了視覺和語言的 robot-agnostic 預訓練模型以及預訓練導航模型的優點。具體而言,他們使用視覺導航模型(VNM:ViNG)來將機器人的視覺結果創建為環境的拓撲「心理地圖」。給定自由形式的文字指令,使用預先訓練的大型語言模型(LLM:GPT-3)將指令解碼為一系列文字形式的特徵點。然後,使用視覺語言模型(VLM:CLIP)透過推斷特徵點和節點的聯合似然機率來在拓撲圖中建立這些文字特徵點。之後使用新的搜尋演算法來最大化機率目標函數,並找到機器人的指令路徑,然後由 VNM 執行。 研究的主要貢獻在於大規模模式下的導航方法(LM Nav),一個具體的指令追蹤系統。它結合了三個大型的獨立預訓練模型——一個利用視覺觀察和物理動作(VNM)的自監督機器人控制模型,一個將圖像置於文本中但沒有具體實施環境(VLM)的視覺語言模型,以及一個大型語言模型,該模型可以解析和翻譯文本,但沒有視覺基礎或體現(LLM),以便在複雜的真實環境中實現長視野指令追蹤。研究者首次將預先訓練的視覺和語言模型與目標條件控制器結合的想法實例化,以在目標環境中不進行任何微調的情況下得出可操作的指令路徑。值得注意的是,這三個模型都是在大規模資料集上訓練的,具有自我監督的目標函數,並且在沒有微調的情況下現成使用 - 訓練 LM Nav 不需要對機器人導航資料進行人工註釋。
實驗表明,LM Nav 能夠在 100 公尺複雜的郊區導航過程中,在新環境中成功地遵循自然語言指令,同時使用細粒度命令消除路徑歧義。
LM-Nav 模型概覽
那麼,研究者是如何利用預先訓練好的圖像和語言模型,為視覺導航模型提供文字介面的?
1、 在給定目標環境中的一組觀測值,使用目標條件距離函數,也就是視覺導航模型(VNM)的一部分,推斷它們之間的連通性,並建構環境中連通性的拓樸圖。
#2、大型語言模型(LLM)用於將自然語言指令解析為一連串的特徵點,這些特徵點可以作為導航的中間子目標。
3、視覺 - 語言模型(VLM)被用來在特徵點短語上的基礎上建立視覺觀察結果。 視覺 - 語言模型推斷出一個關於特徵點描述和圖像的聯合機率分佈(形成上述圖形中的節點)。
#4、利用VLM 的機率分佈和VNM 推斷的圖連接性,採用新穎的搜尋演算法,在環境中檢索出一個最優指令路徑,該指令路徑(i)滿足原始指令,(ii)是圖中能實現目標的最短的路徑。
5、 然後,該指令路徑由目標條件策略執行,該策略是 VNM 的一部份。
實驗結果
定性評估
#圖4 展示了機器人所走路徑的一些實例(注意,機器人無法獲得頭頂上的影像和特徵點的空間定位,所顯示的只是視覺效果)。
在圖4(a) 中,LM-Nav 能夠成功地從其先前的穿越中定位出簡單的特徵點,並找到一條通往目標的短路徑。雖然環境中存在多個停車特徵點,但公式 3 中的目標函數使機器人在上下文中選擇正確的停車特徵點,從而使整體行進距離最小化。
圖4(b) 強調了LM-Nav 解析有多個特徵點的指定路線的能力—儘管在無視指令路徑的情況下,直接到達最後的特徵點是最短路線,但機器人仍然能找到了一條以正確順序存取所有特徵點的路徑。
使用指令來消除歧義。由於 LM Nav 的目標是遵循指令,而不僅僅是達到最終目標,不同的指令可能導致不同的遍歷。圖 5 展示了修改指令可以消除目標的多條路徑歧義的範例。對於較短的 prompt(藍色),LM Nav 首選更直接的路徑。在指定更細粒度的路線(洋紅色)時,LM Nav 採用通過不同特徵點集的備用路徑。
缺少特徵點的情況。雖然LM-Nav 能夠有效地解析指令中的特徵點,在圖上對它們進行定位,並找到通往目標的路徑,但這個流程依賴於這樣的假設:特徵點(i)存在於真實環境中,以及(ii)可以被VLM 辨識。圖 4(c) 顯示了這樣一種情況:可執行的路徑未能訪問其中一個特徵點—一個消防栓—於是採取了一條繞過建築物頂部而不是底部的路徑。這種失敗案例是由於 VLM 無法從機器人的觀察中發現消防栓。
在獨立評估的VLM 在檢索特徵點的功效時,研究者發現,儘管它是此類任務的最佳off-the-shelf 模型,但CLIP 無法檢索少量的「硬」特徵點,包括消防栓和水泥攪拌器。但是在許多實際情況下,機器人仍然能夠成功地找到一條訪問其餘特徵點的路徑。
定量評估
表 1 總結了該系統在 20 條指令中的量化表現。在 85% 的實驗中,LM-Nav 能夠始終遵循指令,沒有發生碰撞或脫離(平均每 6.4 公里的行進有一次幹預)。與無導航模型的 baseline 相比,LM-Nav 在執行高效、無碰撞的目標路徑方面一直表現得更好。在所有不成功的實驗中,失敗可歸因於規劃階段的能力不足——搜尋演算法無法直觀地定位圖中的某些「硬」特徵點—導致指令的不完整執行。對這些失敗模式的調查表明,系統中最關鍵的部分是 VLM 檢測不熟悉的特徵點的能力,例如消防栓,以及在具有挑戰性的照明條件下的場景,例如曝光不足的圖像。
以上是強化學習大牛Sergey Levine新作:三個大模型教會機器人認路的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在機器學習和資料科學領域,模型的可解釋性一直是研究者和實踐者關注的焦點。隨著深度學習和整合方法等複雜模型的廣泛應用,理解模型的決策過程變得尤為重要。可解釋人工智慧(ExplainableAI|XAI)透過提高模型的透明度,幫助建立對機器學習模型的信任和信心。提高模型的透明度可以透過多種複雜模型的廣泛應用等方法來實現,以及用於解釋模型的決策過程。這些方法包括特徵重要性分析、模型預測區間估計、局部可解釋性演算法等。特徵重要性分析可以透過評估模型對輸入特徵的影響程度來解釋模型的決策過程。模型預測區間估計

本文將介紹如何透過學習曲線來有效辨識機器學習模型中的過度擬合和欠擬合。欠擬合和過擬合1、過擬合如果一個模型對資料進行了過度訓練,以至於它從中學習了噪聲,那麼這個模型就被稱為過擬合。過度擬合模型非常完美地學習了每一個例子,所以它會錯誤地分類一個看不見的/新的例子。對於一個過度擬合的模型,我們會得到一個完美/接近完美的訓練集分數和一個糟糕的驗證集/測試分數。略有修改:"過擬合的原因:用一個複雜的模型來解決一個簡單的問題,從資料中提取雜訊。因為小資料集作為訓練集可能無法代表所有資料的正確表示。"2、欠擬合如

1950年代,人工智慧(AI)誕生。當時研究人員發現機器可以執行類似人類的任務,例如思考。後來,在1960年代,美國國防部資助了人工智慧,並建立了實驗室進行進一步開發。研究人員發現人工智慧在許多領域都有用武之地,例如太空探索和極端環境中的生存。太空探索是對宇宙的研究,宇宙涵蓋了地球以外的整個宇宙空間。太空被歸類為極端環境,因為它的條件與地球不同。要在太空中生存,必須考慮許多因素,並採取預防措施。科學家和研究人員認為,探索太空並了解一切事物的現狀有助於理解宇宙的運作方式,並為潛在的環境危機

在工業自動化技術領域,最近有兩個熱點很難被忽視:人工智慧(AI)和英偉達(Nvidia)。不要改變原內容的意思,微調內容,重寫內容,不要續寫:「不僅如此,這兩者密切相關,因為英偉達在不僅僅局限於其最開始的圖形處理單元(GPU),正在將其GPU科技擴展到數位孿生領域,同時緊密連接著新興的AI技術。泰瑞達機器人及其MiR和優傲機器人公司。 Recently,Nvidiahascoll

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

近幾年最受消費者歡迎的智慧家電,掃拖機器人可謂是其中之一。它所帶來的操作便利性,甚至是無需操作,讓懶人們釋放了雙手,讓消費者能夠從日常的家務中「解放」出來,也能拿更多的時間花在自己喜歡的事情上,變相提高了生活品質。藉著這股熱潮,市面上幾乎所有的家電產品品牌都在做自己的掃拖機器人,一時間使得整個掃拖機器人市場熱鬧非凡。但市場的快速拓張必然會帶來一個隱患:很多廠商會採用機海戰術的方式快速佔領更多的市場份額,從而導致很多新品並沒有什麼升級點,說它是“套娃”機型也不為過。不過,並不是所有的掃拖機器人都是

MetaFAIR聯合哈佛優化大規模機器學習時所產生的資料偏差,提供了新的研究架構。據所周知,大語言模型的訓練常常需要數月的時間,使用數百甚至上千個GPU。以LLaMA270B模型為例,其訓練總共需要1,720,320個GPU小時。由於這些工作負載的規模和複雜性,導致訓練大模型存在著獨特的系統性挑戰。最近,許多機構在訓練SOTA生成式AI模型時報告了訓練過程中的不穩定情況,它們通常以損失尖峰的形式出現,例如Google的PaLM模型訓練過程中出現了多達20次的損失尖峰。數值偏差是造成這種訓練不準確性的根因,
