首頁 科技週邊 人工智慧 北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作

北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作

Jul 16, 2024 am 03:51 AM
入門

北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文由 HMI Lab 完成。 HMI Lab依托北京大學視訊與視覺技術國家工程研究中心與多媒體資訊處理全國重點實驗室兩大平台,長期從事機器學習、多模態學習和具身智慧方向的研究。本工作第一作者為劉家銘博士,研究方向為開放世界的多模態具身大模型與持續學習技術。本工作第二作者為劉夢真,研究方向為視覺基礎模型與機器人操縱。指導教師為仉尚航,北京大學電腦學院研究員、博士生導師、博雅青年學者。從事多模態大模型與具身智能研究,取得了一系列重要研究成果,在人工智慧頂級期刊和會議上發表論文 80 餘篇,Google引用 9700 餘次。榮獲世界人工智慧頂會 AAAI 最佳論文獎,名列世界最大學術原始碼倉庫 Trending Research 第一位。

為了賦予機器人端到端的推理和操縱能力,本文創新性地將視覺編碼器與高效的狀態空間語言模型集成,構建了全新的RoboMamba 多模態大模型,使其具備視覺常識任務和機器人相關任務的推理能力,並且都取得了先進的性能表現。同時,本文發現當 RoboMamba 具備強大的推理能力後,我們可以透過極低的訓練成本讓 RoboMamba 掌握多種操縱位姿預測能力。

北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作

  • 論文:RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation

  • 論文連結:https://arxiv.org/ab2400672302032302302302302302302302302302302302302030230230230302302303030字sites.google.com/view/robomamba-web

  • Github:https://github.com/lmzpai/roboMamba

北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作圖1.5規劃、提示性任務規劃、長程任務規劃、可操縱性判斷、可操縱性產生、未來與過去預測、末端執行器位姿預測等。

摘要
機器人操縱的一個基本目標是使模型能夠理解視覺場景並執行動作。儘管現有的機器人多模態大模型(MLLM)可以處理一系列基本任務,但它們仍然面臨兩個方面的挑戰:1) 處理複雜任務的推理能力不足;2) MLLM 微調和推理的計算成本較高。最近提出的狀態空間模型(SSM),即 Mamba,其具備線性推理複雜度同時在序列建模中展示了令人期待的能力。受此啟發,我們推出了端到端機器人 MLLM—RoboMamba,它利用 Mamba 模型提供機器人推理和行動能力,同時保持高效的微調和推理能力。

具體來說,我們首先將視覺編碼器與 Mamba 整合在一起,透過共同訓練將視覺資料與語言嵌入對齊,使我們的模型具有視覺常識和與機器人相關的推理能力。為了進一步增強 RoboMamba 的操縱位姿預測能力,我們探索了一種僅使用簡單 Policy Head 的高效微調策略。我們發現,一旦 RoboMamba 擁有足夠的推理能力,它可以透過極少的微調參數(模型的 0.1%)和微調時間(20 分鐘)來掌握多種操作技能。在實驗中,RoboMamba 在通用和機器人評估基準上展示了出色的推理能力,如圖 2 所示。同時,我們的模型在模擬和現實世界實驗中展示了令人印象深刻的操縱位姿預測能力,其推理速度比現有的機器人 MLLMs 快 7 倍。

圖 2. 概述:Robomamba 是一種高效的機器人多模態大模型,同時具備強大的推理和操作能力。 RoboMamba-2.8B 在通用 MLLM 基準上實現了與其他 7B MLLM 可競爭的推理性能,同時在機器人任務中展示了長程推理能力。隨後,我們引入了一種極其高效的微調策略,使 RoboMamba 具備操縱位姿預測能力,只需 20 分鐘即可微調一個簡單的策略頭。

本文主要貢獻總結如下:

  • 我們創新地將視覺編碼器與高效的Mamba 語言模型集成,構建了全新的機器人端模式,其具備視覺常識和機器人相關的全面推理能力。
  • 為了讓 RoboMamba 具備末端執行器操縱位姿預測能力,我們探討了一種使用簡單 Policy Head 的高效微調策略。我們發現,一旦 RoboMamba 達到足夠的推理能力,它可以以極低的成本掌握操縱位姿預測技能。
  • 在我們的大量實驗中,RoboMamba 在通用和機器人推理評估基準上表現出色,並在模擬器和真實世界實驗中展示了令人印象深刻的位姿預測結果。

研究背景

資料的scaling up 顯著地推動了大語言模型(LLMs)研究的發展,展示了自然語言處理(NL進步。為了理解多模態訊息,多模態大語言模型(MLLMs)應運而生,賦予 LLMs 視覺指令跟隨和場景理解的能力。受 MLLMs 在通用環境中強大能力的啟發,近期研究旨在將 MLLMs 應用於機器人操作領域。一些研究工作使機器人能夠理解自然語言和視覺場景,自動產生任務計劃。另一些研究工作則是利用 MLLMs 的固有能力,使其具備預測操作位姿的能力。

機器人操作涉及在動態環境中與物體交互,需要類人推理能力以理解場景的語義訊息,以及強大的操縱位姿預測能力。雖然現有基於機器人 MLLM 可以處理一系列基礎任務,但它們在兩個方面仍然面臨挑戰。

1)首先,預訓練的 MLLMs 在機器人場景中的推理能力被發現是不足的。如圖 2
所示,當微調後的機器人 MLLMs 遇到複雜推理任務時,這種缺陷會帶來挑戰。
2)其次,由於現有 MLLM 注意力機制的計算複雜度較高,微調 MLLMs 並使用它們產生機器人操作動作會產生更高的計算成本。

為了平衡推理能力和效率,NLP 領域出現了幾項研究。尤其是,Mamba 引入了創新的選擇性狀態空間模型(SSM),在保持線性複雜度的同時,促進了上下文感知的推理。

受此啟發,我們提出一個問題:「我們能否開發出一種高效的機器人MLLM,既具備強大的推理能力,又能以非常經濟的方式獲得機器人操作技能?」

RoboMamba 方法

1. Mamba 基於圖像和語言問題
生成語言答案
,表示為
。推理答案通常包含單獨的子任務北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作對於一個問題北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作。例如,當面對一個計劃問題,如 “如何收拾桌子?”,反應通常包括 “第一步:撿起物體” 和 “第二步:把物體放入盒子” 等步驟。對於動作預測,我們利用一個高效簡單的策略頭 π 來預測動作北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作。根據先前的工作,我們使用 6-DoF 來表達 Franka Emika Panda 機械手臂的末端執行器位姿。 6 自由度包含末端執行器位置北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作表示三維座標,方向北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作表示旋轉矩陣。如果訓練抓取任務,我們將抓夾狀態加入到位姿勢預測中,從而實現 7-DoF 控制。

  • 狀態空間模型 (SSM)
本文選擇 Mamba 作為大語言模型。 Mamba 由許多 Mamba block 組成,最關鍵的組成部分是 SSM。 SSM 是基於連續系統設計的,透過隱藏狀態北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作,將 1D 輸入序列北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作投影到 1D 輸出序列北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作。 SSM 由三個關鍵參數組成:狀態矩陣北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作,輸入矩陣北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作,輸出矩陣北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作。 SSM 可以表示為:

北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作

最近的 SSM (例如,Mamba) 被建構為使用時間尺度參數∆的離散連續系統。此參數將連續參數 A 和 B 轉換為離散參數北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作。離散化採用零階保持法,定義如下:

北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作

Mamba 引入了選擇性掃描機制 (S6),在每個 Mamba block 中形成其 SSM 操作。 SSM 參數更新為北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作,實現更好的內容感知推理。下圖 3 中展示了 Mamba block 的詳細資訊。

2. RoboMamba 模型結構

北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作

圖 3. Robomamba 整體框架。 RoboMamba 透過視覺編碼器和投影圖層將影像投影到 Mamba 的語言嵌入空間,然後與文字 tokens 連接,並輸入到 Mamba 模型中。為了預測末端執行器的位置和方向,我們引入簡單的 MLP 策略頭,並使用池化操作從語言輸出 tokens 產生的全域 token 作為輸入。 RoboMamba 的訓練策略。 為了進行模型訓練,我們將訓練流程分為兩個階段。在 Stage 1,我們引入對齊預訓練(Stage 1.1)和指令共同訓練(Stage 1.2),以使 RoboMamba 具備常識推理和機器人相關的推理能力。在 Stage 2,我們提出機器人操作微調,以有效地賦予 RoboMamba Low-Level 操作技能。

為了讓 RoboMamba 具備視覺推理和操作能力,我們從預訓練的大語言模型(LLMs)和視覺模型開始,構建了一個高效的 MLLM 架構。如上圖 3 所示,我們利用 CLIP 視覺編碼器從輸入影像 I 中提取視覺特徵北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作,其中 B 和 N 分別表示 batch size 和 token 數。與最近的 MLLMs 不同,我們不採用視覺編碼器整合技術,這種技術使用了多種骨幹網路(即 DINOv2、CLIP-ConvNeXt、CLIP-ViT)進行影像特徵擷取。整合引入了額外的計算成本,嚴重影響了機器人 MLLM 在現實世界中的實用性。因此,我們證明了,當高品質數據和適當的訓練策略結合時,簡單且直接的模型設計也能實現強大的推理能力。為了使 LLM 理解視覺特徵,我們使用多層感知器(MLP)將視覺編碼器連接到 LLM。透過這個簡單的跨模態連接器,RoboMamba 可以將視覺訊息轉換為語言嵌入空間北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作

請注意,模型效率在機器人領域至關重要,因為機器人需要根據人類指令快速回應。因此,我們選擇 Mamba 作為我們的大語言模型,因為它具有上下文感知推理能力和線性計算複雜度。文字提示使用預先訓練的分詞器編碼為嵌入空間北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作,然後與視覺 token 連接(cat)並輸入 Mamba。我們利用 Mamba 強大的序列建模來理解多模態訊息,並使用有效的訓練策略來開發視覺推理能力(如下一節所述)。輸出 token (北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作) 然後被解碼(det),產生自然語言回應北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作。模型的前向過程可以表示如下:

北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作

3.RoboMamba 通用視覺和機器人推理能力訓練

在構建了 RoboMamba 架構後,接下來的目標是訓練我們的模型學習通用視覺推理和機器人相關的推理能力。如圖 3 所示,我們將 Stage 1 的訓練分為兩個子步驟:對齊預訓練(Stage 1.1)和指令共同訓練(Stage 1.2)。具體而言,與以往的 MLLM 訓練方法不同,我們的目標是讓 RoboMamba 能夠理解通用視覺和機器人場景。鑑於機器人領域涉及許多複雜且新穎的任務,RoboMamba 需要更強的泛化能力。因此,我們在 Stage 1.2 階段採用了共同訓練策略,將高層次的機器人資料(例如任務規劃)與通用指令資料結合。我們發現,共同訓練不僅可以獲得更泛化能力的機器人策略,還由於機器人資料中的複雜推理任務而帶來的通用場景推理能力增強。訓練細節如下:

  • Stage 1.1:對齊預訓練。

我們採用 LLaVA 過濾的 558k 圖像 - 文字配對資料集進行跨模態對齊。如圖 3 所示,我們凍結 CLIP 編碼器和 Mamba 語言模型的參數,僅更新投影層。透過這種方式,我們可以將圖像特徵與預先訓練的 Mamba 單字嵌入對齊。

  • Stage 1.2:指令共同訓練。

在這一階段,我們首先遵循先前 MLLM 的工作進行通用視覺指令資料收集。我們採用了 655K LLaVA 混合指令資料集和 400K LRV-Instruct 資料集,分別用於學習視覺指令跟隨和減輕幻覺。需要注意的是,減輕幻覺在機器人場景中起著重要作用,因為機器人 MLLM 需要基於真實場景生成任務規劃,而不是想像中的場景。例如,現有的 MLLMs 可能公式化地回答 “打開微波爐” 時說 “步驟 1:找到把手”,但許多微波爐沒有把手。接下來,我們結合了 800K RoboVQA 資料集,以學習高層次的機器人技能,如長程任務規劃、可操縱性判斷、可操縱性生成、未來與過去預測等。在共同訓練期間,如圖 3 所示,我們凍結 CLIP 編碼器的參數,並在 1.8m 合併資料集上微調投影層和 Mamba。所有來自 Mamba 語言模型的輸出都使用交叉熵損失進行監督。

4.RoboMamba 操縱能力微調訓練

在RoboMamba 強大的推理能力基礎上,我們在本節介紹了我們的機器人操作。現有的基於 MLLM 的機器人操作方法在操作微調階段需要更新投影層和整個 LLM。雖然這種範式可以賦予模型動作位姿預測能力,但它也破壞了 MLLM 的固有能力,並且需要大量的訓練資源。為了解決這些挑戰,我們提出了一個高效率的微調策略,如圖 3 所示。我們凍結 RoboMamba 的所有參數,並引入一個簡單的 Policy head 來建模 Mamba 的輸出 token。 Policy head 包含兩個 MLP 分別學習末端執行器位置和方向,總共佔用整個模型參數的 0.1%。根據前期工作 where2act,位置和方向的損失公式如下:北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作
其中,N 表示訓練樣本的數量,Tr (A) 表示矩陣 A 的跡。 RoboMamba 只預測影像中接觸像素的二維位置(x, y),然後使用深度資訊將其轉換為三維空間。為了評估這個微調策略,我們使用 SAPIEN 模擬產生了一個包含 1 萬個末端執行器位姿預測的資料集。

在操作微調之後,我們發現一旦 RoboMamba 具備了足夠的推理能力,它可以透過極高效的微調來獲取位姿預測技能。由於微調參數(7MB)極少且模型設計高效,我們只需 20 分鐘即可實現新的操作技能學習。這項發現突顯了推理能力對於學習操作技能的重要性,並提出了一個新的視角:我們可以在不影響 MLLM 固有推理能力的情況下,有效率地賦予其操作能力。最後,RoboMamba 可以使用語言回應進行常識和與機器人相關的推理,並使用 Policy head 進行動作位姿預測。

定量實驗

1. 通用推理能力評估(MLLM Benchmarks)
、V
1 GQA、OCRVQA、VizWiz、POPE、MME、MMBench 和MM-Vet。除此之外,我們也在RoboVQA 的18k 驗證資料集上直接評估了RoboMamba 的機器人相關推理能力,涵蓋了機器人任務,如任務規劃、提示性任務規劃、長程任務規劃、可操縱性判斷、可操縱性生成、過去描述與未來預測等。 北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作
                              表 1. Robomamba 與現有 MLLMs 多重基準上的一般推理能力比較。

如表 1 所示,我們將 RoboMamba 與以前最先進的 (SOTA) MLLM 在通用的 VQA 和最近的 MLLM 基準測試上進行比較。首先,我們發現 RoboMamba 僅使用 2.7B 語言模型,就在所有 VQA 基準測試中取得了令人滿意的結果。結果表明,簡單的結構設計是有效的。對齊預訓練和指令協同訓練顯著提高了 MLLM 的推理能力。例如,由於在協同訓練階段引入了大量的機器人數據,RoboMamba 在 GQA 基準上的空間辨識效能得到了提升。同時,我們也在最近提出的 MLLM 基準上測試了我們的 RoboMamba。與先前的 MLLMs 相比,我們觀察到我們的模型在所有基準測試中都取得了具有競爭力的結果。雖然 RoboMamba 的一些性能仍然低於最先進的 7B MLLM (e.g., LLaVA1.5 和 SPHINX),但我們優先使用更小更快的 Mamba-2.7B 來平衡機器人模型的效率。在未來,我們計劃為資源不受限制的場景開發 RoboMamba-7B。

2. 機器人推理能力評估(RoboVQA Benchmark)

另外,為了全面比較 RoboMamba 與機器人相關的推理能力,我們在羅伯托我們選擇 LLaMA-AdapterV2 作為基準,因為它是目前 SOTA 機器人 MLLM (ManipLLM) 的基礎模型。為了進行公平的比較,我們加載了 LLaMA-AdapterV2 預訓練參數,並使用其官方指令微調方法在 RoboVQA 訓練集上對其進行了兩個 epoch 的微調。如圖 4 a)所示,RoboMamba 在 BLEU-1 到 BLEU-4 之間實現了卓越的性能。結果表明,我們的模型具有先進的機器人相關推理能力,並證實了我們的訓練策略的有效性。除了更高的準確率外,我們的模型實現的推理速度比 LLaMA-AdapterV2 和 ManipLLM 快 7 倍,這可以歸因於 Mamba 語言模型的內容感知推理能力和效率。

北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作

                               圖 4。

3. 機器人操縱能力評估(SAPIEN)

為了評估RoboMamba 。在比較之前,我們複現所有基準並在我們收集的資料集上訓練它們。對於 UMPNet,我們在預測的接觸點上執行操作,方向垂直於物件表面。 Flowbot3D 在點雲上預測移動方向,選擇最大的流作為交互點,並使用流方向表示末端執行器的方向。 RoboFlamingo 和 ManipLLM 分別載入 OpenFlamingo 和 LLaMA-AdapterV2 預訓練參數,並遵循各自的微調和模型更新策略。如表 2 所示,與先前的 SOTA ManipLLM 相比,我們的 RoboMamba 在可見類別上實現了 7.0% 的改進,在不可見類別上實現了 2.0% 的改進。在效率方面,RoboFlamingo 更新了35.5% (1.8B) 的模型參數,ManipLLM 更新了LLM 中的適配器(41.3M),包含0.5% 的模型參數,而我們的微調Policy head (3.7M) 僅佔模型參數的0.1%。 RoboMamba 比以前基於 MLLM 的方法更新的參數少了 10 倍,而推理速度提高了 7 倍。結果表明,我們的 RoboMamba 不僅具有強大的推理能力,而且能夠以低成本的方式獲得操縱能力。

北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作

                                表2. Robomamba 與其他baseline 的成功率比較

                                圖 上使用中使用者。

北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作

如圖 4 所示,我們視覺化了 RoboMamba 在各種機器人下游任務中的推理結果。在任務規劃方面,相較於 LLaMA-AdapterV2, RoboMamba 憑藉其強大的推理能力,展現了更準確、更長遠的規劃能力。為了進行公平的比較,我們也對 RoboVQA 資料集上的基準 LLaMA-AdapterV2 進行了微調。對於操縱位姿預測,我們使用了 Franka Emika 機械手臂來與各種家庭物品互動。我們將 RoboMamba 預測的 3D 位元姿投影到 2D 影像上,使用紅點表示接觸點,末端執行器表示方向,如圖右下角所示。

以上是北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1677
14
CakePHP 教程
1431
52
Laravel 教程
1334
25
PHP教程
1280
29
C# 教程
1257
24
一鍵生成PPT! Kimi :讓「PPT民工」先浪起來 一鍵生成PPT! Kimi :讓「PPT民工」先浪起來 Aug 01, 2024 pm 03:28 PM

Kimi:一句話,十幾秒鐘,一份PPT就新鮮出爐了。 PPT這玩意兒,可太招人煩了!開個碰頭會,要有PPT;寫個週報,要做PPT;拉個投資,要展示PPT;就連控訴出軌,都得發個PPT。大學比較像是學了個PPT專業,上課看PPT,下課做PPT。或許,37年前丹尼斯・奧斯汀發明PPT時也沒想到,有一天PPT竟然如此氾濫成災。嗎嘍們做PPT的苦逼經歷,說起來都是淚。 「一份二十多頁的PPT花了三個月,改了幾十遍,看到PPT都想吐」;「最巔峰的時候,一天做了五個PPT,連呼吸都是PPT」;「臨時開個會,都要做個

值得你花時間看的擴散模型教程,來自普渡大學 值得你花時間看的擴散模型教程,來自普渡大學 Apr 07, 2024 am 09:01 AM

Diffusion不僅可以更好地模仿,而且可以進行「創作」。擴散模型(DiffusionModel)是一種影像生成模型。與先前AI領域大名鼎鼎的GAN、VAE等演算法,擴散模型另闢蹊徑,其主要想法是先對影像增加噪聲,再逐步去噪的過程。其中如何去噪還原原影像是演算法的核心部分。最終演算法能夠從一張隨機的雜訊影像中產生影像。近年來,生成式AI的驚人成長將文字轉換為圖像生成、視訊生成等領域的許多令人興奮的應用提供了支援。這些生成工具背後的基本原理是擴散的概念,這是一種特殊的取樣機制,克服了先前的方法中被

CVPR 2024全部獎項公佈!近萬人線下參會,Google華人研究員獲最佳論文獎 CVPR 2024全部獎項公佈!近萬人線下參會,Google華人研究員獲最佳論文獎 Jun 20, 2024 pm 05:43 PM

北京時間6月20日凌晨,在西雅圖舉辦的國際電腦視覺頂會CVPR2024正式公佈了最佳論文等獎項。今年共有10篇論文獲獎,其中2篇最佳論文,2篇最佳學生論文,另外還有2篇最佳論文提名和4篇最佳學生論文提名。電腦視覺(CV)領域的頂級會議是CVPR,每年都會吸引大量研究機構和高校參會。根據統計,今年共提交了11532份論文,2719篇被接收,錄取率為23.6%。根據佐治亞理工學院對CVPR2024的數據統計分析,從研究主題來看,論文數量最多的是圖像和視頻合成與生成(Imageandvideosyn

從裸機到700億參數大模型,這裡有一個教程,還有現成可用的腳本 從裸機到700億參數大模型,這裡有一個教程,還有現成可用的腳本 Jul 24, 2024 pm 08:13 PM

我們知道LLM是在大規模電腦叢集上使用海量資料訓練得到的,本站曾介紹過不少用於輔助和改進LLM訓練流程的方法和技術。而今天,我們要分享的是一篇深入技術底層的文章,介紹如何將一堆連作業系統也沒有的「裸機」變成用來訓練LLM的電腦叢集。這篇文章來自於AI新創公司Imbue,該公司致力於透過理解機器的思維方式來實現通用智慧。當然,將一堆連作業系統也沒有的「裸機」變成用於訓練LLM的電腦叢集並不是一個輕鬆的過程,充滿了探索和試錯,但Imbue最終成功訓練了一個700億參數的LLM,並在此過程中積累

PyCharm社群版安裝指南:快速掌握全部步驟 PyCharm社群版安裝指南:快速掌握全部步驟 Jan 27, 2024 am 09:10 AM

快速入門PyCharm社群版:詳細安裝教學全解析導言:PyCharm是一個功能強大的Python整合開發環境(IDE),它提供了一套全面的工具,可以幫助開發人員更有效率地編寫Python程式碼。本文將詳細介紹如何安裝PyCharm社群版,並提供具體的程式碼範例,幫助初學者快速入門。第一步:下載和安裝PyCharm社群版要使用PyCharm,首先需要從其官方網站上下

AI在用 | AI製作獨居女孩生活Vlog,3天狂攬萬點讚量 AI在用 | AI製作獨居女孩生活Vlog,3天狂攬萬點讚量 Aug 07, 2024 pm 10:53 PM

機器之能報道編輯:楊文以大模型、AIGC為代表的人工智慧浪潮已經在悄悄改變我們生活及工作方式,但絕大部分人依然不知道該如何使用。因此,我們推出了「AI在用」專欄,透過直覺、有趣且簡潔的人工智慧使用案例,來具體介紹AI使用方法,並激發大家思考。我們也歡迎讀者投稿親自實踐的創新用例。影片連結:https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ最近,獨居女孩的生活Vlog在小紅書上走紅。一個插畫風格的動畫,再配上幾句治癒系文案,短短幾天就能輕鬆狂攬上

技術入門者必看:C語言和Python難易度解析 技術入門者必看:C語言和Python難易度解析 Mar 22, 2024 am 10:21 AM

標題:技術入門者必看:C語言和Python難易度解析,需要具體程式碼範例在當今數位化時代,程式設計技術已成為一項越來越重要的能力。無論是想要從事軟體開發、數據分析、人工智慧等領域,還是僅僅出於興趣學習編程,選擇一門合適的程式語言是第一步。而在眾多程式語言中,C語言和Python作為兩種廣泛應用的程式語言,各有其特色。本文將對C語言和Python的難易度進行解析

細數RAG的12個痛點,英偉達高級架構師親授解決方案 細數RAG的12個痛點,英偉達高級架構師親授解決方案 Jul 11, 2024 pm 01:53 PM

檢索增強式產生(RAG)是一種使用檢索提升語言模型的技術。具體來說,就是在語言模型生成答案之前,先從廣泛的文檔資料庫中檢索相關信息,然後利用這些信息來引導生成過程。這種技術能大幅提升內容的準確性和相關性,並能有效緩解幻覺問題,提高知識更新的速度,並增強內容生成的可追溯性。 RAG無疑是最令人興奮的人工智慧研究領域之一。有關RAG的更多詳情請參閱本站專欄文章《專補大模型短板的RAG有哪些新進展?這篇綜述講明白了》。但RAG也並非完美,使用者在使用時也常會遭遇一些「痛點」。近日,英偉達生成式AI高階解決

See all articles