目前的多模態和多任務基礎模型,如 **4M** 或 **UnifiedIO**,顯示出有希望的結果。然而,它們接受不同輸入和執行不同任務的開箱即用能力,受到它們接受訓練的模態和任務的數量(通常很少)的限制。
,基於此,來自洛桑聯邦理工學院(EPFL)和蘋果的研究者聯合開發了一個**先進的**任意到任意模態單一模型,該模型在數十種**廣泛**多樣化的模態上進行訓練,並對大規模多模態資料集和文字語料庫進行協同訓練。
訓練過程中一個關鍵步驟是對各種模態執行離散**tokenization**,無論它們是類似圖像的神經網路**feature map**、向量、實例分割或人體姿態等結構化數據,還是可以表徵為文本的數據。
論文地址:https://arxiv.org/pdf/2406.09406
論文主頁https://4m.epfl.ch/
方法介紹
該研究採用 4M 預訓練方案(該研究同樣來自 EPFL 和蘋果,在去年發布),其被證明是一種通用方法,可以有效擴展到多模態。 具體而言,本文保持架構和多模態掩碼訓練目標不變,透過擴大模型和資料集的規模、增加訓練模型所涉及的模態類型和數量,並且在多個資料集上進行聯合訓練,可以提升模型的表現和適應性。 模態分為以下幾大類別:RGB、幾何、語意、邊緣、特徵圖、元資料和文本,如下圖所示。Tokenization
Tokenization 主要包括將不同模態和任務轉換為序列或離散 token,從而統一它們的表示空間。研究者使用不同的 tokenization 方法來離散具有不同特徵的模態,如圖 3 所示。總而言之,本文採用了三種 tokenizer,包括 ViT tokenizer、MLP tokenizer 以及文字 tokenizer。 在架構選擇上,本文採用基於 Transformer 的 4M 編碼器 - 解碼器架構,並添加額外的模態嵌入以適應新模態。實驗結果
接下來,論文展示了 4M-21 多模態能力。多模態生成
基於迭代解碼 token ,4M-21 可以用來預測任意訓練模態。如圖 2 所示,本文可以從給定的輸入模態以一致的方式產生所有模態。 此外,由於該研究可以有條件和無條件地從其他模態的任何子集生成任何訓練模態,因此它支持幾種方法來執行細粒度和多模態生成,如圖4 所示,例如執行多模態編輯。此外,4M-21 表現出改進的文本理解能力,無論是在 T5-XXL 嵌入上還是在常規字幕上,都可以實現幾何和語義上合理的生成(圖 4,右上)。多模態檢索
如圖5 所示,4M-21 解鎖了原始DINOv2 和ImageBind 模型無法實現的檢索功能,例如透過使用其他模態作為查詢來檢索RGB 影像或其他模態。此外,4M-21 還可以組合多種模態來預測全域嵌入,從而更好地控制檢索,如右圖所示。
開箱即用
4M-21 能夠開箱即用地執行一系列常見的視覺任務,如圖 6 所示。
表 1 評估了 DIODE 表面法線和深度估計、COCO 語意和實例分割、3DPW 3D 人體姿態估計等。
遷移實驗
此外,本文也訓練了三種不同尺寸的模型:B、L 和 XL。然後,將其編碼器遷移到下游任務,並在單模態 (RGB) 和多模態 (RGB + 深度) 設定上進行評估。所有遷移實驗均丟棄解碼器,而是訓練特定任務的頭部。結果如表 2 所示:
最後,本文在 NYUv2、Hypersim 語意分割和 ARKitScenes 上的 3D 物件偵測上執行多模態傳輸。如表 3 所示,4M-21 充分利用了可選的深度輸入,並顯著改善了基準。
以上是太全了!蘋果上新視覺模型4M-21,搞定21種模態的詳細內容。更多資訊請關注PHP中文網其他相關文章!