太全了!蘋果上新視覺模型4M-21,搞定21種模態

WBOY
發布: 2024-06-25 17:17:19
原創
1062 人瀏覽過

目前的多模態和多任務基礎模型,如 **4M** 或 **UnifiedIO**,顯示出有希望的結果。然而,它們接受不同輸入和執行不同任務的開箱即用能力,受到它們接受訓練的模態和任務的數量(通常很少)的限制。

,基於此,來自洛桑聯邦理工學院(EPFL)和蘋果的研究者聯合開發了一個**先進的**任意到任意模態單一模型,該模型在數十種**廣泛**多樣化的模態上進行訓練,並對大規模多模態資料集和文字語料庫進行協同訓練。

訓練過程中一個關鍵步驟是對各種模態執行離散**tokenization**,無論它們是類似圖像的神經網路**feature map**、向量、實例分割或人體姿態等結構化數據,還是可以表徵為文本的數據。

太全了!蘋果上新視覺模型4M-21,搞定21種模態

  • 論文地址:https://arxiv.org/pdf/2406.09406

  • 論文主頁https://4m.epfl.ch/

  • -to-Any Vision Model for Tens of Tasks and Modalities

該研究展示了訓練單一模型,也能完成現有模型至少**三倍**多的任務/ **模態**,並且不會損失性能。此外,該研究還實現了更細粒度和更可控的多**模態**生成能力。

該研究建立在多模態掩碼預訓練方案的基礎上,並透過在數十種高度多樣化的模態上進行訓練來提升**模型**能力。透過使用特定於模態的離散分詞器對其進行編碼,該研究實現了在不同模態上訓練單一統一**模型**。

簡單來說,該研究在幾個關鍵維度上擴展了現有模型的功能:

  • 模態:從現有最佳任意到任意模型的7 種模態增加到21 種不同模態,從而實現跨模態檢索、可控生成和強大的開箱即用性能。這是第一次單一視覺模型可以以任意到任意的方式解決數十個不同的任務,而不會損害性能,並且沒有任何傳統的多任務學習。

  • 多樣性:增加對更多結構化資料的支持,例如人體姿態、SAM 實例、元資料等等。 

  • tokenization:使用特定於模態的方法研究不同模態的離散 tokenization,例如全域影像嵌入、人體姿態和語義實例。

  • 擴展:將模型大小擴展至 3B 參數,將資料集擴展至 0.5B 樣本。 

  • 協同訓練:同時在視覺和語言上協同訓練。

方法介紹

該研究採用 4M 預訓練方案(該研究同樣來自 EPFL 和蘋果,在去年發布),其被證明是一種通用方法,可以有效擴展到多模態。

具體而言,本文保持架構和多模態掩碼訓練目標不變,透過擴大模型和資料集的規模、增加訓練模型所涉及的模態類型和數量,並且在多個資料集上進行聯合訓練,可以提升模型的表現和適應性。

模態分為以下幾大類別:RGB、幾何、語意、邊緣、特徵圖、元資料和文本,如下圖所示。

太全了!蘋果上新視覺模型4M-21,搞定21種模態

Tokenization

Tokenization 主要包括將不同模態和任務轉換為序列或離散 token,從而統一它們的表示空間。研究者使用不同的 tokenization 方法來離散具有不同特徵的模態,如圖 3 所示。總而言之,本文採用了三種 tokenizer,包括 ViT tokenizer、MLP tokenizer 以及文字 tokenizer。

太全了!蘋果上新視覺模型4M-21,搞定21種模態

在架構選擇上,本文採用基於 Transformer 的 4M 編碼器 - 解碼器架構,並添加額外的模態嵌入以適應新模態。

實驗結果

接下來,論文展示了 4M-21 多模態能力。

多模態生成

基於迭代解碼 token ,4M-21 可以用來預測任意訓練模態。如圖 2 所示,本文可以從給定的輸入模態以一致的方式產生所有模態。

太全了!蘋果上新視覺模型4M-21,搞定21種模態

此外,由於該研究可以有條件和無條件地從其他模態的任何子集生成任何訓練模態,因此它支持幾種方法來執行細粒度和多模態生成,如圖4 所示,例如執行多模態編輯。此外,4M-21 表現出改進的文本理解能力,無論是在 T5-XXL 嵌入上還是在常規字幕上,都可以實現幾何和語義上合理的生成(圖 4,右上)。

太全了!蘋果上新視覺模型4M-21,搞定21種模態

多模態檢索

如圖5 所示,4M-21 解鎖了原始DINOv2 和ImageBind 模型無法實現的檢索功能,例如透過使用其他模態作為查詢來檢索RGB 影像或其他模態。此外,4M-21 還可以組合多種模態來預測全域嵌入,從而更好地控制檢索,如右圖所示。

太全了!蘋果上新視覺模型4M-21,搞定21種模態

開箱即用

4M-21 能夠開箱即用地執行一系列常見的視覺任務,如圖 6 所示。

太全了!蘋果上新視覺模型4M-21,搞定21種模態

表 1 評估了 DIODE 表面法線和深度估計、COCO 語意和實例分割、3DPW  3D 人體姿態估計等。

太全了!蘋果上新視覺模型4M-21,搞定21種模態

遷移實驗

此外,本文也訓練了三種不同尺寸的模型:B、L 和 XL。然後,將其編碼器遷移到下游任務,並在單模態 (RGB) 和多模態 (RGB + 深度) 設定上進行評估。所有遷移實驗均丟棄解碼器,而是訓練特定任務的頭部。結果如表 2 所示:

太全了!蘋果上新視覺模型4M-21,搞定21種模態

最後,本文在 NYUv2、Hypersim 語意分割和 ARKitScenes 上的 3D 物件偵測上執行多模態傳輸。如表 3 所示,4M-21 充分利用了可選的深度輸入,並顯著改善了基準。

太全了!蘋果上新視覺模型4M-21,搞定21種模態

以上是太全了!蘋果上新視覺模型4M-21,搞定21種模態的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:jiqizhixin.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板