近年來,NLP 和 CV 領域在方法上突破不斷。不只是單模態模型有所進展,而大規模多模態方法也成為非常熱門的研究領域。
在最近的一篇論文中,研究者Matthias Aßenmacher回顧梳理了深度學習這兩個子領域當前最先進的研究方法,並嘗試進行全面的概述。此外,還討論了將一種模態轉換為另一種模態的建模框架(第3.1 章和第3.2 章),以及利用一種模態增強另一種模態的表徵學習模型(第3.3章和第3.4 章)。研究者引入了專注於同時處理兩種模態的架構(第 3.5 章)作為第二部分的尾聲。最後,論文還涵蓋了其他模態(第 4.1 章和第 4.2 章)以及通用多模態模型(第 4.3 章),這些模型能夠在一個統一架構中處理不同模態上的不同任務。一個有趣的應用(「生成藝術」,第 4.4 章)最終成為這篇綜述的錦上添花之筆。
論文章節目錄如下:
人類有五種基本感官:聽覺、觸覺、嗅覺、味覺和視覺。藉由這五種模式,我們得以感知和理解周遭的世界。 「多模態」則是指同時利用多種資訊管道的結合來理解周遭環境。例如,當蹣跚學步的孩子學習“貓”這個詞時,他們會用不同的方式大聲說出這個詞,指著貓,發出類似“喵喵”的聲音。 AI 研究人員以人類學習過程為範式,結合不同模態來訓練深度學習模型。
從表面上看,深度學習演算法透過訓練神經網路以優化損失函數來優化定義的目標函數。最佳化,即將損失最小化,透過稱為梯度下降的數值最佳化程序完成。因此,深度學習模型只能處理數位輸入,也只能產生數位輸出。然而,在多模態任務中,我們經常遇到圖片或文字等非結構化資料。所以,關於多模態任務的首要問題是如何用數字來表徵輸入;其次則是如何適當地組合不同模態。
例如,訓練深度學習模型來產生一張貓的圖片可能就是一個典型的任務。首先,電腦需要理解文字輸入“貓”,然後以某種方式將這些資訊轉換成特定圖像。因此,確定輸入文字中單字間的上下文關係和輸出影像中像素點間的空間關係很有必要。對幼兒來說可能很容易這件事,對電腦卻可能是巨大挑戰。二者都必須對「貓」這個字有一定理解,包括這個動物的內涵和外觀。
目前深度學習領域常見方法是產生嵌入,用數字形式將貓表徵為某個潛在空間中的向量。為了實現這一點,近年來已經開發出各種方法和演算法架構。本文概述了最先進(SOTA)多模態深度學習中使用的各類方法,以克服非結構化資料和不同模態輸入組合所帶來的挑戰。
因為多模態模型通常以文字和圖像作為輸入或輸出,所以第2章著重介紹了自然語言處理(NLP)和計算機視覺(CV)方法。 NLP 領域的方法主要在於文字資料處理,而 CV 多進行影像處理。
關於 NLP(第 2.1 小節)的一個非常重要的概念叫做詞嵌入,幾乎是現在所有多模態深度學習架構的重要組成部分。這個概念也為基於Transformer的模型奠定了基礎,例如 BERT ,該模型在幾個 NLP 任務中都取得了重大進展。特別是Transformer的自註意力機制徹底改變了 NLP 模型,這也是為什麼大多數 NLP 模型將Transformer作為核心。
在電腦視覺(第 2.2 小節)中,作者介紹裡不同的網路架構,即 ResNet、EfficientNet、SimCLR和BYOL。在這兩個領域,比較不同方法及其在富有挑戰性的基準上表現如何是非常有意義的。因此,第 2 章末 2.3 小節對 CV 和 NLP 的不同資料集、預訓練任務和基準進行了全面概括。
第3章著重於不同的多模態架構,涵蓋文字和圖像的多種組合方式,提出的模型相組合並推進了 NLP 和 CV 不同方法的研究。首先介紹了 Img2Text 任務(第 3.1 小節)、用於目標識別的 Microsoft COCO 資料集和用於影像擷取的Meshed-Memory Transformer。
另外,研究人員開發了基於短文字 prompt 產生圖片的方法(第 3.2 小節)。完成這項任務的第一個模型是生成對抗網路(GAN)和變分自編碼器(VAE)。近年來,這些方法不斷改進,今天的 SOTA Transformer架構和文字引導的擴散模型如 DALL-E和 GLIDE都取得了顯著成果。另一個有趣的問題是,如何利用圖像來支援語言模型(第 3.3 小節)。可透過順序嵌入、更進階的實際嵌入或直接在Transformer內部實現。
也可以看一下支持文本的 CV 模型,如 CLIP、ALIGN和 Florence(第 3.4 小節)。基礎模型的使用意味著模型重用(例如 DALL-E 2 中的 CLIP),以及文字與圖像連接的對比損失。此外,zero-shot 使得透過微調就可毫不費力地對新的和不可見的資料進行分類。特別是用於影像分類和生成的開源架構 CLIP去年頗受關注。第3章末介紹了同時處理文字和圖像的一些其他架構(第 3.5 小節)。
例如,Data2Sec 用相同的學習方法處理語音、視覺和語言,並嘗試以此找到通用方法,能在一個架構中處理不同模態。此外,VilBert擴展了流行的 BERT 架構,透過實現共同註意力來處理圖像和文字輸入。這種方法也用於谷歌的 Deepmind Flamingo。此外,Flamingo 的目標是透過少樣本學習和凍結預訓練的視覺和語言模型,以單一視覺語言模型處理多個任務。
最後一章(第 4 章)介紹了能夠處理文字和圖像以外模態的方法,例如視訊、語音或表格資料。總體目標是探索通用的多模態架構,並非為模態而模態,而是為從容應對挑戰。因此還需處理多模態融合和對齊的問題,決定要使用聯合表徵還是協調表徵(第 4.1 小節)。此外,也將更詳細地介紹如何精準組合結構化資料和非結構化資料(第 4.2 小節)。
作者也提出了近年來形成的不同融合策略,本文透過存活分析和經濟學中的兩個用例加以說明。除此之外,另一個有趣的研究問題是,如何在一個所謂的多用途模型(第 4.3 小節)中處理不同任務,就像Google研究人員在其「Pathway」模型中創建的那樣。最後,文章會展示多模態深度學習在藝術場景中的一個典型應用,使用 DALL-E等圖像生成模型來創建生成藝術領域的藝術作品(第 4.4 小節)。
了解更多內容,請參考原文。
以上是細數NLP與CV的融合創新:盤點多模態深度學習這幾年的詳細內容。更多資訊請關注PHP中文網其他相關文章!