細數NLP與CV的融合創新:盤點多模態深度學習這幾年
近年來,NLP 和 CV 領域在方法上突破不斷。不只是單模態模型有所進展,而大規模多模態方法也成為非常熱門的研究領域。
- #論文網址:https://arxiv.org/pdf/2301.04856v1.pdf
- 專案位址:https://github.com/slds-lmu/seminar_multimodal_dl
在最近的一篇論文中,研究者Matthias Aßenmacher回顧梳理了深度學習這兩個子領域當前最先進的研究方法,並嘗試進行全面的概述。此外,還討論了將一種模態轉換為另一種模態的建模框架(第3.1 章和第3.2 章),以及利用一種模態增強另一種模態的表徵學習模型(第3.3章和第3.4 章)。研究者引入了專注於同時處理兩種模態的架構(第 3.5 章)作為第二部分的尾聲。最後,論文還涵蓋了其他模態(第 4.1 章和第 4.2 章)以及通用多模態模型(第 4.3 章),這些模型能夠在一個統一架構中處理不同模態上的不同任務。一個有趣的應用(「生成藝術」,第 4.4 章)最終成為這篇綜述的錦上添花之筆。
論文章節目錄如下:
多模態深度學習簡介
人類有五種基本感官:聽覺、觸覺、嗅覺、味覺和視覺。藉由這五種模式,我們得以感知和理解周遭的世界。 「多模態」則是指同時利用多種資訊管道的結合來理解周遭環境。例如,當蹣跚學步的孩子學習“貓”這個詞時,他們會用不同的方式大聲說出這個詞,指著貓,發出類似“喵喵”的聲音。 AI 研究人員以人類學習過程為範式,結合不同模態來訓練深度學習模型。
從表面上看,深度學習演算法透過訓練神經網路以優化損失函數來優化定義的目標函數。最佳化,即將損失最小化,透過稱為梯度下降的數值最佳化程序完成。因此,深度學習模型只能處理數位輸入,也只能產生數位輸出。然而,在多模態任務中,我們經常遇到圖片或文字等非結構化資料。所以,關於多模態任務的首要問題是如何用數字來表徵輸入;其次則是如何適當地組合不同模態。
例如,訓練深度學習模型來產生一張貓的圖片可能就是一個典型的任務。首先,電腦需要理解文字輸入“貓”,然後以某種方式將這些資訊轉換成特定圖像。因此,確定輸入文字中單字間的上下文關係和輸出影像中像素點間的空間關係很有必要。對幼兒來說可能很容易這件事,對電腦卻可能是巨大挑戰。二者都必須對「貓」這個字有一定理解,包括這個動物的內涵和外觀。
目前深度學習領域常見方法是產生嵌入,用數字形式將貓表徵為某個潛在空間中的向量。為了實現這一點,近年來已經開發出各種方法和演算法架構。本文概述了最先進(SOTA)多模態深度學習中使用的各類方法,以克服非結構化資料和不同模態輸入組合所帶來的挑戰。
章節介紹
因為多模態模型通常以文字和圖像作為輸入或輸出,所以第2章著重介紹了自然語言處理(NLP)和計算機視覺(CV)方法。 NLP 領域的方法主要在於文字資料處理,而 CV 多進行影像處理。
關於 NLP(第 2.1 小節)的一個非常重要的概念叫做詞嵌入,幾乎是現在所有多模態深度學習架構的重要組成部分。這個概念也為基於Transformer的模型奠定了基礎,例如 BERT ,該模型在幾個 NLP 任務中都取得了重大進展。特別是Transformer的自註意力機制徹底改變了 NLP 模型,這也是為什麼大多數 NLP 模型將Transformer作為核心。
在電腦視覺(第 2.2 小節)中,作者介紹裡不同的網路架構,即 ResNet、EfficientNet、SimCLR和BYOL。在這兩個領域,比較不同方法及其在富有挑戰性的基準上表現如何是非常有意義的。因此,第 2 章末 2.3 小節對 CV 和 NLP 的不同資料集、預訓練任務和基準進行了全面概括。
第3章著重於不同的多模態架構,涵蓋文字和圖像的多種組合方式,提出的模型相組合並推進了 NLP 和 CV 不同方法的研究。首先介紹了 Img2Text 任務(第 3.1 小節)、用於目標識別的 Microsoft COCO 資料集和用於影像擷取的Meshed-Memory Transformer。
另外,研究人員開發了基於短文字 prompt 產生圖片的方法(第 3.2 小節)。完成這項任務的第一個模型是生成對抗網路(GAN)和變分自編碼器(VAE)。近年來,這些方法不斷改進,今天的 SOTA Transformer架構和文字引導的擴散模型如 DALL-E和 GLIDE都取得了顯著成果。另一個有趣的問題是,如何利用圖像來支援語言模型(第 3.3 小節)。可透過順序嵌入、更進階的實際嵌入或直接在Transformer內部實現。
也可以看一下支持文本的 CV 模型,如 CLIP、ALIGN和 Florence(第 3.4 小節)。基礎模型的使用意味著模型重用(例如 DALL-E 2 中的 CLIP),以及文字與圖像連接的對比損失。此外,zero-shot 使得透過微調就可毫不費力地對新的和不可見的資料進行分類。特別是用於影像分類和生成的開源架構 CLIP去年頗受關注。第3章末介紹了同時處理文字和圖像的一些其他架構(第 3.5 小節)。
例如,Data2Sec 用相同的學習方法處理語音、視覺和語言,並嘗試以此找到通用方法,能在一個架構中處理不同模態。此外,VilBert擴展了流行的 BERT 架構,透過實現共同註意力來處理圖像和文字輸入。這種方法也用於谷歌的 Deepmind Flamingo。此外,Flamingo 的目標是透過少樣本學習和凍結預訓練的視覺和語言模型,以單一視覺語言模型處理多個任務。
最後一章(第 4 章)介紹了能夠處理文字和圖像以外模態的方法,例如視訊、語音或表格資料。總體目標是探索通用的多模態架構,並非為模態而模態,而是為從容應對挑戰。因此還需處理多模態融合和對齊的問題,決定要使用聯合表徵還是協調表徵(第 4.1 小節)。此外,也將更詳細地介紹如何精準組合結構化資料和非結構化資料(第 4.2 小節)。
作者也提出了近年來形成的不同融合策略,本文透過存活分析和經濟學中的兩個用例加以說明。除此之外,另一個有趣的研究問題是,如何在一個所謂的多用途模型(第 4.3 小節)中處理不同任務,就像Google研究人員在其「Pathway」模型中創建的那樣。最後,文章會展示多模態深度學習在藝術場景中的一個典型應用,使用 DALL-E等圖像生成模型來創建生成藝術領域的藝術作品(第 4.4 小節)。
了解更多內容,請參考原文。
以上是細數NLP與CV的融合創新:盤點多模態深度學習這幾年的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的
