「無需配對數據」就能學習!浙大等提出連結多模態對比表徵C-MCR
多模態對比表示(MCR)旨在將來自不同模態的輸入編碼到一個語義對齊的共享空間中
隨著視覺-語言領域中CLIP模型的巨大成功,越來越多的模態對比表徵開始出現,並在許多下游任務上取得明顯的改善,但這些方法嚴重依賴於大規模高品質的配對資料
為了解決這個問題,來自浙江大學等機構的研究人員提出了連接多模態對比表示(C-MCR),一種無需配對資料且訓練極為高效的多模態對比表徵學習方法。
請點擊以下連結查看論文:https://arxiv.org/abs/2305.14381
C-MCR專案首頁連結:https://c-mcr.github.io/C-MCR/
模型與程式碼位址:https://github.com/MCR -PEFT/C-MCR
該方法在不使用任何配對資料的情況下,透過樞紐模態連接不同的預訓練對比表徵,我們學習到了強大的音訊-視覺和3D點雲-文字表徵,並在音訊-視覺檢索、聲音來源定位、3D物件分類等多個任務上取得了SOTA效果。
介紹
多模態對比表示(MCR)旨在將不同模態的資料對應到統一的語意空間。隨著CLIP在視覺-語言領域的巨大成功,學習更多模態組合之間的對比表示已成為一個熱門研究主題,吸引了越來越多的關注。
然而,現有多模態對比表示的泛化能力主要受益於大量高品質資料對。這嚴重限制了對比表徵在缺乏大規模高品質數據的模態上的發展。例如,音訊和視覺資料對之間的語義相關性往往是模糊的,3D點雲和文字之間的配對資料稀缺且難以取得。
不過,我們觀察到,這些缺乏配對資料的模態組合,往往和同一個中間模態具有大量高品質配對資料。例如,在音訊-視覺領域,儘管視聽資料品質不可靠,但音訊-文字和文字-視覺之間存在大量高品質的配對資料。
同樣,雖然3D點雲-文字配對資料的可用性有限,但3D點雲-圖像和圖像-文字資料卻非常豐富。這些樞紐模態可以為模式之間建立進一步關聯的紐帶。
考慮到具有大量配對資料的模態間往往已經擁有預訓練的對比表示,本文直接嘗試透過樞紐模態來將不同模態間的對比表徵連接起來,從而為缺乏配對資料的模態組合建構新的對比表徵空間。
使用連接多模態對比表示(C-MCR)可以透過重疊模態來建構已有大量多模態對比表示的連接,從而學習更廣泛的模態之間的對齊關係。這個學習過程不需要任何配對數據,並且具有極高的效率
C-MCR具有兩個關鍵優勢:
重點在於靈活性:
C-MCR的能力在於為模態學習提供缺乏直接配對的對比表徵。從另一個角度來看,C-MCR將每個現有的多模態對比表示空間視為一個節點,並將重疊的模態視為關鍵的樞紐模態
透過連結各個孤立的多模態對比表徵,我們能夠靈活地擴展所獲得的多模態對齊知識,並挖掘出更廣泛的模態間對比表示
###### ###2、高效性:###############由於C-MCR只需為現有的表徵空間建立連接,因此只用學習兩個簡單的映射器,其訓練參數和訓練成本都是極低的。 ############在這項實驗中,我們使用文字作為樞紐,將視覺-文字(CLIP)和文字-音訊(CLAP)進行對比表示空間的連接,最終得到了高品質的視覺-音訊表示############類似地,透過使用圖像連接文字-視覺(CLIP)和視覺-3D點雲(ULIP)進行比較來表示空間,也可以得到一組3D點雲-文字對比表示#########方法#########圖1 (a) 介紹了C-MCR的演算法流程(以使用文字連接CLIP和CLAP為例) 。 ######文字(重疊模態)的資料分別被CLIP和CLAP的文字編碼器編碼為文字特徵:、。
同時,還有大量的非配對單模態資料被分別編碼到CLIP和CLAP空間中,形成了影像記憶和音訊記憶
#特徵語意增強是指透過對特徵進行改進和最佳化,以提升其語意表達能力的過程。透過對特徵進行適當的調整,可以使其更準確地反映所要表達的含義,從而提高語言表達的效果。特徵語意增強技術在自然語言處理領域具有重要的應用價值,可以幫助機器理解和處理文字訊息,提高機器在語意理解和語意生成方面的能力
##我們可以從提升表徵的語意訊息出發,以增強空間連結的穩健性和全面性。在此方面,我們首先從語意一致性與語意完整性兩個角度進行探討
#模態間語意一致性
CLIP和CLAP分別已經學到了可靠的對齊的圖像-文字和文字-音訊表徵。
我們利用CLIP和CLAP中這種內在的模態對齊性來產生與第i個文字語義一致的圖像和音訊特徵,從而更好地量化對比表徵空間中的modality gap以及更直接的挖掘非重疊模態間的關聯性:
模態內語意完整性
不同表徵空間對於資料的語意表達會有不同的傾向性,因此不同空間下的同一個文本也會不可避免的存在語意偏差和遺失。在連結表示空間時,這種語意偏差會被累積並且放大。
為了增強每個表徵的語意完整性,我們提出將零均值高斯雜訊加入表徵中,並將它們重新歸一化為單位超球面上:
如圖1 (c) 所示,在對比表徵空間中,每個表徵可以看代表是在單位超球面上的點。添加高斯噪聲並重新歸一化則使表徵能夠代表了單位球面上的一個圓。
當兩個特徵的空間距離越接近時,它們的語意相似度也越高。因此,圓內的特徵都具有相似的語義,圓能夠更完整地表示語意
2. Inter-MCR的對齊
在表徵語意增強之後,我們使用兩個映射器 和 來將CLIP和CLAP表徵重新對應到一個新的共享空間
新空間需要確保來自不同空間的語意相似的表徵彼此接近。
來自同一文本的(,
) 是天然語意一致的,可以被看做真實標籤對,而源自於(
,
) 的(
,
) 可以被視為偽標籤對。
(,
#) 之間的語義高度一致,但從它們學習到的連接對於音頻-視覺來說是間接的。 而(
,
)對的語意一致性雖然較不可靠,但其較直接地有利於音頻-視覺表徵。
為了更全面地連接兩個對比表徵空間,我們同時對齊(,
) 和(
#,
):
#3. Intra-MCR的對準
除了空間之間的連接,對比表徵空間內部還存在著modality gap的現象。即在對比表徵空間中,不同模態的表徵雖然語意對齊,但它們分佈在完全不同的子空間中。這意味著從 (,
) 學習到的更穩定的連結可能無法很好的被音訊-視覺繼承。
為了解決這個問題,我們提出重新對齊各個對比表徵空間的不同模態表徵。具體來說,我們去除對比損失函數中的負例排斥結構,來推導出用於減少modality gap的損失函數。典型的對比損失函數可以表述為:
#我們消除其中的負對排斥項後,最終的公式可以簡化為:
實驗
在實驗上,我們透過使用文字連接音訊-文字空間(CLAP)和文字-視覺空間(CLIP)來獲得音訊-視覺表徵,使用影像連接3D點雲-影像空間(ULIP)和影像-文字空間(CLIP)來獲得3D點雲-文字表徵。
在AVE和Flickr-SoundNet上進行零樣本音訊影像擷取的結果如下:
MUSIC-Solo與VGGSS上的零樣本聲音來源定位結果如下:
在Ex-VGGSS和Ex-FlickrNet上的零樣本反事實音訊影像辨識結果如下所示:
在ModelNet40上的zero- shot 3D點雲分類結果如下:
以上是「無需配對數據」就能學習!浙大等提出連結多模態對比表徵C-MCR的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影

最近,軍事圈被這個消息刷屏了:美軍的戰鬥機,已經能由AI完成全自動空戰了。是的,就在最近,美軍的AI戰鬥機首次公開,揭開了神秘面紗。這架戰鬥機的全名是可變穩定性飛行模擬器測試飛機(VISTA),由美空軍部長親自搭乘,模擬了一對一的空戰。 5月2日,美國空軍部長FrankKendall在Edwards空軍基地駕駛X-62AVISTA升空注意,在一小時的飛行中,所有飛行動作都由AI自主完成! Kendall表示——在過去的幾十年中,我們一直在思考自主空對空作戰的無限潛力,但它始終顯得遙不可及。然而如今,
