DALL-E和Flamingo能互相理解嗎?三個預訓練SOTA神經網路統一圖像和文本
多模態研究的一個重要目標是提高機器對於圖像和文字的理解能力。特別是針對如何在兩種模型之間實現有意義的交流,研究者們付出了巨大努力。舉例來說,圖像描述(image captioning)產生應當能將圖像的語意內容轉換輸出為可被人們理解的連貫文字。相反,文字 - 圖像生成模型也可利用文字描述的語意來創建逼真的圖像。
這就會帶來一些同語意相關的有趣問題:對於給定的圖像,哪種文字描述最準確地描述了圖像?同樣地,對於給定的文本,最有意義的圖像實現方式又是哪一種?針對第一個問題,一些研究宣稱最佳的圖像描述應該是既自然且還能還原視覺內容的資訊。而對於第二個問題,有意義的圖像應該是高品質的、多樣性的且忠於文字內容的。
不論怎樣,在人類交流的推動下,包含文本 - 圖像生成模型及圖像 - 文本生成模型的交互任務可以幫助我們選擇最準確的圖像文本對。
如圖 1 所示,在第一個任務中,圖像 - 文字模型是訊息發送者,文字 - 圖像模型是訊息接收者。發送者的目標是使用自然語言將圖像的內容傳達給接收者,以便其理解該語言並重建真實的視覺表徵。一旦接收者可以高保真地重建原始影像訊息,則表示訊息已傳遞成功。研究者認為這樣生成的文本描述即為最優的,透過其產生的圖像也最近似於原始圖像。
這項規律受到人們使用語言進行溝通的啟發。試想如下情形:在一個緊急求救的場景中,警察透過電話獲知車禍的狀況和受傷人員的狀況。這本質上涉及現場目擊者的圖像描述過程。警方需要根據語言描述在腦海中重建環境場景,以組織適當的救援行動。顯然,最好的文字描述應該是該場景重建的最佳指南。
第二個任務涉及文字重建:文字 - 圖像模型成為訊息發送者,圖像 - 文字模型則成為訊息接收者。一旦兩個模型就文字層面上訊息內容達成一致,那麼用於傳達訊息的圖像媒介即為重現來源文字的最優圖像。
本文中,來自慕尼黑大學、西門子公司等機構的研究者提出的方法,與智慧體間通訊緊密相關。語言是智能體之間交換資訊的主要方法。但我們如何確定第一個智能體與第二個智能體對什麼是貓或什麼是狗這樣的問題有相同的理解呢?
#論文網址:https://arxiv.org/pdf/2212.12249.pdf
#本文所想要探求的想法是讓第一個智能體分析圖像並產生描述該圖像的文本,而後第二個智能體獲取該文本並據此來模擬圖像。其中,後一個過程可以被認為是具象化體現的過程。研究認為,如果第二個智能體模擬的影像與第一個智能體接收的輸入影像相似(見圖 1),則通訊成功。
在實驗中,該研究使用現成的模型,特別是近期開發的大規模預訓練模型。例如,Flamingo 和 BLIP 是圖像描述模型,可以基於圖像自動生成文字描述。同樣地,基於圖像 - 文字對所訓練的圖像生成模型可以理解文本的深層語義並合成高品質的圖像,例如 DALL-E 模型和潛在擴散模型 (SD) 即為這種模型。
#此外,研究也利用 CLIP 模型來比較圖像或文字。 CLIP 是一種視覺語言模型,可將圖像和文字對應起來表現在共享的嵌入空間(embedding space)中。該研究使用手動建立的影像文字資料集,例如 COCO 和 NoCaps 來評估生成的文字的品質。圖像和文字生成模型具有允許從分佈中採樣的隨機分量,從而可以從一系列候選的文字和圖像中選擇最佳的。不同的採樣方法,包括核採樣,均可用於影像描述模型,而本文採用核採樣作為基礎模型,以此顯示本文所使用方法的優越性。
方法概覽
本文框架由三個預訓練的 SOTA 神經網路組成。第一,圖像- 文字生成模型;第二,文字- 圖像生成模型;第三,由圖像編碼器和文字編碼器組成的多模態表示模型,它可以將圖像或文字分別映射到其語義嵌入中。
透過文字描述的圖像重建
如圖2 左半部分所示,圖像重建任務是使用語言作為指令重建來源圖像,此過程的效果實現將促使描述來源場景的最佳文字生成。首先,來源影像 x 被輸送到 BLIP 模型以產生多個候選文字 y_k。例如,一隻小熊貓在樹林中吃樹葉。產生的文字候選集合以 C 表示,然後文字 y_k 被傳送到 SD 模型以產生圖像 x’_k。這裡 x’_k 是指基於小熊貓生成的圖像。隨後,使用 CLIP 影像編碼器從來源影像和生成的影像中提取語義特徵:和
。
接著計算這兩個嵌入向量之間的餘弦相似度,目的是找出候選的文字描述y_s, 即
##其中s 為最接近來源影像的影像索引。
本研究使用 CIDEr(圖像描述度量指標)並參考人類註解來評估最佳文字。由於對生成的文本品質感興趣,該研究將 BLIP 模型設定為輸出長度大致相同的文字。這樣就能保證進行相對公平的比較,因為文字的長度與可傳遞影像中資訊量的多寡呈正相關。在這項工作中,所有模型都會被凍結,不會進行任何微調。
透過圖像實現文字重建
圖 2 中右側部分顯示了與上一節描述過程的相反過程。 BLIP 模型需要在 SD 的引導下猜測來源文本,SD 可以存取文字但只能以圖像的格式呈現其內容。這個過程始於使用 SD 為文字 y 產生候選圖像 x_k ,生成的候選圖像集以 K 來表示。使用 SD 產生影像會涉及隨機取樣過程,其中每一次生成過程都可能會以在巨大的像素空間中得到不同的有效影像樣本為終點。這種採樣多樣性會提供一個候選池來篩選出最佳影像。隨後,BLIP 模型為每個取樣影像 x_k 產生一個文字描述 y’_k。這裡 y’_k 指的是初始文字一隻小熊貓在森林裡爬行。然後研究使用 CLIP 文字編碼器來提取來源文字和生成文字的特徵,分別以和
表示。此任務的目的是尋找匹配文字 y 語義的最佳候選圖像 x_s。為此,研究需要比較生成文字和輸入文字之間的距離,然後選擇配對文字距離最小的圖像,即
##該研究認為圖像x_s 可以最好地描繪出文字描述y,因為它可以以最小的訊息損失將內容傳遞給接收者。此外,該研究將與文本 y 相對應的圖像視為 y 的參考表示(reference presentation),並將最佳圖像量化為它與參考圖像的接近程度。
圖 3 中的左側圖表顯示了兩個資料集上影像重建品質和描述文字品質之間的相關性。對於每個給定影像,重建影像品質(在 x 軸中顯示)越好,文字描述品質(在 y 軸中顯示的)也越好。
圖3 的右側圖表揭示了恢復的文本品質和生成的圖像品質之間的關係:對於每個給定的文本,重建的文本描述(顯示在x軸上)越好,影像品質(顯示在y 軸上)就越好。
圖4(a)和(b)顯示了影像重建品質和基於來源影像的平均文字品質之間的關係。圖 4(c)和(d)顯示了文字距離(text distance)與重建影像品質之間的相關性。
表1 顯示出該研究的取樣方法在每個度量標準下都優於核採樣,模型的相對增益可以高達7.7%。
圖 5 顯示了兩個重建任務的定性範例。
#
以上是DALL-E和Flamingo能互相理解嗎?三個預訓練SOTA神經網路統一圖像和文本的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的
