CMU朱俊彥團隊研發出一款自動匹配排名系統,用於評估各種AI生成模型的優劣

王林
發布: 2023-05-09 21:09:07
轉載
1234 人瀏覽過

本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。

最近的生成式 AI 可謂十分火爆,新出的預訓練影像生成模型多到讓人目不暇給。無論是肖像、風景,還是卡通漫畫、特定藝術家風格元素等等,每個模型都有它擅長生成的內容。

這麼多模型裡面,要如何快速找到一個能滿足自己創作欲的最佳模型呢?

近日,卡內基美隆大學的助理教授朱俊彥等人首次提出了基於內容的模型搜尋演算法,讓你能夠一鍵搜尋出最匹配的深度影像生成模型。

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

#論文網址:https://arxiv.org/pdf/2210.03116.pdf

在團隊基於這套模型搜尋算開發的線上模型共享和搜尋平台Modelverse 上,你可以輸入文字、圖像、草圖和給定模型,來搜尋出最匹配或相似的相關模型。

Modelverse 平台位址:https://modelverse.cs.cmu.edu/

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

圖註:輸入文字(如「非洲動物」)、圖像(如風景圖)、草圖(如一隻站立的貓的草圖)或一個給定模型,輸出排名靠前的相關模型(第二行、第三行)

例如,輸入文字“face”,得到結果如下:

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

輸入一隻貓咪影像:

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

#輸入一匹馬的草圖:

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

#1 基於內容的模型搜尋

和傳統的多媒體搜尋一樣,模型搜尋能夠幫助用戶找到最適合其特定需求的模型。但基於內容的模型搜尋任務有其特殊困難:

判斷模型是否可以產生特定圖像,這是一個比較難計算的問題,而且很多深度生成模型並沒有提供有效方法來估計密度,其本身也不支持評估跨模態相似性。而蒙特卡羅這種基於抽樣的方法又會讓模型搜尋過程變得非常緩慢。

為此,朱俊彥團隊提出了一個新的模型搜尋系統。

每個生成模型都會產生一個圖像分佈,所以作者將搜尋問題處理為最佳化,以最大化在給定模型的情況下產生與查詢匹配的機率。如下圖所示,系統由預緩存階段(a,b)和推理階段(c)組成。

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

圖註:模型搜尋方法概覽

給定一組模型,(a)首先為每個模型產生50K 樣本;(b) 然後將圖像編碼為圖像特徵併計算每個模型的一階和二階特徵統計。統計資料快取在系統中以提高效率;(c) 在推理階段,支援不同模態的查詢,包括圖像、草圖、文字描述、另一個生成模型或這些查詢類型的組合。作者在這裡引入近似值,查詢被編碼為特徵向量,透過評估查詢特徵與每個模型統計資料之間的相似性,來檢索具有最佳相似性度量的模型。

模型搜尋效果

作者對演算法進行評估,對133 個深度生成模型(包括GAN、擴散模型和自回歸模型)進行了消融實驗分析。與蒙特卡羅基線相比,此方法可實現更有效率的搜索,速度在 0.08 毫秒內,提升 5 倍,同時還能保持高精度

透過對比模型檢索結果,我們也可以大致了解針對不同查詢輸入,哪些模型能產生更高品質的影像。例如下圖展示了模型檢索的結果比較。

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

圖註:模型檢索結果範例

##最上面一行是圖像查詢,輸入靜物畫,檢索相關藝術風格的模型,得到排名第一的StyleGAN2 模型和排名最後的Vision-aided GAN 模型。中間行是草圖查詢,輸入馬和教堂的草圖,得到 ADM、ProGAN 等模型。最下面一行是文字查詢,輸入“戴眼鏡的人”和“說話的鳥”,分別檢索得出排名第一的 GANSketch 模型和 Self-Distilled GAN 模型。

作者也發現,不同網路特徵空間的模型效能有差異。 如下圖所示,在輸入影像查詢時,結果顯示三個網路CLIP、DINO 和Inception 都具有相似的效能;而在輸入草圖查詢時,CLIP 效果明顯較好,而DINO 和Inception 則較不適合給定查詢,它們在藝術風格的模型上表現更好。

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

圖註:不同網路特徵空間中基於影像和草圖的模型檢索比較

另外,這項工作所提出的模型搜尋演算法還能支援多種應用,包括多模態使用者查詢、相似模型查詢、真實影像重構和編輯等。

例如多模態查詢可以幫助細化模型搜索,在只有“Nicolas Cage”的圖像時,只能檢索到人臉模型;但當同時使用“Nicolas Cage”和「dog」作為輸入時,就可以檢索到能產生「Nicolas Cage dog」影像的 StyleGAN-NADA 模型。 (如下圖)

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

圖註:多模態使用者查詢

當輸入是一個人臉模型時,可以檢索到更多的人臉生成模型,並且類別保持相似。 (如下圖)

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

圖註:相似模型查詢

給定真實人臉的查詢影像,使用排名較高的模型能獲得更精確的影像重建。下圖是使用不同排名模型的 CelebA-HQ 和 LSUN Church 影像的影像逆映射範例。

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

圖註:將真實影像投射到檢索到的 StyleGAN2 模型。

在對真實影像進行編輯的任務中,不同模型的表現也有高低之分。在下圖中,使用基於圖像的模型檢索演算法排名第一的模型來對真實圖像進行逆映射,然後使用 GANspace 進行編輯,從而將浮世繪圖圖像中的皺眉人臉變成笑臉。

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统#

圖註:編輯真實圖像

##這項研究已經證明了模型搜尋的可行性,而文字、音訊或其他內容生成的模型搜尋還有很大的研究空間。

但目前來看,這項工作所提出的方法還有一定的限制。例如,在查詢特定的草圖時,有時會匹配出抽象形狀的模型;而有時進行多模態查詢時,只能檢索到單一的模型,系統可能會很難處理像一隻狗的圖像「大象」這樣的多模態查詢。 (如下圖)

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

圖註:失敗案例

另外,在其模型搜尋平台上,對檢索出的模型清單並未根據其效果進行自動排序,如在生成影像的解析度、逼真度、匹配度等方面對不同模型進行評估並給出排名,這樣可更便於使用者檢索,也能幫助使用者更了解目前生成模型的優劣情況,並期待這方面的後續工作。

以上是CMU朱俊彥團隊研發出一款自動匹配排名系統,用於評估各種AI生成模型的優劣的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板