文字圖片編輯新範式,單一模型實現多文本引導圖像編輯
論文簡單概述
利用文字編輯圖像的相關研究非常火熱,最近許多研究都基於去噪擴散模型來提升效果而少有學者繼續關注GAN 的相關研究。本文基於經典的 StyleGAN 和 CLIP 並提出語義調製模組,從而對不同的文本僅需要單個模型就可以進行文本 - 圖像編輯。
本文首先利用已有的編碼器將需要編輯的圖像轉換到StyleGAN 的W^ 語意空間中的潛在編碼w,再透過提出的語意調變模組對該隱編碼進行自適應的調製。此語義調製模組包括語義對齊和語義注入模組,首先透過注意力機制對齊文字編碼和GAN 的隱編碼之間的語義,再將文字訊息注入到對齊後的隱編碼中,從而保證該隱編碼擁有文本資訊從而達到利用文字編輯圖像能力。
不同於經典的StyleCLIP 模型,我們的模型不需要對每個文字單獨訓練一個模型,一個模型就可以響應多個文字從而對圖像做有效的編輯,所以我們的模型成為FFCLIP-Free Form Text-Driven Image Manipulation。同時我們的模型在經典的教堂,人臉以及汽車資料集上都取得了非常好的效果。
- 論文網址:https://arxiv.org/pdf/2210.07883.pdf
- #Github 網址:https://github.com/KumapowerLIU/FFCLIP
背景與啟示
#最近,描述使用者意圖的自由文字提示已被用於編輯StyleGAN 潛在空間以進行影像編輯操作[1,2]。一句話(例如,‘Blue’)或短語(例如,‘Man aged 10’)作為輸入,這些方法透過調製 StyleGAN 潛在空間中的潛在編碼來相應地編輯所描述的圖像屬性。
精確的文字 - 影像編輯依賴 StyleGAN 的視覺語義空間與 CLIP 的文字語義空間之間的精確潛在映射。例如當文字提示是 “驚喜”,我們首先在視覺語義空間中識別其相關的語義子空間(即 “表情”,因為驚喜屬於表情這個屬性)。找到與文本相對應的語意子空間後,文本會告訴我們隱編碼的變化方向,從讓隱編碼從當前的表情變化到驚喜的表情。 TediGAN [1] 和 StyleCLIP [2] 等開創性研究憑經驗預先定義了哪個潛在視覺子空間對應於目標文字提示嵌入(即 TediGAN 中的特定屬性選擇和 StyleCLIP 中的分組映射)。這種經驗辨識限制了給定一個文字提示,他們必須訓練相應的編輯模型。
不同的文字提示需要不同的模型來調製 StyleGAN 的潛在視覺子空間中的潛在程式碼。雖然 StyleCLIP 中的全域方向方法沒有採用這樣的過程,但參數調整和編輯方向是手動預先定義的。為此,我們有理由來探索如何透過顯性的文字自動的找到隱性的視覺語義子空間,從而達到單一模型就可以應對多個文字。
在這篇論文中,我們提出了 FFCLIP-Free Form CLIP,它可以針對不同的文字自動找到相對應視覺子空間。 FFCLIP 由幾個語意調變模組組成,這些語意調變模組把 StyleGAN 潛在空間 W^ 中的潛在編碼 w^ 和文字編碼 e 作為輸入。
語意調變模組由一個語意對齊模組和一個語意注入模組組成。語意對齊模組將文字編碼 e 作為 query,將潛在編碼 w 作為 key 和 Value。然後我們分別在 position 和 channel 維度上計算交叉注意力,從而得到兩個注意力圖。接著我們使用線性變換將當前的視覺空間轉換到與文字對應的子空間,其中線性變換參數(即平移和縮放參數)是基於這兩個注意力圖計算的。透過這種對齊方式,我們可以自動的為每個文字找到相應的視覺子空間。最後,語意注入模組 [3] 透過之後的另一個線性變換修改子空間中的潛在程式碼。
從 FFCLIP 的角度來看,[1, 2] 中子空間經驗選擇是我們在語意對齊模組中線性變換的特殊形式。他們的群組選擇操作類似於我們的縮放參數的二進位值,以指示 w 的每個位置維度的用法。另一方面,我們觀察到 W^ 空間的語義仍然存在糾纏的現象,經驗設計無法找到 StyleGAN 的潛在空間和 CLIP 的文本語義空間之間的精確映射。相反,我們的語義對齊模組中的縮放參數自適應地修改潛在程式碼 w 以映射不同的文字提示嵌入。然後透過我們的平移參數進一步改進對齊方式。我們在基準資料集上評估我們的方法,並將 FFCLIP 與最先進的方法進行比較。結果表明,FFCLIP 在傳達使用者意圖的同時能夠產生更合理的內容。
FFCLIP
圖 1 所展示的就是我們的整體框架。 FFCLIP 首先透過預先訓練好的GAN inversion 編碼器和文字編碼器得到圖像和文字的潛在編碼,其中圖像的潛在編碼則是先前提到的StyleGAN 視覺語意空間W^ 中的w, 而文字編碼則是e_t 。我們和 StyleCLIP 一樣採用 e4e GAN inversion 編碼器 [4] 和 CLIP 中的文字編碼器來分別得到對應的潛在編碼。接著我們將 e_t 和 w 作為調製模組的輸入並輸出得到 w 的偏移量∆w,最後將 ∆w 與原始的 w 相加並放入預訓練好的 StyleGAN 中得到相應的結果。
圖1:整體框架圖
下圖二就是我們的語意調變模組。在語意對齊模組中(Semantic Alignment),我們可以清楚地看到我們將∆w 設為Key 和Value 並將e_t 設為Query 來計算兩個注意力圖,這兩個注意力圖的大小分別是18×1以及512×512。接著我們將18×1 的注意力圖當作線性變換中縮放係數S,我們計算該注意力圖的過程如下:
##同時我們將512×512 的注意力圖與Value 相乘以後再經過Pooling 操作得到顯性變換中的平移係數T。我們計算該注意力圖的過程如下:
擁有了平移和縮放係數後,我們就可以透過線性變換為當前文字e_t 找到相對應的視覺子空間,計算步驟如下:
#期中x_i 是我們第i 個語意調變模組的輸出結果。由於∆w 的大小是18×512,所以18×1 和512×512 的注意力圖分別是在∆w 的position 和channel 兩個維度上進行注意力圖的計算,這個操作類似於Dual Attention [5].
圖2:語意調變模組
我們透過以上的操作可以得到與文字對應的視覺子空間,緊接著我們採用類似AdaIN 的方式,將文字訊息注入到這個空間中,從而得到最後的結果,我們稱這個操作為語義注入模組(Semantic Injection)。整個模組的實作步驟如下:
#
最終我們的 FFCLIP 中總共堆疊了 4 個語意調變模組,並最終得到最後的偏移量∆w。
實驗結果
#圖3:視覺對比圖
如圖3 所示,我們與StyleCLIP [1],TediGAN [2] 以及HairCLIP [3] 進行了視覺上的對比:可以看到FFCLIP 能夠更好的反應文本的語義,並且產生更真實的編輯圖像。同時相對應的數值對比結果如下表所示,我們的方法無論是在客觀數值或主觀數值上都能達到最好的效果。
表1:數值比較
同時我們的方法也展現出了非好的魯棒性,FFCLIP 在訓練中並未見過詞的組合而是用單個的單詞進行訓練,但是在測試中能夠很好的針對詞組的語義對圖像進行編輯,視覺效果如圖4 所示。
圖4:詞組編輯
更多的實驗結果和消融實驗請看原文。
總結
###我們在本文中提出了 FFCLIP,一種可以針對不同文字但只需要單一模型就能進行有效圖像編輯的新方法。本文動機是現有方法是根據已有的經驗來匹配當前文本和 GAN 的語義子空間,因此一個編輯模型只能處理一個文本提示。我們透過對齊和注入的語義調製來改進潛在映射。它有利於一個編輯模型來處理多個文字提示。多個資料集的實驗顯示我們的 FFCLIP 有效地產生語義相關和視覺逼真的結果。 ######以上是文字圖片編輯新範式,單一模型實現多文本引導圖像編輯的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP
