目錄
Imagic 論文概覽
方法細節
實驗結果
首頁 科技週邊 人工智慧 擋不住了!擴散模型只用文字就能PS照片了

擋不住了!擴散模型只用文字就能PS照片了

Apr 11, 2023 pm 08:01 PM
ai 模型

擋不住了!擴散模型只用文字就能PS照片了

動動嘴皮子就能把圖改好是甲方和乙方的共同願望,但通常只有乙方才知道其中的酸楚。如今,AI 卻向這個高難度問題發起了挑戰。

在一篇10 月17 日上傳到arXiv 的論文中,來自谷歌研究院、以色列理工學院、以色列魏茨曼科學研究所的研究者介紹了一種基於擴散模型的真實影像編輯方法-Imagic,只用文字就能實現真實照片的PS,例如讓一個人豎起大拇指、讓兩隻鸚鵡親吻:

擋不住了!擴散模型只用文字就能PS照片了

「求大神幫忙P 一個讚手勢。」擴散模型:沒問題,包在我身上。

從論文中的圖像可以看出,修改後的圖像仍然非常自然,對需要修改的內容之外的資訊也沒有明顯的破壞。類似的研究還有Google研究院和以色列特拉維夫大學先前合作完成的Prompt-to-Prompt(Imagic 論文中的參考文獻[16]):

擋不住了!擴散模型只用文字就能PS照片了

專案連結(含論文、程式碼):https://prompt-to-prompt.github.io/

因此,有人感慨說,「這個領域變化快到有點誇張了,」以後甲方真的動動嘴就可以想怎麼改就怎麼改了。

Imagic 論文概覽

擋不住了!擴散模型只用文字就能PS照片了

#論文連結:https://arxiv.org /pdf/2210.09276.pdf

#將大幅度的語意編輯應用於真實照片一直是影像處理中有趣的任務。近年來,由於基於深度學習的系統取得了長足的進步,該任務已經引起了研究社區相當大的興趣。

用簡單的自然語言文字 prompt 來描述我們想要的編輯(例如讓一隻狗坐下)與人類之間的交流方式高度一致。因此,研究者們開發了許多基於文字的圖像編輯方法,而且這些方法效果也都不錯。

然而,目前的主流方法都或多或少存在一些問題,例如:

1、僅限於一組特定的編輯,如在圖像上作畫、添加物件或遷移風格[6, 28];

2、只能對特定領域的圖像或合成的圖像進行操作[16, 36 ];

3、除了輸入圖像外,它們還需要輔助輸入,例如指示所需編輯位置的圖像mask、同一主題的多個圖像或描述原始圖像的文字[ 6, 13, 40, 44]。

本文提出了一種語意圖像編輯方法「Imagic」以緩解上述問題。只需給定一個待編輯的輸入圖像和一個描述目標編輯的單一文字 prompt,該方法就可以對真實的高解析度圖像進行複雜的非剛性編輯。所產生的影像輸出能夠與目標文字很好地對齊,同時保留了原始影像的整體背景、結構和組成。

如圖 1 所示,Imagic 可以讓兩隻鸚鵡接吻或讓一個人豎起大拇指。它提供的基於文字的語義編輯首次將如此複雜的操作應用於單一真實的高解析度圖像,包括編輯多個物件。除了這些複雜的變化之外,Imagic 還可以進行各種各樣的編輯,包括風格變化、顏色變化和物件添加。

擋不住了!擴散模型只用文字就能PS照片了

為了實現這一壯舉,研究者利用了最近成功的文本到圖像的擴散模型。擴散模型是強大的生成模型,能夠進行高品質的影像合成。當以自然語言文字 prompt 為條件時,它能夠產生與要求的文字一致的圖像。在這項工作中,研究者將它們用於編輯真實的圖像而不是合成新的圖像。

如圖 3 所示,Imagic 完成上述任務只需要三步驟:首先優化一個文字嵌入,使其產生與輸入圖像相似的圖像。然後,對預訓練的生成擴散模型進行微調,以優化嵌入為條件,更好地重建輸入影像。最後,在目標文字嵌入和最佳化後的嵌入之間進行線性插值,從而得到一個結合了輸入影像和目標文字的表徵。然後,這個表徵被傳遞給帶有微調模型的生成擴散過程,輸出最終編輯的圖像。

為了證明Imagic 的實力,研究者進行了幾個實驗,將該方法應用於不同領域的眾多圖像,並在所有的實驗中都產生了令人印象深刻的結果。 Imagic 輸出的高品質影像與輸入的影像高度相似,並與所需的目標文字保持一致。這些結果展示了 Imagic 的通用性、多功能性和品質。研究者也進行了消融研究,強調了本文所提出的方法中每個組件的效果。與最近的一系列方法相比,Imagic 表現出明顯更好的編輯品質和對原始影像的忠實度,特別是在承擔高度複雜的非剛性編輯任務時。

方法細節

給定一個輸入圖像x 和一個目標文本,本文旨在以滿足給定文本的方式編輯圖像,同時還能保留圖像x的大量細節。為了實現這一目標,本文利用擴散模型的文本嵌入層來執行語意操作,這種方式有點類似於基於 GAN 的方法。研究人員從尋找有意義的表示開始,然後經過生成過程,產生與輸入影像相似的影像。之後再對生成模型進行最佳化,以便更好地重建輸入影像,最後一步是對潛在表示進行處理,得到編輯結果。

如上圖3 所示,本文的方法由三個階段構成:(1)優化文字嵌入以在目標文字嵌入附近找到與給定圖像最匹配的文字嵌入; (2)微調擴散模型以更好地匹配給定圖像;(3)在優化後的嵌入和目標文字嵌入之間進行線性插值,以找到一個既能達到圖像保真度又能達到目標文字對齊的點。

更具體的細節如下:

#文字嵌入最佳化

#首先目標文字被輸入到文字編碼器,該編碼器輸出對應的文字嵌入擋不住了!擴散模型只用文字就能PS照片了,其中T 是給定目標文字的token 數,d 是token 嵌入維數。然後,研究者對產生擴散模型 f_θ的參數進行凍結,並利用去噪擴散目標(denoising diffusion objective)優化目標文本嵌入 e_tgt

擋不住了!擴散模型只用文字就能PS照片了

其中,x 是輸入影像,擋不住了!擴散模型只用文字就能PS照片了是 x 的一個雜訊版本,θ為預訓練擴散模型權值。這樣使得文字嵌入盡可能地匹配輸入圖像。此流程運行步驟相對較少,從而保持接近最初的目標文字嵌入,獲得最佳化嵌入 e_opt。

模型微調

這裡要注意的是,此處所獲得的最佳化嵌入e_opt 在透過生成擴散製程時,不一定會完全與輸入影像x 相似,因為它們只運行了少量的最佳化步驟(請參閱圖5 中的左上圖)。因此,在第二個階段,作者透過使用公式 (2) 中提供的相同損失函數來優化模型參數 θ 來縮小這一差距,同時凍結優化嵌入。

擋不住了!擴散模型只用文字就能PS照片了

文字嵌入插值

#Imagic 的第三個階段是在e_tgt 和e_opt 之間進行簡單的線性內插。對於給定的超參數擋不住了!擴散模型只用文字就能PS照片了,得到擋不住了!擴散模型只用文字就能PS照片了然後,作者使用微調模型,以 擋不住了!擴散模型只用文字就能PS照片了為條件,應用基礎生成擴散過程。這會產生一個低解析度的編輯圖像,然後使用微調輔助模型對目標文字進行超解析度處理。這個生成過程輸出最終的高解析度編輯影像擋不住了!擴散模型只用文字就能PS照片了

實驗結果

為了測試效果,研究者將此方法應用於來自不同領域的大量真實圖片,用簡單的文字prompt 來描述不同的編輯類別,如:風格、外觀、顏色、姿勢和構圖。他們從 Unsplash 和 Pixabay 收集了高分辨率的免費使用的圖片,經過優化,用 5 個隨機種子生成每個編輯,並選擇最佳結果。 Imagic 展示了令人印象深刻的結果,它能夠在任何一般的輸入圖像和文字上應用各種編輯類別,如圖 1 和圖 7 所示。

擋不住了!擴散模型只用文字就能PS照片了

圖 2 中是對同一張圖片進行了不同的文字 prompt 實驗,顯示了 Imagic 的多功能性。

擋不住了!擴散模型只用文字就能PS照片了

由於研究者利用的底層生成擴散模型是基於機率的,該方法可以對單一的圖像- 文本對生成不同的結果。圖 4 展示了使用不同的隨機種子進行編輯的多個選項(對每個種子的η稍作調整)。這種隨機性允許使用者在這些不同的選項中進行選擇,因為自然語言的文字 prompt 一般都是模糊和不精確的。

擋不住了!擴散模型只用文字就能PS照片了

研究將Imagic 與目前領先的通用方法進行了比較,這些方法對單一輸入的真實世界圖像進行操作,並根據文字prompt 對其進行編輯。圖 6 展示了 Text2LIVE[7] 和 SDEdit[32] 等不同方法的編輯結果。

可以看出,本文的方法對輸入影像保持了高保真度,同時恰當地進行了所需的編輯。當被賦予複雜的非剛性編輯任務時,例如“讓狗坐下”,本文方法明顯優於以前的技術。 Imagic 是第一個在單一真實世界圖像上應用這種複雜的基於文字的編輯的 demo。

擋不住了!擴散模型只用文字就能PS照片了

以上是擋不住了!擴散模型只用文字就能PS照片了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

WorldCoin(WLD)價格預測2025-2031:到2031年WLD會達到4美元嗎? WorldCoin(WLD)價格預測2025-2031:到2031年WLD會達到4美元嗎? Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制,在加密货币市场中脱颖而出,吸引了众多投资者的目光。WLD凭借其创新技术,特别是结合OpenAI人工智能技术,在众多山寨币中表现突出。但未来几年,数字资产的走势如何呢?让我们一起预测WLD的未来价格。2025年WLD价格预测预计2025年WLD将实现显著增长。市场分析显示,WLD平均价格可能达到1.31美元,最高可能触及1.36美元。然而,在熊市情况下,价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

虛擬幣價格上漲或者下降是為什麼 虛擬幣價格上漲或者下降的原因 虛擬幣價格上漲或者下降是為什麼 虛擬幣價格上漲或者下降的原因 Apr 21, 2025 am 08:57 AM

虛擬幣價格上漲因素包括:1.市場需求增加,2.供應量減少,3.利好消息刺激,4.市場情緒樂觀,5.宏觀經濟環境;下降因素包括:1.市場需求減少,2.供應量增加,3.利空消息打擊,4.市場情緒悲觀,5.宏觀經濟環境。

跨鏈交易什麼意思?跨鏈交易所有哪些? 跨鏈交易什麼意思?跨鏈交易所有哪些? Apr 21, 2025 pm 11:39 PM

支持跨鏈交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,這些平台通過各種技術支持多鏈資產交易。

Aavenomics是修改AAVE協議令牌並介紹令牌回購的建議,已達到法定人數 Aavenomics是修改AAVE協議令牌並介紹令牌回購的建議,已達到法定人數 Apr 21, 2025 pm 06:24 PM

Aavenomics是修改AAVE協議令牌並引入令牌回購的提議,已為AAVEDAO實現了一個法定人數。 AAVE連鎖計劃(ACI)創始人馬克·澤勒(MarcZeller)在X上宣布了這一點,並指出它標誌著該協議的新時代。 AAVE連鎖倡議(ACI)創始人MarcZeller在X上宣布,Aavenomics提案包括修改AAVE協議令牌和引入令牌回購,已為AAVEDAO實現了法定人數。根據Zeller的說法,這標誌著該協議的新時代。 AaveDao成員以壓倒性的投票支持該提議,即在周三以每週100

如何在幣安拿下 KERNEL 空投獎勵 全流程攻略 如何在幣安拿下 KERNEL 空投獎勵 全流程攻略 Apr 21, 2025 pm 01:03 PM

在加密貨幣的繁華世界裡,新機遇總是不斷湧現。當下,KernelDAO (KERNEL) 空投活動正備受矚目,吸引著眾多投資者的目光。那麼,這個項目究竟是什麼來頭? BNB Holder 又能從中獲得怎樣的好處?別急,下面將為你一一揭曉。

比特幣成品結構分析圖是啥?怎麼畫? 比特幣成品結構分析圖是啥?怎麼畫? Apr 21, 2025 pm 07:42 PM

繪製比特幣結構分析圖的步驟包括:1. 確定繪圖目的與受眾,2. 選擇合適的工具,3. 設計框架並填充核心組件,4. 參考現有模板。完整的步驟確保圖表準確且易於理解。

混合型區塊鏈交易平台有哪些 混合型區塊鏈交易平台有哪些 Apr 21, 2025 pm 11:36 PM

選擇加密貨幣交易所的建議:1. 流動性需求,優先選擇幣安、Gate.io或OKX,因其訂單深度與抗波動能力強。 2. 合規與安全,Coinbase、Kraken、Gemini具備嚴格監管背書。 3. 創新功能,KuCoin的軟質押和Bybit的衍生品設計適合進階用戶。

幣圈槓桿交易所排名 幣圈十大槓桿交易所APP最新推薦 幣圈槓桿交易所排名 幣圈十大槓桿交易所APP最新推薦 Apr 21, 2025 pm 11:24 PM

2025年在槓桿交易、安全性和用戶體驗方面表現突出的平台有:1. OKX,適合高頻交易者,提供最高100倍槓桿;2. Binance,適用於全球多幣種交易者,提供125倍高槓桿;3. Gate.io,適合衍生品專業玩家,提供100倍槓桿;4. Bitget,適用於新手及社交化交易者,提供最高100倍槓桿;5. Kraken,適合穩健型投資者,提供5倍槓桿;6. Bybit,適用於山寨幣探索者,提供20倍槓桿;7. KuCoin,適合低成本交易者,提供10倍槓桿;8. Bitfinex,適合資深玩

See all articles