GPT-3、Stable Diffusion一起助攻，讓模型聽懂甲方修圖需求-人工智慧-PHP中文網

擴散模型大火之後，許多人將注意力放到如何利用更有效的 prompt 來產生自己想要的影像。在對於一些AI 作畫模型的不斷嘗試中，人們甚至總結出了讓AI 好好出圖的關鍵字經驗：

GPT-3、Stable Diffusion一起助攻，讓模型聽懂甲方修圖需求

也就是說，如果掌握了正確的AI 話術，作圖質量提升效果將非常明顯（參見：《#“羊駝打籃球”怎麼畫？有人花了13 美元逼DALL· E 2 亮出真本事# 》）。

此外，還有一部分研究者在往另一個方向努力：如何動動嘴皮就把一幅畫改成我們想要的樣子。

前段時間，我們報道了一項來自Google研究院等機構的研究# 。只要說出你想讓一幅圖變成什麼樣子，它就能基本滿足你的要求，產生照片級的圖像，例如讓一隻小狗坐下：

GPT-3、Stable Diffusion一起助攻，讓模型聽懂甲方修圖需求

這裡給模型的輸入描述是「一隻坐下的狗」，但是按照人們的日常交流習慣，最自然的描述應該是「讓這隻狗坐下」。有研究者認為這是一個應該優化的問題，模型應該更符合人類的語言習慣。

最近，來自UC 伯克利的研究團隊提出了一種根據人類指令編輯圖像的新方法InstructPix2Pix：給定輸入圖像和告訴模型要做什麼的文本描述，模型就能遵循描述指令來編輯影像。

GPT-3、Stable Diffusion一起助攻，讓模型聽懂甲方修圖需求

#論文網址：https://arxiv.org/pdf/2211.09800.pdf

例如，要把畫中的向日葵換成玫瑰，你只需要直接對模型說「把向日葵換成玫瑰」：

GPT-3、Stable Diffusion一起助攻，讓模型聽懂甲方修圖需求

##################### ###為了獲得訓練數據，研究將兩個大型預訓練模型－語言模型(GPT-3) 和文字到影像生成模型(Stable Diffusion) 結合起來，產生影像編輯範例的大型成對訓練資料集。研究者在這個大型資料集上訓練了新模型 InstructPix2Pix，並在推理時泛化到真實圖像和使用者所寫的指令。 ############InstructPix2Pix 是一個條件擴散模型，給定一個輸入圖像和一個編輯圖像的文字指令，它就能產生編輯後的圖像。此模型直接在前向傳播（forward pass）中執行影像編輯，不需要任何額外的範例影像、輸入/ 輸出影像的完整描述或每個範例的微調，因此該模型僅需幾秒鐘就能快速編輯影像。 ############儘管InstructPix2Pix 完全是在合成範例（即GPT-3 生成的文字描述和Stable Diffusion 生成的圖像）上進行訓練的，但該模型實現了對任意真實圖像和人類編寫文本的零樣本泛化。該模型支援直覺的圖像編輯，包括替換物件、更改圖像風格等等。 ################

方法概覽

研究者將基於指令的圖像編輯視為一個監督學習問題：首先，他們產生了一個包含文字編輯指令和編輯前後圖像的成對訓練資料集（圖2a-c)，然後在這個生成的資料集上訓練了一個影像編輯擴散模型（圖2d）。儘管訓練時使用的是產生的圖像和編輯指令，但模型仍然能夠使用人工編寫的任意指令來編輯真實的圖像。下圖 2 是方法概述。

GPT-3、Stable Diffusion一起助攻，讓模型聽懂甲方修圖需求

產生一個多模態訓練資料集

在數據集生成階段，研究者結合了一個大型語言模型（GPT-3）和一個文字轉圖像模型（Stable Diffusion）的能力，產生了一個包含文字編輯指令和編輯前後對應圖像的多模態訓練資料集。這個過程包含以下步驟：

微調GPT-3 以產生文字編輯內容集合：給定一個描述圖像的prompt，產生一個描述要進行的更改的文本指令和一個描述更改後圖像的prompt（圖2a）；
使用文字轉圖像模型將兩個文字prompt（即編輯之前和編輯之後）轉換為一對對應的圖像（圖2b）。

InstructPix2Pix

研究者使用產生的訓練資料來訓練條件擴散模型，該模型基於Stable Diffusion 模型，可以根據書面指示編輯圖片。

擴散模型學習透過一系列估計資料分佈分數（指向高密度資料的方向）的去噪自編碼器來產生資料樣本。 Latent diffusion 透過在預先訓練的具有編碼器和解碼器的變分自編碼器的潛空間中操作來提高擴散模型的效率和品質。

對於一個影像x，擴散過程會在編碼的latent 中加入噪聲，它產生一個有雜訊的latent z_t，其中雜訊水平隨時間步t∈T 而增加。研究者學習一個網路，它在給定圖像調節 C_I 和文字指令調節 C_T 的情況下，預測添加到帶噪 latent z_t 中的雜訊。研究者將以下latent 擴散目標最小化：

GPT-3、Stable Diffusion一起助攻，讓模型聽懂甲方修圖需求

先前，曾有研究（Wang et al.）表明，對於圖像翻譯（image translation ）任務，尤其是在成對訓練資料有限的情況下，微調大型影像擴散模型優於從頭訓練。因此在新研究中，作者使用預先訓練的 Stable Diffusion checkpoint 初始化模型的權重，利用其強大的文字到影像生成能力。

為了支援影像調節，研究人員在第一個卷積層中新增額外的輸入通道，連接 z_t 和 GPT-3、Stable Diffusion一起助攻，讓模型聽懂甲方修圖需求。擴散模型的所有可用權重都從預先訓練的 checkpoint 初始化，同時在新新增的輸入通道上運行的權重被初始化為零。作者在這裡重複使用最初用於 caption 的相同的文字調節機制，而沒有將文字編輯指令 c_T 作為輸入。

實驗結果

在下面這些圖中，作者展示了他們新模型的圖像編輯結果。這些結果針對一組不同的真實照片和藝術品。新模型成功地執行了許多具有挑戰性的編輯，包括替換物件、改變季節和天氣、替換背景、修改材料屬性、轉換藝術媒介等等。

GPT-3、Stable Diffusion一起助攻，讓模型聽懂甲方修圖需求

#研究人員將新方法與最近的一些技術，如SDEdit、Text2Live 等進行了比較。新模型遵循編輯影像的說明，而其他方法（包括基準方法）則需要對影像或編輯圖層進行描述。因此在比較時，作者對後者提供「編輯後」的文本標註代替編輯說明。作者也把新方法和 SDEdit 進行定量比較，使用兩個衡量影像一致性和編輯品質的指標。最後，作者展示了產生訓練資料的大小和品質如何影響模型表現的消融結果。

GPT-3、Stable Diffusion一起助攻，讓模型聽懂甲方修圖需求