只要3個樣本一句話，AI就能客製化照片級影像，Google在玩一個很新的擴散模型-人工智慧-PHP中文網

只要3個樣本一句話，AI就能客製化照片級影像，Google在玩一個很新的擴散模型

WBOY

發布： 2023-04-12 15:46:07

轉載

833 人瀏覽過

近來，文字到圖像模型成為一個熱門的研究方向，無論是自然景觀大片，還是新奇的場景圖像，都可能使用簡單的文字描述自動生成的。

其中，渲染天馬行空的的想像場景是一項具有挑戰性的任務，需要在新的場景中合成特定主題（物體、動物等）的實例，以便它們自然無縫地融入場景。

一些大型文字到圖像模型基於用自然語言編寫的文字提示（prompt）實現了高品質和多樣化的圖像合成。這些模型的主要優點是從大量的圖像 - 文字描述對中學到強大的語義先驗，例如將“dog”這個詞與可以在圖像中以不同姿勢出現的各種狗的實例關聯在一起。

雖然這些模型的合成能力是前所未有的，但它們缺乏模仿給定參考主題的能力，以及在不同場景中合成主題相同、實例不同的新圖像的能力。可見，已有模型的輸出域的表達能力有限。

只要3個樣本一句話，AI就能客製化照片級影像，Google在玩一個很新的擴散模型

為了解決這個問題，來自Google和波士頓大學的研究者提出了一種「個人化」的文本到圖像擴散模型DreamBooth，能夠適應使用者特定的圖像生成需求。

論文網址：https://arxiv.org/pdf/2208.12242.pdf

項目地址：https://github.com/XavierXiao/Dreambooth-Stable-Diffusion

該研究的目標是擴展模型的語言- 視覺字典，使其將新詞彙與使用者想要產生的特定主題綁定。一旦新字典嵌入模型中，它就可以使用這些單字來合成特定主題的新穎逼真的圖像，同時在不同的場景中進行情境化，保留關鍵識別特徵，效果如下圖 1 所示。

只要3個樣本一句話，AI就能客製化照片級影像，Google在玩一個很新的擴散模型

具體來說，該研究將給定主題的圖像植入模型的輸出域，以便可以使用唯一標識符對其進行合成。為此，該研究提出了一種以稀有token 標識符表示給定主題的方法，並微調了一個預訓練的、基於擴散的文本到圖像框架，該框架分兩步運行；從文本生成低分辨率影像，然後應用超解析度（SR）擴散模型。

首先該研究使用包含唯一標識符（帶有主題類名，例如“A [V] dog”）的輸入圖像和文字提示微調低解析度文字到圖像模型。為了防止模型將類別名稱與特定實例過擬合和語義漂移，該研究提出了一種自生的、特定於類別的先驗保存（preservation）損失，它利用嵌入模型中類別的先驗語義，鼓勵模型產生給定主題下同一類別中的不同實例。

第二步，研究使用輸入影像的低解析度和高解析度版本對超解析度元件進行微調。這允許模型對場景主題中小而重要細節保持高保真度。

我們來看看研究提出的具體方法。

方法介紹

給定3-5 張捕獲的圖像，這些圖像沒有文字描述，本文旨在產生具有高細節保真度和由文字提示引導變化的新影像。該研究不對輸入圖像施加任何限制，並且主題圖像可以具有不同的上下文。方法如圖 3 所示。輸出影像可對原始影像進行修改，如主體的位置，變更主體的屬性如顏色、形狀，並可修改主體的姿勢、表情、材質以及其他語意修改。

更具體的說，本文方法將一個主題（例如，一隻特定的狗）和相應類別名稱（例如，狗類別）的一些圖像（通常3 - 5 張圖）作為輸入，並返回一個經過微調/ 個性化的文字到圖像模型，該模型編碼了一個引用主題的唯一識別碼。然後，在推理時，可以在不同的句子中植入唯一標識符來合成不同語境中的主題。

只要3個樣本一句話，AI就能客製化照片級影像，Google在玩一個很新的擴散模型