多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述-人工智慧-PHP中文網

多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述

PHPz

發布： 2023-04-09 22:31:01

轉載

1188 人瀏覽過

近期 OpenAI 發布的 DALLE-2 和Google發布的 Imagen 等實現了令人驚嘆的文字到圖像的生成效果，引發了廣泛關注並且衍生出了很多有趣的應用。而文字到影像的生成屬於多模態影像合成與編輯領域的典型任務。近日，來自馬普所和南洋理工等機構的研究人員對多模態影像合成與編輯這一大領域的研究現況與未來發展做了詳細的調查與分析。

多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述

#論文網址：https://arxiv.org/pdf/2112.13592 .pdf
計畫網址：https://github.com/fnzhan/MISE

多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述

##在第一章節，該綜述描述了多模態影像合成與編輯任務的意義和整體發展，以及本論文的貢獻與總體結構。

在第二章節，根據引導圖片合成與編輯的資料模態，這篇綜述論文介紹了比較常用的視覺引導（例如語義圖，關鍵點圖，邊緣圖），文字引導，語音引導，場景圖（scene graph）引導和對應模態資料的處理方法以及統一的表示框架。

在第三章節，根據圖像合成與編輯的模型框架，該論文對目前的各種方法進行了分類，包括基於GAN 的方法，自回歸方法，擴散模型方法，和神經輻射場（NeRF）方法。

多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述

由於基於GAN 的方法一般使用條件GAN 和無條件GAN 反演，因此該論文將這一類別進一步分為模態內條件（例如語義圖，邊緣圖），跨模態條件（例如文字和語音），和GAN 反演（統一模態）並進行了詳細描述。

多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述

相比於基於GAN 的方法，自迴歸模型方法能夠更自然的處理多模態數據，以及利用目前流行的Transformer 模型。自迴歸方法一般先學習一個向量量化編碼器將圖片離散地表示為 token 序列，然後自回歸式建模 token 的分佈。由於文字和語音等數據都能表示為 token 並作為自回歸建模的條件，因此各種多模態圖片合成與編輯任務都能統一到一個框架當中。

多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述

#近期，火熱的擴散模型也廣泛應用於多模態合成與編輯任務。例如效果驚人的 DALLE-2 和 Imagen 都是基於擴散模型實現的。相較於 GAN，擴散式生成模型擁有一些良好的性質，例如靜態的訓練目標和易擴展性。該論文依據條件擴散模型和預訓練擴散模型對現有方法進行了分類與詳細分析。

多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述

多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述 #

以上方法主要聚焦於 2D 影像的多模態合成與編輯。近期隨著神經輻射場（NeRF）的快速發展，3D 感知的多模態合成與編輯也吸引了越來越多的關注。由於需要考慮多視角一致性，3D 感知的多模態合成與編輯是更具挑戰性的任務。本文針對單場景最佳化 NeRF，生成式 NeRF 與 NeRF 反演的三種方法對現有工作進行了分類與總結。

隨後，該綜述對上述四種模型方法的進行了比較和討論。整體而言，相較於 GAN，目前最先進的模型更加偏好自回歸模型和擴散模型。而 NeRF 在多模態合成與編輯任務的應用為這個領域的研究開啟了一扇新的窗戶。

多模態影像合成與編輯這麼火，馬普所、南洋理工等出了份詳細綜述