AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
該文章的第一作者帥欣成,目前在復旦大學FVL實驗室攻讀博士學位,畢業於上海交通大學。他的主要研究方向包括影像和影片編輯以及多模態學習。
本文提出了解決一般性編輯任務的統一框架!近期,復旦大學 FVL 實驗室和南洋理工大學的研究人員對於多模態引導的基於文生圖大模型的影像編輯演算法進行了總結和回顧。綜述涵蓋 300 多篇相關研究,研究的最新模型截止至今年 6 月!此綜述拓展了關於控制條件(自然語言,影像,使用者介面)和編輯任務的討論(物件/ 屬性操作、空間變換、inpainting、風格轉換、影像翻譯,主體/ 屬性客製化),以從更新穎和更一般性的角度全面的探討編輯方法。此外,本綜述提出的統一框架將編輯過程表示為不同演算法族的組合,並透過全面的定性和定量實驗來說明各種組合的特性以及適應場景。該框架提供了友善的設計空間以滿足用戶不同的需求,並為研究者提供了一定的參考以開發新的演算法。 影像編輯旨在根據使用者的特定需求編輯給定的合成影像或真實影像。作為人工智慧生成內容(AIGC)領域中一個有前景且具有挑戰性的領域,影像編輯得到了廣泛研究。近期,大規模文生圖(T2I)擴散模型驅動了影像編輯技術的發展。這些模型根據文字提示生成圖像,展示了驚人的生成能力,已成為圖像編輯的常用工具。基於 T2I 的影像編輯方法顯著提升了編輯效能,為使用者提供了使用多模態條件引導進行內容修改的介面。我們對基於 T2I 擴散模型的多模態引導下的影像編輯技術進行了全面回顧。首先,我們從更一般性的角度定義了影像編輯任務的範圍,並詳細描述了各種控制訊號和編輯場景。然後,我們提出了一個統一框架來形式化編輯過程,將其表示為兩個演算法族的組合。這個框架為使用者提供了一個設計空間,以實現特定目標。接著,我們對該框架內的每個組件進行了深入分析,研究了不同組合的特性和適用場景。由於基於訓練的方法直接學習將來源影像映射到目標影像,我們對這些方法進行了單獨討論,並介紹了不同場景下來源影像的注入方案。此外,我們也回顧了 2D 技術在影片編輯中的應用,重點介紹了解決幀間不一致性的問題。最後,我們也討論了該領域的開放性挑戰,並提出了潛在的未來研究方向。
- 論文題目:A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models
- 發表單位:復旦大學FVL 實驗室,南洋理工大學
發表單位:復旦大學FVL 實驗室,南洋理工大學
專案地址:https://github.com/xinchengshuai/Awesome-Image-Editing
1研究動機
1.1,在現實生活中,人們對於可控的、高品質的智慧化影像編輯工具的需求日益增加,因此有必要係統地總結與對比這個方向的方法與技術特點。 1.2,目前的編輯演算法與相關的綜述都將編輯場景局限於保留影像中的大部分與編輯無關的低階語義訊息,為此需要擴展編輯任務的範圍,從更具有一般性的視角討論編輯任務。 1.3,由於需求和場景具有多樣性,有必要將編輯過程形式化為一個統一框架,並為使用者提供一個設計空間來適應不同的編輯目標。
2.綜述亮點,與目前編輯綜述有何不同?
2.1 關於編輯任務的定義與討論範圍。相較於現有的演算法以及先前的編輯綜述,本文對於影像編輯任務的定義更加廣泛。具體的,本文將編輯任務分為 content-aware 和 content-free 場景群組。其中 content-aware 組內的場景為先前的文獻所討論的主要任務,它們的共通性是保留圖像中的一些低階語義特徵,如編輯無關區域的像素內容,或圖像結構。此外,我們開創性地將客製化任務(customization)納入到content-free 場景組中,將這一類保留高級語義(如主體身份信息,或者其他細粒度屬性)的任務作為對常規的編輯場景的補充。
性編輯演算法的統一框架。由於編輯場景的多樣性,現有的演算法無法很好的解決所有的需求。因此我們將現有的編輯過程形式化為一個統一的框架,將其表示為兩個演算法族的組合。此外我們也透過定性和定量實驗分析了不同組合的特性與適應場景,為使用者提供了一個良好的設計空間以適應不同的編輯目標。同時,該框架也為研究者提供了一個較好的參考,以設計出表現更優的演算法。 2.3 討論的全面性。我們研究了 300 多篇的相關論文,系統性且全面地闡述了各種模態的控制訊號在不同情境下的應用。對於基於訓練的編輯方法,本文也提供了在各種場景下將來源影像注入 T2I 模型的策略。此外,我們也探討了影像編輯技術在影片領域的應用,使得讀者能夠快速的理解不同領域間編輯演算法的連結。 3.一般性編輯演算法的統一框架
以上是300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文的詳細內容。更多資訊請關注PHP中文網其他相關文章!