首頁 科技週邊 人工智慧 300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

Jun 29, 2024 am 06:14 AM
工程

300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

該文章的第一作者帥欣成,目前在復旦大學FVL實驗室攻讀博士學位,畢業於上海交通大學。他的主要研究方向包括影像和影片編輯以及多模態學習。

前言

本文提出了解決一般性編輯任務的統一框架!近期,復旦大學 FVL 實驗室和南洋理工大學的研究人員對於多模態引導的基於文生圖大模型的影像編輯演算法進行了總結和回顧。綜述涵蓋 300 多篇相關研究,研究的最新模型截止至今年 6 月!此綜述拓展了關於控制條件(自然語言,影像,使用者介面)和編輯任務的討論(物件/ 屬性操作、空間變換、inpainting、風格轉換、影像翻譯,主體/ 屬性客製化),以從更新穎和更一般性的角度全面的探討編輯方法。此外,本綜述提出的統一框架將編輯過程表示為不同演算法族的組合,並透過全面的定性和定量實驗來說明各種組合的特性以及適應場景。該框架提供了友善的設計空間以滿足用戶不同的需求,並為研究者提供了一定的參考以開發新的演算法。

摘要

影像編輯旨在根據使用者的特定需求編輯給定的合成影像或真實影像。作為人工智慧生成內容(AIGC)領域中一個有前景且具有挑戰性的領域,影像編輯得到了廣泛研究。近期,大規模文生圖(T2I)擴散模型驅動了影像編輯技術的發展。這些模型根據文字提示生成圖像,展示了驚人的生成能力,已成為圖像編輯的常用工具。基於 T2I 的影像編輯方法顯著提升了編輯效能,為使用者提供了使用多模態條件引導進行內容修改的介面。我們對基於 T2I 擴散模型的多模態引導下的影像編輯技術進行了全面回顧。首先,我們從更一般性的角度定義了影像編輯任務的範圍,並詳細描述了各種控制訊號和編輯場景。然後,我們提出了一個統一框架來形式化編輯過程,將其表示為兩個演算法族的組合。這個框架為使用者提供了一個設計空間,以實現特定目標。接著,我們對該框架內的每個組件進行了深入分析,研究了不同組合的特性和適用場景。由於基於訓練的方法直接學習將來源影像映射到目標影像,我們對這些方法進行了單獨討論,並介紹了不同場景下來源影像的注入方案。此外,我們也回顧了 2D 技術在影片編輯中的應用,重點介紹了解決幀間不一致性的問題。最後,我們也討論了該領域的開放性挑戰,並提出了潛在的未來研究方向。

300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

  • 論文題目:A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models
  • 發表單位:復旦大學FVL 實驗室,南洋理工大學
  • 發表單位:復旦大學FVL 實驗室,南洋理工大學
  • 發表單位:復旦大學FVL 實驗室,南洋理工大學
  • .org/abs/2406.14555
專案地址:https://github.com/xinchengshuai/Awesome-Image-Editing
1研究動機

1.1,在現實生活中,人們對於可控的、高品質的智慧化影像編輯工具的需求日益增加,因此有必要係統地總結與對比這個方向的方法與技術特點。
1.2,目前的編輯演算法與相關的綜述都將編輯場景局限於保留影像中的大部分與編輯無關的低階語義訊息,為此需要擴展編輯任務的範圍,從更具有一般性的視角討論編輯任務。
1.3,由於需求和場景具有多樣性,有必要將編輯過程形式化為一個統一框架,並為使用者提供一個設計空間來適應不同的編輯目標。
2.綜述亮點,與目前編輯綜述有何不同?

2.1 關於編輯任務的定義與討論範圍。相較於現有的演算法以及先前的編輯綜述,本文對於影像編輯任務的定義更加廣泛。具體的,本文將編輯任務分為 content-aware 和 content-free 場景群組。其中 content-aware 組內的場景為先前的文獻所討論的主要任務,它們的共通性是保留圖像中的一些低階語義特徵,如編輯無關區域的像素內容,或圖像結構。此外,我們開創性地將客製化任務(customization)納入到content-free 場景組中,將這一類保留高級語義(如主體身份信息,或者其他細粒度屬性)的任務作為對常規的編輯場景的補充。 300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

                               性編輯演算法的統一框架。由於編輯場景的多樣性,現有的演算法無法很好的解決所有的需求。因此我們將現有的編輯過程形式化為一個統一的框架,將其表示為兩個演算法族的組合。此外我們也透過定性和定量實驗分析了不同組合的特性與適應場景,為使用者提供了一個良好的設計空間以適應不同的編輯目標。同時,該框架也為研究者提供了一個較好的參考,以設計出表現更優的演算法。

2.3 討論的全面性。我們研究了 300 多篇的相關論文,系統性且全面地闡述了各種模態的控制訊號在不同情境下的應用。對於基於訓練的編輯方法,本文也提供了在各種場景下將來源影像注入 T2I 模型的策略。此外,我們也探討了影像編輯技術在影片領域的應用,使得讀者能夠快速的理解不同領域間編輯演算法的連結。

3.一般性編輯演算法的統一框架

                            圖 2. 一般編輯演算法的統一架構
ion 進行演算法
, Ed
300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文3.1 Inversion 演算法。 Inversion 演算法
將來源影像集合
編碼到特定的特徵或參數空間,得到對應的表徵
(inversion clue),並以對應的來源文字描述
作為來源影像的識別碼。包括 tuning-based
和 forward-based300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文兩種類型的 inversion 演算法。其可以形式化為:300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文Tuning-based inversion300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文透過原有的 diffusion 訓練過程將來源影像集合植入擴散模型的生成分佈中。形式化過程為:300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文其中

為引入的可學習的參數,且

300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文Forward-based inversion
用於在擴散模型的反向過程中(
)還原某一條前向路徑中的噪音(
)。形式化過程為:
300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文
其中300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文為方法中引入的參數,用於最小化300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文,其中,300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

3.2.Editing 演算法。 Editing 演算法300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文根據300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文和多模態引導集合300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文來產生最終的編輯結果300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文。包含 attention-based300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文,blending-based300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文,score-based300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文以及 optimization-based300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文的 editing 演算法。其可以被形式化為:

300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

特別地,對於每一步的反向過程,300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文進行瞭如下操作:

300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

其中300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文中的操作表示編輯演算法對於擴散模型的取樣,用於確保編輯後的影像300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文與來源影像集合300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文的一致性,並反應出300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文中引導條件所指明的視覺變換。 300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

特別地,我們將無幹預的編輯過程視作為普通版本的編輯演算法
。其形式化為:300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

Attention-based editing300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文的形式化過程:

300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

Blending-based editing300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文的形式化過程:

300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文🎎 based editing

的形式化過程:
300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文3.3 Training-Based 的編輯方法。與 training-free 的方法不同的是,training-based 演算法透過在任務特定的資料集中直接學習來源影像集合到編輯影像的映射。這一類演算法可以看作是 tuning-based inversion 的擴展,即透過額外引入的參數將來源影像編碼到生成分佈中。在這類演算法中,最重要的是如何將來源影像注入 T2I 模型中,以下是針對不同編輯場景的注入方案。

300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

Content-aware 任務的注入方案:300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文


         

300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

Content-free 任務的注入方案:

                                圖3. Content-free 任務的注入方案
統一架構在多模態編輯任務中的應用

300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

本文透過定性實驗說明了各個組合在多模態編輯任務中的應用:
   圖4. 關於attention-based editing

的演算法組合的應用

                 

300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

的演算法組合的應用300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文
                               圖6.score-based editing300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

                              圖 7.中關於optimization-based editing300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

詳細分析請查閱原始論文。 300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文

5.不同組合在文字引導編輯場景下的比較

對於常見的文本引導的編輯任務,本文透過設計了多個具有挑戰性的定性實驗,以說明不同組合所適合的編輯場景。此外,本文也相應地收集了高品質和具有一定難度的資料集,以定量地說明各種組合中的先進演算法在不同場景下的表現。
對於 content-aware 任務,我們主要考慮物件操作(增 / 刪除 / 替換),屬性改變,風格遷移。特別地,我們考慮了具有挑戰性的實驗設定:1. 多目標編輯。 2. 對於影像的語意佈局影響較大的用例。我們也收集了這些複雜場景的高品質圖片,並對不同組合中的先進演算法進行全面定量比較。

                               圖 8.Contum          一樣使用

300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文結果分析以及更多實驗結果請查閱原始論文。

對於 content-free 任務,我們主要考慮基於主體驅動的(subject-driven)客製化任務。並考慮了多種場景,如更換背景,與物體交互,行為改變,以及風格改變。我們也定義了大量的文字引導模板,並對各個方法的整體表現進行定量分析。

                                  結果分析以及更多實驗結果請查閱原始論文。 300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文
6.未來可以研究的方向

此外本文也給了一些關於未來研究方向的分析。這裡以 content-aware 任務和 content-free 任務的挑戰為例。

6.1. Content-aware 任務的挑戰。對於 content-aware 編輯任務的挑戰,現有方法無法同時處理多種編輯場景和控制訊號。這項限制迫使應用在不同任務之間切換合適的後端演算法。此外,一些高級方法在易用性方面不友善。某些方法需要使用者調整關鍵參數以獲得最佳結果,而其他方法則需要繁瑣的輸入,例如來源和目標提示,或輔助遮罩。

6.2.Content-free 任務的挑戰。對於 content-free 編輯任務,現有方法在測試時調優過程冗長且存在過擬合問題 。一些研究旨在透過優化少量參數或從頭開始訓練模型來緩解這個問題。然而,它們常常會失去個性化主體的細節,或表現出較差的泛化能力。此外,目前方法在從少量圖像中提取抽象概念方面也有所不足,它們無法完全將所需概念與其他視覺元素分開。

了解更多研究方向內容可以查閱原始論文。

以上是300多篇相關研究,復旦、南洋理工最新多模態影像編輯綜述論文的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1677
14
CakePHP 教程
1431
52
Laravel 教程
1334
25
PHP教程
1280
29
C# 教程
1257
24
ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

LLM用於時序預測真的不行,連推理能力都沒用到 LLM用於時序預測真的不行,連推理能力都沒用到 Jul 15, 2024 pm 03:59 PM

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

See all articles