首頁 科技週邊 人工智慧 「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

Sep 12, 2023 pm 04:05 PM
理論 影像合成 圖像編輯

在常見的影像編輯操作中,影像合成是指將一張圖片的前景物件與另一張背景圖片結合,產生一張合成圖的過程。合成後的圖像在視覺效果上類似於將前景物體從一張圖片傳送到另一張背景圖片上,如下圖所示

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

圖像合成在藝術創作、海報設計、電子商務、虛擬實境、資料增廣等領域被廣泛使用

透過簡單的剪貼所得到的合成圖可能會存在許多問題。在先前的研究工作中,影像合成衍生出不同的子任務,分別解決不同的子問題。舉例來說,影像混合旨在解決前景和背景之間不自然的邊界。影像和諧化旨在調整前景的光照使其與背景和諧。視角調整旨在調整前景的姿態,使其與背景相符。物體放置旨在為前景物體預測合適的位置、大小、透視角度。陰影生成旨在為前景物體在背景上產生合理的陰影

根據下圖所示,先前的研究工作以串行或並行的方式執行上述子任務,以獲得逼真自然的合成圖像。在串列框架中,我們可以根據實際需求有選擇性地執行部分子任務

在平行框架下,目前流行的方法是使用擴散模型。它接受一張帶有前景邊界框的背景圖片和一張前景物體圖片作為輸入,直接生成最終的合成圖像。這樣可以使得前景物體與背景圖片無縫融合,光照和陰影效果合理,姿態與背景相適應

這個平行框架相當於同時執行多個子任務,無法有選擇性地執行部分子任務,不具有可控性,可能會對前景物體的姿態或顏色帶來不必要或不合理的改變

需要重寫的是:

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」
# #為了增強平行框架的可控性並有選擇性地執行部分子任務,我們提出了可控影像合成模型Controllable Image Composition (ControlCom)。如下圖所示,我們使用一個指示向量作為擴散模型的條件訊息,以控制合成圖中前景物體的屬性。指示向量是一個二維的二值向量,其中每個維度分別控制是否調整前景物體的光照屬性和姿態屬性,其中1表示調整,0表示保留

具體來說,(0,0 )表示既不改變前景光照,也不改變前景姿態,只是將物體無縫融入背景圖片,相當於影像混合(image blending)。 (1,0)表示只改變前景光照使其與背景和諧,保留前景姿態,相當於影像和諧化(image harmonization)。 (0,1)表示只改變前景姿態使其與背景匹配,保留前景光照,相當於視角調整(view synthesis)。 (1,1)表示同時改變前景的光照和姿態,相當於現在的不可控平行影像合成

我們將四種任務納入同一個框架,透過指示向量實現了四合一物體傳送門的功能,可以將物件傳送到場景中的指定位置。這項工作是由上海交通大學和螞蟻集團合作完成的,程式碼和模型即將開源

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」
請點擊以下連結查看論文:https://arxiv.org/ abs/2308.10040

程式碼模型連結:https://github.com/bcmi/ControlCom-Image-Composition

在下面的圖中,我們展示了可控圖像合成的功能

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」
左邊一列,前景物體的姿態原本就和背景圖片適配,使用者可能希望保留前景物體的姿態。先前的方法 PbE [1]、ObjectStitch [2] 會對前景物體的姿態做出不必要且不可控的改變。我們方法的 (1,0) 版本能夠保留前景物體的姿態,將前景物體無縫融入背景圖片且光照和諧

右側的一列中,前景物體的光照本應與背景光照相同。過去的方法可能會導致前景物體的顏色發生意外的變化,例如車輛和服裝的顏色。我們的方法(版本0.1)能夠保留前景物體的顏色,並同時調整其姿態,使其自然地融入背景圖片中

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

接下來,我們展示更多我們方法四個版本 (0,0),(1,0),(0,1),(1,1) 的結果。可以看出在使用不同指示向量的情況下,我們的方法能夠選擇性地調整前景物體的部分屬性,有效控制合成圖的效果,滿足使用者不同的需求。

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

我們需要重新寫的內容是:能夠實現四種功能的模型結構是什麼樣的呢?我們的方法採用了以下模型結構,模型的輸入包括帶有前景邊界框的背景圖片和前景物體圖片,將前景物體的特徵和指示向量結合到擴散模型中

我們重新提取了前景物體的全局特徵和局部特徵,並先融合全局特徵,再融合局部特徵。在局部融合的過程中,我們使用了對齊的前景特徵圖進行特徵調製,以實現更好的細節保留。同時,在全局融合和局部融合中都使用了指示向量,以更充分地控制前景物體的屬性

我們使用預訓練的穩定擴散演算法,基於OpenImage的190萬張圖片來訓練模型。為了同時訓練四個子任務,我們設計了一套資料處理和增強的流程。有關數據和訓練的詳細信息,請參閱論文

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

我們在COCOEE數據集和自己構建的數據集上進行了測試。由於先前的方法只能實現不可控的影像合成,所以我們與(1,1)版本和先前的方法進行了比較。比較結果如下圖所示,PCTNet是一種影像和諧化方法,能夠保留物體的細節,但無法調整前景的姿態,也無法補足全前景物體。其他方法能夠產生相同種類的物體,但在細節保留方面效果較差,例如衣服的款式、杯子的紋理、鳥的羽毛顏色等等

我們的方法相比之下能夠更好地保留前景物體的細節,補全不完整的前景物體,並且調整前景物體的光照、姿勢以及與背景的適配

「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」

這項工作是對可控影像合成的首次嘗試,任務非常困難,仍然存在許多不足之處,模型的表現不夠穩定和穩健。此外,除了光線和姿態之外,前景物體的屬性還可以進一步細化,如何實現更細粒度的可控圖像合成是一個更具挑戰性的任務

為了保持原意不變,需要重寫的內容是:參考文獻

楊,古,張,張,陳,孫,陳,文(2023年)。以範例為基礎的影像編輯與擴散模型。在CVPR中

[2] 宋永忠,張智,林志龍,科恩,S. D.,普萊斯,B. L.,張靜,金素英,阿里亞加,D. G. 2023。 ObjectStitch:生成式物件合成。在CVPR中

以上是「場景控制傳送門:四合一物體傳送,上交&螞蟻出品」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

突破傳統缺陷檢測的界限,\'Defect Spectrum\'首次實現超高精度豐富語意的工業缺陷檢測。 突破傳統缺陷檢測的界限,\'Defect Spectrum\'首次實現超高精度豐富語意的工業缺陷檢測。 Jul 26, 2024 pm 05:38 PM

在現代製造業中,精準的缺陷檢測不僅是確保產品品質的關鍵,更是提升生產效率的核心。然而,現有的缺陷檢測資料集常常缺乏實際應用所需的精確度和語意豐富性,導致模型無法辨識特定的缺陷類別或位置。為了解決這個難題,由香港科技大學廣州和思謀科技組成的頂尖研究團隊,創新地開發了「DefectSpectrum」資料集,為工業缺陷提供了詳盡、語義豐富的大規模標註。如表一所示,相較於其他工業資料集,「DefectSpectrum」資料集提供了最多的缺陷標註(5438張缺陷樣本),最細緻的缺陷分類(125個缺陷類別

英偉達對話模式ChatQA進化到2.0版本,上下文長度提到128K 英偉達對話模式ChatQA進化到2.0版本,上下文長度提到128K Jul 26, 2024 am 08:40 AM

開放LLM社群正是百花齊放、競相爭鳴的時代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現優良的模型。但是,相較於以GPT-4-Turbo為代表的專有大模型,開放模型在許多領域仍有明顯差距。在通用模型之外,也有一些專精關鍵領域的開放模型已被開發出來,例如用於程式設計和數學的DeepSeek-Coder-V2、用於視覺-語言任務的InternVL

數百萬晶體資料訓練,解決晶體學相位問題,深度學習方法PhAI登Science 數百萬晶體資料訓練,解決晶體學相位問題,深度學習方法PhAI登Science Aug 08, 2024 pm 09:22 PM

編輯|KX時至今日,晶體學所測定的結構細節和精度,從簡單的金屬到大型膜蛋白,是任何其他方法都無法比擬的。然而,最大的挑戰——所謂的相位問題,仍然是從實驗確定的振幅中檢索相位資訊。丹麥哥本哈根大學研究人員,開發了一種解決晶體相問題的深度學習方法PhAI,利用數百萬人工晶體結構及其相應的合成衍射數據訓練的深度學習神經網絡,可以產生準確的電子密度圖。研究表明,這種基於深度學習的從頭算結構解決方案方法,可以以僅2埃的分辨率解決相位問題,該分辨率僅相當於原子分辨率可用數據的10%到20%,而傳統的從頭算方

GoogleAI拿下IMO奧數銀牌,數學推理模型AlphaProof面世,強化學習 is so back GoogleAI拿下IMO奧數銀牌,數學推理模型AlphaProof面世,強化學習 is so back Jul 26, 2024 pm 02:40 PM

對AI來說,奧數不再是問題了。本週四,GoogleDeepMind的人工智慧完成了一項壯舉:用AI做出了今年國際數學奧林匹克競賽IMO的真題,並且距拿金牌僅一步之遙。上週剛結束的IMO競賽共有六道賽題,涉及代數、組合學、幾何和數論。谷歌提出的混合AI系統做對了四道,獲得28分,達到了銀牌水準。本月初,UCLA終身教授陶哲軒剛剛宣傳了百萬美元獎金的AI數學奧林匹克競賽(AIMO進步獎),沒想到7月還沒過,AI的做題水平就進步到了這種水平。 IMO上同步做題,做對了最難題IMO是歷史最悠久、規模最大、最負

PRO | 為什麼基於 MoE 的大模型更值得關注? PRO | 為什麼基於 MoE 的大模型更值得關注? Aug 07, 2024 pm 07:08 PM

2023年,幾乎AI的每個領域都在以前所未有的速度進化,同時,AI也不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下,Transformer作為AI大模型主流架構的局面是否會撼動?為何探索基於MoE(專家混合)架構的大模型成為業界新趨勢?大型視覺模型(LVM)能否成為通用視覺的新突破? ……我們從過去的半年發布的2023年本站PRO會員通訊中,挑選了10份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀,助您在新的一年裡為大展宏圖做好準備。本篇解讀來自2023年Week50

為大模型提供全新科學複雜問答基準與評估體系,UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架 為大模型提供全新科學複雜問答基準與評估體系,UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架 Jul 25, 2024 am 06:42 AM

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

Nature觀點,人工智慧在醫學上的測試一片混亂,該怎麼做? Nature觀點,人工智慧在醫學上的測試一片混亂,該怎麼做? Aug 22, 2024 pm 04:37 PM

編輯|ScienceAI基於有限的臨床數據,數百種醫療演算法已被批准。科學家們正在討論由誰來測試這些工具,以及如何最好地進行測試。 DevinSingh在急診室目睹了一名兒科患者因長時間等待救治而心臟驟停,這促使他探索AI在縮短等待時間中的應用。 Singh利用了SickKids急診室的分診數據,與同事們建立了一系列AI模型,用於提供潛在診斷和推薦測試。一項研究表明,這些模型可以加快22.3%的就診速度,將每位需要進行醫學檢查的患者的結果處理速度加快近3小時。然而,人工智慧演算法在研究中的成功只是驗證此

準確率達60.8%,浙大基於Transformer的化學逆合成預測模型,登Nature子刊 準確率達60.8%,浙大基於Transformer的化學逆合成預測模型,登Nature子刊 Aug 06, 2024 pm 07:34 PM

編輯|KX逆合成是藥物發現和有機合成中的關鍵任務,AI越來越多地用於加快這一過程。現有AI方法性能不盡人意,多樣性有限。在實踐中,化學反應通常會引起局部分子變化,反應物和產物之間存在很大重疊。受此啟發,浙江大學侯廷軍團隊提出將單步逆合成預測重新定義為分子串編輯任務,迭代細化目標分子串以產生前驅化合物。並提出了基於編輯的逆合成模型EditRetro,該模型可以實現高品質和多樣化的預測。大量實驗表明,模型在標準基準資料集USPTO-50 K上取得了出色的性能,top-1準確率達到60.8%。

See all articles