目錄
圖像編輯新SOTA
首頁 科技週邊 人工智慧 用GPT-3.5生成數據集!北大天工等團隊影像編輯新SOTA,可精準模擬物理世界場景

用GPT-3.5生成數據集!北大天工等團隊影像編輯新SOTA,可精準模擬物理世界場景

Jun 02, 2024 pm 05:18 PM
gpt-3.5 sota SDXL

高品質影像編輯的方法有很多,但都很難準確地表達出真實的物理世界。

那麼,Edit the World試試。

用GPT-3.5生成數據集!北大天工等團隊影像編輯新SOTA,可精準模擬物理世界場景圖片

北京大學、Tiamat AI、天工AI、Mila實驗室提出了EditWorld,他們引入了一種新的編輯任務,即世界指令(world-instructed)圖像編輯。它定義和分類是基於各種世界場景的指令。

用GPT-3.5生成數據集!北大天工等團隊影像編輯新SOTA,可精準模擬物理世界場景圖片

在一組預訓練模型,例如GPT-3.5、Video-LLava 和SDXL的支援下,建立了一個帶有世界指令的多模態資料集。

在該資料集訓練了一個基於擴散的圖像編輯模型EditWorld,結果在其新任務中的表現明顯優於現有的編輯方法,實現了SOTA。

圖像編輯新SOTA

現有的方法透過多種途徑實現高品質的圖像編輯,包括但不限於文字控制、拖曳操作以及inpainting。其中,利用instruction進行編輯的方法由於使用方便受到廣泛的關注。

儘管圖片編輯方法能夠產生高品質的結果,但它們在處理傳達物理世界中真實視覺動態的世界動態方面仍然存在困難。

如圖1所示,無論是InstructPix2pix或MagicBrush都無法產生合理的編輯結果。

用GPT-3.5生成數據集!北大天工等團隊影像編輯新SOTA,可精準模擬物理世界場景圖片

為了解決這個問題,團隊引入了一項新的任務,稱為world-instructed image editing,使影像編輯能夠反映真實物理世界和虛擬媒體中的「世界動態」。

具體來說,他們定義並分類了各種世界動態指令,並基於這些指令創建了一個新的多模態訓練資料集,該資料集包含大量的輸入-指令-輸出三元組。

最後,團隊使用精心製作的資料集訓練了一個文字引導的擴散模型,並提出了一種零樣本圖像操作策略,以實現world-instructed image editing。

根據現實世界以及虛擬媒體中的任務場景,將world-instructed image editing分為7種認為類別,並對每個類別進行了定義與介紹,同時提供了一個資料範例。

用GPT-3.5生成數據集!北大天工等團隊影像編輯新SOTA,可精準模擬物理世界場景圖片

隨後團隊設計了文字到圖片生成以及視訊分鏡提取兩個分支來獲取資料集。

文字產生圖片分支是為了豐富資料場景的豐富性,在該分支下,團隊首先利用GPT生成文字四元組(包括input圖片描述、instruction、output圖片描述以及關鍵字),接著利用input以及output描述產生對應文字的圖片,利用關鍵字對應的attention map對編輯位置進行定位獲取編輯mask,同時為了確保前後兩張圖關鍵特徵的一致性,團隊引入了image prompt adaption的方法IP-Adapter,最後團隊使用IP-Adapter以及ControlNet,結合output image的canny map以及input image的image prompt feature,利用Image Inpainting對output image進行調整,從而獲得比較有效的編輯資料。

用GPT-3.5生成數據集!北大天工等團隊影像編輯新SOTA,可精準模擬物理世界場景圖片

利用文字產生圖片分支得到場景豐富的數據後,為了能向資料集中添加真實數據,團隊從影片中提取高質量的關鍵影格作為編輯資料。具體來說,團隊從視訊分鏡中提取相關性強且結構差異大兩幀作為起始與末尾幀,並切分出一段新的分鏡,利用多模態大模型對這段分鏡的變化進行描述,最後團隊以起始與末尾幀作為input image以及output image,以得到的描述作為instruction,這樣就獲得了所需的編輯資料。

再進一步,團隊利用人工對產生資料進行recheck,進而進一步提升資料品質。

團隊利用資料集對InstructPix2Pix模型進行finetune,同時為了保護非編輯區域實作更精確的編輯,團隊提出了post-edit策略。

用GPT-3.5生成數據集!北大天工等團隊影像編輯新SOTA,可精準模擬物理世界場景圖片

用GPT-3.5生成數據集!北大天工等團隊影像編輯新SOTA,可精準模擬物理世界場景圖片

#最終可以看到,團隊的方法可以很好地實作world- instructed image editing。

論文連結:
https://www.php.cn/link/154d7da9e669c75ee317d46614381dd8
#程式碼連結:
https://www.php .cn/link/e6da32eef072f987685b6eddca072d4f

以上是用GPT-3.5生成數據集!北大天工等團隊影像編輯新SOTA,可精準模擬物理世界場景的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前 By 尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

線上地圖還能這樣? MapTracker:用追蹤實現線上地圖新SOTA! 線上地圖還能這樣? MapTracker:用追蹤實現線上地圖新SOTA! Apr 25, 2024 pm 05:01 PM

線上地圖還能這樣? MapTracker:用追蹤實現線上地圖新SOTA!

CMU進行詳細比較研究,發現GPT-3.5比Gemini Pro更優,確保公平透明可重複性 CMU進行詳細比較研究,發現GPT-3.5比Gemini Pro更優,確保公平透明可重複性 Dec 21, 2023 am 08:13 AM

CMU進行詳細比較研究,發現GPT-3.5比Gemini Pro更優,確保公平透明可重複性

MIT最新力作:以GPT-3.5解決時間序列異常檢測問題 MIT最新力作:以GPT-3.5解決時間序列異常檢測問題 Jun 08, 2024 pm 06:09 PM

MIT最新力作:以GPT-3.5解決時間序列異常檢測問題

一文看盡SOTA生成式模型:九大類別21個模型全回顧! 一文看盡SOTA生成式模型:九大類別21個模型全回顧! May 02, 2023 pm 03:43 PM

一文看盡SOTA生成式模型:九大類別21個模型全回顧!

OpenAI 已全面開放 GPT-3.5 Turbo、DALL-E 及 Whisper API OpenAI 已全面開放 GPT-3.5 Turbo、DALL-E 及 Whisper API Jul 15, 2023 am 10:57 AM

OpenAI 已全面開放 GPT-3.5 Turbo、DALL-E 及 Whisper API

Claude 3反超GPT-4競技場登頂!小杯Haiku成開發者新寵:性價比無敵 Claude 3反超GPT-4競技場登頂!小杯Haiku成開發者新寵:性價比無敵 Mar 28, 2024 pm 02:58 PM

Claude 3反超GPT-4競技場登頂!小杯Haiku成開發者新寵:性價比無敵

AI能證明數學資料庫中82%的問題了,新SOTA已達成,還是基於Transformer AI能證明數學資料庫中82%的問題了,新SOTA已達成,還是基於Transformer Apr 10, 2023 am 08:51 AM

AI能證明數學資料庫中82%的問題了,新SOTA已達成,還是基於Transformer

選擇GPT-3.5、還是喬丹Llama 2等開源模型?綜合比較後答案有了 選擇GPT-3.5、還是喬丹Llama 2等開源模型?綜合比較後答案有了 Oct 16, 2023 pm 06:45 PM

選擇GPT-3.5、還是喬丹Llama 2等開源模型?綜合比較後答案有了

See all articles