目錄
圖像編輯新SOTA
首頁 科技週邊 人工智慧 用GPT-3.5生成數據集!北大天工等團隊影像編輯新SOTA,可精準模擬物理世界場景

用GPT-3.5生成數據集!北大天工等團隊影像編輯新SOTA,可精準模擬物理世界場景

Jun 02, 2024 pm 05:18 PM
gpt-3.5 sota SDXL

高品質影像編輯的方法有很多,但都很難準確地表達出真實的物理世界。

那麼,Edit the World試試。

用GPT-3.5生成數據集!北大天工等團隊影像編輯新SOTA,可精準模擬物理世界場景圖片

北京大學、Tiamat AI、天工AI、Mila實驗室提出了EditWorld,他們引入了一種新的編輯任務,即世界指令(world-instructed)圖像編輯。它定義和分類是基於各種世界場景的指令。

用GPT-3.5生成數據集!北大天工等團隊影像編輯新SOTA,可精準模擬物理世界場景圖片

在一組預訓練模型,例如GPT-3.5、Video-LLava 和SDXL的支援下,建立了一個帶有世界指令的多模態資料集。

在該資料集訓練了一個基於擴散的圖像編輯模型EditWorld,結果在其新任務中的表現明顯優於現有的編輯方法,實現了SOTA。

圖像編輯新SOTA

現有的方法透過多種途徑實現高品質的圖像編輯,包括但不限於文字控制、拖曳操作以及inpainting。其中,利用instruction進行編輯的方法由於使用方便受到廣泛的關注。

儘管圖片編輯方法能夠產生高品質的結果,但它們在處理傳達物理世界中真實視覺動態的世界動態方面仍然存在困難。

如圖1所示,無論是InstructPix2pix或MagicBrush都無法產生合理的編輯結果。

用GPT-3.5生成數據集!北大天工等團隊影像編輯新SOTA,可精準模擬物理世界場景圖片

為了解決這個問題,團隊引入了一項新的任務,稱為world-instructed image editing,使影像編輯能夠反映真實物理世界和虛擬媒體中的「世界動態」。

具體來說,他們定義並分類了各種世界動態指令,並基於這些指令創建了一個新的多模態訓練資料集,該資料集包含大量的輸入-指令-輸出三元組。

最後,團隊使用精心製作的資料集訓練了一個文字引導的擴散模型,並提出了一種零樣本圖像操作策略,以實現world-instructed image editing。

根據現實世界以及虛擬媒體中的任務場景,將world-instructed image editing分為7種認為類別,並對每個類別進行了定義與介紹,同時提供了一個資料範例。

用GPT-3.5生成數據集!北大天工等團隊影像編輯新SOTA,可精準模擬物理世界場景圖片

隨後團隊設計了文字到圖片生成以及視訊分鏡提取兩個分支來獲取資料集。

文字產生圖片分支是為了豐富資料場景的豐富性,在該分支下,團隊首先利用GPT生成文字四元組(包括input圖片描述、instruction、output圖片描述以及關鍵字),接著利用input以及output描述產生對應文字的圖片,利用關鍵字對應的attention map對編輯位置進行定位獲取編輯mask,同時為了確保前後兩張圖關鍵特徵的一致性,團隊引入了image prompt adaption的方法IP-Adapter,最後團隊使用IP-Adapter以及ControlNet,結合output image的canny map以及input image的image prompt feature,利用Image Inpainting對output image進行調整,從而獲得比較有效的編輯資料。

用GPT-3.5生成數據集!北大天工等團隊影像編輯新SOTA,可精準模擬物理世界場景圖片

利用文字產生圖片分支得到場景豐富的數據後,為了能向資料集中添加真實數據,團隊從影片中提取高質量的關鍵影格作為編輯資料。具體來說,團隊從視訊分鏡中提取相關性強且結構差異大兩幀作為起始與末尾幀,並切分出一段新的分鏡,利用多模態大模型對這段分鏡的變化進行描述,最後團隊以起始與末尾幀作為input image以及output image,以得到的描述作為instruction,這樣就獲得了所需的編輯資料。

再進一步,團隊利用人工對產生資料進行recheck,進而進一步提升資料品質。

團隊利用資料集對InstructPix2Pix模型進行finetune,同時為了保護非編輯區域實作更精確的編輯,團隊提出了post-edit策略。

用GPT-3.5生成數據集!北大天工等團隊影像編輯新SOTA,可精準模擬物理世界場景圖片

用GPT-3.5生成數據集!北大天工等團隊影像編輯新SOTA,可精準模擬物理世界場景圖片

#最終可以看到,團隊的方法可以很好地實作world- instructed image editing。

論文連結:
https://www.php.cn/link/154d7da9e669c75ee317d46614381dd8
#程式碼連結:
https://www.php .cn/link/e6da32eef072f987685b6eddca072d4f

以上是用GPT-3.5生成數據集!北大天工等團隊影像編輯新SOTA,可精準模擬物理世界場景的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1667
14
CakePHP 教程
1426
52
Laravel 教程
1328
25
PHP教程
1273
29
C# 教程
1255
24
CMU進行詳細比較研究,發現GPT-3.5比Gemini Pro更優,確保公平透明可重複性 CMU進行詳細比較研究,發現GPT-3.5比Gemini Pro更優,確保公平透明可重複性 Dec 21, 2023 am 08:13 AM

谷歌Gemini的實力究竟如何?卡內基美隆大學進行了一項專業客觀的第三方比較為確保公平,所有模型使用相同的提示和生成參數,並提供可重複的程式碼和完全透明的結果。不會像Google官方發表會那樣,用CoT@32比較5-shot了。一句話結果:GeminiPro版本接近但略遜於GPT-3.5Turbo,GPT-4還是遙遙領先。在深入分析中還發現Gemini一些奇怪特性,例如選擇題喜歡選D…有許多研究者表示,Gemini剛發布沒幾天就進行了非常詳細的測試,這是非常了不起的成就六大任務深入測試這個測試具體比

MIT最新力作:以GPT-3.5解決時間序列異常檢測問題 MIT最新力作:以GPT-3.5解決時間序列異常檢測問題 Jun 08, 2024 pm 06:09 PM

今天要為大家介紹一篇MIT上週發表的文章,使用GPT-3.5-turbo解決時間序列異常檢測問題,初步驗證了LLM在時間序列異常檢測的有效性。整個過程沒有進行finetune,直接使用GPT-3.5-turbo進行異常檢測,文中的核心是如何將時間序列轉換成GPT-3.5-turbo可辨識的輸入,以及如何設計prompt或pipeline讓LLM解決異常檢測任務。下面跟大家詳細介紹一下這篇工作。圖片論文標題:Largelanguagemodelscanbezero-shotanomalydete

線上地圖還能這樣? MapTracker:用追蹤實現線上地圖新SOTA! 線上地圖還能這樣? MapTracker:用追蹤實現線上地圖新SOTA! Apr 25, 2024 pm 05:01 PM

寫在前面&筆者的個人理解該演算法允許在線高精度地圖構建。我們的方法MapTracker將感測器流累積到兩個顯示的記憶體緩衝區:1)鳥瞰圖(BEV)空間中的Rasterlatents和2)道路元素(即行人穿越道、車道線和道路邊界)上的Vectorlatents。此方法借鑒了目標追蹤中的查詢傳播範式,該範式明確地將前一幀的追蹤道路元素與當前幀相關聯,同時融合了與距離步幅的記憶體latents子集,以進開源連結:https: //map-tracker.github.io/總結來說,本文的主要貢獻如下:一種新

一文看盡SOTA生成式模型:九大類別21個模型全回顧! 一文看盡SOTA生成式模型:九大類別21個模型全回顧! May 02, 2023 pm 03:43 PM

在過去的兩年時間裡,AI界的大型生成模型發布呈現井噴之勢,尤其是StableDiffusion開源和ChatGPT開放介面後,更加激發了業界對生成式模型的熱情。但生成式模型種類繁多,發布速度也非常快,稍不留神就有可能錯過了sota最近,來自西班牙科米利亞斯主教大學的研究人員全面回顧了各個領域內AI的最新進展,將生成式模型依照任務模態、領域分為了九大類,並總結了2022年發布的21個生成式模型,一次看懂生成式模型的發展脈絡!論文連結:https://arxiv.org/abs/2301.04655出生

OpenAI 已全面開放 GPT-3.5 Turbo、DALL-E 及 Whisper API OpenAI 已全面開放 GPT-3.5 Turbo、DALL-E 及 Whisper API Jul 15, 2023 am 10:57 AM

7月10日消息,OpenAI昨日宣布全面開放GPT-3.5Turbo、DALL-E及WhisperAPI,以輔助開發者改善模型處理效率,此外,OpenAI同時表示正在開發GPT-4及GPT-3.5Turbo的後續功能,這些功能計劃於今年下半年推出。 OpenAI透露,目前所有API呼叫的AI模型,都已預設升級到GPT-4,現有用戶無需切換即可使用。註:WhisperAPI是一款語音轉文字的AI模型,可辨識使用者的語音,視訊等媒體並轉為文字。 ▲圖源OpenAI官網此外,OpenAI表示正持續改進Ch

Claude 3反超GPT-4競技場登頂!小杯Haiku成開發者新寵:性價比無敵 Claude 3反超GPT-4競技場登頂!小杯Haiku成開發者新寵:性價比無敵 Mar 28, 2024 pm 02:58 PM

GPT-4真的被反超了!大模型競技場上,Claude3大杯Opus新王登基,Elo分數來到榜首。連小杯Haiku也躋身第二梯隊,超過了GPT-4-0613這個型號,把GPT-3.5-turbo遠遠甩在身後。 Haiku的輸入token價格,可是比GPT-3.5-turbo還便宜了一半,輸出方面,每100萬token也比GPT-3.5-turbo便宜近2塊。跟GPT-4相比,價格更是只有1/20。並且Haiku同樣支援200k上下文。難怪有開發者直言:GPT-3.5在ClaudeHaiku面前不堪

AI能證明數學資料庫中82%的問題了,新SOTA已達成,還是基於Transformer AI能證明數學資料庫中82%的問題了,新SOTA已達成,還是基於Transformer Apr 10, 2023 am 08:51 AM

不得不说,科学家们最近都在痴迷给AI补数学课了。这不,脸书团队也来凑热闹,提出了一种新模型,能完全自动化论证定理,并显著优于SOTA。要知道,随着数学定理愈加复杂,之后再仅凭人力来论证定理只会变得更加困难。因此,用计算机论证数学定理已经成为一个研究焦点。此前OpenAI也提出过专攻这一方向的模型GPT-f,它能论证Metamath中56%的问题。而这次提出的最新方法,能将这一数字提升到82.6%。与此同时,研究人员表示该方法使用的时间还更短,与GPT-f相比可以将计算消耗缩减到原本的十分之一。难

浙大提出新SOTA技術SIFU:只需一張圖片即可重建高品質3D人體模型 浙大提出新SOTA技術SIFU:只需一張圖片即可重建高品質3D人體模型 Jan 18, 2024 pm 02:15 PM

在AR、VR、3D打印、场景搭建以及电影制作等多个领域中,高质量的穿着衣服的人体3D模型非常重要。传统方法创建模型需大量时间,专业设备和技术人员才可完成。相反,在日常生活中,我们通常使用手机相机或在网页上找到的人像照片。因此,一种能从单张图像准确重建3D人体模型的方法可以显著降低成本,并简化独立创作的过程。以往方法(左)与本文方法技术路线比较(右)以往的深度学习模型用于3D人体重建,往往需要经过三个步骤:从图像中提取2D特征,将2D特征转到3D空间,以及3D特征用于人体重建。然而这些方法在2D特

See all articles