目錄
實驗與結果
首頁 科技週邊 人工智慧 全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付

全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付

Dec 03, 2023 am 11:25 AM
ai 模型

最近一段時間,你可能或多或少的聽過「科目三」,搖花手、半崴不崴的腳,配合著節奏鮮明的音樂,這一舞蹈動作遭全網模仿。

如果相似的舞蹈,讓 AI 生成會怎麼樣?就像下圖所展示的,不管是現代人、還是紙片人,都做著整齊劃一的動作。你可能猜不到的是,這是根據一張圖片生成的舞蹈影片。

全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付

人物動作難度加大,產生的影片也非常絲滑(最右邊):

全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付

讓梅西、鋼鐵人動起來,也不在話下:

全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付


全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付

全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付

全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付

##還有各種動畫小姐姐。

全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付

  • 這些效果是如何實現的呢?我們繼續往下看角色動畫是將原始角色圖像按照所需的姿態序列轉化為逼真的影片的過程。這項任務有許多潛在的應用領域,例如線上零售、娛樂影片、藝術創作和虛擬角色等等
  • 自GAN 技術問世以來,研究人員一直在不斷深入探索將影像轉換為動畫以及完成姿態遷移的方法。然而,生成的圖像或視訊仍然存在一些問題,例如局部失真、細節模糊、語義不一致以及時間不穩定等,這些問題阻礙了這些方法的應用阿里的研究者提出了一種名為Animate Anybody的方法,可以將角色圖像轉換為動畫視頻,並遵循所需的姿態序列。研究採用了Stable Diffusion網路設計與預訓練權重,並對去噪UNet進行了修改以適應多幀輸入

##論文網址:https://arxiv.org/pdf/2311.17117.pdf

計畫網址:https://humanaigc.github.io/ animate-anyone/########################為了讓外觀保持一致性,研究引進了ReferenceNet。此網路採用對稱的UNet結構,旨在捕捉參考影像的空間細節。在每個對應的UNet塊層中,研究使用空間-注意力機制將ReferenceNet的特徵整合到去雜訊UNet中。這種架構使得模型能夠在一致的特徵空間中全面地學習與參考圖像的關係############為了確保姿態可控性,該研究設計了一種輕量級姿態引導器,以有效地將姿態控制訊號整合到去噪過程中。為了實現時間穩定性,本文引入了時間層( temporal layer)來對多個幀之間的關係進行建模,從而在模擬連續且平滑的時間運動過程的同時保留視覺品質的高解析度細節。 ############Animate Anybody 經過在 5K 角色影片剪輯的內部資料集上的訓練而得到,如圖 1 所示,展示了各種角色的動畫結果。與以往的方法相比,本文的方法有幾個明顯的優點:######
  • 首先,它有效地保持了影片中人物外觀的空間和時間一致性。 
  • 其次,它產生的高畫質影片不會出現時間抖動或閃爍等問題。 
  • 第三,它能夠將任何角色圖像動畫化為視頻,不受特定領域的限制。 

本文在兩個特定的人類影片合成基準(UBC 時尚影片資料集和 TikTok 資料集)上進行了評估。結果顯示,Animate Anybody 取得了 SOTA 結果。此外,該研究還將 Animate Anybody 方法與在大規模資料上訓練的一般圖像到影片方法進行了比較,結果顯示 Animate Anybody 在角色動畫方面展示了卓越的能力。

全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付

Animate Anybody 與其他方法的比較:

全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付

全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付

##方法介紹

本文的處理方式如圖2 所示,網路的原始輸入由多幀雜訊構成。為了實現去噪效果,研究者採用了基於 SD 設計的配置方式,並使用了相同的框架和區塊單元,並繼承了來自 SD 的訓練權重。具體來說,這個方法包括三個關鍵部分,分別是:

  • ReferenceNet,編碼參考影像角色的外觀特徵;
  • #Pose Guider(姿態引導器),編碼動作控制訊號以實現可控角色運動;
  • Temporal layer(時間層),編碼時間關係以確保角色動作的連續性。

全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付

ReferenceNet

ReferenceNet 是參考影像特徵提取網絡,它的框架與去噪UNet 大致相同,僅有時間層不同。因此,ReferenceNet 繼承了與去噪 UNet 類似的原始 SD 權重,並且每個權重更新都是獨立進行的。研究者解釋了將 ReferenceNet 的特徵整合到去噪 UNet 的方法。

ReferenceNet 的設計有兩個優點。第一,ReferenceNet 可以利用原始 SD 的預訓練影像特徵建模能力,產生初始化良好的特徵。第二,由於 ReferenceNet 與去噪 UNet 本質上具有相同的網絡結構和共享初始化權重,因而去噪 UNet 可以選擇性地從 ReferenceNet 中學習在同一特徵空間關聯的特徵。

姿態引導器

#重寫後的內容為:此輕量級姿態引導器採用了四個卷積層(4×4內核,2×2步幅),通道數分別為16、32、64、128,類似於[56]中的條件編碼器,用於對齊解析度與潛在雜訊相同的姿態影像。處理後的姿態影像被加入到潛在雜訊中,然後輸入到去雜訊UNet進行處理。姿態引導器使用高斯權重進行初始化,並在最終的映射層中使用了零卷積

時間層

時間層的設計靈感來自AnimateDiff。對於一個特徵圖x∈R^b×t×h×w×c,研究者先將它變形為x∈R^(b×h×w)×t×c,然後執行時間注意力,即沿著維度t 的自註意力。時間層的特徵透過殘差連接合併到了原始特徵中,這種設計與下文的雙階段訓練方法一致。時間層專門在去雜訊 UNet 的 Res-Trans 區塊內使用。

訓練策略

#訓練過程分成兩個階段。

重寫後的內容: 在第一階段的訓練中,使用單一視訊畫面進行訓練。在去噪 UNet 模型中,研究者暫時排除了時間層,將單幀雜訊作為輸入。同時,也對參考網路和姿態引導器進行了訓練。參考影像是從整個影片片段中隨機選擇的。他們使用了預訓練權重來初始化去噪 UNet 和 ReferenceNet 模型。姿態引導器的初始化使用了高斯權重,但最後的投影層除外,該層使用了零卷積。 VAE 的編碼器和解碼器以及 CLIP 影像編碼器的權重保持不變。這一階段的最佳化目標是在給定參考圖像和目標姿態的條件下生成高品質的動畫圖像

在第二階段,研究者將時間層引入先前訓練好的模型,並使用AnimateDiff 中預先訓練好的權重來初始化。模型的輸入包括一個 24 幀的視訊片段。在這階段,只訓練時間層,同時固定網路其他部分的權重。

實驗與結果

定性結果:如圖3 顯示,本文方法可以製作任意角色的動畫,包括全身人像、半身人像、卡通人物和仿人角色。該方法能夠產生高清晰度和逼真的人物細節。即使在大幅度運動的情況下,它也能與參考影像保持時間上的一致性,並在影格與影格之間表現出時間上的連續性。

全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付

時尚影片合成。時尚影片合成的目的是利用驅動姿態序列將時尚照片轉化為逼真的動畫影片。實驗在 UBC 時尚影片資料集上進行,該資料集由 500 個訓練影片和 100 個測試影片組成,每個影片包含約 350 個幀。定量比較見表 1。在結果中可以發現,本文方法優於其他方法,尤其是在視訊度量指標方面表現出明顯的領先優勢。

全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付

定性比較如圖 4 所示。為了進行公平比較,研究者使用 DreamPose 的開源程式碼獲得了未進行樣本微調的結果。在時尚影片領域,對服裝細節的要求非常嚴格。然而,DreamPose 和 BDMM 生成的影片無法保持服裝細節的一致性,並在顏色和精細結構元素方面表現出明顯的誤差。相較之下,本文方法產生的結果能更有效地保持服裝細節的一致性。

全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付

人類舞蹈生成是一項研究,其目標是透過對現實舞蹈場景圖像進行動畫處理來產生人類舞蹈。研究者使用了TikTok資料集,其中包括340個訓練影片和100個測試影片。他們按照DisCo的資料集劃分方法,使用相同的測試集進行了定量比較,其中包含10個TikTok風格的影片。透過表2可以看出,本文的方法取得了最佳結果。為了增強模型的泛化能力,DisCo結合了人類屬性預訓練,並利用大量影像對進行了模型預訓練。相較之下,其他研究者只在TikTok資料集上進行訓練,但結果仍優於DisCo

全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付

圖5 中展示了與DisCo 的定性比較。考慮到場景的複雜性,DisCo 的方法需要額外使用 SAM 來產生人類前景遮罩。相反,本文方法表明,即使沒有明確的人體遮罩學習,模型也能從被攝體的運動中掌握前景與背景的關係,而無需事先進行人體分割。此外,在複雜的舞蹈序列中,該模型在保持整個動作的視覺連續性方面表現突出,並在處理不同的角色外觀方面表現出更強的穩健性。

全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付

圖像 - 視訊的通用方法。目前,許多研究都提出了基於大規模訓練資料、具有強大生成能力的視訊擴散模型。研究者選擇了兩種最著名、最有效的圖像 - 視訊方法進行比較:AnimateDiff 和 Gen2。由於這兩種方法不進行姿態控制,因此研究者只比較了它們保持參考影像外觀保真度的能力。如圖 6 所示,目前的圖像 - 視訊方法在產生大量角色動作方面面臨挑戰,並且難以在影片中保持長期的外觀一致性,從而阻礙了對一致角色動畫的有效支持。

全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付

請查閱原始論文以獲取更多資訊

以上是全球矚目的「科目三」:梅西、鋼鐵人、二次元小姐輕鬆應付的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

WorldCoin(WLD)價格預測2025-2031:到2031年WLD會達到4美元嗎? WorldCoin(WLD)價格預測2025-2031:到2031年WLD會達到4美元嗎? Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制,在加密货币市场中脱颖而出,吸引了众多投资者的目光。WLD凭借其创新技术,特别是结合OpenAI人工智能技术,在众多山寨币中表现突出。但未来几年,数字资产的走势如何呢?让我们一起预测WLD的未来价格。2025年WLD价格预测预计2025年WLD将实现显著增长。市场分析显示,WLD平均价格可能达到1.31美元,最高可能触及1.36美元。然而,在熊市情况下,价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

比特幣成品結構分析圖是啥?怎麼畫? 比特幣成品結構分析圖是啥?怎麼畫? Apr 21, 2025 pm 07:42 PM

繪製比特幣結構分析圖的步驟包括:1. 確定繪圖目的與受眾,2. 選擇合適的工具,3. 設計框架並填充核心組件,4. 參考現有模板。完整的步驟確保圖表準確且易於理解。

跨鏈交易什麼意思?跨鏈交易所有哪些? 跨鏈交易什麼意思?跨鏈交易所有哪些? Apr 21, 2025 pm 11:39 PM

支持跨鏈交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,這些平台通過各種技術支持多鏈資產交易。

Aavenomics是修改AAVE協議令牌並介紹令牌回購的建議,已達到法定人數 Aavenomics是修改AAVE協議令牌並介紹令牌回購的建議,已達到法定人數 Apr 21, 2025 pm 06:24 PM

Aavenomics是修改AAVE協議令牌並引入令牌回購的提議,已為AAVEDAO實現了一個法定人數。 AAVE連鎖計劃(ACI)創始人馬克·澤勒(MarcZeller)在X上宣布了這一點,並指出它標誌著該協議的新時代。 AAVE連鎖倡議(ACI)創始人MarcZeller在X上宣布,Aavenomics提案包括修改AAVE協議令牌和引入令牌回購,已為AAVEDAO實現了法定人數。根據Zeller的說法,這標誌著該協議的新時代。 AaveDao成員以壓倒性的投票支持該提議,即在周三以每週100

幣圈行情實時數據免費平台推薦前十名發布 幣圈行情實時數據免費平台推薦前十名發布 Apr 22, 2025 am 08:12 AM

適合新手的加密貨幣數據平台有CoinMarketCap和非小號。 1. CoinMarketCap提供全球加密貨幣實時價格、市值、交易量排名,適合新手與基礎分析需求。 2. 非小號提供中文友好界面,適合中文用戶快速篩選低風險潛力項目。

Rexas Finance(RXS)可以在2025年超過Solana(Sol),Cardano(ADA),XRP和Dogecoin(Doge) Rexas Finance(RXS)可以在2025年超過Solana(Sol),Cardano(ADA),XRP和Dogecoin(Doge) Apr 21, 2025 pm 02:30 PM

在波動劇烈的加密貨幣市場中,投資者正尋求超越熱門幣種的替代方案。 Solana(SOL)、Cardano(ADA)、XRP和Dogecoin(DOGE)等知名加密貨幣,儘管佔據著一定的市場地位,但也面臨著市場情緒、監管不確定性和可擴展性等挑戰。然而,一個新興項目RexasFinance(RXS)正在嶄露頭角。它並非依靠名人效應或炒作,而是專注於將現實世界資產(RWA)與區塊鏈技術結合,為投資者提供一種創新的投資方式。這一策略使其有望成為2025年最成功的項目之一。 RexasFi

幣圈槓桿交易所排名 幣圈十大槓桿交易所APP最新推薦 幣圈槓桿交易所排名 幣圈十大槓桿交易所APP最新推薦 Apr 21, 2025 pm 11:24 PM

2025年在槓桿交易、安全性和用戶體驗方面表現突出的平台有:1. OKX,適合高頻交易者,提供最高100倍槓桿;2. Binance,適用於全球多幣種交易者,提供125倍高槓桿;3. Gate.io,適合衍生品專業玩家,提供100倍槓桿;4. Bitget,適用於新手及社交化交易者,提供最高100倍槓桿;5. Kraken,適合穩健型投資者,提供5倍槓桿;6. Bybit,適用於山寨幣探索者,提供20倍槓桿;7. KuCoin,適合低成本交易者,提供10倍槓桿;8. Bitfinex,適合資深玩

混合型區塊鏈交易平台有哪些 混合型區塊鏈交易平台有哪些 Apr 21, 2025 pm 11:36 PM

選擇加密貨幣交易所的建議:1. 流動性需求,優先選擇幣安、Gate.io或OKX,因其訂單深度與抗波動能力強。 2. 合規與安全,Coinbase、Kraken、Gemini具備嚴格監管背書。 3. 創新功能,KuCoin的軟質押和Bybit的衍生品設計適合進階用戶。

See all articles