影片生成新突破:PixelDance,輕鬆呈現複雜動作與酷炫特效
近期,除了廣受關注的大型語言模型持續佔據頭條,視訊生成技術也在不斷取得重大突破,多家公司已經相繼發布了新的模型
#首先,Runway作為最早探索視訊生成領域的領頭羊之一,升級了其Gen-2模型,帶來了電影級別的高清晰度,令人矚目。同時,影片產生的一致性也得到了重大改進
但是,這種一致性的提升似乎是以犧牲影片動態性為代價的。從 Gen-2 的官方宣傳影片中可以看出,儘管集合了多個短片段,但每個片段的動態性相對較弱,難以捕捉到人物、動物或物體的清晰動作和運動。
近期,Meta 也發布了影片產生模型 Emu Video。從 Emu Video 的官方範例中可以看出,其影片的動態性比 Gen-2 有明顯提高,但仍局限於較為簡單的動作。
開發出了經典的文生圖模型Stable Diffusion 的公司Stability.ai,也於近日發布了開源視訊生成模型Stable Video Diffusion ( SVD),引發了開源社群的大量關注和討論。 SVD 效果能和 Gen-2 相當,透過測試範例能看出 SVD 產生的影片也相對缺少動態性。
在SVD論文中指出了目前SVD產生的影片存在動態不足的問題
上述範例表明,產生有高度一致性且有豐富動態性的視頻,讓視頻內容真正地動起來,是目前視頻生成領域中的最大挑戰。
在這方面,最新的研究成果 PixelDance 邁出了關鍵性的一步,其生成結果的動態性顯著優於目前現有的其它模型,引起了業界的關注。
Twitter上著名的AI部落客@_akhaliq轉發的PixelDance新聞已經獲得了接近8萬次瀏覽
#在官網(https://makepixelsdance.github.io)中,PixelDance 給了兩種不同的視訊生成模式。
有兩種模式可以選擇,第一種是基礎模式(Basic Mode)。在這種模式下,使用者只需要提供一張指導圖片和文字描述,PixelDance 就能夠產生一段高度一致且富有動態性的影片。指導圖片可以是真實的照片,也可以是由現有的文生成圖模型產生的
#從展示的結果來看,真實風格、動畫風格、二次元風格、魔幻風格,PixelDance 通通都可以解決,人物動作、臉部表情、相機視角控制、特效動作,Pixeldance 也都可以很好的完成。只能說一句 tql!
第二種是高階魔法模式(Magic Mode),給了使用者更多發揮想像力和創造力的空間。在這種模式下,用戶需要提供兩張指導圖片 文字描述,可以更好地產生更有難度的影片內容。網站中展示了用魔法模式做出的各種酷炫特效鏡頭。
除此之外,官網還展示了一個完全使用PixelDance 製作的3 分鐘故事短片
非常震撼的一點是,使用PixelDance 能按照用戶預想的一個故事,製作每個場景和對應的動作。不管是真實場景(如埃及、長城等),還是虛幻場景(如外星球),PixelDance 都能生成細節豐富、動作豐富的視頻,甚至各種特效鏡頭也不在話下。
主角北極熊先生的黑色禮帽和紅色領結在各種場景中都得到了很好的保持。現在生成長影片已經不再是單純拼湊不相關的短影片片段了!
而達到這樣拔群的視訊產生效果,並沒有依賴複雜的資料集和大規模的模型訓練,PixelDance 在公開的WebVid-10M 資料集上僅用1.5B大小的模型就達到了上述效果。
論文網址:https://arxiv.org/abs/2311.10982
重寫內容,不要改變原意,改寫成中文:請造訪以下網址取得demo:https://makepixelsdance.github.io
在對應的論文《Make Pixels Dance: High-Dynamic Video Generation》中,作者指出了影片生成難以做出好效果的原因:相較於圖片生成,影片生成具有特徵空間顯著更大、動作多樣性顯著更強的特點。這就導致了現有的影片產生方法難以學到有效的時域動作訊息,產生的影片雖然圖片品質較高,但動態性非常有限。
針對上述問題,PixelDance 提出了基於文字指導 首尾幀圖片指導的影片產生方法,使得模型更充分地關注和學習影片的動態資訊。
影片產生中,首幀圖片提供了整個影片內容的框架和素材。同時,將上一個影片片段的尾幀作為下一個片段的首幀指導,可以產生更長的影片。影片文字描述則描述了影片動作的具體內容。而尾幀圖片指導則為影片產生過程提供了結束狀態的資訊。作者提出了一種適配的方法,使得模型能夠接受相對粗糙的圖片作為指導,這使得用戶可以使用基本的圖片編輯工具來獲得尾幀圖片指導
官網的資訊顯示,目前還在積極地迭代模型效果中,未來2-3 個月內就會放出人人可以試用的模型。目前,作者也提供了途徑支持大家發送想要測試的範例,目前官網中已經放出了一些用戶的測試範例:
# #如此看來,有了PixelDance,只要有天馬行空的想像力,人人都可以成為「百萬特效大師」!
以上是影片生成新突破:PixelDance,輕鬆呈現複雜動作與酷炫特效的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制,在加密货币市场中脱颖而出,吸引了众多投资者的目光。WLD凭借其创新技术,特别是结合OpenAI人工智能技术,在众多山寨币中表现突出。但未来几年,数字资产的走势如何呢?让我们一起预测WLD的未来价格。2025年WLD价格预测预计2025年WLD将实现显著增长。市场分析显示,WLD平均价格可能达到1.31美元,最高可能触及1.36美元。然而,在熊市情况下,价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

繪製比特幣結構分析圖的步驟包括:1. 確定繪圖目的與受眾,2. 選擇合適的工具,3. 設計框架並填充核心組件,4. 參考現有模板。完整的步驟確保圖表準確且易於理解。

支持跨鏈交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,這些平台通過各種技術支持多鏈資產交易。

適合新手的加密貨幣數據平台有CoinMarketCap和非小號。 1. CoinMarketCap提供全球加密貨幣實時價格、市值、交易量排名,適合新手與基礎分析需求。 2. 非小號提供中文友好界面,適合中文用戶快速篩選低風險潛力項目。

Aavenomics是修改AAVE協議令牌並引入令牌回購的提議,已為AAVEDAO實現了一個法定人數。 AAVE連鎖計劃(ACI)創始人馬克·澤勒(MarcZeller)在X上宣布了這一點,並指出它標誌著該協議的新時代。 AAVE連鎖倡議(ACI)創始人MarcZeller在X上宣布,Aavenomics提案包括修改AAVE協議令牌和引入令牌回購,已為AAVEDAO實現了法定人數。根據Zeller的說法,這標誌著該協議的新時代。 AaveDao成員以壓倒性的投票支持該提議,即在周三以每週100

在波動劇烈的加密貨幣市場中,投資者正尋求超越熱門幣種的替代方案。 Solana(SOL)、Cardano(ADA)、XRP和Dogecoin(DOGE)等知名加密貨幣,儘管佔據著一定的市場地位,但也面臨著市場情緒、監管不確定性和可擴展性等挑戰。然而,一個新興項目RexasFinance(RXS)正在嶄露頭角。它並非依靠名人效應或炒作,而是專注於將現實世界資產(RWA)與區塊鏈技術結合,為投資者提供一種創新的投資方式。這一策略使其有望成為2025年最成功的項目之一。 RexasFi

2025年在槓桿交易、安全性和用戶體驗方面表現突出的平台有:1. OKX,適合高頻交易者,提供最高100倍槓桿;2. Binance,適用於全球多幣種交易者,提供125倍高槓桿;3. Gate.io,適合衍生品專業玩家,提供100倍槓桿;4. Bitget,適用於新手及社交化交易者,提供最高100倍槓桿;5. Kraken,適合穩健型投資者,提供5倍槓桿;6. Bybit,適用於山寨幣探索者,提供20倍槓桿;7. KuCoin,適合低成本交易者,提供10倍槓桿;8. Bitfinex,適合資深玩

選擇加密貨幣交易所的建議:1. 流動性需求,優先選擇幣安、Gate.io或OKX,因其訂單深度與抗波動能力強。 2. 合規與安全,Coinbase、Kraken、Gemini具備嚴格監管背書。 3. 創新功能,KuCoin的軟質押和Bybit的衍生品設計適合進階用戶。
