首頁 > 科技週邊 > 人工智慧 > Bytedance剛剛使AI視頻吹噓! - Omnihuman 1

Bytedance剛剛使AI視頻吹噓! - Omnihuman 1

Jennifer Aniston
發布: 2025-03-06 12:09:17
原創
389 人瀏覽過
目錄的

現有動畫模型的
    限制
  • omnihuman-1解決方案:多模式方法
  • 示例Omnihuman-1視頻
  • 模型培訓和體系結構
  • OMNI條件培訓策略
  • >實驗驗證和性能
  • 消融研究:優化培訓過程
  • >擴展視覺結果:演示多功能
  • 結論
  • 現有人類動畫模型的

的限制 當前的人類動畫模型經常受到限制。 他們經常依靠小型專業數據集,導致低質量,僵化的動畫。 許多人在各種環境中的概括中掙扎,缺乏現實主義和流動性。 對單個輸入方式的依賴(例如,僅文本或圖像)嚴重限制了其捕獲人類運動和表達細微差別的能力。

> Omnihuman-1通過多模式方法來應對這些挑戰。它將文本,音頻和姿勢信息集成為條件信號,從而創建上下文豐富而逼真的動畫。 創新的Omni條件設計可以從參考圖像中保留主題身份和背景細節,從而確保一致性。獨特的培訓策略可最大化數據利用,防止過度擬合和提高性能。

示例Omnihuman-1視頻ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1

Omnihuman-1

僅從圖像和音頻中生成逼真的視頻。它處理各種視覺和音頻樣式,以任何縱橫比和身體比例製作視頻。 最終的動畫具有詳細的運動,照明和紋理。 (注意:簡短省略參考圖像,但可應要求可用。)> >說話

您的瀏覽器不支持視頻標籤。

唱歌

您的瀏覽器不支持視頻標籤。

多樣性

您的瀏覽器不支持視頻標籤。

>半身案件

您的瀏覽器不支持視頻標籤。

模型培訓和體系結構

Omnihuman-1的訓練利用了多條件擴散模型。 核心是預先訓練的海藻模型(MMDIT體系結構),最初是在一般文本視頻對中訓練的。 然後,通過整合文本,音頻和姿勢信號來適應人類視頻的生成。 因果3D變量自動編碼器(3DVAE)將視頻投放到潛在空間,以進行有效的降級。 該體系結構巧妙地重新重新重複了從參考圖像中保留主題身份和背景的剝落過程。

模型體系結構圖

ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1

OMNI條件培訓策略>

這個三階段的過程逐漸完善了擴散模型。 它根據其運動相關強度(弱到強),依次介紹了調節方式(文本,音頻,姿勢)。這樣可以確保每種模式的平衡貢獻,從而優化動畫質量。 音頻調節使用WAV2VEC進行特徵提取,姿勢調節會集成姿勢熱圖。

ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1

實驗驗證和性能

> >本文使用大量數據集(18.7萬小時的與人類相關數據)進行了嚴格的實驗驗證。 Omnihuman-1優於各種指標(IQA,ASE,SYNC-C,FID,FVD)的現有方法,在處理不同的輸入配置時演示了其出色的性能和多功能性。

>

ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1

消融研究:優化訓練過程

消融研究探討了不同訓練數據比對每種方式的影響。 它揭示了音頻和姿勢數據,平衡現實主義和動態範圍的最佳比率。 該研究還強調了足夠的參考圖像比率在保持身份和視覺保真度方面的重要性。 可視化清楚地證明了音頻和姿勢條件比的影響。

擴展視覺結果:演示多功能ByteDance Just Made AI Videos MIND BLOWING! - OmniHuman 1

擴展的視覺結果展示了Omnihuman-1生成多樣化和高質量動畫的能力,突出了其處理各種樣式,對象相互作用和姿勢驅動的方案的能力。

結論

Omnihuman-1

代表了人類視頻生成中的一個重大飛躍。它可以從有限的輸入及其多模式功能中創建現實動畫的能力,使其成為一項非常出色的成就。 該模型有望徹底改變數字動畫領域。

以上是Bytedance剛剛使AI視頻吹噓! - Omnihuman 1的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板