順著網路線爬過來成真了,Audio2Photoreal透過對話就能產生逼真表情與動作
當你和朋友隔著冷冰冰的手機螢幕聊天時,你得猜猜對方的語氣。當 Ta 發出語音時,你的腦海中還能浮現出 Ta 的表情甚至動作。如果能視訊通話顯然是最好的,但在實際情況下並不能隨時撥打視訊。
如果你正在與遠端朋友聊天,不是透過冰冷的螢幕文字,也不是缺乏表情的虛擬形象,而是一個逼真、動態、充滿表情的數位虛擬人。這個虛擬人不僅能夠完美地復現你朋友的微笑、眼神,甚至是細微的肢體動作。你會不會感到更的親切和溫暖呢?真是體現了那一句「我會順著網路線爬過來找你的」。
這不是科幻想像,而是在實際中可以實現的技術了。
臉部表情和肢體動作包含的資訊量很大,這會極大程度上影響內容表達的意思。例如眼睛一直看著對方說話和眼神基本上沒有溝通的說話,給人的感覺是截然不同的,這也會影響另一方對溝通內容的理解。我們在溝通過程中對這些細微的表情和動作都有著極敏銳的捕捉能力,並用它們來形成對交談夥伴意圖、舒適度或理解程度的高級理解。因此,開發能夠捕捉這些微妙之處的高度逼真的對話虛擬人對於互動至關重要。
為此,Meta 與加州大學的研究者提出了一種根據兩人對話的語音音訊產生逼真虛擬人的方法。它可以合成各種高頻手勢和表情豐富的臉部動作,這些動作與語音非常同步。對於身體和手部,他們利用了基於自回歸 VQ 的方法和擴散模型的優勢。對於臉部,他們使用以音頻為條件的擴散模型。然後將預測的臉部、身體和手部運動渲染為逼真虛擬人。研究者證明了在擴散模型上添加引導姿勢條件能夠產生比以前的作品更多樣化和合理的對話手勢。
- #論文網址:https://huggingface.co/papers/2401.01885
- 專案網址:https://people.eecs.berkeley.edu/~evonne_ng/projects/audio2photoreal/
#研究者表示,他們是第一個研究如何為人際對話產生逼真臉部、身體和手部動作的團隊。與先前的研究相比,研究者基於 VQ 和擴散的方法合成了更逼真、更多樣化的動作。
方法概覽
研究者從記錄的多視角資料中提取潛在表情程式碼來表示臉部,並用運動骨架中的關節角度來表示身體姿勢。如圖 3 所示,本文系統由兩個生成模型組成,在輸入二人對話音訊的情況下,產生表情代碼和身體姿勢序列。然後,表情代碼和身體姿勢序列可以使用神經虛擬人渲染器逐幀渲染,該渲染器可以從給定的相機視圖中生成帶有面部、身體和手部的完整紋理頭像。
要注意的是,身體和臉部的動態變化非常不同。首先,臉部與輸入音訊的相關性很強,尤其是嘴唇的運動,而身體與語音的相關性較弱。這就導致在給定的語音輸入中,肢體手勢有著更複雜的多樣性。其次,由於在兩個不同的空間中表示臉部和身體,因此它們各自遵循不同的時間動態。因此,研究者用兩個獨立的運動模型來模擬臉部和身體。這樣,臉部模型就可以「主攻」與語音一致的臉部細節,而身體模型則可以更專注於產生多樣但合理的身體運動。
臉部運動模型是一個擴散模型,以輸入音訊和預先訓練的唇部回歸器產生的唇部頂點為條件(圖 4a)。對於肢體運動模型,研究者發現僅以音頻為條件的純擴散模型產生的運動缺乏多樣性,而且在時間序列上顯得不夠協調。但是,當研究者以不同的引導姿勢為條件時,品質就會提高。因此,他們將身體運動模型分為兩部分:首先,自回歸音頻條件變換器預測1fp 時的粗略引導姿勢(圖4b),然後擴散模型利用這些粗略引導姿勢來填充細粒度和高頻運動(圖4c)。關於方法設定的更多細節請參閱原文。
實驗及結果
#研究者根據真實資料定量評估了Audio2Photoreal 有效產生逼真對話動作的能力。同時,也進行了感知評估,以證實定量結果,並衡量 Audio2Photoreal 在給定的對話環境中產生手勢的恰當性。實驗結果表明,當手勢呈現在逼真的虛擬化身上而不是 3D 網格上時,評估者對微妙手勢的感知更敏銳。
研究者將本文方法與 KNN、SHOW、LDA 這三種基準方法根據訓練集的隨機運動序列進行了產生結果比較。並進行了消融實驗,測試了沒有音訊或指導姿勢的條件下、沒有引導姿勢但基於音訊的條件下、沒有音訊但基於引導姿勢的條件下 Audio2Photoreal 每個組件的有效性。
定量結果
#表1 顯示,與先前的研究相比,本文方法在產生多樣性最高的運動時,FD 分數最低。雖然隨機具有與 GT 相匹配的良好多樣性,但隨機片段與相應的對話動態並不匹配,導致 FD_g 較高。
圖 5 展示了本文方法所產生的引導姿勢的多樣性。透過基於 VQ 的變換器 P 取樣,可以在相同音訊輸入的條件下產生風格迥異的姿勢。
如圖6 所示,擴散模型會學習產生動態動作,其中的動作會與對話音訊更加匹配。
圖 7 表現了 LDA 生成的運動缺乏活力,動作也較少。相較之下,本文方法合成的運動變化與實際情況更為吻合。
此外,研究者也分析了本文方法在生成嘴唇運動方面的準確度。如表 2 的統計所示,Audio2Photoreal 顯著優於基線方法 SHOW,以及在消融實驗中移除預先訓練的嘴唇回歸器後的表現。這項設計改善了說話時嘴形的同步問題,有效避免了不說話時口部出現隨機張開和閉合的動作,使得模型能夠實現更出色的嘴唇動作重建,同時降低了面部網格頂點(網格L2)的誤差。
定性評估
#由於對話中手勢的連貫性難以被量化,研究者採用了質性方法做評估。他們在 MTurk 進行了兩組 A/B 測試。具體來說,他們請評估人員觀看本文方法與基線方法的生成結果或本文方法與真實情景的影片對,請他們評估哪個影片中的運動看起來更合理。
如圖 8 所示,本文方法顯著優於先前的基線方法 LDA,大約有 70% 的評估人員在網格和真實度方面更青睞 Audio2Photoreal。
如圖 8 頂部圖表所示,和 LDA 相比,評估人員對本文方法的評價從「略微更喜歡」轉變為「強烈喜歡」。和真實情況相比,也呈現同樣的評價。不過,在逼真程度方面,評估人員還是更認同真實情況,而不是 Audio2Photoreal。
更多技術細節,請閱讀原文。
以上是順著網路線爬過來成真了,Audio2Photoreal透過對話就能產生逼真表情與動作的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

如何實現鼠標滾動事件穿透效果?在我們瀏覽網頁時,經常會遇到一些特別的交互設計。比如在deepseek官網上,�...
