順著網路線爬過來成真了,Audio2Photoreal透過對話就能產生逼真表情與動作
當你和朋友隔著冷冰冰的手機螢幕聊天時,你得猜猜對方的語氣。當 Ta 發出語音時,你的腦海中還能浮現出 Ta 的表情甚至動作。如果能視訊通話顯然是最好的,但在實際情況下並不能隨時撥打視訊。
如果你正在與遠端朋友聊天,不是透過冰冷的螢幕文字,也不是缺乏表情的虛擬形象,而是一個逼真、動態、充滿表情的數位虛擬人。這個虛擬人不僅能夠完美地復現你朋友的微笑、眼神,甚至是細微的肢體動作。你會不會感到更的親切和溫暖呢?真是體現了那一句「我會順著網路線爬過來找你的」。
這不是科幻想像,而是在實際中可以實現的技術了。
臉部表情和肢體動作包含的資訊量很大,這會極大程度上影響內容表達的意思。例如眼睛一直看著對方說話和眼神基本上沒有溝通的說話,給人的感覺是截然不同的,這也會影響另一方對溝通內容的理解。我們在溝通過程中對這些細微的表情和動作都有著極敏銳的捕捉能力,並用它們來形成對交談夥伴意圖、舒適度或理解程度的高級理解。因此,開發能夠捕捉這些微妙之處的高度逼真的對話虛擬人對於互動至關重要。
為此,Meta 與加州大學的研究者提出了一種根據兩人對話的語音音訊產生逼真虛擬人的方法。它可以合成各種高頻手勢和表情豐富的臉部動作,這些動作與語音非常同步。對於身體和手部,他們利用了基於自回歸 VQ 的方法和擴散模型的優勢。對於臉部,他們使用以音頻為條件的擴散模型。然後將預測的臉部、身體和手部運動渲染為逼真虛擬人。研究者證明了在擴散模型上添加引導姿勢條件能夠產生比以前的作品更多樣化和合理的對話手勢。
- #論文網址:https://huggingface.co/papers/2401.01885
- 專案網址:https://people.eecs.berkeley.edu/~evonne_ng/projects/audio2photoreal/
#研究者表示,他們是第一個研究如何為人際對話產生逼真臉部、身體和手部動作的團隊。與先前的研究相比,研究者基於 VQ 和擴散的方法合成了更逼真、更多樣化的動作。
方法概覽
研究者從記錄的多視角資料中提取潛在表情程式碼來表示臉部,並用運動骨架中的關節角度來表示身體姿勢。如圖 3 所示,本文系統由兩個生成模型組成,在輸入二人對話音訊的情況下,產生表情代碼和身體姿勢序列。然後,表情代碼和身體姿勢序列可以使用神經虛擬人渲染器逐幀渲染,該渲染器可以從給定的相機視圖中生成帶有面部、身體和手部的完整紋理頭像。
要注意的是,身體和臉部的動態變化非常不同。首先,臉部與輸入音訊的相關性很強,尤其是嘴唇的運動,而身體與語音的相關性較弱。這就導致在給定的語音輸入中,肢體手勢有著更複雜的多樣性。其次,由於在兩個不同的空間中表示臉部和身體,因此它們各自遵循不同的時間動態。因此,研究者用兩個獨立的運動模型來模擬臉部和身體。這樣,臉部模型就可以「主攻」與語音一致的臉部細節,而身體模型則可以更專注於產生多樣但合理的身體運動。
臉部運動模型是一個擴散模型,以輸入音訊和預先訓練的唇部回歸器產生的唇部頂點為條件(圖 4a)。對於肢體運動模型,研究者發現僅以音頻為條件的純擴散模型產生的運動缺乏多樣性,而且在時間序列上顯得不夠協調。但是,當研究者以不同的引導姿勢為條件時,品質就會提高。因此,他們將身體運動模型分為兩部分:首先,自回歸音頻條件變換器預測1fp 時的粗略引導姿勢(圖4b),然後擴散模型利用這些粗略引導姿勢來填充細粒度和高頻運動(圖4c)。關於方法設定的更多細節請參閱原文。
實驗及結果
#研究者根據真實資料定量評估了Audio2Photoreal 有效產生逼真對話動作的能力。同時,也進行了感知評估,以證實定量結果,並衡量 Audio2Photoreal 在給定的對話環境中產生手勢的恰當性。實驗結果表明,當手勢呈現在逼真的虛擬化身上而不是 3D 網格上時,評估者對微妙手勢的感知更敏銳。
研究者將本文方法與 KNN、SHOW、LDA 這三種基準方法根據訓練集的隨機運動序列進行了產生結果比較。並進行了消融實驗,測試了沒有音訊或指導姿勢的條件下、沒有引導姿勢但基於音訊的條件下、沒有音訊但基於引導姿勢的條件下 Audio2Photoreal 每個組件的有效性。
定量結果
#表1 顯示,與先前的研究相比,本文方法在產生多樣性最高的運動時,FD 分數最低。雖然隨機具有與 GT 相匹配的良好多樣性,但隨機片段與相應的對話動態並不匹配,導致 FD_g 較高。
圖 5 展示了本文方法所產生的引導姿勢的多樣性。透過基於 VQ 的變換器 P 取樣,可以在相同音訊輸入的條件下產生風格迥異的姿勢。
如圖6 所示,擴散模型會學習產生動態動作,其中的動作會與對話音訊更加匹配。
圖 7 表現了 LDA 生成的運動缺乏活力,動作也較少。相較之下,本文方法合成的運動變化與實際情況更為吻合。
此外,研究者也分析了本文方法在生成嘴唇運動方面的準確度。如表 2 的統計所示,Audio2Photoreal 顯著優於基線方法 SHOW,以及在消融實驗中移除預先訓練的嘴唇回歸器後的表現。這項設計改善了說話時嘴形的同步問題,有效避免了不說話時口部出現隨機張開和閉合的動作,使得模型能夠實現更出色的嘴唇動作重建,同時降低了面部網格頂點(網格L2)的誤差。
定性評估
#由於對話中手勢的連貫性難以被量化,研究者採用了質性方法做評估。他們在 MTurk 進行了兩組 A/B 測試。具體來說,他們請評估人員觀看本文方法與基線方法的生成結果或本文方法與真實情景的影片對,請他們評估哪個影片中的運動看起來更合理。
如圖 8 所示,本文方法顯著優於先前的基線方法 LDA,大約有 70% 的評估人員在網格和真實度方面更青睞 Audio2Photoreal。
如圖 8 頂部圖表所示,和 LDA 相比,評估人員對本文方法的評價從「略微更喜歡」轉變為「強烈喜歡」。和真實情況相比,也呈現同樣的評價。不過,在逼真程度方面,評估人員還是更認同真實情況,而不是 Audio2Photoreal。
更多技術細節,請閱讀原文。
以上是順著網路線爬過來成真了,Audio2Photoreal透過對話就能產生逼真表情與動作的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

配置Debian郵件服務器的防火牆是確保服務器安全性的重要步驟。以下是幾種常用的防火牆配置方法,包括iptables和firewalld的使用。使用iptables配置防火牆安裝iptables(如果尚未安裝):sudoapt-getupdatesudoapt-getinstalliptables查看當前iptables規則:sudoiptables-L配置

在Debian系統上使用OpenSSL進行數字簽名驗證,可以按照以下步驟操作:準備工作安裝OpenSSL:確保你的Debian系統已經安裝了OpenSSL。如果沒有安裝,可以使用以下命令進行安裝:sudoaptupdatesudoaptinstallopenssl獲取公鑰:數字簽名驗證需要使用簽名者的公鑰。通常,公鑰會以文件的形式提供,例如public_key.pe

在Debian郵件服務器上安裝SSL證書的步驟如下:1.安裝OpenSSL工具包首先,確保你的系統上已經安裝了OpenSSL工具包。如果沒有安裝,可以使用以下命令進行安裝:sudoapt-getupdatesudoapt-getinstallopenssl2.生成私鑰和證書請求接下來,使用OpenSSL生成一個2048位的RSA私鑰和一個證書請求(CSR):openss

CentOS 關機命令為 shutdown,語法為 shutdown [選項] 時間 [信息]。選項包括:-h 立即停止系統;-P 關機後關電源;-r 重新啟動;-t 等待時間。時間可指定為立即 (now)、分鐘數 ( minutes) 或特定時間 (hh:mm)。可添加信息在系統消息中顯示。

在Debian系統中,OpenSSL是一個重要的庫,用於加密、解密和證書管理。為了防止中間人攻擊(MITM),可以採取以下措施:使用HTTPS:確保所有網絡請求使用HTTPS協議,而不是HTTP。 HTTPS使用TLS(傳輸層安全協議)加密通信數據,確保數據在傳輸過程中不會被竊取或篡改。驗證服務器證書:在客戶端手動驗證服務器證書,確保其可信。可以通過URLSession的委託方法來手動驗證服務器

在Debian上管理Hadoop日誌,可以遵循以下步驟和最佳實踐:日誌聚合啟用日誌聚合:在yarn-site.xml文件中設置yarn.log-aggregation-enable為true,以啟用日誌聚合功能。配置日誌保留策略:設置yarn.log-aggregation.retain-seconds來定義日誌的保留時間,例如保留172800秒(2天)。指定日誌存儲路徑:通過yarn.n

SonyInteractiveEntertainment(SIE,索尼互动娱乐)首席架构师MarkCerny公开更多次世代主机PlayStation5Pro(PS5Pro)硬体细节,包括性能升级的AMDRDNA2.x架构GPU,以及与AMD合作代号「Amethyst」的机器学习/人工智慧计划。PS5Pro性能提升的重点仍集中在更强大的GPU、先进的光线追踪与AI驱动的PSSR超解析度功能等3大支柱上。GPU採用客制化的AMDRDNA2架构,索尼将其命名为RDNA2.x,它拥有部分RDNA3架构才

在Debian系統上配置HTTPS服務器涉及幾個步驟,包括安裝必要的軟件、生成SSL證書、配置Web服務器(如Apache或Nginx)以使用SSL證書。以下是一個基本的指南,假設你使用的是ApacheWeb服務器。 1.安裝必要的軟件首先,確保你的系統是最新的,並安裝Apache和OpenSSL:sudoaptupdatesudoaptupgradesudoaptinsta
