讓Sora東京女郎唱歌、高啟強變聲羅翔,阿里人物口型影片生成絕了
有了阿里的 EMO,AI 生成或真實的圖像「動起來說話或唱歌」變得更容易了。
最近,以 OpenAI Sora 為代表的文生視訊模型又火紅了起來。
除了文字生成視頻,以人為中心的視頻合成一直備受關注。例如,專注於「說話者頭部」的視訊生成,其目標是根據用戶提供的音訊片段生成面部表情。
在技術層面上,生成表情需要準確捕捉說話者微妙且多樣化的臉部動作,這對於類似影片合成任務而言是一個巨大的挑戰。
傳統方法通常會施加一些限制以簡化視訊生成任務。例如,有些方法利用3D模型來約束臉部關鍵點,有些方法則從原始影片中提取頭部運動序列以引導整體運動。儘管這些限制降低了影片生成的複雜性,但也會限制最終面部表情的豐富度和自然度。
最近在阿里智能計算研究院發表的一篇論文中,研究者著重探討了音訊提示與臉部動作之間微妙的關聯,以提高說話者頭部視訊的真實性、自然度和表現力。
研究者發現,傳統方法通常無法充分捕捉不同說話者的臉部表情和獨特風格。因此,他們提出了 EMO(Emote Portrait Alive)框架,該框架透過音訊 - 視訊合成方法直接呈現面部表情,而無需使用中間的3D模型或臉部標誌。
論文標題:EMO: Emote Portrait Alive- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions
#論文地址:https://arxiv.org/pdf/2402.17485.pdf
專案首頁:https://humanaigc.github.io/emote-portrait-alive/
就效果而言,阿里的方法可以確保整個視頻的無縫幀過渡,並保持身份一致,進而產生表現力強和更加逼真的角色化身視頻,在表現力和真實感方面顯著優於當前SOTA 方法。
例如 EMO 可以讓 Sora 生成的東京女郎角色開口唱歌,歌曲為英國 / 阿爾巴尼亞雙國籍女歌手 Dua Lipa 演唱的《Don't Start Now》。 EMO 支援包含英文、中文在內等不同語言的歌曲,可以直觀地識別音訊的音調變化,產生動態、表情豐富的 AI 角色化身。例如讓 AI 繪畫模型 ChilloutMix 生成的小姐姐唱陶喆的《Melody》。
EMO 也能讓角色化身跟上快節奏的 Rap 歌曲,例如讓小李子來一段美國饒舌歌手 Eminem 的《哥吉拉》(Godzilla)。 當然,EMO 不僅僅能讓角色開口唱歌,還支援各種語言的口語音頻,將不同風格的肖像畫、繪畫以及3D 模型和AI 生成的內容製作成栩栩如生的動畫視頻。例如奧黛麗赫本的談話。
最後,EMO 也能實現不同角色之間的連結,例如《狂飆》高啟強連動羅翔老師。
方法概覽
給定人物肖像的單張參考圖像,本文方法可以生成與輸入語音音頻片段同步的視頻,還能保留人物非常自然的頭部運動和生動的表情,並且與所提供的聲音音頻的音調變化相協調。透過創建一系列無縫的級聯視頻,該模型有助於生成具有一致身份和連貫運動的長時間說話肖像視頻,這對於現實應用至關重要。
網路 Pipeline
方法概覽如下圖所示。主幹網路接收多幀雜訊潛在輸入,並嘗試在每個時間步驟中將它們去噪為連續的視訊幀,主幹網路具有與原始SD 1.5 版本相似的UNet 結構配置,具體而言
#與先前的工作相似,為了確保生成幀之間的連續性,主幹網路嵌入了時間模組。
為了保持生成影格中人像的 ID 一致性,研究者部署了一個與主幹網路並行的 UNet 結構,稱為 ReferenceNet,它輸入參考影像以取得參考特徵。
為了驅動角色說話時的動作,研究者使用了音訊層來編碼聲音特徵。
為了讓說話角色的動作可控且穩定,研究者使用臉部定位器和速度層提供弱條件。
對於主幹網絡,研究者沒有使用提示嵌入,因此,他們將SD 1.5 UNet 結構中的交叉注意力層調整為參考注意力層。這些修改後的層將從 ReferenceNet 取得的參考特徵作為輸入,而非文字嵌入。
訓練策略
訓練過程分為三個階段:
第一階段是影像預訓練,其中主幹網路、ReferenceNet 和臉部定位器被納入訓練過程中,在這個階段,主幹網路以單一幀作為輸入,而ReferenceNet 處理來自同一視訊剪輯的不同的、隨機選擇的幀。主幹網路和 ReferenceNet 都從原始 SD 初始化權重。
在第二階段,研究者引入了視訊訓練,並且加入了時間模組和音訊層,從視訊剪輯中取樣 n f 個連續幀,其中起始的 n 幀為運動幀。時間模組從 AnimateDiff 初始化權重。
最後一個階段整合了速度層,研究者只在這個階段訓練時間模組和速度層。這種做法是為了故意忽略訓練過程中的音訊層。因為說話者的表情、嘴部運動和頭部運動的頻率主要受音頻的影響。因此,這些元素之間似乎存在相關性,模型可能會根據速度訊號而不是音訊來驅動角色的運動。實驗結果表明,同時訓練速度層和音訊層削弱了音訊對角色運動的驅動能力。
實驗結果
實驗過程中參與比較的方法包括 Wav2Lip、SadTalker、DreamTalk。
圖 3 展示了本文方法與先前方法的比較結果。可以觀察到,當提供單一參考影像作為輸入時,Wav2Lip 通常會合成模糊的嘴部區域並產生以靜態頭部姿態和最小眼部運動為特徵的影片。就 DreamTalk 而言,其結果可能會扭曲原始面孔,也會限制面部表情和頭部運動的範圍。與 SadTalker 和 DreamTalk 相比,研究提出的方法能夠產生更大範圍的頭部運動和更生動的面部表情。
該研究進一步探索了各種肖像風格的頭像影片生成,如現實、動漫和 3D。這些角色使用相同的聲音音訊輸入進行動畫處理,結果顯示,產生的影片在不同風格之間產生大致一致的唇形同步。
圖 5 顯示本文方法在處理具有明顯音調特徵的音訊時能夠產生更豐富的面部表情和動作。例如下圖第三行,高音調會引發角色更強烈、更生動的表情。此外,借助運動幀還可以擴展生成的視頻,即根據輸入音頻的長度生成持續時間較長的視頻。如圖 5 和圖 6 所示,本文方法即使在大幅運動中也能在擴展序列中保留角色的身份。
表 1 結果顯示本文方法在影片品質評估上有顯著優勢:
以上是讓Sora東京女郎唱歌、高啟強變聲羅翔,阿里人物口型影片生成絕了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

但可能打不過公園裡的老大爺?巴黎奧運正在如火如荼地進行中,乒乓球項目備受關注。同時,機器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢?大概和人類業餘選手不相上下:正手反手都會:對手採用多種打法,機器人也能招架得住:接不同旋轉的發球:不過,比賽激烈程度似乎不如公園老大爺對戰。對機器人來說,乒乓球運動

8月21日,2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相,並最新發布元蘿蔔AI下棋機器人-國際象棋專業版(以下簡稱「元蘿蔔國象機器人」),成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品,全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新,首次在家用機器人上實現了透過機械爪拾取立體棋子,並進行人機對弈、人人對弈、記譜複盤等功能,

開學將至,該收心的不只即將開啟新學期的同學,可能還有AI大模型。前段時間,Reddit擠滿了吐槽Claude越來越懶的網友。 「它的水平下降了很多,經常停頓,甚至輸出也變得很短。在發布的第一周,它可以一次性翻譯整整4頁文稿,現在連半頁都輸出不了!」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”,滿滿地

在北京舉行的世界機器人大會上,人形機器人的展示成為了現場絕對的焦點,在星塵智能的展台上,由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲,能文能武,吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏,讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道,公司創始人來傑解釋到,絲滑動作的背後,是硬體側追求最好力控和最仿人身體指標(速度、負載等),而是在AI側則採集人的真實動作數據,讓機器人遇強則強,快速學習進化。而敏捷

本屆ACL大會,投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL在NLP領域的學術影響力都名列第一,它也是CCF-A類推薦會議。今年的ACL大會已是第62屆,接收了400餘篇NLP領域的前沿工作。昨天下午,大會公佈了最佳論文等獎項。此次,最佳論文獎7篇(兩篇未公開)、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎(ResourceAward)3篇、社會影響力獎(

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時,加上最近老上頭條的1X人形機器人NEO,你可能會產生一種感覺:我們似乎開始進入機器人時代了。事實上,這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道,有用的機器人往往需要與環境進行複雜精妙的交互,而環境則可被表示成空間域和時間域上的限制。舉個例子,如果要讓機器人倒茶,那麼機器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩移動,一直到讓壺口與杯口對齊,之後以一定角度傾斜茶壺。這

今天下午,鸿蒙智行正式迎来了新品牌与新车。8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为

會議簡介隨著科技的快速發展,人工智慧成為了推動社會進步的重要力量。在這個時代,我們有幸見證並參與分散式人工智慧(DistributedArtificialIntelligence,DAI)的創新與應用。分散式人工智慧是人工智慧領域的重要分支,這幾年引起了越來越多的關注。基於大型語言模型(LLM)的智能體(Agent)異軍突起,透過結合大模型的強大語言理解和生成能力,展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型,成為目前AI圈的熱門話題。 Au
