AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP

王林
發布: 2024-02-29 19:07:02
轉載
420 人瀏覽過

Sora之後,居然還有新的AI影片模型,能驚艷得大家狂轉狂贊!

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP圖片

有了它,《狂飆》大反派高啟強化身羅翔,都能給大夥兒普法啦(狗頭)。

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP

這就是阿里最新推出的基於音訊驅動的肖像視訊生成框架,EMO(Emote Portrait Alive)。

有了它,輸入單張參考影像,以及一段音訊(說話、唱歌、RAP皆可),就能產生表情生動的AI影片。視訊最終長度,取決於輸入音訊的長度。

你可以讓蒙娜麗莎-這位AI屆效果體驗的老選手,朗誦一段獨白:

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP

年輕俊美的小李子來段快節奏的RAP才藝秀,嘴形跟上完全沒問題:

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP

#甚至粵語口型也能hold住,這就讓哥哥張國榮來首陳奕迅的《無條件》:

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP

總之,不管是讓肖像唱歌(不同風格的肖像和歌曲)、讓肖像開口說話(不同語種)、還是各種「張冠李戴」的跨演員表演,EMO的效果,都讓咱看得一愣的。

網友大感嘆:「我們正走進一個新的現實!」

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP2019版《小丑》說2008版《蝙蝠俠黑暗騎士》的台詞

甚至已經有網友開始對EMO產生影片開始了拉片,逐幀分析效果究竟怎麼樣。

如下面這段視頻,主角是Sora生成的AI女士,本次為大家演唱的曲目是《Don’t Start Now》。

推友分析:

這段影片的一致性,比以往更上一層樓了!
一分多鐘的影片裡,Sora女士臉上的墨鏡幾乎沒有亂動,耳朵、眉毛都有獨立的運動。
最精彩的是Sora女士的喉嚨好像真的有呼吸哎!她唱歌的過程中身體還有微顫和移動,我直接震驚!

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP圖片

話說回來,EMO是熱門新技術嘛,免不了拿來與同類對比——

就在昨天,AI視頻生成公司Pika也推出了為視頻人物配音,同時“對口型”的唇形同步功能,撞車了。

具體效果怎麼樣呢,我們直接擺在這裡AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP

評論區網友對比過後得出的結論是,被阿里吊打了。

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP圖片

EMO公佈論文,同時宣告開源。

但是!雖說開源,GitHub上仍然是空倉。

再但是!雖然是空倉,標星數已經超過2.1k了。

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP圖片

惹得網友們真的好著急,有吉吉王那麼急。

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP

與Sora不同架構

EMO論文一出,圈內不少人鬆了一口氣。

它與Sora技術路線不同,說明復刻Sora不是唯一的路。

EMO並不是建立在類似DiT架構的基礎上,也就是沒有用Transformer去取代傳統UNet,其骨幹網路魔改自Stable Diffusion 1.5。

具體來說,EMO是一種富有表現力的音訊驅動的肖像視訊生成框架,可以根據輸入視訊的長度生成任何持續時間的視訊。

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP圖片

此框架主要由兩個階段構成:

    ##影格編碼階段
#部署一個稱為ReferenceNet的UNet網絡,負責從參考影像和視訊的幀中提取特徵。

    擴散階段
首先,預先訓練的音訊編碼器處理音訊嵌入,人臉區域掩模與多幀雜訊相結合來控制人臉影像的生成。

隨後是骨幹網路主導去噪操作。在骨幹網路中應用了兩種注意力,參考注意力和音頻注意力,分別作用於維持角色的身份一致性和調節角色的運動。

此外,時間模組被用來操縱的時間維度,並調整運動的速度。

在訓練資料方面,團隊建立了一個包含超過250小時影片和超過1500萬張影像的龐大且多樣化的影音資料集。

最終實現的具體特性如下:

    可以根據輸入音頻生成任意持續時間的視頻,同時保證角色身份一致性(演示中給出的最長單個視頻為1分49秒)。
  • 支援各種語言的交談與唱歌(演示中包括普通話、廣東話、英語、日語、韓語)
  • 支援不同畫風(照片、傳統繪畫、漫畫、3D渲染、 AI數字人)

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP圖片

在定量比較上也比之前的方法有較大提升取得SOTA,只在衡量口型同步品質的SyncNet指標上稍遜一籌。

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP圖片

與其他不依賴擴散模型的方法相比,EMO更耗時。

並且由於沒有使用任何明確的控制訊號,可能導致無意中產生手等其他身體部位,一個潛在解決方案是採用專門用於身體部位的控制訊號。

EMO的團隊

最後,來看看EMO背後的團隊有那些人。

論文顯示,EMO團隊來自阿里巴巴智慧計算研究院。

作者共四位,分別是Linrui Tian,Qi Wang,Bang Zhang和Liefeng Bo。

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP圖片

其中,薄列峰(Liefeng Bo),是目前的阿里巴巴通義實驗室XR實驗室負責人。

薄列鋒博士畢業於西安電子科技大學,先後在芝加哥大學豐田研究院和華盛頓大學從事博士後研究,研究方向主要是ML、CV和機器人。其穀歌學術被引數超過13000。

在加入阿里前,他先在亞馬遜西雅圖總部擔任首席科學家,後來又加入京東數位科技集團AI實驗室擔任首席科學家。

2022年9月,薄列峰加入阿里。

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP圖片

EMO已經不是第一次阿里在AIGC領域出圈的成果了。

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP圖片

有AI一鍵換裝的OutfitAnyone。

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP圖片

還有讓全世界小貓小狗都在跳洗澡舞的AnimateAnyone。

就是下面這個:

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP圖片

#如今推出EMO,不少網友在感嘆,阿里是有些科技累積在身上的。

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP圖片

如果現在把所有這些技術結合起來,那效果…

不敢想,但好期待。

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP圖片

總之,我們離「發給AI一個劇本,輸出整部電影」越來越近了。

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP圖片

One More Thing

#Sora,代表文字驅動的影片合成的斷崖式突破。

EMO,也代表音訊驅動的視訊合成一個新高度。

兩者儘管任務不同、具體架構不同,但還有一個重要的共通性:

中間都沒有加入顯式的物理模型,卻都在一定程度上模擬了物理規律。

因此有人認為,這與Lecun堅持的「透過生成像素來為動作建模世界是浪費且注定要失敗的」觀點相悖,更支持了Jim Fan的「數據驅動的世界模型」思想。

AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP圖片

過去種種方法失敗了,而現在的成功,可能真就來自還是強化學習之父Sutton的《苦澀的教訓》,大力出奇蹟。

讓AI能夠像人們一樣去發現,而不是包含人們發現的內容

#突破性的進展最終透過擴大計算規模來實現

#論文:https://www.php.cn/link/a717f41c203cb970f96f706e4b12617bGitHub:#https://www.php.cn/link/e43a09ffc30b44cb1f026fcn/link/e43a09ffc30b44cb1f026fcn/link/e46f878##連結:[1]

https://www.php.cn/link/0dd4f2526c7c874d06f19523264f6552


#

以上是AI影片又炸了!照片+聲音變視頻,阿里讓Sora女主角唱歌小李子說RAP的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板