打開一個數字人,裡面全是生成式 AI。
9月23日晚上,杭州亞運會的開幕式上,點燃主火炬的環節展現了上億線上數字火炬手的「小火苗」聚集在錢塘江上,形成了一個數字人形象。接著,數位人火炬手和現場的第六棒火炬手一同走到火炬台前,共同點燃了主火炬
作為開幕式的核心創意,數實互聯的火炬點燃形式衝上了熱搜,引發了人們的重點。 重寫後的內容:作為開幕式的核心創意,數實互聯的火炬點燃方式引起了熱議,吸引了人們的關注
數字人點火是一個前所未有的創舉,上億人參與其中,涉及了大量先進且複雜的技術。其中最重要的問題之一是如何讓數位人「動起來」。可以明顯看出,隨著生成式人工智慧和大型模式的快速發展,數位人研究也出現了更多新的變化
在即將舉行的全球電腦視覺頂會ICCV 2023 上,我們關注到一篇生成3D 數位人運動研究被大會收錄。相關論文題目為《Hierarchical Generation of Human-Object Interactions with Diffusion Probabilistic Models》,由浙江大學、螞蟻集團共同發布。
根據介紹,這項研究在一定程度上解決了數位人遠距離合成複雜運動的問題,能夠實現原始模型或路徑規劃無法實現的效果。數位人驅動相關的技術也被應用於亞運會的1億數位人線上傳遞
生成式AI 驅動,讓數位人動起來
很多時候,我們需要在給定的3D 場景中合成3D 人體運動,使虛擬人能夠自然地在場景中漫步並與物體交互,這種效果在AR/VR、電影製作和視頻遊戲中都存在多種應用。
在這裡,傳統的角色控制運動生成方法旨在由使用者的控制訊號引導生成短期或重複的運動,新研究則專注於在給定起始位置和目標物件模型的情況下生成更長時間的人機互動內容。
這種想法雖然效果更好,但顯然挑戰更大。首先,人與物體的互動應該是連貫的,這需要對人與物體之間的遠端互動進行建模的能力。其次,在內容生成的背景下,生成模型應該能夠合成大小不同的運動,因為真人存在多種接近目標物並與之互動的方式。
在產生數字人動作的方法上,現有的合成方法大致可分為線上產生和離線產生。大多數線上方法側重於角色的即時控制。給定一個目標對象,他們通常使用自回歸模型透過回饋預測來循環生成未來的運動。儘管這種方法已廣泛用於視頻遊戲等互動場景,但其品質對於長期生成來說還難以令人滿意。
為了提高運動質量,近期的一些離線方法開始採用多層框架,首先產生軌跡,然後合成運動。儘管這種策略能夠產生合理的路徑,但路徑的多樣性是有限的
在這項新研究中,作者提出了一種全新的離線方法,用於綜合長期且多樣化的人與物體之間的互動。此方法的創新之處在於採用了分層生成策略。首先,該策略會預測一系列的里程碑,然後再產生這些里程碑之間的人體動作
具體來說,給定起始位置和目標對象,作者設計了一個里程碑生成模組來合成沿著運動軌蹟的一組節點,每個里程碑對局部姿勢進行編碼並指示人體運動過程中的過渡點。基於這些里程碑,演算法採用運動生成模組來產生完整的運動序列。由於這些里程碑的存在,我們可以將長序列的生成簡化為合成幾個短運動序列。
每個里程碑的局部姿態是由考慮全局依賴性的transformer 模型產生的,以產生時間一致的結果,從而進一步促進相干運動
除了分層生成框架之外,研究人員也進一步利用擴散模型來合成人與物體的交互作用。先前的一些運動合成擴散模型結合了 transformer 和去噪擴散機率模型(DDPM)。
值得一提的是,由於運動序列較長,直接將它們應用到新設定中需要大量的計算,可能導致 GPU 記憶體爆炸。由於新的分層生成框架將長期生成轉換為多個短序列的合成,因此所需的 GPU 記憶體減少到了與短期運動生成相同的水平。
因此,研究人員可以有效地使用Transformer DDPM來合成長期運動序列,從而提高生成品質
為了達到這個目的,研究人員設計了一個分層生成框架,如下圖所示
首先,他們使用GoalNet來預測物件上的互動目標,然後產生目標姿態來明確建模人與物件的交互作用。接下來,他們使用里程碑生成模組來估計里程碑的長度,從而產生從起點到目標的里程碑軌跡,並放置里程碑姿態
這樣一來,長距離運動生成就被分解為多個短距離運動生成的組合。最後,作者設計了一個運動生成模組,用於合成里程碑之間的軌跡並填充動作。
人工智慧(AI)的姿態生成
研究者將人與物體互動並保持靜止的姿態稱為目標姿態。先前,大多數方法使用 cVAE 模型產生人體姿態,但研究者發現該方法在自己的研究中表現不佳。
為了回應這個挑戰,他們採用了VQ-VAE模型來對資料分佈進行建模。此模型利用離散表示將資料聚類在有限的點集中。此外,根據觀察,不同的人體姿態可能具有相似的屬性。例如,當人坐下時,手的動作可能不同,但腿部位置可能相同。因此,他們將關節分為L(L = 5)個不同的非重疊組
根據圖3所示,目標姿勢被劃分為獨立的關節組
根據起始姿態和目標姿態,我們可以讓演算法產生里程碑軌跡,並合成里程碑處的局部姿勢。由於運動資料的長度是未知的,而且可以是任意的(例如,人們可能快速走向椅子並坐下,也可能繞著椅子慢慢走一圈後坐下),因此需要預測里程碑的長度,用N 表示。然後,合成 N 個里程碑點,並在這些點上放置局部姿態。
最後是動作生成,研究者用到的方法不是逐幀預測動作,而是根據生成的里程碑分層合成整個序列。他們首先生成軌跡,然後合成動作。具體來說,在兩個連續的里程碑內,他們首先完成軌跡。然後,在連續里程碑姿態的引導下填充運動。這兩個步驟分別使用兩個 Transformer DDPM 完成。
研究者會為每個步驟精心設計DDPM的條件,以產生目標輸出
#重寫的內容是:領先其他產品的效果
#研究人員在SAMP 資料集上比較了不同方法的結果。可以看到,論文所提方法具有較低的 FD、更高的使用者研究分數和更高的 APD。此外,他們的方法實現了比 SAMP 更高的軌跡多樣性。
這種新方法可以在複雜的場景中產生令人滿意的結果。此方法產生的穿透幀的百分比為3.8%,SAMP為4.9%
#在SAMP、COUCH等資料集上,研究中提到的方法都取得了比基準方法更好的結果
完成全連結佈局
數字人是將語音、語意、視覺等多模態技術融合在一起的綜合體。在最近生成式AI 取得突破的同時,數位人領域正在經歷跨越式的發展,以前需要手工製作的建模、生成交互、渲染等環節正在全面實現人工智能化
隨著工程師不斷優化,這項技術在行動端的體驗也在變得更好,剛結束的亞運火炬線上傳遞活動就是個很好的例子:想要成為火炬手,我們只需要點開支付寶App 的小程式。
據說,為確保開幕式專案順暢進行,螞蟻集團的工程師們針對上百款不同型號的手機進行了超過10 萬次測試,敲下了20 多萬行程式碼,並通過自研Web3D 互動引擎Galacean、AI 數位人、雲端服務、區塊鏈等多種技術結合,保證了人人都可以成為數位火炬手,參與火炬傳遞。亞運數位火炬手平台,能做到億級用戶規模覆蓋,並支援 97% 的常見智慧型手機設備。
為了讓數位火炬手們能夠真實參與,螞蟻的技術團隊開發了58個捏臉控制器。透過使用人臉辨識和AI演算法,他們可以根據每個人的臉部特徵繪製數位火炬手的臉部形象。同時,使用者還可以自由調整臉型、髮型、鼻子、嘴巴、眉毛等特徵,實現自由換裝。這項技術可以提供2兆種不同的數位形象選擇
另外,開幕式點火儀式後,每位數位火炬手都可以收到一張數位點火專屬證書,繪有每位數位火炬手獨一無二的形象,這張證書會透過分散式技術儲存在區塊鏈上。
從研究論文內容和亞運專案不難看出,背後都有完整數位人類技術體系的支撐。據了解,螞蟻集團正積極進行數位人技術探索,並已完成數位人的全鏈路核心技術自研佈局。
與市面上多數公司不同,螞蟻集團的數位人技術自研,選擇與生成式 AI 結合的發展方向。從技術部署上,則涵蓋數位人建模、渲染、驅動、互動的全生命週期,結合 AIGC 與大模型,大幅降低了數位人全鏈路生產成本。目前可支援 2D、3D 數位人,提供了播報型、互動型等多種解決方案。
根據公開資料,可以總結螞蟻數位人平台目前具備四方面技術優勢和特色:
亞運會開幕式之前,中國信通院發布最新數位人標準符合性驗證結果,螞蟻集團靈境數位人平台,成為業界首個通過金融數位人評測的產品,獲得了最高評級「傑出級(L4)」。
而在亞運之外,螞蟻數位人平台也支持了螞蟻集團支付寶、數位金融、政務、五福等業務,並在今年開始應用於短視頻、直播、小程序等載體向合作夥伴提供基礎服務。
可以預見在不久之後,伴隨生成式 AI 加持的數位人不斷升級,我們也會在更多場景中體驗到更好的交互,真正進入數實融合的智慧生活。
以上是數位人點燃亞運主火炬,從這篇ICCV論文透視螞蟻的生成式AI黑科技的詳細內容。更多資訊請關注PHP中文網其他相關文章!