CVPR'24 Highlight｜一個框架搞定人物動作生成，精細到手部運動-人工智慧-PHP中文網

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者蔣南毅正共同進行研究工作。他的研究重點是人-物交互理解和數字人的動作生成，並於ICCV，CVPR和ECCV等頂會發表多篇論文。

近年來，人物動作生成的研究取得了顯著的進展，在眾多領域，如電腦視覺、電腦圖形學、機器人技術以及人機互動等方面獲得廣泛的關注。然而，現有工作大多只關注動作本身，以場景和動作類別同時作為約束條件的研究依然處於起步階段。

為了解決這個問題，北京通用人工智慧研究院聯合北京大學、北京理工大學的研究員提出了一種使用自回歸條件擴散模型的動作生成框架，實現真實、帶有語義、符合場景且無長度限制的動作生成。此外，文章發布了大規模人物 - 場景互動資料集 TRUMANS，包含準確且豐富的針對人物動作以及三維場景的標註資訊。

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

論文連結：https://arxiv.org/pdf/2403.08629
專案首頁：https://jnnan.github.io
專案主頁：https://jnnan.github.io/ ://github.com/jnnan/trumans_utils

研究概述

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

圖1. 人物- 場景互動動作產生方法與TRUMANS 資料集

與場景物件的互動是人們日常活動的重要組成部分，例如坐在椅子上、拿起瓶子或打開抽屜等動作。如今，仿真人類肢體動作已成為電腦視覺、電腦圖形、機器人技術和人機互動等領域的重要任務。生成人體動作的核心目標在於創造自然、逼真且多樣化的動態模式。深度學習技術的興起使人體動作生成方法得以快速發展。人體建模技術的重大突破也使建立龐大的人體動作資料庫變得更為便利。基於這些進展，近年來以數據為驅動的人體動作生成技術越來越受到研究界的重視。

目前，多數動作生成的方法以語義作為控制變量，在給定交互物體[1] 和場景[2] 的條件下生成動作的研究仍處於起步階段，這主要由於缺乏高質量人體動作與場景互動資料集。現有的真實場景資料集在人體動作捕捉品質方面仍有不足。儘管透過 VICON 等裝置錄製的動作捕捉資料集能夠帶來品質的提升，但這些資料集缺乏多樣化的 3D 場景中人與物體的互動。最近，使用虛擬模擬技術的合成資料集因其低成本和高適應性而引起研究者的關注。

針對現有方法的不足，本文提出了一種融合場景和語義資訊的動作生成框架，由自回歸的擴散模型作為驅動，能夠在給定動作類別和路徑點的條件下，生成符合場景約束的人物動作。為了獲取場景中的動作數據，本工作發布了一個全新的人物- 場景交互數據集TRUMANS，包含在真實世界捕捉的15 小時動作數據，並合成到3D 虛擬場景中，覆蓋了臥室、餐廳和辦公室等100 個場景配置。 TRUMANS 包含尋路、物件操作、及與剛性和鉸接物體的互動等全面的日常行為。

動作生成框架

^{圖 2. 本文中所產生的動作產生架構中產生為自有機制，以情境和動作類別的條件控制動作產生。}

本研究提出的方法採用自回歸的方式逐段產生動作。段內的起始動作源自於上段末，後續動作由擴散模型產生。為了使生成的動作符合場景約束，作者基於空間佔有網格提出一個局部場景感知器，將每段動作終點附近環境的特徵編碼，並納入動作生成模型的條件。為了將逐幀的動作標籤作為可控條件納入，動作資訊編碼器將時間資訊整合到動作片段中，使得模型可以在任意時刻接受指令，並產生符合給定動作標籤的運動。

本文提出的方法可以支持路徑軌跡約束以及精確的關節位置控制。由於本文方法採用了自回歸逐段生成的機制，路徑和關節約束可以透過為每段動作產生設定子目標的方式來實現。對於行走動作控制，每個子目標描述了當前段落末端人物骨盆在水平面的預設位置。根據當前段落的起始和終止位置之間的場景訊息，模型產生包含骨盆運動軌跡在內的全身動作。例如，當子目標位於椅子上時，需要讓角色坐下。對於涉及物體抓握的動作，手部的位置控制也使用相同的技巧。例如產生抓取瓶子或推門等動作時，將手部關節位置設為子目標，並由使用者設定在物體上的期望位置。模型將關節上的雜訊歸零並補全其餘部分的人體動作。進一步的精細接觸是透過優化手與物體的相對位置的方式來實現。

本地場景感知器用於獲取本地場景幾何信息，並將其作為運動生成的條件。具體來說，給定一個場景，首先產生一個全域佔用網格，每個單元格被分配一個布林值表示其是否可達，1 表示可達，0 表示不可達。本地佔用網格是以當前循環節的子目標為中心的三維網格，垂直範圍內從 0 米到 1.8 米，方向與第一幀中角色骨盆的偏航方向對齊。本地佔用網格的值透過查詢全域佔用網格來取得。本文提出使用 Vision Transformer (ViT) 對體素網格進行編碼。沿著 xy 平面劃分本地佔用網格，將 z 軸視為特徵通道來建立 Token，並將這些 Token 輸入到 ViT 模型中。場景經過 ViT 編碼後的輸出被用作動作生成模型的條件。

與先前基於單一動作描述產生完整動作序列的方法不同，本文在產生長期動作時逐幀使用動作標籤作為條件。在這個模型中，一個特定動作可能會超過一個循環節，並在多個循環節中繼續。因此模型需要理解動作執行的過程。為了解決這個問題，本研究引入了一個進度標識符，用於支援逐幀的動作類別標籤。具體實現方式為在原始 multi-hot 動作標籤上，對每段完整的交互添加一個 0 到 1 之間隨時間線性增長的數。這樣的操作使得模型能夠應對跨多個循環節的動作，並增強生成動作序列的語意完整性和連續性。

資料集

資料方面，本文發布了全新的人物- 場景交互資料集TRUMANS，精確地複製了3D 合成場景到物理環境中，兼具資料品質與規模； 15 小時的長序列人體動作捕捉，搭配100 個室內場景，類別包含臥室，客廳和辦公室等。儘管場景是合成的，作者透過對每個合成場景的細緻還原，確保了人與物體之間的互動保持自然且精確。 TRUMANS 動作涵蓋日常人物行為，包括尋路、抓取，以及與剛性和鉸接物體的互動。為了進一步提高數據的可擴展性，本文應用了一種基於現有數據進行數據增強方式，使得數據集中的物體可以在一定範圍內改變位置和尺寸，並自動更新人物動作以匹配變化。

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

^{圖 3. TRUMANS 動作捕捉資料集}
^{圖 4. 依變化的物件尺寸自動調整動作，以高效率擴充}
以下是本文所提出的動作產生方法的應用場景範例。
（1）基於給定的路徑關鍵點，本文方法能夠產生多樣的場景中行走動作，且人物對場景中的障礙物有自然的回饋。
（2）本文方法適用於手持小物體的抓取和互動動作產生。例如走近並抓取放置於桌上的水瓶，並做出喝水的動作。完成過程中需根據場景佈局調整動作。
（3）基於給定手部運動軌跡，產生滿足該軌蹟的全身動作，且不與場景中的物體發生衝突。

圖6. 已知手部動作路徑與情境的全身動作產生
圖7. 手持小物體的交互動作生成

為了量化本文方法的性能，作者根據交互物體可動與否構建了兩套評價體系。對於靜態互動物體，本文評測的動作包含坐，躺，以及在場景中的走動。評測指標主要針對動作是否與場景發生穿模，腳部滑動，以及受試者對生成品質的主觀評估。而對於動態互動物體，本文關注抓握的過程以及後續的互動動作。評價指標量化了動作是否符合給定的類別，動作的多樣性，穿模程度，以及受試者主觀評價。此外，研究也比較了使用 TRUMANS 以及現有的 PROX 和 GRAB 資料集訓練所得到的動作生成品質。實驗結果證實了本文所提方法的優越性，以及 TRUMANS 數據對人物 - 場景交互生成任務帶來的全面品質提升。

以上是CVPR'24 Highlight｜一個框架搞定人物動作生成，精細到手部運動的詳細內容。更多資訊請關注PHP中文網其他相關文章！