CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

王林
发布: 2024-07-17 02:09:30
原创
936 人浏览过
CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者蒋楠是北京大学智能学院二年级博士生,指导教师朱毅鑫教授,与北京通用人工智能研究院黄思远博士联合开展研究工作。他的研究重点是人-物交互理解和数字人的动作生成,并于ICCV,CVPR和ECCV等顶会发表多篇论文。

近年来,人物动作生成的研究取得了显着的进展,在众多领域,如计算机视觉、计算机图形学、机器人技术以及人机交互等方面获得广泛的关注。然而,现有工作大多只关注动作本身,以场景和动作类别同时作为约束条件的研究依然处于起步阶段。

为了解决这一问题,北京通用人工智能研究院联合北京大学、北京理工大学的研究员提出了一种使用自回归条件扩散模型的动作生成框架,实现真实、带有语义、符合场景且无长度限制的动作生成。此外,文章发布了大规模人物 - 场景交互数据集 TRUMANS,包含准确且丰富的针对人物动作以及三维场景的标注信息。

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

  • 论文链接:https://arxiv.org/pdf/2403.08629
  • 项目主页:https://jnnan.github.io/trumans/
  • 代码、数据链接:https ://github.com/jnnan/trumans_utils

研究概述

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

                           图1. 人物- 场景交互动作生成方法和TRUMANS 数据集

与场景物体的交互是人们日常活动的重要组成部分,例如坐在椅子上、拿起瓶子或打开抽屉等动作。如今,仿真人类肢体动作已成为计算机视觉、计算机图形学、机器人技术和人机交互等领域的一项重要任务。生成人体动作的核心目标在于创造自然、逼真且多样化的动态模式。深度学习技术的兴起使人体动作生成方法得到飞速发展。人体建模技术的重大突破也使构建庞大的人体动作数据库变得更为便捷。基于这些进展,近年来以数据为驱动的人体动作生成技术越来越受到研究界的重视。

目前,多数动作生成的方法以语义作为控制变量,在给定交互物体[1] 和场景[2] 的条件下生成动作的研究仍处于起步阶段,这主要由于缺乏高质量人体动作与场景交互数据集。现有的真实场景数据集在人体动作捕捉质量方面仍有不足。尽管通过 VICON 等设备录制的动作捕捉数据集能够带来质量的提升,但这些数据集缺乏多样化的 3D 场景中人与物体的交互。最近,使用虚拟仿真技术的合成数据集因其低成本和高适应性而引起研究者们的关注。

针对现有方法的不足,本文提出了一种融合场景和语义信息的动作生成框架,由自回归的扩散模型作为驱动,能够在给定动作类别和路径点的条件下,生成符合场景约束的人物动作。为了获取场景中的动作数据,本工作发布了一个全新的人物- 场景交互数据集TRUMANS,包含在真实世界捕捉的15 小时动作数据,并合成到3D 虚拟场景中,覆盖了卧室、餐厅和办公室等100 个场景配置。 TRUMANS 包含寻路、物体操作、及与刚性和铰接物体的交互等全面的日常行为。

动作生成框架

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

                             圖 2. 本文中所產生的動作產生架構中產生為自有機制,以情境和動作類別的條件控制動作產生。

本研究提出的方法採用自回歸的方式逐段產生動作。段內的起始動作源自於上段末,後續動作由擴散模型產生。為了使生成的動作符合場景約束,作者基於空間佔有網格提出一個局部場景感知器,將每段動作終點附近環境的特徵編碼,並納入動作生成模型的條件。為了將逐幀的動作標籤作為可控條件納入,動作資訊編碼器將時間資訊整合到動作片段中,使得模型可以在任意時刻接受指令,並產生符合給定動作標籤的運動。

本文提出的方法可以支持路徑軌跡約束以及精確的關節位置控制。由於本文方法採用了自回歸逐段生成的機制,路徑和關節約束可以透過為每段動作產生設定子目標的方式來實現。對於行走動作控制,每個子目標描述了當前段落末端人物骨盆在水平面的預設位置。根據當前段落的起始和終止位置之間的場景訊息,模型產生包含骨盆運動軌跡在內的全身動作。例如,當子目標位於椅子上時,需要讓角色坐下。對於涉及物體抓握的動作,手部的位置控制也使用相同的技巧。例如產生抓取瓶子或推門等動作時,將手部關節位置設為子目標,並由使用者設定在物體上的期望位置。模型將關節上的雜訊歸零並補全其餘部分的人體動作。進一步的精細接觸是透過優化手與物體的相對位置的方式來實現。

本地場景感知器用於獲取本地場景幾何信息,並將其作為運動生成的條件。具體來說,給定一個場景,首先產生一個全域佔用網格,每個單元格被分配一個布林值表示其是否可達,1 表示可達,0 表示不可達。本地佔用網格是以當前循環節的子目標為中心的三維網格,垂直範圍內從 0 米到 1.8 米,方向與第一幀中角色骨盆的偏航方向對齊。本地佔用網格的值透過查詢全域佔用網格來取得。本文提出使用 Vision Transformer (ViT) 對體素網格進行編碼。沿著 xy 平面劃分本地佔用網格,將 z 軸視為特徵通道來建立 Token,並將這些 Token 輸入到 ViT 模型中。場景經過 ViT 編碼後的輸出被用作動作生成模型的條件。

與先前基於單一動作描述產生完整動作序列的方法不同,本文在產生長期動作時逐幀使用動作標籤作為條件。在這個模型中,一個特定動作可能會超過一個循環節,並在多個循環節中繼續。因此模型需要理解動作執行的過程。為了解決這個問題,本研究引入了一個進度標識符,用於支援逐幀的動作類別標籤。具體實現方式為在原始 multi-hot 動作標籤上,對每段完整的交互添加一個 0 到 1 之間隨時間線性增長的數。這樣的操作使得模型能夠應對跨多個循環節的動作,並增強生成動作序列的語意完整性和連續性。

資料集

資料方面,本文發布了全新的人物- 場景交互資料集TRUMANS,精確地複製了3D 合成場景到物理環境中,兼具資料品質與規模; 15 小時的長序列人體動作捕捉,搭配100 個室內場景,類別包含臥室,客廳和辦公室等。儘管場景是合成的,作者透過對每個合成場景的細緻還原,確保了人與物體之間的互動保持自然且精確。 TRUMANS 動作涵蓋日常人物行為,包括尋路、抓取,以及與剛性和鉸接物體的互動。為了進一步提高數據的可擴展性,本文應用了一種基於現有數據進行數據增強方式,使得數據集中的物體可以在一定範圍內改變位置和尺寸,並自動更新人物動作以匹配變化。

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

                            圖 3. TRUMANS 動作捕捉資料集
                            圖 4. 依變化的物件尺寸自動調整動作,以高效率擴充
以下是本文所提出的動作產生方法的應用場景範例。
(1)基於給定的路徑關鍵點,本文方法能夠產生多樣的場景中行走動作,且人物對場景中的障礙物有自然的回饋。
(2)本文方法適用於手持小物體的抓取和互動動作產生。例如走近並抓取放置於桌上的水瓶,並做出喝水的動作。完成過程中需根據場景佈局調整動作。
(3)基於給定手部運動軌跡,產生滿足該軌蹟的全身動作,且不與場景中的物體發生衝突。

                                                      圖6. 已知手部動作路徑與情境的全身動作產生
        圖7. 手持小物體的交互動作生成

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

為了量化本文方法的性能,作者根據交互物體可動與否構建了兩套評價體系。對於靜態互動物體,本文評測的動作包含坐,躺,以及在場景中的走動。評測指標主要針對動作是否與場景發生穿模,腳部滑動,以及受試者對生成品質的主觀評估。而對於動態互動物體,本文關注抓握的過程以及後續的互動動作。評價指標量化了動作是否符合給定的類別,動作的多樣性,穿模程度,以及受試者主觀評價。此外,研究也比較了使用 TRUMANS 以及現有的 PROX 和 GRAB 資料集訓練所得到的動作生成品質。實驗結果證實了本文所提方法的優越性,以及 TRUMANS 數據對人物 - 場景交互生成任務帶來的全面品質提升。

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

                 

以上是CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动的详细内容。更多信息请关注PHP中文网其他相关文章!

相关标签:
来源:jiqizhixin.com
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责声明 Sitemap
PHP中文网:公益在线PHP培训,帮助PHP学习者快速成长!