AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。
日常の活動において、人の動きは衣服の二次的な動きを引き起こし、衣服のさまざまな折り目を生成することがよくあります。これには、人体と衣服の幾何学的形状と動き(人間の姿勢や速度力学など)を理解する必要があります。 .) と外観が同時に動的にモデル化されます。このプロセスには人と衣服の間の複雑で非剛的な物理的相互作用が含まれるため、従来の 3 次元表現では処理が困難なことがよくあります。 ビデオシーケンスからの動的なデジタルヒューマンレンダリングの学習は、近年大きく進歩しました。既存の手法では、「モーションエンコーダ-モーション特徴-外観」デコーダというパラダイムを使用して、レンダリングを人間の姿勢から画像へのニューラルマッピングとみなすことがよくあります。このパラダイムは、監視のための画像損失に基づいており、画像の各フレームの再構成に重点が置かれているため、「人体の動きや衣服に関連した動き」などの複雑な動きを効果的にモデル化することが困難です。 」。 この問題を解決するために、シンガポールの南洋理工大学の S-Lab チームは、動きと外観の共同学習による動的人体再構築の新しいパラダイムを提案し、人体表面 (サーフェスベースのトライプレーン) は、運動物理モデリングと外観モデリングを 1 つのフレームワークに統合し、動的な人体のレンダリングの品質を向上させるための新しいアイデアを開きます。この新しいパラダイムは、衣服に付着した動きを効果的にモデル化し、動きの速いビデオ (ダンスなど) から動的な人体の再構築を学習し、動きに関連した影をレンダリングするために使用できます。レンダリング効率は 3D ボクセル レンダリング方式と比べて 9 倍高速で、LPIPS 画質は約 19 ポイント向上しています。
- 論文タイトル: SurMo: ダイナミックヒューマンレンダリングのためのサーフェスベースの4Dモーションモデリング
- 論文アドレス: https://arxiv.org/pdf/2404.01225.pdf
- プロジェクトホームページ: https ://taohuumd.github.io/projects/SurMo
- Github リンク: https://github.com/TaoHuUMD/SurMo
外観の再構築のみに焦点を当て、動きの連続性モデリングを無視した既存のパラダイム「モーションエンコーダ - モーション特徴 - 外観デコーダ」の欠点を目指して、新しいパラダイム SurMo が提案されています。「①モーションエンコーダ - モーション特徴 - ②モーションデコーダ、③外観」デコーダ"。上の図に示すように、パラダイムは 3 つの段階に分かれています:
- 疎な 3 次元空間での動きをモデル化する既存の手法とは異なり、SurMo は、人間の表面多様体フィールド (またはコンパクト) に基づいて提案します。 2 次元テクスチャ UV 空間) 4 次元 (XYZ-T) モーション モデリングであり、人体表面上に定義された 3 つの平面 (サーフェスベースのトリプレーン) を介してモーションを表します。
- 運動の空間的偏向などの現在の運動特性 (3 次元の姿勢、速度、運動軌道など) に基づいて次のフレームの運動状態を予測する運動物理デコーダーを提案します - 表面法線ベクトルと時間的偏向 - 速度、これは動きの特徴の連続性をモデル化します。
- 4 次元外観デコーディング、3 次元自由視点ビデオをレンダリングするための動き特徴の時間デコーディング。主にハイブリッド ボクセル-テクスチャ ニューラル レンダリング (ハイブリッド ボリューム-テクスチャ レンダリング、HVTR [Hu et al. 2022]) を通じて実装されます。 .
SurMo は、再構成損失と敵対的損失のエンドツーエンド トレーニングに基づいて、ビデオから動的な人間のレンダリングを学習できます。 この研究では、合計 9 つの動的な人間のビデオ シーケンスを含む 3 つのデータセットに対して実験評価を実施しました: ZJU-MoCap [Peng et al 2021]、AIST++ [Li, Yang et al. .2021] MPII-RRDC [Habermann et al. 2021] .この研究では、ZJU-MoCap データセット上の新しい視点のパフォーマンスを調査します。以下の図に示すように、時間シーケンス (時間的に変化する外観)、特に 2 つのシーケンスの影響が研究されます。各シーケンスには似たようなジェスチャが含まれていますが、①②、③④、⑤⑥のように異なる動作軌跡で表示されます。 SurMo は動作軌跡をモデル化できるため、時間の経過とともに変化する動的効果を生成できますが、関連する方法は姿勢のみに依存する結果を生成し、異なる軌跡の下でも衣服の折り目はほぼ同じになります。 モーション関連の影と衣服関連のモーションのレンダリング
SurMo は、以下の図に示すように、MPII-RRDC データセット上でモーション関連の影と衣服関連のモーションを調査しました。このシーケンスは屋内のサウンドステージで撮影され、照明条件により自己閉塞の問題により出演者に動きに関連した影が生じました。
SurMo では、これらの①②、③④、⑦⑧などの影を新しい視点レンダリングで復元することができます。対照的な方法である HumanNeRF [Weng et al.] は、動きに関連した影を回復できません。さらに、SurMo は、ジャンプ動作の折り目⑤⑥ など、動作軌道に応じて変化する服飾品の動作を再構築できますが、HumanNeRF はこの動的効果を再構築できません。
SurMo は、動きの速いビデオから人体をレンダリングし、対照的な方法ではレンダリングできないモーション関連の衣服の折り目の詳細も復元します。
この研究では、2つの異なる運動モデリング手法を比較しました:現在ボクセル空間(体積空間)で一般的に使用されている運動モデリング、および SurMo によって提案された人間の表面多様体フィールド (表面多様体) の運動モデリング、特にボリューム トリプレーンと表面ベースのトリプレーンを比較したものを以下の図に示します。 ボリューム トリプレーンは、レンダリングに使用されるフィーチャの約 21 ~ 35% のみがスパースな表現であるのに対し、サーフェスベースのトリプレーン フィーチャの使用率は 85% に達する可能性があるため、セルフ オクルージョンの処理においてより多くの利点があることがわかります。 ( d) に示すように。同時に、サーフェスベースのトライプレーンは、図 (c) に示すように、ボクセル レンダリングでサーフェスから遠く離れた点をフィルタリングすることで、より高速なレンダリングを実現できます。
同時に、この研究は、上の図に示すように、サーフェスベースのトリプレーンは、トレーニング プロセス中にボリュメトリック トリプレーンよりも速く収束でき、衣服の折り目の詳細と自己オクルージョンにおいて明らかな利点があることを示しています。 SurMo は、以下の図に示すように、アブレーション実験を通じてモーション モデリングの効果を研究しました。結果は、SurMo が動きの静的特性 (特定のフレームでの固定姿勢など) と動的特性 (速度など) を分離できることを示しています。たとえば、速度を変化させても、ぴったりとフィットした衣服の折り目は①のように変化しませんが、緩い衣服の折り目は②のように速度に大きく影響されます。これは日常の観察と一致しています。 以上がCVPR 2024 | AI は、ダンス時のスカートの飛行を高度に復元することもでき、ダイナミックな人体レンダリングの新しいパラダイムを提案します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。