ヒューマン アクション生成タスクは、エンターテイメント、仮想現実、ロボット工学、その他の分野のニーズを満たすために、現実的な人間のアクション シーケンスを生成することを目的としています。従来の生成方法には、3D キャラクターの作成、キーフレーム アニメーション、モーション キャプチャなどの手順が含まれていますが、時間がかかる、専門的な技術知識が必要である、高価なシステムとソフトウェアが必要である、異なるソフトウェアとハードウェア システム間で互換性がある可能性があるなど、多くの制限があります。性的な問題など深層学習の発展に伴い、人々は生成モデルを使用して人間の動作シーケンスの自動生成を実現しようとし始めました。たとえば、テキストの説明を入力し、テキストの要件に一致する動作シーケンスを生成するようモデルに要求します。拡散モデルが現場に導入されるにつれて、生成されたアクションと特定のテキストの一貫性は向上し続けています。
しかし、生成されるアクションの自然さは改善されてきましたが、ユーザーのニーズとの間には依然として大きなギャップがあります。人間の動き生成アルゴリズムの機能をさらに向上させるために、本論文では MotionDiffuse [1] に基づく ReMoDiffuse アルゴリズム (図 1) を提案します。検索戦略を活用することで、関連性の高い参照サンプルを見つけ出し、より高品質なアクション シーケンスを生成するためのきめ細かい参照特徴を提供します。
# 論文リンク: https:/ /arxiv.org/pdf/2304.01116.pdf
GitHub リンク: https://github.com/mingyuan-zhang/ReMoDiffuse
プロジェクトのホームページ: https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html
拡散モデルと革新的な検索戦略を巧みに統合することにより、ReMoDiffuse はテキスト ガイドに新しい命を吹き込みます。人間の動きの生成。慎重に考えられたモデル構造により、ReMoDiffuse は、豊かで多様かつ非常に現実的なアクション シーケンスを作成できるだけでなく、さまざまな長さと多粒度のアクション要件にも効果的に対応できます。実験では、ReMoDiffuse がアクション生成の分野における複数の重要な指標で優れたパフォーマンスを示し、既存のアルゴリズムを大幅に上回っていることが証明されています。
#図 1. ReMoDiffuse の概要
メソッドの紹介
ReMoDiffuse の主なプロセスは、検索と拡散の 2 つの段階に分かれています。取得段階では、ReMoDiffuse はハイブリッド取得テクノロジーを使用して、ユーザー入力テキストと予想されるアクション シーケンスの長さに基づいて外部マルチモーダル データベースから情報豊富なサンプルを取得し、アクション生成のための強力なガイダンスを提供します。拡散段階では、ReMoDiffuse は検索段階で取得した情報を使用して、効率的なモデル構造を通じてユーザー入力と意味的に一貫したモーション シーケンスを生成します。取得段階のデータ フローは次のとおりです (図 2):
取得プロセスには 3 種類のデータが含まれます。つまり、ユーザー入力テキスト、予想されるアクション シーケンスの長さ、および複数の # を含む外部マルチモーダル データベースです。 ## ペア。最も関連性の高いサンプルを取得するとき、ReMoDiffuse は式
を使用して、各データベース内のサンプルとユーザー入力の間の類似性を計算します。ここでの最初の項目は、事前トレーニングされた CLIP [2] モデルのテキスト エンコーダーを使用して、ユーザー入力テキストとデータベース エンティティのテキスト間のコサイン類似度を計算することであり、2 番目の項目は、予想されるアクション シーケンスの長さの差を計算します。データベースエンティティのアクションシーケンスの長さの相対的な差異が運動学的類似度とみなされます。類似度スコアを計算した後、ReMoDiffuse は取得したサンプルと同様の類似度を持つ上位 k 個のサンプルを選択し、テキスト特徴
とアクション特徴
を抽出します。これら 2 つは、ユーザーが入力したテキストから抽出された特徴とともに、アクション生成をガイドする拡散ステージへの入力信号として使用されます。
図 2: ReMoDiffuse の取得フェーズ拡散プロセス (図 3.c) は、順方向プロセスと逆方向プロセスの 2 つの部分で構成されます。順方向のプロセスでは、ReMoDiffuse は元のモーション データにガウス ノイズを徐々に追加し、最終的にランダム ノイズに変換します。逆プロセスは、ノイズを除去し、リアルなモーション サンプルを生成することに重点を置いています。 ReMoDiffuse は、ランダムなガウス ノイズから開始して、逆プロセスの各ステップでセマンティック変調モジュール (SMT) (図 3.a) を使用して真の分布を推定し、条件付き信号に基づいてノイズを段階的に除去します。ここでの SMT の SMA モジュールは、すべての条件情報を生成されたシーケンス特徴に統合します。これが、この記事で提案するコア モジュールです。
図 3 : ReMoDiffuse の拡散段階
#SMA 層 (図 3.b) では、効率的なアテンション メカニズム (Efficient tention) [3] を使用して加速します。アテンションモジュールを計算し、グローバル情報をより強調するグローバル特徴マップを作成します。この特徴マップは、アクション シーケンスのより包括的な意味論的な手がかりを提供するため、モデルのパフォーマンスが向上します。 SMA レイヤーの中心的な目標は、条件付き情報を集約することでアクション シーケンス の生成を最適化することです。このフレームワークの下:
1. Q ベクトルは、条件付き情報に基づいて生成すると予想されるアクション シーケンス を具体的に表します。
2.Kベクトルは、現在のアクションシーケンスの特徴、ユーザーが入力した意味論的な特徴、検索サンプルから得られる特徴and##を含む複数の要素を包括的に考慮したインデックスメカニズムです。 #。このうち、は検索サンプルから得られた行動系列特徴量を表し、は検索サンプルから得られたテキスト記述特徴量を表す。この包括的な構築方法により、インデックス作成プロセスにおける K ベクトルの有効性が保証されます。
3.V ベクトルは、アクションを生成するために必要な実際の機能を提供します。 K ベクトルと同様に、V ベクトルでは、検索サンプル、ユーザー入力、および現在のアクション シーケンスが考慮されます。取得したサンプルのテキスト説明特徴と生成されたアクションの間には直接の相関関係がないため、不必要な情報干渉を避けるために、V ベクトルを計算するときにこの特徴を使用しないことを選択します。 Efficient Attendee のグローバル アテンション テンプレート メカニズムと組み合わせると、SMA レイヤーは、検索サンプルからの補助情報、ユーザー テキストの意味情報、およびノイズ除去されるシーケンスの特徴情報を使用して、一連の包括的なアテンションを確立します。グローバル テンプレート、すべての条件の作成 情報は、生成されるシーケンスによって完全に吸収されます。
内容を書き直すには、元のテキストを中国語に変換する必要があります。書き換え後は次のようになります。
研究設計と実験結果
私たちは、HumanML3D [4] と KIT-ML [5] の 2 つのデータセットで ReMoDiffuse を評価しました。実験結果 (表 1 および 2) は、テキストの一貫性とアクションの品質の観点から、私たちが提案する ReMoDiffuse フレームワークの強力なパフォーマンスと利点を示しています。表 1. HumanML3D テスト セットでのさまざまなメソッドのパフォーマンス
##表 2. さまざまなメソッドのパフォーマンスKIT-ML テスト セットでの
#次は、ReMoDiffuse の強力なパフォーマンスを示すいくつかの例です (図 4)。以前の方法と比較して、たとえば、「人が円を描いてジャンプする」というテキストが与えられた場合、ReMoDiffuse だけが「ジャンプ」の動きと「円」のパスを正確にキャプチャできます。これは、ReMoDiffuse がテキストの詳細を効果的にキャプチャし、指定されたモーション継続時間にコンテンツを合わせることができることを示しています。
図 4. ReMoDiffuse によって生成されたアクション シーケンスの比較他の方法で生成されたアクション シーケンスと
#Guo らの方法 [4]、MotionDiffuse [1]、MDM [6] の結果を比較しました。生成された対応動作シーケンスを視覚的に表示し、テスト参加者の意見をアンケート形式で収集しました。結果の分布を図 5 に示します。この結果から明らかなように、ほとんどの場合、テスト参加者は、私たちの方法によって生成されたアクション シーケンス、つまり ReMoDiffuse によって生成されたアクション シーケンスが、4 つのアルゴリズムの中で与えられたテキストの説明と最も一致していると信じています。最も自然で滑らかです。 #図 5: ユーザー調査結果の分布
引用 Mingyuan Zhang、Cai Zhonggang、Pan Liang、Hong Fangzhou、Guo Xinying、Yang Lei、Liu Ziwei。 Motiondiffuse: 拡散モデルに基づいたテキスト駆動の人間のモーション生成。 arXiv プレプリント arXiv:2208.15001、2022
[2] Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin、 Jack Clark, et al. Learning transferable Visual models from Natural Language Superior. arXiv preprint arXiv:2103.00020, 2021.##[3] Zhuoran Shen、Mingyuan Zhang、Haiyu Zhao、Shuai Yi、およびHonsheng Li. 効率的な注意: 線形複雑性による注意. コンピューター ビジョンのアプリケーションに関する IEEE/CVF 冬季会議議事録、3531 ~ 3539 ページ、2021.
[4 ] Chuan Guo 、Shihao Zou、Xinxin Zuo、Sen Wang、Wei Ji、Xingyu Li、および Li Cheng. テキストからの多様で自然な 3D 人間の動きの生成. コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録、5152 ~ 5161 ページ、 2022.
書き直す必要があるのは、[5] マティアス プラパート、クリスチャン マンデリー、タミム アスフォーです。 「運動言語データセット」。 Big Data、4(4):236-252、2016
[6] Guy Tevet、Sigal Raab、Brian Gordon、Yonatan Shafir、Daniel Cohen-Or、および Amit H Bermano。人間の動作拡散モデル。第 11 回学習表現国際会議にて、2022.
以上がICCV 2023 | 人間の行動生成を再構築し、拡散モデルと検索戦略を統合する新しいパラダイムである ReMoDiffuse が登場の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。