AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メールアドレス: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
この記事の著者、Jiang Nan は北京大学情報学部の博士課程 2 年生です。北京総合人工知能研究所のZhu Yixin教授とHuang Siyuan博士は共同で研究活動を行っています。彼の研究は人間とオブジェクトの相互作用の理解とデジタル人間の行動の生成に焦点を当てており、ICCV、CVPR、ECCV などのトップカンファレンスで複数の論文を発表しています。 近年、キャラクターのアクション生成に関する研究が大きく進歩し、コンピュータービジョン、コンピューターグラフィックス、ロボット工学、人間とコンピューターのインタラクションなど、多くの分野で広く注目を集めています。ただし、既存の研究のほとんどはアクション自体にのみ焦点を当てており、シーンとアクションの両方のカテゴリを制約として使用する研究はまだ初期段階にあります。 この問題を解決するために、北京総合人工知能研究所は、北京大学および北京工業大学の研究者と協力して、リアリズム、セマンティクス、および長さ制限のないアクション生成。さらに、この記事は、キャラクターのアクションと 3 次元シーンに対する正確かつ豊富な注釈情報を含む、大規模なキャラクターとシーンのインタラクション データ セット TRUMANS を公開しました。
- 論文リンク: https://arxiv.org/pdf/2403.08629
- プロジェクトホームページ: https://jnnan.github.io/trumans/
- コードとデータリンク: https ://github.com/jnnan/trumans_utils
...椅子に座る、ボトルを手に取る、引き出しを開けるなどの活動。今日、人体の動きをシミュレートすることは、コンピュータ ビジョン、コンピュータ グラフィックス、ロボット工学、および人間とコンピュータのインタラクションの分野において重要なタスクとなっています。人間の動きを生成する中心的な目標は、自然で現実的で多様な動的パターンを作成することです。ディープラーニング技術の台頭により、人間のアクション生成方法が急速に開発されました。人体モデリング技術の大きな進歩により、巨大な人間の行動データベースの構築も容易になりました。これらの発展に基づいて、データ駆動型人間行動生成技術は、近年研究コミュニティからますます注目を集めています。 現在、ほとんどのアクション生成方法は制御変数としてセマンティクスを使用しており、与えられたインタラクティブなオブジェクト [1] やシーン [2] の下でアクションを生成する研究はまだ初期段階にあります。高品質の人体のアクションとシーンのインタラクション データ セット。既存のリアルシーン データセットは、人間のモーション キャプチャの品質の点で依然として不十分です。 VICON などのデバイスで記録されたモーション キャプチャ データセットは品質の向上をもたらしますが、これらのデータセットには 3D シーンにおける人間とオブジェクトの相互作用の多様性が欠けています。近年、仮想シミュレーション技術を用いた合成データセットは、その低コストと高い適応性により研究者の注目を集めています。
既存の方法の欠点を目的として、この論文は、シーンとセマンティック情報を融合するアクション生成フレームワークを提案します。これは、自己回帰拡散モデルによって駆動され、アクションカテゴリとパスポイントに準拠したアクションを生成できます。シーンの制約に合わせて。シーン内のアクション データを取得するために、本作では新しいキャラクターとシーンのインタラクション データ セット TRUMANS がリリースされます。これには、現実世界でキャプチャされ、3D 仮想シーンに合成された 15 時間のアクション データが含まれており、寝室、レストラン、オフィスなどをカバーしています。 100のシーン構成。 TRUMANS には、経路探索、オブジェクトの操作、剛体や多関節オブジェクトとの相互作用など、日常の行動の包括的な範囲が含まれます。
この研究で提案された方法は、自己回帰アプローチを使用してアクションを少しずつ生成します。セグメント内の最初のアクションは前のセグメントの終わりから始まり、後続のアクションは拡散モデルによって生成されます。生成されたアクションをシーンの制約に適合させるために、著者は空間占有グリッドに基づいたローカルシーンパーセプトロンを提案します。これは、各アクションの終了近くの環境の特性をコード化し、それらをアクション生成の条件に組み込むものです。モデル。フレームごとのアクション ラベルを制御可能な条件として組み込むために、アクション情報エンコーダーは時間情報をアクション セグメントに統合します。これにより、モデルがいつでも命令を受け入れ、指定されたアクション ラベルに準拠したモーションを生成できるようになります。 この記事で提案する方法は、経路軌道制約と正確な関節位置制御をサポートできます。本論文の手法では自己回帰的なセグメントごとの生成メカニズムを採用しているため、アクション生成の各セグメントにサブゴールを設定することで経路と関節の制約を実現できます。歩行モーション制御の場合、各サブゴールは、現在のセグメントの終わりの水平面上のキャラクターの骨盤のプリセット位置を記述します。現在のセグメントの開始位置と終了位置の間のシーン情報に基づいて、モデルは骨盤運動の軌跡を含む全身の動きを生成します。たとえば、サブターゲットが椅子に座っている場合、キャラクターは座る必要があります。物体を掴む動作については、手の位置制御に同じ手法が使用されます。たとえば、ボトルを掴む、ドアを押すなどのアクションを生成する場合、手の関節の位置がサブターゲットとして設定され、ユーザーはオブジェクト上の任意の位置を設定します。モデルは関節のノイズをゼロにして、残りの人間の動きを埋めます。オブジェクトに対する手の相対位置を最適化することで、さらにきめ細かい接触が実現します。 ローカル シーンのパーセプトロンは、ローカル シーンのジオメトリ情報を取得し、モーション生成の条件として使用するために使用されます。具体的には、与えられたシナリオでは、最初にグローバル占有グリッドが生成され、各セルに到達可能かどうかを示すブール値が割り当てられます。1 は到達可能、0 は到達不能を示します。ローカル占有グリッドは、現在のループ セクションのサブターゲットを中心とした 3 次元グリッドで、垂直方向の範囲は 0 ~ 1.8 メートルで、最初のフレームのキャラクタの骨盤のヨー方向と一致するように配向されています。ローカル占有グリッドの値は、グローバル占有グリッドをクエリすることによって取得されます。この論文では、ボクセル グリッドをエンコードするための Vision Transformer (ViT) の使用を提案します。トークンは、z 軸を特徴チャネルとして扱い、xy 平面に沿ってローカル占有グリッドを分割することによって構築され、これらのトークンを ViT モデルに入力します。 ViT でエンコードされたシーンの出力は、アクション生成モデルの条件として使用されます。 単一のアクション記述に基づいて完全なアクション シーケンスを生成する以前の方法とは異なり、この論文では、長期アクションを生成するときにフレームごとの条件としてアクション ラベルを使用します。このモデルでは、特定のアクションが 1 つのサイクル セクションを超えて複数のサイクル セクションに継続する場合があります。したがって、モデルはアクションの実行の進行状況を理解する必要があります。この問題に対処するために、この研究では、フレームごとのアクション カテゴリのラベル付けをサポートする進行状況識別子を導入します。具体的な実装方法は、元のマルチホット アクション タグ上の完全なインタラクションごとに、時間の経過とともに直線的に増加する 0 から 1 までの数値を追加することです。このような操作により、モデルは複数のループ セクションにまたがるアクションに対処できるようになり、生成されたアクション シーケンスのセマンティックな整合性と連続性が強化されます。 データの観点から、この記事は新しいキャラクターとシーンのインタラクション データセット TRUMANS をリリースします。これは、データ品質とスケールの両方で 3D 合成シーンを物理環境に正確に複製します。 15 時間のロングシーケンスのヒューマン モーション キャプチャ。寝室、リビング ルーム、オフィスなどを含む 100 の屋内シーンをサポートします。シーンは合成ですが、作者は各合成シーンを細心の注意を払って復元することで、人と物体の相互作用が自然で正確なままであることを保証します。 TRUMANS のアクションは、経路探索、把握、硬い物体や多関節物体との相互作用など、人間の日常的な行動を網羅しています。データのスケーラビリティをさらに向上させるために、この記事では既存のデータに基づいてデータ拡張手法を適用します。これにより、データセット内のオブジェクトは一定の範囲内で位置とサイズを変更でき、それに合わせてキャラクターのアクションが自動的に更新されます。変更。図 3. TRUMANS モーション キャプチャ データ セット図 4. 変化するオブジェクトのサイズに応じて動きを自動的に調整し、データ規模を効率的に拡張します 以下はアクション生成手法の適用シナリオですこの記事で提案されています。
(1) このメソッドは、指定されたパスのキーポイントに基づいて、さまざまなシーンで歩行アクションを生成でき、キャラクターはシーン内の障害物に対して自然なフィードバックを持ちます。
(2) この記事の方法は、手持ちの小さなオブジェクトの把握とインタラクティブなアクションの生成に適しています。たとえば、テーブルの上に置かれた水筒に近づいて掴み、水を飲むジェスチャーをします。完成プロセスでは、シーンのレイアウトに応じてアクションを調整する必要があります。 (3) 与えられた手の動きの軌道に基づいて、その軌道を満たし、シーン内のオブジェクトと衝突しない全身アクションを生成します。図 5. アクション生成の多様性の表示スルー アウト ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’’
7. インタラクティブなアクションの生成ハンドヘルド小型オブジェクト
この方法のパフォーマンスを定量化するために、著者はインタラクティブオブジェクトが移動可能かどうかに基づいて 2 セットの評価システムを構築しました。静的インタラクティブ オブジェクトの場合、この記事で評価されるアクションには、シーン内で座る、横になる、歩くなどが含まれます。評価指標は主に場面を横切るアクションや足の滑りの有無、生成品質に関する被験者の主観的な評価に焦点を当てています。動的インタラクティブ オブジェクトの場合、この記事では、把握プロセスとその後のインタラクティブ アクションに焦点を当てます。評価指標は、アクションが所定のカテゴリに該当するかどうか、アクションの種類、カビの侵入度、被験者の主観的な評価を数値化したものです。さらに、この研究では、TRUMANS と既存の PROX データセットおよび GRAB データセットを使用したトレーニングによって得られたアクション生成の品質を比較しています。実験結果は、この記事で提案した方法の優位性と、TRUMANS データによってキャラクターとシーンのインタラクション生成タスクにもたらされる全体的な品質の向上を確認します。
以上がCVPR'24 ハイライト | 手の動きまでを生成する 1 つのフレームワークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。