ホームページ テクノロジー周辺機器 AI CVPR'24 ハイライト | 手の動きまでを生成する 1 つのフレームワーク

CVPR'24 ハイライト | 手の動きまでを生成する 1 つのフレームワーク

Jul 17, 2024 am 02:09 AM
プロジェクト

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动
AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メールアドレス: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

この記事の著者、Jiang Nan は北京大学情報学部の博士課程 2 年生です。北京総合人工知能研究所のZhu Yixin教授とHuang Siyuan博士は共同で研究活動を行っています。彼の研究は人間とオブジェクトの相互作用の理解とデジタル人間の行動の生成に焦点を当てており、ICCV、CVPR、ECCV などのトップカンファレンスで複数の論文を発表しています。

近年、キャラクターのアクション生成に関する研究が大きく進歩し、コンピュータービジョン、コンピューターグラフィックス、ロボット工学、人間とコンピューターのインタラクションなど、多くの分野で広く注目を集めています。ただし、既存の研究のほとんどはアクション自体にのみ焦点を当てており、シーンとアクションの両方のカテゴリを制約として使用する研究はまだ初期段階にあります。

この問題を解決するために、北京総合人工知能研究所は、北京大学および北京工業大学の研究者と協力して、リアリズム、セマンティクス、および長さ制限のないアクション生成。さらに、この記事は、キャラクターのアクションと 3 次元シーンに対する正確かつ豊富な注釈情報を含む、大規模なキャラクターとシーンのインタラクション データ セット TRUMANS を公開しました。

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

  • 論文リンク: https://arxiv.org/pdf/2403.08629
  • プロジェクトホームページ: https://jnnan.github.io/trumans/
  • コードとデータリンク: https ://github.com/jnnan/trumans_utils

研究概要

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

...椅子に座る、ボトルを手に取る、引き出しを開けるなどの活動。今日、人体の動きをシミュレートすることは、コンピュータ ビジョン、コンピュータ グラフィックス、ロボット工学、および人間とコンピュータのインタラクションの分野において重要なタスクとなっています。人間の動きを生成する中心的な目標は、自然で現実的で多様な動的パターンを作成することです。ディープラーニング技術の台頭により、人間のアクション生成方法が急速に開発されました。人体モデリング技術の大きな進歩により、巨大な人間の行動データベースの構築も容易になりました。これらの発展に基づいて、データ駆動型人間行動生成技術は、近年研究コミュニティからますます注目を集めています。
現在、ほとんどのアクション生成方法は制御変数としてセマンティクスを使用しており、与えられたインタラクティブなオブジェクト [1] やシーン [2] の下でアクションを生成する研究はまだ初期段階にあります。高品質の人体のアクションとシーンのインタラクション データ セット。既存のリアルシーン データセットは、人間のモーション キャプチャの品質の点で依然として不十分です。 VICON などのデバイスで記録されたモーション キャプチャ データセットは品質の向上をもたらしますが、これらのデータセットには 3D シーンにおける人間とオブジェクトの相互作用の多様性が欠けています。近年、仮想シミュレーション技術を用いた合成データセットは、その低コストと高い適応性により研究者の注目を集めています。
既存の方法の欠点を目的として、この論文は、シーンとセマンティック情報を融合するアクション生成フレームワークを提案します。これは、自己回帰拡散モデルによって駆動され、アクションカテゴリとパスポイントに準拠したアクションを生成できます。シーンの制約に合わせて。シーン内のアクション データを取得するために、本作では新しいキャラクターとシーンのインタラクション データ セット TRUMANS がリリースされます。これには、現実世界でキャプチャされ、3D 仮想シーンに合成された 15 時間のアクション データが含まれており、寝室、レストラン、オフィスなどをカバーしています。 100のシーン構成。 TRUMANS には、経路探索、オブジェクトの操作、剛体や多関節オブジェクトとの相互作用など、日常の行動の包括的な範囲が含まれます。

アクション生成フレームワーク


この研究で提案された方法は、自己回帰アプローチを使用してアクションを少しずつ生成します。セグメント内の最初のアクションは前のセグメントの終わりから始まり、後続のアクションは拡散モデルによって生成されます。生成されたアクションをシーンの制約に適合させるために、著者は空間占有グリッドに基づいたローカルシーンパーセプトロンを提案します。これは、各アクションの終了近くの環境の特性をコード化し、それらをアクション生成の条件に組み込むものです。モデル。フレームごとのアクション ラベルを制御可能な条件として組み込むために、アクション情報エンコーダーは時間情報をアクション セグメントに統合します。これにより、モデルがいつでも命令を受け入れ、指定されたアクション ラベルに準拠したモーションを生成できるようになります。

この記事で提案する方法は、経路軌道制約と正確な関節位置制御をサポートできます。本論文の手法では自己回帰的なセグメントごとの生成メカニズムを採用しているため、アクション生成の各セグメントにサブゴールを設定することで経路と関節の制約を実現できます。歩行モーション制御の場合、各サブゴールは、現在のセグメントの終わりの水平面上のキャラクターの骨盤のプリセット位置を記述します。現在のセグメントの開始位置と終了位置の間のシーン情報に基づいて、モデルは骨盤運動の軌跡を含む全身の動きを生成します。たとえば、サブターゲットが椅子に座っている場合、キャラクターは座る必要があります。物体を掴む動作については、手の位置制御に同じ手法が使用されます。たとえば、ボトルを掴む、ドアを押すなどのアクションを生成する場合、手の関節の位置がサブターゲットとして設定され、ユーザーはオブジェクト上の任意の位置を設定します。モデルは関節のノイズをゼロにして、残りの人間の動きを埋めます。オブジェクトに対する手の相対位置を最適化することで、さらにきめ細かい接触が実現します。

ローカル シーンのパーセプトロンは、ローカル シーンのジオメトリ情報を取得し、モーション生成の条件として使用するために使用されます。具体的には、与えられたシナリオでは、最初にグローバル占有グリッドが生成され、各セルに到達可能かどうかを示すブール値が割り当てられます。1 は到達可能、0 は到達不能を示します。ローカル占有グリッドは、現在のループ セクションのサブターゲットを中心とした 3 次元グリッドで、垂直方向の範囲は 0 ~ 1.8 メートルで、最初のフレームのキャラクタの骨盤のヨー方向と一致するように配向されています。ローカル占有グリッドの値は、グローバル占有グリッドをクエリすることによって取得されます。この論文では、ボクセル グリッドをエンコードするための Vision Transformer (ViT) の使用を提案します。トークンは、z 軸を特徴チャネルとして扱い、xy 平面に沿ってローカル占有グリッドを分割することによって構築され、これらのトークンを ViT モデルに入力します。 ViT でエンコードされたシーンの出力は、アクション生成モデルの条件として使用されます。

単一のアクション記述に基づいて完全なアクション シーケンスを生成する以前の方法とは異なり、この論文では、長期アクションを生成するときにフレームごとの条件としてアクション ラベルを使用します。このモデルでは、特定のアクションが 1 つのサイクル セクションを超えて複数のサイクル セクションに継続する場合があります。したがって、モデルはアクションの実行の進行状況を理解する必要があります。この問題に対処するために、この研究では、フレームごとのアクション カテゴリのラベル付けをサポートする進行状況識別子を導入します。具体的な実装方法は、元のマルチホット アクション タグ上の完全なインタラクションごとに、時間の経過とともに直線的に増加する 0 から 1 までの数値を追加することです。このような操作により、モデルは複数のループ セクションにまたがるアクションに対処できるようになり、生成されたアクション シーケンスのセマンティックな整合性と連続性が強化されます。

データセット

データの観点から、この記事は新しいキャラクターとシーンのインタラクション データセット TRUMANS をリリースします。これは、データ品質とスケールの両方で 3D 合成シーンを物理環境に正確に複製します。 15 時間のロングシーケンスのヒューマン モーション キャプチャ。寝室、リビング ルーム、オフィスなどを含む 100 の屋内シーンをサポートします。シーンは合成ですが、作者は各合成シーンを細心の注意を払って復元することで、人と物体の相互作用が自然で正確なままであることを保証します。 TRUMANS のアクションは、経路探索、把握、硬い物体や多関節物体との相互作用など、人間の日常的な行動を網羅しています。データのスケーラビリティをさらに向上させるために、この記事では既存のデータに基づいてデータ拡張手法を適用します。これにより、データセット内のオブジェクトは一定の範囲内で位置とサイズを変更でき、それに合わせてキャラクターのアクションが自動的に更新されます。変更。図 3. TRUMANS モーション キャプチャ データ セット図 4. 変化するオブジェクトのサイズに応じて動きを自動的に調整し、データ規模を効率的に拡張します

実験結果
以下はアクション生成手法の適用シナリオですこの記事で提案されています。
(1) このメソッドは、指定されたパスのキーポイントに基づいて、さまざまなシーンで歩行アクションを生成でき、キャラクターはシーン内の障害物に対して自然なフィードバックを持ちます。
(2) この記事の方法は、手持ちの小さなオブジェクトの把握とインタラクティブなアクションの生成に適しています。たとえば、テーブルの上に置かれた水筒に近づいて掴み、水を飲むジェスチャーをします。完成プロセスでは、シーンのレイアウトに応じてアクションを調整する必要があります。
(3) 与えられた手の動きの軌道に基づいて、その軌道を満たし、シーン内のオブジェクトと衝突しない全身アクションを生成します。図 5. アクション生成の多様性の表示スルー アウト ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’’

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

7. インタラクティブなアクションの生成ハンドヘルド小型オブジェクト

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

この方法のパフォーマンスを定量化するために、著者はインタラクティブオブジェクトが移動可能かどうかに基づいて 2 セットの評価システムを構築しました。静的インタラクティブ オブジェクトの場合、この記事で評価されるアクションには、シーン内で座る、横になる、歩くなどが含まれます。評価指標は主に場面を横切るアクションや足の滑りの有無、生成品質に関する被験者の主観的な評価に焦点を当てています。動的インタラクティブ オブジェクトの場合、この記事では、把握プロセスとその後のインタラクティブ アクションに焦点を当てます。評価指標は、アクションが所定のカテゴリに該当するかどうか、アクションの種類、カビの侵入度、被験者の主観的な評価を数値化したものです。さらに、この研究では、TRUMANS と既存の PROX データセットおよび GRAB データセットを使用したトレーニングによって得られたアクション生成の品質を比較しています。実験結果は、この記事で提案した方法の優位性と、TRUMANS データによってキャラクターとシーンのインタラクション生成タスクにもたらされる全体的な品質の向上を確認します。

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

以上がCVPR'24 ハイライト | 手の動きまでを生成する 1 つのフレームワークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

ControlNet の作者がまたヒット作を出しました!写真から絵画を生成し、2 日間で 1.4,000 個のスターを獲得する全プロセス ControlNet の作者がまたヒット作を出しました!写真から絵画を生成し、2 日間で 1.4,000 個のスターを獲得する全プロセス Jul 17, 2024 am 01:56 AM

これも Tusheng のビデオですが、PaintsUndo は別の道を歩んでいます。 ControlNet 作者 LvminZhang が再び生き始めました!今回は絵画の分野を目指します。新しいプロジェクト PaintsUndo は、開始されて間もなく 1.4kstar を獲得しました (まだ異常なほど上昇しています)。プロジェクトアドレス: https://github.com/lllyasviel/Paints-UNDO このプロジェクトを通じて、ユーザーが静止画像を入力すると、PaintsUndo が線画から完成品までのペイントプロセス全体のビデオを自動的に生成するのに役立ちます。 。描画プロセス中の線の変化は驚くべきもので、最終的なビデオ結果は元の画像と非常によく似ています。完成した描画を見てみましょう。

オープンソース AI ソフトウェア エンジニアのリストのトップに立つ UIUC のエージェントレス ソリューションは、SWE ベンチの実際のプログラミングの問題を簡単に解決します オープンソース AI ソフトウェア エンジニアのリストのトップに立つ UIUC のエージェントレス ソリューションは、SWE ベンチの実際のプログラミングの問題を簡単に解決します Jul 17, 2024 pm 10:02 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この論文の著者は全員、イリノイ大学アーバナ シャンペーン校 (UIUC) の Zhang Lingming 教師のチームのメンバーです。博士課程4年、研究者

RLHF から DPO、TDPO に至るまで、大規模なモデル アライメント アルゴリズムはすでに「トークンレベル」になっています RLHF から DPO、TDPO に至るまで、大規模なモデル アライメント アルゴリズムはすでに「トークンレベル」になっています Jun 24, 2024 pm 03:04 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 人工知能の開発プロセスにおいて、大規模言語モデル (LLM) の制御とガイダンスは常に中心的な課題の 1 つであり、これらのモデルが両方とも確実に機能することを目指しています。強力かつ安全に人類社会に貢献します。初期の取り組みは人間のフィードバックによる強化学習手法に焦点を当てていました (RL

arXiv 論文は「弾幕」として投稿可能、スタンフォード alphaXiv ディスカッション プラットフォームはオンライン、LeCun は気に入っています arXiv 論文は「弾幕」として投稿可能、スタンフォード alphaXiv ディスカッション プラットフォームはオンライン、LeCun は気に入っています Aug 01, 2024 pm 05:18 PM

乾杯!紙面でのディスカッションが言葉だけになると、どんな感じになるでしょうか?最近、スタンフォード大学の学生が、arXiv 論文のオープン ディスカッション フォーラムである alphaXiv を作成しました。このフォーラムでは、arXiv 論文に直接質問やコメントを投稿できます。 Web サイトのリンク: https://alphaxiv.org/ 実際、URL の arXiv を alphaXiv に変更するだけで、alphaXiv フォーラムの対応する論文を直接開くことができます。この Web サイトにアクセスする必要はありません。その中の段落を正確に見つけることができます。論文、文: 右側のディスカッション エリアでは、ユーザーは論文のアイデアや詳細について著者に尋ねる質問を投稿できます。たとえば、次のような論文の内容についてコメントすることもできます。

リーマン予想の大きな進歩!陶哲軒氏はMITとオックスフォードの新しい論文を強く推薦し、37歳のフィールズ賞受賞者も参加した リーマン予想の大きな進歩!陶哲軒氏はMITとオックスフォードの新しい論文を強く推薦し、37歳のフィールズ賞受賞者も参加した Aug 05, 2024 pm 03:32 PM

最近、2000年代の7大問題の一つとして知られるリーマン予想が新たなブレークスルーを達成した。リーマン予想は、数学における非常に重要な未解決の問題であり、素数の分布の正確な性質に関連しています (素数とは、1 とそれ自身でのみ割り切れる数であり、整数論において基本的な役割を果たします)。今日の数学文献には、リーマン予想 (またはその一般化された形式) の確立に基づいた 1,000 を超える数学的命題があります。言い換えれば、リーマン予想とその一般化された形式が証明されれば、これらの 1,000 を超える命題が定理として確立され、数学の分野に重大な影響を与えることになります。これらの命題の一部も有効性を失います。 MIT数学教授ラリー・ガスとオックスフォード大学から新たな進歩がもたらされる

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる Jul 19, 2024 am 01:29 AM

AIモデルによって与えられた答えがまったく理解できない場合、あなたはそれをあえて使用しますか?機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。大規模な言語モデルの場合も、同様のアプローチを採用できます。ただし、このアプローチを採用する場合は、言語モデルが

LLM は時系列予測にはあまり適していません。推論機能も使用しません。 LLM は時系列予測にはあまり適していません。推論機能も使用しません。 Jul 15, 2024 pm 03:59 PM

言語モデルは本当に時系列予測に使用できるのでしょうか?ベタリッジの見出しの法則 (疑問符で終わるニュース見出しは「いいえ」と答えることができます) によれば、答えは「いいえ」であるはずです。このような強力な LLM は時系列データを適切に処理できないという事実は真実のようです。時系列、つまり時系列とは、その名の通り、時間順に並べられた一連のデータ点のことを指します。時系列分析は、病気の蔓延予測、小売分析、ヘルスケア、金融などの多くの分野で重要です。時系列分析の分野では、多くの研究者が最近、大規模言語モデル (LLM) を使用して時系列の異常を分類、予測、検出する方法を研究しています。これらの論文では、テキスト内の逐次依存関係の処理に優れた言語モデルは時系列にも一般化できると想定しています。

最初の Mamba ベースの MLLM が登場しました!モデルの重み、トレーニング コードなどはすべてオープンソースです 最初の Mamba ベースの MLLM が登場しました!モデルの重み、トレーニング コードなどはすべてオープンソースです Jul 17, 2024 am 02:46 AM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。はじめに 近年、さまざまな分野でマルチモーダル大規模言語モデル (MLLM) の適用が目覚ましい成功を収めています。ただし、多くの下流タスクの基本モデルとして、現在の MLLM はよく知られた Transformer ネットワークで構成されています。

See all articles