生成 AI が満載のデジタル ヒューマンを開きます。
9 月 23 日の夜、杭州アジア競技大会の開会式で、メイントーチの点灯は、集まった何億人ものオンラインデジタル聖火ランナーの「小さな炎」を示しました。銭塘江の上流でデジタル人間像が形成される。その後、デジタルヒューマン聖火ランナーと会場の6人目の聖火ランナーが一緒に聖火ステージまで歩き、一緒にメイントーチに点火しました。
# 開会式の核となる考え方として、デジタル聖火ランナー インターネットの聖火採火形式はホットな検索トピックとなり、人々の注目を集めています。 書き換えられた内容: 開会式の中心的なアイデアとして、デジタル リアリティ インターネットのトーチ点灯方法は熱い議論を引き起こし、人々の注目を集めました。多くの高度で複雑なテクノロジーが関与しています。最も重要な課題の1つは、デジタル人材をどのように「動かす」かということです。生成人工知能と大規模モデルの急速な発展に伴い、デジタル ヒューマン研究にさらに新しい変化が現れていることがはっきりとわかります
10 月初旬に開催される世界的なコンピューター ビジョン カンファレンス ICCV 2023 で、私たちは次のことに気づきました。 3D デジタル ヒューマン モーションの生成に関する研究が会議に含まれていることを明らかにしました。関連論文のタイトルは「拡散確率モデルによる人間とオブジェクトの相互作用の階層的生成」で、浙江大学とアント・グループが共同で出版した。
序文によると、この研究はデジタルヒューマンが長距離にわたって複雑な動きを合成するという問題をある程度解決し、オリジナルのモデルでは達成できない効果を達成できるとのことまたはパスの計画。デジタル ヒューマンの運転に関連するテクノロジーは、アジア競技大会での 1 億人のデジタル ヒューマンのオンライン配信にも使用されています。
デジタル ヒューマンを動かすための生成 AI ドライバー多くの場合、仮想人間が自然にシーンを歩き回り、オブジェクトと対話できるように、特定の 3D シーンで 3D 人間のモーションを合成する必要があります。この効果は、AR/VR、映画制作、ビデオ ゲームに多くの用途があります。
ここで、従来のキャラクター制御モーション生成方法は、ユーザーの制御信号によって誘導される短期間または反復的なモーションを生成することを目的としていますが、新しい研究では、特定の開始位置とターゲット オブジェクト モデルを生成することに焦点を当てています。コンテンツ。
このアイデアはより効果的ですが、明らかにより困難です。まず、人間と物体の相互作用は一貫性を持つ必要があり、そのためには人間と物体の間の長距離相互作用をモデル化する能力が必要です。第 2 に、コンテンツ生成のコンテキストでは、実際の人間がターゲット オブジェクトに近づき、対話する方法は複数あるため、生成モデルはさまざまなサイズのモーションを合成できる必要があります。
#図 1. 人と物体との間のインタラクティブな画像の生成。新しいメソッドは、オブジェクトが与えられると、まず一連のマイルストーン イベントを予測します。リングは位置を表し、ピンクの人物は元のポーズを表します。アルゴリズムはマイルストーン間のアクションを埋めます。この図は、同じオブジェクトを使用して異なるマイルストーンとアクションを生成する新しいメソッドを示しています。時間の流れをカラーコードで示し、濃い青色はそれ以降のフレームを表します。具体的には、開始位置とターゲット オブジェクトが与えられると、著者は、動きの軌跡に沿って一連のノードを合成するためのマイルストーン生成モジュールを設計しました。各マイルストーンは、ローカルなポーズをエンコードし、人間の移動中の遷移を示します。これらのマイルストーンに基づいて、アルゴリズムはモーション生成モジュールを使用して完全なモーション シーケンスを生成します。これらのマイルストーンの存在のおかげで、長いシーケンスの生成からいくつかの短いモーション シーケンスの合成までを簡素化できます。
各マイルストーンのローカル姿勢は、時間一貫性のある結果を生成するためにグローバルな依存関係を考慮したトランスフォーマー モデルによって生成され、コヒーレントな動きをさらに促進します
研究者らは、階層的な生成フレームワークに加えて、さらに拡散モデルを使用して人間と物体の相互作用を合成しました。以前のモーション合成拡散モデルの中には、トランスフォーマーとノイズ除去拡散確率モデル (DDPM) を組み合わせたものもあります。
モーション シーケンスが長いため、新しい設定に直接適用するには多くの計算が必要となり、GPU メモリの爆発を引き起こす可能性があることに注意してください。新しい階層生成フレームワークは長期生成を複数の短いシーケンスの合成に変換するため、必要な GPU メモリは短期モーション生成と同じレベルまで削減されます。
したがって、研究者は Transformer DDPM を効果的に使用して長期モーション シーケンスを合成し、それによって生成品質を向上させることができます。
この目的を達成するために、研究者は図に示すような階層的な生成フレームワークを設計しました。以下に表示
まず、GoalNet を使用してオブジェクト上のインタラクション ターゲットを予測し、次にターゲット ポーズを生成して人間とオブジェクトのインタラクションを明示的にモデル化します。次に、マイルストーン生成モジュールを使用してマイルストーンの長さを推定し、それによって開始点からターゲットまでのマイルストーン軌道を生成し、マイルストーン ポーズを配置します。
このようにして、長距離モーションの生成が行われます。は、複数の短距離モーション生成の組み合わせに分解されます。最後に、著者らは、マイルストーン間の軌道を合成し、アクションを埋めるモーション生成モジュールを設計しました。
人工知能 (AI) 姿勢生成
研究者は、人が物体と対話して静止している姿勢を目標姿勢と呼んでいます。以前は、ほとんどの方法で cVAE モデルを使用して人間のポーズを生成していましたが、研究者らは、この方法が独自の研究であまりパフォーマンスが良くないことを発見しました。
この課題に対処するために、VQ-VAE モデルを採用してデータ分布をモデル化しました。このモデルは、離散表現を利用して、データを限られた点のセットにクラスタリングします。さらに、観察に基づくと、人間のさまざまなポーズには同様の特性がある可能性があります。たとえば、人が座っているとき、手の動きは異なる場合がありますが、足の位置は同じである場合があります。したがって、ジョイントを L (L = 5) 個の異なる非重複グループに分割しました。
#図 3 に示すように、ターゲット ポーズは独立したジョイント グループに分割されました。最後のステップはアクションの生成です。研究者が使用した方法は、フレームごとにアクションを予測するのではなく、生成されたマイルストーンに基づいてシーケンス全体を階層的に合成することです。最初に軌道を生成し、次にアクションを合成します。具体的には、連続する 2 つのマイルストーン内で、最初に軌道を完了します。次に、連続するマイルストーン ジェスチャに基づいて動きを入力します。これら 2 つのステップは、それぞれ 2 つの Transformer DDPM を使用して完了します。
研究者は、目標の出力を生成するために、ステップごとに DDPM の条件を慎重に設計します。書き換えられた内容は次のとおりです: 他の製品に先んじる効果
研究者らは、SAMP データセットに対するさまざまな方法の結果を比較しました。論文で提案されている方法は、FD が低く、ユーザー調査スコアが高く、APD が高いことがわかります。さらに、彼らの方法は SAMP よりも高い軌道多様性を実現します。
#この新しい方法は、複雑なシーンでも満足のいく結果を生み出すことができます。この方法によって生成されたペネトレーション フレームの割合は 3.8% で、SAMP の割合は 4.9%です。 SAMP、COUCH およびその他のデータ セットでは、研究で言及されている方法全員がベースラインの方法よりも良い結果を達成しました#完全なリンク レイアウト
デジタル ヒューマンは、音声とセマンティクスのマルチモーダルな組み合わせです。 、ビジョンなどのダイナミックなテクノロジーの組み合わせ。近年、生成型 AI が画期的な進歩を遂げる一方で、デジタル ヒューマンの分野も飛躍的な発展を遂げています。これまで手作業が必要であったモデリング、生成インタラクション、レンダリングなどの要素が完全に人工化されつつあります。エンジニアは最適化を続けるにつれて、このテクノロジーの経験が活かされています。閉幕したばかりのアジア競技大会のオンライン聖火リレーが好例で、聖火ランナーになりたければアリペイアプリのミニプログラムをクリックするだけで済む。 開会式プロジェクトを円滑に進めるために、アント グループのエンジニアは数百機種の携帯電話で 10 万回以上のテストを実施し、20 万行以上のコードを入力して合格したと言われています。 Web3D インタラクティブ エンジン Galacean、AI デジタル ヒューマン、クラウド サービス、ブロックチェーンなどのテクノロジーを組み合わせることで、誰もがデジタル聖火ランナーとなり、聖火リレーに参加できるようになります。アジア大会デジタル聖火ランナー プラットフォームは数億人のユーザーにリーチでき、一般的なスマートフォン デバイスの 97% をサポートしています。 デジタル聖火ランナーがリアルに参加できるようにするために、Ant の技術チームは 58 個の顔を挟むコントローラーを開発しました。顔認識と AI アルゴリズムを使用することで、各人の顔の特徴に基づいてデジタル聖火ランナーの顔をマッピングできます。同時に顔の形、髪型、鼻、口、眉などを自由に調整して、自由な着せ替えを実現します。この技術は、2 兆通りの異なるデジタル画像の選択肢を提供できます。さらに、開会式点灯式の後、各デジタル トーチランナーは、各デジタル トーチにペイントされた独自のデジタル点火証明書を受け取ることができます。この証明書は分散テクノロジーを通じてブロックチェーンに保存されます。研究論文の内容とアジア競技大会のプロジェクトから、その背後に完全なデジタル ヒューマン テクノロジー システムによるサポートがあることが簡単にわかります。アントグループはデジタルヒューマン技術を積極的に研究しており、デジタルヒューマンのフルリンクコア技術の自主研究レイアウトを完成したことがわかりました。
市場に出回っているほとんどの企業とは異なり、Ant Group のデジタル ヒューマン テクノロジーは自社開発されており、生成 AI と組み合わせた開発の方向性を選択しています。技術展開の観点からは、デジタル ヒューマンのモデリング、レンダリング、運転、インタラクションのライフ サイクル全体をカバーしており、AIGC と大規模モデルを組み合わせることで、デジタル ヒューマンのフルリンクの制作コストが大幅に削減されます。現在では2D、3Dデジタルパーソンにも対応しており、ブロードキャスト型やインタラクティブ型など多彩なソリューションを提供しています。以上がデジタル担当者がアジア競技大会のメイントーチに火を灯す、そしてこの ICCV 論文は Ant の生成 AI ブラック テクノロジーを明らかにしますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。