アリババの EMO により、AI が生成した画像や現実の画像を使って「動く、話す、歌う」ことが簡単になりました。
最近、OpenAI Sora に代表される Vincent ビデオ モデルが再び人気を集めています。
テキストベースのビデオ生成に加えて、人間中心のビデオ合成も常に大きな注目を集めています。たとえば、「スピーカー ヘッド」ビデオ生成に焦点を当てます。この場合の目標は、ユーザーが提供したオーディオ クリップに基づいて表情を生成することです。
技術レベルでは、表現を生成するには、話者の微妙で多様な顔の動きを正確に捉える必要があり、これは同様のビデオ合成タスクにとって大きな課題です。
従来の方法では、通常、ビデオ生成タスクを簡素化するためにいくつかの制限が課されます。たとえば、3D モデルを利用して顔のキーポイントを制限する方法もあれば、生のビデオから頭の動きのシーケンスを抽出して全体の動きをガイドする方法もあります。これらの制限によりビデオ生成の複雑さは軽減されますが、最終的な顔の表情の豊かさと自然さも制限されます。
アリ インテリジェント コンピューティング研究所が最近発表した論文では、研究者らは、話者の頭のビデオの信頼性、自然さ、正確さを向上させるために、オーディオ キューと顔の動きの間の微妙な関係を調査することに焦点を当てました。
研究者らは、従来の方法ではさまざまな話者の顔の表情や独特のスタイルを適切に捉えることができないことが多いことを発見しました。そこで彼らは、中間3Dモデルや顔のランドマークを使用せずに、オーディオビデオ合成手法を通じて顔の表情を直接レンダリングするEMO(Emote Portrait Alive)フレームワークを提案しました。
論文タイトル: EMO: Emote Portrait Alive - 弱い条件下での Audio2Video 拡散モデルによる表現力豊かなポートレート ビデオの生成
論文アドレス: https://arxiv.org/pdf/2402.17485.pdf
プロジェクトホームページ: https://humanaigc.github.io/emote-portrait-alive/
効果の面では、アリババの手法はビデオ全体でシームレスなフレーム遷移を保証し、アイデンティティの一貫性を維持することで、パフォーマンスがより表現力豊かでよりリアルなキャラクター アバター ビデオを作成できます。パワーとリアリズムの点で現在の SOTA メソッドよりも優れています。
例えば、イギリスとアルバニアの二重国籍女性シンガー、デュア・リパが歌う「Don't Start Now」を、Soraが生成した東京の女の子キャラクターにEMOで歌わせることができます。 EMO は、英語や中国語を含むさまざまな言語の曲をサポートしており、音声の音色の変化を直感的に識別し、ダイナミックで表現力豊かな AI キャラクター アバターを生成できます。たとえば、AI絵画モデルChilloutMixによって生成された若い女性にTao Zheの「Melody」を歌わせます。
#EMO を使用すると、ディカプリオにアメリカのラッパー エミネムの「ゴジラ」のセクションを演奏するよう依頼するなど、アバターがペースの速いラップ ソングに追いつくこともできます。 もちろん、EMO ではキャラクターが歌うだけでなく、さまざまな言語での音声音声もサポートされており、さまざまなスタイルのポートレート、絵画、さらに 3D モデルや AI 生成コンテンツを本物のようなアニメーションに変換できます。ビデオ。オードリー・ヘプバーンの講演など。
最後に、EMO は、「サイクロン」で Gao Qiqiang が Luo Xiang 教師と連携するなど、異なるキャラクター間の連携も実現できます。
メソッドの概要
キャラクターのポートレートの単一の参照画像が与えられると、私たちの方法は、キャラクターの非常に自然な頭の動きと生き生きとした表情を保持し、提供された音声のピッチを一致させながら、入力音声オーディオクリップと同期したビデオを生成できます。音声、座標の変更。このモデルは、一連のシームレスなカスケード ビデオを作成することにより、現実世界のアプリケーションにとって重要な、一貫したアイデンティティと首尾一貫した動きを備えた、話しているポートレートの長いビデオを生成するのに役立ちます。
ネットワークパイプライン
メソッドの概要を次の図に示します。バックボーン ネットワークは、ノイズの可能性のある入力の複数のフレームを受信し、各タイム ステップでそれらを連続したビデオ フレームにノイズ除去しようとします。バックボーン ネットワークは、オリジナルの SD 1.5 バージョンと同様の UNet 構造構成を持ちます。特に
以前の作業と同様に、生成されたフレーム間の連続性を確保するために、バックボーン ネットワークには時間モジュールが埋め込まれています。
生成されたフレーム内のポートレートの ID の一貫性を維持するために、研究者らはバックボーン ネットワークと並行して、ReferenceNet と呼ばれる UNet 構造を展開しました。参照機能。
話すときにキャラクターの動きを動かすために、研究者らはオーディオ レイヤーを使用して音声特性をエンコードしました。
話しているキャラクターの動きを制御可能かつ安定させるために、研究者らは顔ロケーターとベロシティ レイヤーを使用して弱い条件を提供しました。
バックボーン ネットワークの場合、研究者はヒントの埋め込みを使用しなかったため、SD 1.5 UNet 構造のクロスアテンション層を調整しました。参照注意力レイヤー。これらの変更されたレイヤーは、テキスト埋め込みの代わりに、ReferenceNet から取得した参照フィーチャを入力として受け取ります。
トレーニング戦略
トレーニング プロセスは 3 つの段階に分かれています。
最初の段階は画像の事前トレーニングで、バックボーン ネットワーク、 ReferenceNet と顔の位置決め ネットワークはトレーニング プロセスに組み込まれており、バックボーン ネットワークは単一フレームを入力として受け取りますが、ReferenceNet は同じビデオ クリップからランダムに選択された異なるフレームを処理します。 Backbone と ReferenceNet はどちらも生の SD から重みを初期化します。
第 2 段階では、研究者らはビデオ トレーニングを導入し、時間モジュールとオーディオ レイヤーを追加し、ビデオ クリップから n f 個の連続フレームをサンプリングしました。そのうち最初の n フレームはモーション フレームでした。時間モジュールは、AnimateDiff からの重みを初期化します。
最後の段階では速度層が統合され、研究者はこの段階で時間モジュールと速度層のみをトレーニングします。このアプローチは、トレーニング中にオーディオ層を意図的に無視するために行われます。話者の表情、口の動き、頭の動きの周波数は主に音声の影響を受けるためです。したがって、これらの要素間には相関関係があると考えられ、モデルは音声ではなく速度信号に基づいてキャラクターの動きを駆動する可能性があります。実験結果は、スピード レイヤーとオーディオ レイヤーを同時にトレーニングすると、キャラクターの動きを駆動するオーディオの能力が弱くなることを示しています。
実験結果
実験中の比較に使用された手法には、Wav2Lip、SadTalker、および DreamTalk が含まれます。
図 3 は、この方法と以前の方法の比較結果を示しています。入力として単一の参照画像が提供されると、Wav2Lip は通常、ぼかした口領域を合成し、静的な頭のポーズと最小限の目の動きを特徴とするビデオを生成することがわかります。 DreamTalk の場合、結果によって元の顔が歪められ、顔の表情や頭の動きが制限される可能性があります。本研究で提案した手法は、SadTalker や DreamTalk と比較して、より広い範囲の頭部の動きとより鮮明な表情を生成することができます。
この研究では、リアル、アニメ、3D など、さまざまなポートレート スタイルでのアバター ビデオの生成をさらに調査しています。キャラクターは同じ音声オーディオ入力を使用してアニメーション化され、その結果、作成されたビデオでは、異なるスタイル間でほぼ一貫したリップシンクが生成されることがわかりました。
図 5 は、明白な音質特性を持つ音声を処理するときに、私たちの方法でより豊かな表情やアクションを生成できることを示しています。たとえば、下の図の 3 行目では、高音によりキャラクターのより強く、より鮮やかな表現がトリガーされます。さらに、モーション フレームを使用すると、生成されたビデオを拡張できます。つまり、入力オーディオの長さに基づいて、より長い持続時間のビデオを生成できます。図 5 と 6 に示すように、私たちの方法では、大きな動きの間でも、拡張されたシーケンスでキャラクターのアイデンティティが維持されます。
表 1 結果は、この方法がビデオ品質評価において大きな利点があることを示しています。
以上がソラ東京の女の子を歌わせ、ガオ・チーチアンが声をルオ・シャンに変えると、アリババのキャラクターのリップシンクビデオが完璧に生成されますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。