近年、コンピュータービジョン分野の世代技術はますます強力になり、それに対応する「偽造」技術もますます成熟していますディープフェイクの顔変更からアクションシミュレーションまで、本物と偽物を見分けるのは困難です。
最近、NVIDIA はさらに大きな動きを見せ、## を使用した新しい Implicit Warping (暗黙的ワーピング) フレームワーク を NeurIPS 2022 カンファレンスで公開しました。 #ソース画像 と のセットがビデオ の動きを駆動して、 ターゲット アニメーション を作成します。
論文リンク: https://arxiv.org/pdf/2210.01794.pdf #エフェクトの観点からは、生成された画像はよりリアルになり、ビデオ内でキャラクターが動いても、
背景は変化しません。 複数の入力ソース画像は通常、
異なる外観情報を提供し、ジェネレーターの 「ファンタジー」スペース を削減します。次の 2 つはモデルの入力として使用されます。 他のモデルと比較すると、インプリシットディストーションではビューティーエフェクトのような「空間の歪み」が発生しないことがわかります。
文字のオクルージョンのため、複数のソース画像で
より完全な背景を提供することもできます。
下のビデオからわかるように、左側に写真が 1 枚しかない場合、
は背景の後ろにある写真です。 BD" または " ED" は推測するのが難しく、背景の歪みが発生します。2 枚の画像を使用すると、より安定した画像が生成されます。他のモデルを比較する場合、ソース画像は 1 つだけの方が優れています。
魔法のような暗黙の歪み学術界がビデオ模倣に注目したのは 2005 年まで遡ることができ、多くのプロジェクトでは実際に表情伝達、Face2Face、合成オバマ、Recycle-GAN、ReenactGAN、動的神経放射場などは、敵対的生成ネットワーク (GAN)、神経放射場 (NeRF) など、当時のいくつかの限られたテクノロジーの使用を多様化しました。 ) とオートエンコーダー。
すべての手法が画像の単一フレームからビデオを生成しようとしているわけではありません。ビデオの各フレームに対して複雑な計算を実行する研究もいくつかあります。これが実際にディープフェイクが行うことです。模倣ルートを選択してください。
ただし、DeepFake モデルは取得する情報が少ないため、ビデオ クリップごとにトレーニングする必要があり、DeepFaceLab や FaceSwap のオープンソース手法と比較してパフォーマンスが低下します。任意の数のビデオ クリップにアイデンティティを適用できます。
2019 年にリリースされた FOMM モデルでは、キャラクターがビデオに合わせて動くことができるため、ビデオの模倣タスクにさらなる威力を発揮します。
その後、他の研究者は、単一の顔画像または全身表現から複数のポーズや表情を導き出そうと試みましたが、このアプローチは通常、比較的無表情で動かない被写体に対してのみ機能しました。ネットワークが解釈しなければならない顔の表情やジェスチャーに「動作の突然の変化」がないため、比較的静止した「トーキングヘッド」となります。
これらの技術や手法の中には、ディープフェイクや潜在的な拡散画像合成手法が普及する前に注目を集めたものもありますが、適用範囲は限られています。汎用性が問われました。
NVIDIA が今回焦点を当てている暗黙の歪みは、1 つのフレームから必要なすべてのポーズを取得するのではなく、複数のフレーム間、あるいは 2 つのフレーム間のみで情報を取得することです。他の競合モデルには存在しないか、扱いが非常に悪いです。
たとえば、ディズニーのワークフローでは、上級アニメーターがメイン フレームとキー フレームを描き、他の若手アニメーターが中間フレームの描画を担当します。
NVIDIA の研究者は、以前のバージョンでのテストを通じて、「キーフレーム」が追加されると以前の方法による結果の品質が低下し、新しい方法がアニメーション制作のロジックと矛盾していることを発見しました。一貫して、キーフレームの数が増加するにつれて、パフォーマンスは直線的に向上します。
開始フレームや終了フレームに表示されていないイベントや表現など、クリップの途中で突然の変化がある場合、ここで暗黙的な歪みを追加できます。 1 フレームごとに、追加情報がクリップ全体のアテンション メカニズムにフィードバックされます。
FOMM、Monkey-Net、face-vid2vid などの以前のメソッドは、時間を描画するために明示的な歪みを使用していました。シリーズ、ソースの顔とコントロール、動きから抽出された情報を適応させ、今回のシリーズと一致させる必要があります。
このモデル設計では、キーポイントの最終的なマッピングは非常に厳密になります。
対照的に、Implicit Warp は、ワークフロー内で事前定義されたブートストラップが少なく、クロスモーダル アテンション レイヤーを使用し、複数のフレームワークからの入力に適応できます。
ワークフローでは、キーごとの歪みも必要なく、システムは一連の画像から最も適切な特徴を選択できます。
暗黙的ワーピングでは、FOMM フレームワークのいくつかのキー ポイント予測コンポーネントも再利用し、最後に単純な U-net を使用してスペース ドライブのキーポイント表現を導き出します。エンコード用。別の U-net を使用して、ソース画像と派生した空間表現をエンコードし、どちらのネットワークも 64 ピクセル (256 ピクセル平方出力) から 384x384 ピクセルの範囲の解像度で動作できます。
このメカニズムでは、特定のビデオ内のポーズや動きで起こり得るすべての変化を自動的に考慮することはできないため、追加のキーフレームが必要であり、一時的に追加することもできます。この介入機能がないと、ターゲット モーション ポイントに十分似ていないキーが自動的に更新され、出力品質が低下します。
これについて研究者らは、これは特定のキーフレーム セット内のクエリに最も類似したキーではあるが、良好な出力を生成するには十分ではない可能性があると説明しています。
たとえば、ソース画像には唇が閉じた顔があり、ドライバー画像には唇が開いて歯が露出した顔があるとします。この場合、ソース画像には、画像の口領域を駆動するための適切なキー (および値) がありません。
この方法は、ソース画像内の情報の欠如に対処できる、追加の画像に依存しないキーと値のペアを学習することでこの問題を解決します。
現在の実装は 512x512 ピクセルの画像で約 10 FPS と非常に高速ですが、研究者らは、将来のバージョンではパイプラインが因数分解された I-D アテンション レイヤーまたは空間削減を通過できると考えています。最適化するアテンション (SRA) レイヤー (例: Pyramid Vision Transformer)。
#暗黙的ワーピングでは、ローカル アテンションではなくグローバル アテンションを使用するため、以前のモデルでは予測できなかった要因を予測できます。
実験結果研究者らは、VoxCeleb2 データセット、より困難な TED Talk データセット、および TalkingHead-1KH データセットでシステムをテストし、256x256px 間のベースラインを比較しました。 FID、AlexNet ベースの LPIPS、ピーク信号対雑音比 (pSNR) などのメトリクスを使用した、フル 512x512 ピクセルの解像度。
テストに使用される対照的なフレームワークには、FOMM と face-vid2vid、および AA-PCA が含まれます。以前の方法には複数のキーフレームを使用する機能がほとんどまたはまったくないため、これは暗黙的歪みの主要な革新でもあります。スタッフは同様のテスト方法も設計しました。
暗黙的ワーピングは、ほとんどのメトリクスで最も対照的な方法よりも優れたパフォーマンスを発揮します。
研究者らが最大 180 フレームのシーケンスと選択されたギャップ フレームを使用したマルチキーフレーム再構成テストでは、今回は暗黙的ワーピングが全体的に勝利しました。
ソース画像の数が増えると、この方法ではより良い再構成結果が得られ、すべての指標のスコアが向上します。
そして、ソース画像の数が増えると、予想に反して、以前の作業の再構築効果は悪化します。
AMT スタッフを通じて定性調査を実施した結果、暗黙的変形の生成結果は他の方法よりも強力であると考えられています。
このフレームワークにアクセスすると、ユーザーはより一貫性のある長いビデオ シミュレーションや全身ディープフェイク ビデオを作成できるようになります。システムがテストされたどのフレームよりもはるかに広い可動範囲。
しかし、より現実的な画像合成の研究では、これらの技術は簡単に偽造に使用される可能性があり、論文には標準的な免責事項があるため、懸念も生じています。
当社の手法がディープフェイク製品の作成に使用された場合、悪影響を及ぼす可能性があります。悪意のある音声合成は、アイデンティティ間で偽の情報を転送および送信することにより、人々の誤ったイメージを作成し、個人情報の盗難や偽のニュースの拡散につながります。しかし、管理された環境では、同じテクノロジーをエンターテイメント目的にも使用できます。
この論文では、Google の Project Starline などのニューラル ビデオ再構築に対するこのシステムの可能性についても指摘しています。このフレームワークでは、再構築作業は主にクライアント側に焦点を当てており、クライアントからのまばらな入力を活用しています。スポーツ情報。
このソリューションは研究コミュニティからの関心をますます集めており、純粋なモーション データやまばらな間隔のキー フレームを送信することで低帯域幅の電話会議を実装しようとしている企業もあります。ターゲット クライアントに到達すると解釈され、フル HD ビデオに挿入されます。
以上がディープフェイクはかつてないほどリアルです! Nvidia の最新の「暗黙の歪み」はどの程度強いのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。