翻訳者|崔昊
改訂者|孫樹娟
中国と英国のプロジェクト 共同研究で新しいものを考案ビデオ内の顔を再現する方法。この技術は、人為的なトリミングの痕跡を残さず、一貫性の高い顔の構造を拡大および縮小することができます。
一般に、この顔の構造の変換は、顔を完全に再構築するための詳細で高価なモーション キャッピング、リギング、テクスチャリング手順に依存する従来の CGI 手法によって実現されます。
従来の手法とは異なり、新技術の CGI は 3D 顔情報のパラメータとしてニューラル パイプラインに統合され、機械学習ワークフローの基礎として機能します。
著者は次のように指摘しました:
「私たちの目標は、現実世界の自然な顔に基づいて顔の輪郭を変形および編集することです。 - 高品質のポートレート整形ビデオ [結果]。このテクノロジーは、顔の美化や顔の誇張などの視覚効果アプリケーションに使用できます。
消費者は Photoshop の歪みテクノロジー (および顔の歪みや身体醜形障害のサブカルチャーにつながりました)が、CGI を使用せずにビデオ用に顔の再構成を実現するのは依然として難しい技術です。
3D モーファブル顔モデル (3DMM) の例 - 新しいプロジェクトで使用されるパラメトリック プロトタイプの顔。左上、3DMM サーフェス上の象徴的なアプリケーション。右上、アイソマップの 3D メッシュ頂点。左下隅は特徴のフィットを示し、中央下の図は抽出された顔のテクスチャのアイソマップを示し、右下隅は最終的なフィットと形状を示します。
新しいシステムのワークフローでは、オブジェクトが視線から離れるときなどのオクルージョン状況が考慮されます。これは、ディープフェイク ソフトウェアにとって最大の課題の 1 つでもあります。FAN ランドマークではこれらの状況をほとんど考慮できず、顔が避けられたり遮られたりするため、翻訳品質が低下する傾向があるためです。
新しいシステムは、3D 顔 (3DMM) と 2D 顔 (FAN ランドマークによって定義される) の境界に一致する「輪郭エネルギー」を定義することで、上記の問題を回避します。
このシステムのアプリケーション シナリオは、ビデオ チャット フィルターでの顔の形状のリアルタイム変形などのリアルタイム変形です。現在、フレームワークではこれを実現できないため、「リアルタイム」変形を可能にするために必要なコンピューティング リソースを提供することが大きな課題になります。
論文の仮定によれば、パイプライン内の 1 秒あたりの素材に対する 24fps ビデオの各フレーム操作のレイテンシーは 16.344 秒です。同時に、特徴推定と 3D 顔の変形については、また、1 回のヒット (それぞれ 321 ミリ秒と 160 ミリ秒) も伴います。
その結果、最適化によりレイテンシの短縮という点で大きな進歩が得られました。すべてのフレームにわたる統合最適化はシステムのオーバーヘッドを大幅に増加させ、初期化スタイルの最適化 (全体で一貫したスピーカー特性を想定) は異常を引き起こす可能性があるため、著者らはサンプリングされたフレームの現実的な間隔で係数を計算するためにスパース モードを採用しました。
次に、このフレームのサブセットに対して結合最適化が実行され、より無駄のない再構築プロセスが実現します。
このプロジェクトで使用されているモーフィング テクノロジーは、著者の 2020 年の作品 Deep Shapely Portraits (DSP) を応用したものです。
Deep Shapely Portraits、2020 年に ACM Multimedia に投稿。この論文は、浙江大学とテンセントのゲームおよびインテリジェント グラフィックス イノベーション テクノロジに関する共同研究所の研究者によって主導されました。
著者らは、「この手法を、単一の画像の再形成から画像シーケンス全体の再形成まで拡張している」と観察しました。
##テスト#この論文は、新しい手法を評価するための比較可能な過去のデータが存在しないことを指摘しています。したがって、著者らは、曲面ビデオ出力フレームを静的 DSP 出力と比較しました。Restructuring Faces in Videos With Machine Learning 、著者: Martin Anderson# ##################################
以上が機械学習を使用してビデオ内の顔を再構成するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。