翻訳者|崔昊
改訂者|孫樹娟
中国と英国のプロジェクト 共同研究で新しいものを考案ビデオ内の顔を再現する方法。この技術は、人為的なトリミングの痕跡を残さず、一貫性の高い顔の構造を拡大および縮小することができます。
一般に、この顔の構造の変換は、顔を完全に再構築するための詳細で高価なモーション キャッピング、リギング、テクスチャリング手順に依存する従来の CGI 手法によって実現されます。
従来の手法とは異なり、新技術の CGI は 3D 顔情報のパラメータとしてニューラル パイプラインに統合され、機械学習ワークフローの基礎として機能します。
著者は次のように指摘しました:
「私たちの目標は、現実世界の自然な顔に基づいて顔の輪郭を変形および編集することです。 - 高品質のポートレート整形ビデオ [結果]。このテクノロジーは、顔の美化や顔の誇張などの視覚効果アプリケーションに使用できます。
消費者は Photoshop の歪みテクノロジー (および顔の歪みや身体醜形障害のサブカルチャーにつながりました)が、CGI を使用せずにビデオ用に顔の再構成を実現するのは依然として難しい技術です。
#マーク・ザッカーバーグの顔のサイズは拡大し、新技術のせいで縮む 現在、身体の再形成は、主にファッション電子商取引における可能性のため、コンピュータービジョンの分野でホットな話題になっています。たとえば、人々をより背が高く、骨格をより多様に見せることができますが、まだいくつかの課題があります。同様に、ビデオ内の顔の形状を説得力のある方法で変更することは研究者の研究の中核であり、この技術の実装は人工処理などの影響を受けていますが、その結果、新製品は、以前に研究されていた機能を静的拡張から動的なビデオ出力に移行します。新システムには AMD Ryzen 9 3950X が搭載されています。トレーニングは 32GB のメモリを搭載したデスクトップ PC で実行されます。モーション マップは OpenCV のオプティカル フロー アルゴリズムを使用して生成され、StructureFlow フレームワークによってスムーズ化されます。特徴推定用の顔位置合わせネットワーク (FAN) コンポーネントは、人気のあるディープフェイク コンポーネント パッケージでも使用されます。Ceres ソルバーと連携して顔の最適化の問題を解決します。 新しいシステムを使用した顔を拡大する例この論文のタイトルは「ビデオにおけるポートレートのパラメトリック リシェイプ」で、著者は浙江大学の 3 人の研究者です。 顔について 新しいシステムでは、顔から始まる画像シーケンスにビデオが抽出されます 基本モデルを構築し、その後の代表的なフレームを接続して構築します画像全体の進行方向 (つまり、ビデオ フレームの方向) に沿った一貫した性格パラメータ。 顔変形システムの構築プロセス次計算式に従って、線形回帰によって実装された整形パラメータが生成され、顔の整形前後の符号付き距離関数 (SDF) を通じて顔の輪郭の 2D マッピングが構築されます。出力ビデオはコンテンツ認識のためにモーフィング最適化を受けます。顔パラメータ化このプロセスでは、ニューラルおよび GAN に基づく顔合成補助ツールである 3D Morphable Face Model (3DMM) が利用されます。 、ディープフェイク検出システムにも適しています。
3D モーファブル顔モデル (3DMM) の例 - 新しいプロジェクトで使用されるパラメトリック プロトタイプの顔。左上、3DMM サーフェス上の象徴的なアプリケーション。右上、アイソマップの 3D メッシュ頂点。左下隅は特徴のフィットを示し、中央下の図は抽出された顔のテクスチャのアイソマップを示し、右下隅は最終的なフィットと形状を示します。
新しいシステムのワークフローでは、オブジェクトが視線から離れるときなどのオクルージョン状況が考慮されます。これは、ディープフェイク ソフトウェアにとって最大の課題の 1 つでもあります。FAN ランドマークではこれらの状況をほとんど考慮できず、顔が避けられたり遮られたりするため、翻訳品質が低下する傾向があるためです。
新しいシステムは、3D 顔 (3DMM) と 2D 顔 (FAN ランドマークによって定義される) の境界に一致する「輪郭エネルギー」を定義することで、上記の問題を回避します。
このシステムのアプリケーション シナリオは、ビデオ チャット フィルターでの顔の形状のリアルタイム変形などのリアルタイム変形です。現在、フレームワークではこれを実現できないため、「リアルタイム」変形を可能にするために必要なコンピューティング リソースを提供することが大きな課題になります。
論文の仮定によれば、パイプライン内の 1 秒あたりの素材に対する 24fps ビデオの各フレーム操作のレイテンシーは 16.344 秒です。同時に、特徴推定と 3D 顔の変形については、また、1 回のヒット (それぞれ 321 ミリ秒と 160 ミリ秒) も伴います。
その結果、最適化によりレイテンシの短縮という点で大きな進歩が得られました。すべてのフレームにわたる統合最適化はシステムのオーバーヘッドを大幅に増加させ、初期化スタイルの最適化 (全体で一貫したスピーカー特性を想定) は異常を引き起こす可能性があるため、著者らはサンプリングされたフレームの現実的な間隔で係数を計算するためにスパース モードを採用しました。
次に、このフレームのサブセットに対して結合最適化が実行され、より無駄のない再構築プロセスが実現します。
このプロジェクトで使用されているモーフィング テクノロジーは、著者の 2020 年の作品 Deep Shapely Portraits (DSP) を応用したものです。
Deep Shapely Portraits、2020 年に ACM Multimedia に投稿。この論文は、浙江大学とテンセントのゲームおよびインテリジェント グラフィックス イノベーション テクノロジに関する共同研究所の研究者によって主導されました。
著者らは、「この手法を、単一の画像の再形成から画像シーケンス全体の再形成まで拡張している」と観察しました。
##テスト#この論文は、新しい手法を評価するための比較可能な過去のデータが存在しないことを指摘しています。したがって、著者らは、曲面ビデオ出力フレームを静的 DSP 出力と比較しました。 Deep Shapely Portraits の静的画像に対する新しいシステムのテスト著者は、スパース マッピングの使用により、DSP メソッドでは人為的な変更の痕跡— —新しいフレームワークは、高密度マッピングを通じてこの問題を解決します。さらに、DSP によって生成されたビデオには滑らかさと視覚的な一貫性が欠けていると論文は主張しています。 著者らは次のように指摘しました: 「結果は、私たちの方法が再整形されたポートレートビデオを安定して首尾一貫して生成できることを示していますが、画像ベースの方法では明らかなちらつきアーティファクト(人工的な変更の痕跡)が簡単に発生する可能性があります。」 )."翻訳者紹介 Cui Hao は、51CTO コミュニティ編集者、シニア アーキテクトであり、ソフトウェア開発とアーキテクチャに 18 年の経験があり、分散アーキテクチャに 10 年の経験があります。元HPの技術専門家。彼は喜んで共有し、600,000 回以上読まれる人気の技術記事を多数執筆してきました。 『分散アーキテクチャの原則と実践』の著者。 #原題:Restructuring Faces in Videos With Machine Learning 、著者: Martin Anderson# ##################################
以上が機械学習を使用してビデオ内の顔を再構成するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。