ディープ ラーニング (DL) は、コンピューター サイエンスの中で最も影響力のある分野の 1 つとなり、今日の人間の生活と社会に直接影響を与えています。歴史上の他のすべての技術革新と同様に、ディープラーニングはいくつかの違法な目的に使用されてきました。ディープフェイクはそのようなディープ ラーニング アプリケーションです。AI を使用したさまざまなディープフェイク検出を発明し、最適化するために、過去数年間で何百もの研究が行われてきました。この記事では主にディープフェイクを検出する方法について説明します。
ディープフェイクに対処するために、ディープフェイクを検出するためのディープラーニング手法と機械学習 (非ディープラーニング) 手法が開発されています。深層学習モデルでは多数のパラメーターを考慮する必要があるため、そのようなモデルをトレーニングするには大量のデータが必要になります。これがまさに、DL メソッドが非 DL メソッドと比較してパフォーマンスが高く、正確な結果が得られる理由です。
ほとんどのディープフェイクジェネレーターは、ディープフェイクプロセス中にいくつかの痕跡を残します。ディープフェイク ビデオにおけるこうした変化は、空間的不一致 (ビデオの個々のフレーム内で発生する非互換性) と時間的不一致 (一連のビデオ フレームに現れる互換性のない特徴) として分類できます。
空間的不一致には、ビデオ フレームの背景と互換性のない顔の領域、解像度の変更、部分的にレンダリングされた臓器や皮膚のテクスチャ (顔のすべての人間の特徴が正しくレンダリングされない可能性があります) が含まれます。ほとんどの一般的なディープフェイク ジェネレーターは、まばたきや歯などの特徴をレンダリングできません。また、静止画では肉眼でも見える歯の代わりに白いストリップが使用されることもあります (下)。
時間的不一致には、異常なまばたき、頭の姿勢、顔の動き、ビデオ フレーム シーケンスの明るさの変化などが含まれます。
ディープフェイク生成者によって残されたこれらの空間的および時間的痕跡は、ディープ ニューラル ネットワーク (DNN) から作成されたディープフェイク検出器によって識別できます。ディープフェイク生成器でおなじみの敵対的生成ネットワーク (GAN) が広く使用されているため、フェイクの検出と生成の間のバランスが課題となっています。
ディープフェイク検出器は、入力デジタル メディアが本物か偽物かを判断するバイナリ分類システムです。ディープフェイク検出は、単一のブラックボックスのようなモジュールによって実行されるのではなく、検出結果を提供するために連携して動作する他のいくつかのモジュールとステップで構成されます。ディープフェイク検出の一般的な手順は次のとおりです [2]。
一般的な DL ベースのディープフェイク検出器には、上記のタスクを実行するための 3 つの主要コンポーネントが含まれています。
次に、データの前処理、特徴抽出、検出/分類プロセスという主なステップについて詳しく説明します。
データ収集フェーズの後、ディープフェイク検出のためのトレーニングとテストのステップの前に、データを前処理する必要があります。データの前処理は、OpenCV Python、MTCNN、YOLO などの利用可能なライブラリを使用して自動的に行われます。
データ拡張は、ディープフェイク検出器のパフォーマンスを向上させる上でも重要な役割を果たします。再スケーリング (ストレッチ)、シアー マッピング、スケーリング拡張、回転、明るさの変更、水平/垂直反転などの拡張技術を適用して、データセットの一般化を高めることができます [3]。
データ前処理の最初のステップは、ビデオ クリップから個々のフレームを抽出することです。フレームを抽出したら、抽出したビデオ フレームから顔を検出する必要があります。顔領域には異常が見られることが多いため、顔領域のみを選択すると、特徴抽出モデルが関心領域 (ROI) のみに焦点を当てるのに役立ち、フルフレーム スキャンの計算コストを節約できます。顔領域が検出されると、フレームの残りの背景から切り取られ、一連の手順に従ってモデルのトレーニングとテストに使用できるようになります。顔の領域をトリミングするもう 1 つの理由は、モデルへのすべての入力画像を同じサイズにすることです。
前のステップで前処理されたフレームは、特徴抽出器に送信されます。ほとんどの特徴抽出器は畳み込みニューラル ネットワーク (CNN) に基づいています。最近のいくつかの研究では、特徴抽出プロセスにおけるカプセル ネットワークの適用の有効性と効率の向上が実証されており、これは新しい傾向です。
特徴抽出機能は、前処理されたビデオ フレームで利用可能な空間特徴を抽出します。特徴抽出では、目、鼻、口の位置、口の形のダイナミクス、瞬き、その他の生物学的特徴などの視覚的特徴、局所的特徴/顔のランドマークを抽出できます。抽出された特徴ベクトルは分類器ネットワークに送信され、決定結果が出力されます。
分類に使用されるディープ ラーニング モデルは、ディープフェイク検出器のバックボーンと呼ばれることがよくあります。名前が示すように、分類ネットワークはディープフェイク検出パイプラインで最も重要なタスク、つまり入力ビデオがディープフェイクであるかどうかの確率を分類して決定する役割を担っています。ほとんどの分類器はバイナリ分類器であり、ディープフェイクの出力は (0)、元のフレームの出力は (1) です。
分類器は、さらに別の畳み込み層 (CNN)、または LSTM や ViT などの同様の深層学習アーキテクチャです。分類モデルの実際の機能は、使用される DNN によって異なります。たとえば、特徴抽出モジュールで抽出されたまばたきの特徴を分類モジュールの LSTM モジュールで使用して、フレームのまばたきパターンの時間的不一致を判断し、入力がディープフェイクであるかどうかを判断できます [3]。ほとんどの場合、ディープフェイク検出器の最後の層は完全に接続された層です。畳み込み層の出力はデータの高レベルの特徴を表すため、これらの出力は平坦化され、単一の出力層に連結されて最終的な決定が行われます。
過去数年にわたり、ディープフェイクの作成と検出の両方において大きな進歩が見られました。ディープラーニング技術を使用したディープフェイク検出に関連する研究も、非ディープラーニング手法と比較した結果の正確さにより大きく進歩しました。 CNN、RNN、ViT、カプセル ネットワークなどのディープ ニューラル ネットワーク アーキテクチャは、ディープフェイク検出器の実装に広く使用されています。一般的なディープフェイク検出パイプラインは、データ前処理モジュール、CNN ベースの特徴抽出器、分類モジュールで構成されます。
さらに、ディープフェイクの検出は、ディープフェイク生成器がディープフェイク上に残した痕跡に強く依存しています。現在の GAN ベースのディープフェイク ジェネレーターは、矛盾を最小限に抑えてより現実的なディープフェイクを合成できるため、ディープフェイクの検出を最適化する新しい方法を開発する必要があります。ディープアンサンブル学習技術に基づくディープフェイク検出方法は、ディープフェイクに対抗するための最新かつ包括的な方法と考えることができます [4]。それにもかかわらず、効果的かつ効率的なディープフェイク検出器の不足は依然として存在します。
以上がディープラーニングに基づくディープフェイク検出の概要の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。