この記事では、人工知能によって生成された画像を検出するためのディープラーニング モデルを開発する方法を紹介します。
AI が生成した画像を検出するための多くの深層学習手法は、画像の生成方法や画像の特性/セマンティクスに基づいており、通常は次のようなものです。このモデルは、人、顔、車など、人工知能によって生成された特定のオブジェクトのみを認識できます。
しかし、この研究で提案された「リッチなテクスチャ コントラストと貧しいテクスチャ コントラスト: AI 生成の画像検出のためのシンプルかつ効果的なアプローチ」というタイトルの方法は、これらの課題を克服し、より幅広い適用可能性を備えています。この研究論文を詳しく見て、AI が生成した画像を検出する他の方法が直面する問題を効果的に解決する方法を説明します。
モデル (ResNet-50 など) を使用して人工知能によって生成された画像を認識すると、モデルは学習します。画像のセマンティクスに基づいています。実際の画像と AI が生成したさまざまな車の画像をトレーニングに使用して、AI が生成した車の画像を認識するようにモデルをトレーニングした場合、モデルはこれらのデータから車に関する情報のみを取得できますが、他のオブジェクトについては取得できません。識別。
トレーニングはさまざまなオブジェクトのデータに対して実行できますが、この方法では時間がかかり、未知のデータに対しては約 72% の精度しか達成できません。学習回数やデータ量を増やすことで精度は向上しますが、無制限に学習データを取得できるわけではありません。
つまり、電流検出モデルの一般化には大きな問題があり、この問題を解決するために、本論文では次のような手法を提案します。
Smash&Reconstructionこの方法では、画像を所定のサイズの小さなブロックに分割し、再配置して新しい画像を生成します。生成モデルの最終入力画像を形成する前に追加の手順が必要なため、これは簡単な概要にすぎません。
#画像を小さな部分に分割した後、その小さな部分を 2 つのグループに分割します。1 つのグループはテクスチャが豊富な小さな部分であり、もう一つは、質感の悪い小さな破片です。
#画像内のオブジェクトや対照的な色の 2 つの領域間の境界などの詳細な領域は、リッチ テクスチャ ブロックになります。豊かなテクスチャ領域は、空や静止した水など、主に背景であるテクスチャ領域と比較して、ピクセルのばらつきが大きくなります。
テクスチャリッチメトリクスの計算
テクスチャの少ないブロックと比較して、テクスチャが豊富なブロックのピクセル グラデーション値は高くなります。画像のグラデーション値の計算式は次のとおりです。
ピクセル コントラストに基づいて画像を分離し、2 つの合成画像を取得します。このプロセスは、この記事で「Smash&Reconstruction」と呼ぶ完全なプロセスです。
#これにより、モデルはオブジェクトのコンテンツ表現ではなく、テクスチャの詳細を学習できるようになります
fingerprint
指紋ベースの方法のほとんどは画像生成テクノロジによって制限されており、これらのモデル/アルゴリズムは、拡散、GAN などの特定の方法/類似の方法によって生成された画像のみを検出できます。または他の CNN ベースの画像生成方法)。
リッチなテクスチャ パッチと貧弱なテクスチャ パッチのコントラストはどのように役立ちますか?
理解を深めるために、実際の画像と AI で生成された画像を並べて比較します。
It is difficult to view these two images with the naked eye, right?
The paper first uses the Smash&Reconstruction process :
Contrast between each image after applying 30 high-pass filters on them:
From these results we can see that the contrast between the AI-generated images and the real images is comparable Than, the contrast between rich and poor texture patches is much higher.
In this way, we can see the difference with the naked eye, so we can put the contrast results into the trainable model and input the result data into the classifier. This is the purpose of our paper. Model architecture:
The structure of the classifier is as follows:
The paper mentions 30 high-pass filters, which were originally introduced for steganalysis.
Note: There are many ways to steganographically image. Broadly speaking, as long as information is hidden in a picture in some way and is difficult to discover through ordinary means, it can be called picture steganography. There are many related studies on steganalysis, and those who are interested can check the relevant information.
The filter here is applied to the matrix values of the image using a convolution method. The filter used is a high-pass filter, which only allows the high-frequency features of the image to pass through it. High-frequency features typically include edges, fine details, and rapid changes in intensity or color.
All filters except (f) and (g) are rotated at an angle before being reapplied to the image, thus forming a total of 30 filter. The rotation of these matrices is done using affine transformations, which are done using SciPy.
The results of the paper have reached a verification accuracy of 92%, and it is said that if more training is done, there will be better results As a result, this is a very interesting research. I also found the training code. If you are interested, you can study it in depth:
Paper: https://arxiv.org/abs/2311.12397
Code: https://github.com/hridayK/Detection-of-AI-generated-images
以上がテクスチャ コントラスト検出を使用した AI 生成画像の検出の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。