Diffusion Model (ディフュージョン モデル) は、ディープ世代モデルの新しい SOTA として、GAN などの画像生成タスクにおいてオリジナルの SOTA を超え、コンピュータ ビジョンなどの多くのアプリケーション分野で優れたパフォーマンスを発揮します。 NLP、分子グラフモデリング、時系列モデリングなど
最近、香港大学の Luo Ping 氏のチームと Tencent AI Lab の研究者は共同で、拡散モデルをターゲット検出に適用する新しいフレームワーク DiffusionDet を提案しました。私たちが知る限り、拡散モデルをターゲット検出にうまく適用できた研究はなく、拡散モデルをターゲット検出に使用した最初の研究と言えます。
DiffusionDet のパフォーマンスは何ですか?バックボーンとして ResNet-50 を使用して MS-COCO データセットで評価すると、単一のサンプリング ステップで DiffusionDet は 45.5 AP を達成しました。これは Faster R-CNN (40.2 AP)、DETR (42.0 AP) よりも大幅に優れており、Sparse に匹敵します。 R-CNN (45.0 AP) と同等です。サンプリング ステップの数を増やすことにより、DifffusionDet のパフォーマンスはさらに 46.2 AP に向上します。さらに、DiffusionDet は LVIS データセットでも良好なパフォーマンスを示し、スイングベースをバックボーンとして使用して 42.1 AP を達成しました。
この研究では、従来のターゲット検出では次のことが判明しました。学習可能なクエリの固定セットに依存しているという欠点があります。そこで研究者たちは、学習可能なクエリを必要とせずに物体検出を行う簡単な方法はあるだろうかと考えました。
この疑問に答えるために、この記事では、ランダム ボックスのセットからターゲットを直接検出できるフレームワークである DiffusionDet を提案します。ターゲットボックスのノイズ拡散処理。このノイズ対ボックスのアプローチは、ヒューリスティックなターゲット事前分布や学習可能なクエリを必要としないため、ターゲット候補がさらに簡素化され、検出パイプラインが進歩します。
以下の図 1 に示すように、この研究では、ノイズからボックスへのパラダイムは、ノイズ除去拡散モデルのノイズから画像へのプロセスに似ていると考えています。このモデルは、学習されたノイズ除去モデルを使用して、画像内のノイズを徐々に除去して画像を生成します。
#DiffusionDet は、拡散モデルを通じてターゲット検出タスクを解決します。つまり、検出は位置 (中心座標) とサイズ (幅) とみなされます。画像内の境界ボックスの高さと高さ) 空間生成タスク。トレーニング フェーズでは、分散テーブル (スケジュール) によって制御されるガウス ノイズがグラウンド トゥルース ボックスに追加されて、ノイズ ボックスが取得されます。これらのノイズの多いボックスは、バックボーン エンコーダー (ResNet、Swin Transformer など) の出力特徴マップから関心領域 (RoI) をトリミングするために使用されます。最後に、これらの RoI 特徴は検出デコーダーに送信され、ノイズなしでグラウンド トゥルース ボックスを予測するようにトレーニングされます。推論フェーズでは、DiffusionDet は学習された拡散プロセスを逆にして境界ボックスを生成します。これにより、ノイズの事前分布が境界ボックス上の学習された分布に調整されます。方法の概要
拡散モデルはデータ サンプルを繰り返し生成するため、推論フェーズ中にモデル f_θ を複数回実行する必要があります。ただし、各反復ステップで元の画像に f_θ を直接適用することは計算上困難です。そこで研究者らは、モデル全体を画像エンコーダと検出デコーダの 2 つの部分に分割することを提案し、前者は元の入力画像から深度特徴表現を抽出するために 1 回だけ実行され、z_t でボックス予測を段階的に洗練させます。画像エンコーダーは生の画像を入力として受け取り、その高レベルの特徴を抽出して検出デコーダーに提供します。研究者は、ResNet などの畳み込みニューラル ネットワークと、Swin などの Transformer ベースのモデルを使用して DiffusionDet を実装します。一方、特徴ピラミッド ネットワークは、ResNet および Swin バックボーン ネットワークのマルチスケール特徴マップを生成するために使用されます。
検出デコーダーは、Sparse R-CNN から借用し、一連の提案ボックスを入力として受け取り、画像エンコーダーによって生成された特徴マップから RoI 特徴を切り出し、それらを検出ヘッドに送信してボックス回帰を取得し、分類結果。さらに、検出デコーダは 6 つのカスケード ステージで構成されています。 トレーニング トレーニング プロセスでは、研究者はまずグラウンド トゥルース ボックスからノイズへの拡散を構築しました。ボックス プロセスを実行し、このプロセスを逆にするようにモデルをトレーニングします。以下のアルゴリズム 1 は、DifffusionDet トレーニング プロセスの擬似コードを提供します。 #真実の箱への記入。最新の物体検出ベンチマークでは、対象となるインスタンスの数が画像ごとに異なることがよくあります。したがって、最初に元のグラウンド トゥルース ボックスに追加のボックスをいくつか埋めて、すべてのボックスの合計が固定数 N_train になるようにします。彼らは、既存のグラウンドトゥルースボックスの繰り返し、ランダムなボックスの連結、画像サイズのボックスなど、いくつかの充填戦略を検討しました。
#トレーニングの損失。検出デコーダは、N_train 個の破損したボックスを入力として受け取り、クラス分類とボックス座標の N_train 予測を予測します。また、N_train 予測セットにセット予測損失を適用します。 推論 DiffusionDet の推論プロセスは、ノイズからターゲット フレームまでのノイズ除去サンプリング プロセスです。モデルは、ガウス分布からサンプリングされたボックスから開始して、以下のアルゴリズム 2 に示すように、徐々に予測を改良します。
サンプリングステップ。各サンプリング ステップで、前のサンプリング ステップからのランダム ボックスまたは推定ボックスが検出デコーダに送信され、クラス分類とボックス座標が予測されます。現在のステップのボックスを取得した後、DDIM を使用して次のステップのボックスを推定します。 ボックスの更新。推論とトレーニングの一貫性を高めるために、予期しないボックスをランダムなボックスに置き換えることによって復元するボックス更新戦略を提案します。具体的には、まず特定のしきい値を下回るスコアを持つ予期しないボックスをフィルターで除外し、次に残りのボックスをガウス分布からサンプリングされた新しいランダム ボックスと連結します。 一度限り。ランダム化されたボックス設計のおかげで、研究者は任意の数のランダム ボックスとサンプリング ステップを使用して DiffusionDet を評価できます。比較のために、以前の方法はトレーニングと評価中に同じ数の処理ボックスに依存し、検出デコーダーは前方パスで 1 回だけ使用されます。 実験結果 DiffusionDet の主な機能は、すべての推論インスタンスを 1 回トレーニングすることです。モデルがトレーニングされると、以下の図 4 に示すように、推論のボックスとサンプル ステップの数を変更するために使用できます。 DiffusionDet は、より多くのボックスまたはより多くの精製ステップを使用することでより高い精度を達成できますが、その代わりに待ち時間が長くなります。したがって、単一の DiffusionDet を複数のシナリオにデプロイし、ネットワークを再トレーニングすることなく、望ましい速度と精度のトレードオフを達成しました。
研究者らは、以下の表 1 に示すように、MS-COCO および LVIS データセットで DiffusionDet を以前の検出器と比較しました。彼らはまず、DiffusionDet の物体検出パフォーマンスを MS-COCO 上の以前の検出器と比較しました。結果は、改良ステップを行わない DiffusionDet が、ResNet-50 バックボーン ネットワークを使用して 45.5 AP を達成し、Faster R-CNN、RetinaNet、DETR、Sparse R-CNN などの以前の成熟した手法を大幅に上回っていることを示しています。また、DiffusionDet はバックボーンネットワークの規模が拡大しても安定した向上を示します。 #下の表 2 は、より困難な LVIS データセットの結果を示しています。DiffusionDet ではより詳細な情報が使用されていることがわかります。化ステップにより、大幅な達成が可能です。利益が得られます。 実験の詳細については、元の論文を参照してください。 実験部分では、研究者は最初に DiffusionDet の 1 回限りの特性を実証し、次に DiffusionDet を MS-COCO の以前のデータと比較しました。および LVIS: 比較のための成熟した検出器のコレクション。
以上が最初のターゲット検出拡散モデルは、Faster R-CNN や DETR よりも優れており、ランダム フレームから直接検出します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。