現在の主流のセマンティック セグメンテーション アルゴリズムは、基本的にソフトマックス分類器に基づく識別分類モデルです。これは p (クラス|ピクセル特徴) を直接モデル化し、基礎となるピクセル データ分布、つまり p (クラス| ピクセル特徴) を完全に無視します。ピクセル機能)。これにより、OOD (配布外) データに対するモデルの表現力と一般化が制限されます。
最近の研究で、浙江大学、シドニー工科大学、Baidu Research Institute の研究者は、混合ガウス モデル (GMM) 生成セマンティック セグメンテーション モデルに基づいた、新しいセマンティック セグメンテーション パラダイムを提案しました。 GMMSeg.
GMMSeg はピクセルとカテゴリの結合分散を実行します。 EM アルゴリズムを使用してピクセル特徴空間内のガウス混合分類器 (GMM 分類器) を学習し、生成パラダイムを使用して各カテゴリのピクセル特徴分布を細かく捕捉します。一方、GMMSeg は識別損失を採用して、深い特徴抽出器をエンドツーエンドで最適化します。これにより、GMMSeg には識別モデルと生成モデルの両方の利点が得られます。
実験結果は、GMMSeg がさまざまなセグメンテーション アーキテクチャおよびバックボーン ネットワーク上でパフォーマンスの向上を達成したことを示しています。同時に、後処理や微調整を行わずに、GMMSeg を直接実行できることを示しています。異常セグメンテーションタスクに適用されます。
これまでのところ、セマンティック セグメンテーション手法で単一のモデル インスタンスを使用できるのはこれが初めてです。クローズドセット (クローズドセット)およびオープン オープンワールド条件下で高度なパフォーマンスを同時に達成します。また、生成分類器が大規模な視覚タスクにおいて利点を実証したのはこれが初めてです。
識別分類子と生成分類子既存のセグメンテーション パラダイムと提案された方法を詳しく説明する前に、ここで簡単に説明します。識別分類子と生成分類子の概念。
データセット D があり、サンプルとラベルのペア (xx, y) が含まれているとします。分類器の最終目標はサンプルを予測することです。分類確率 p ( y|#xxx)。分類方法は、識別分類子と生成分類子の 2 つのカテゴリに分類できます。
主流のセマンティック セグメンテーション パラダイム: 識別 Softmax 分類器
最初の部分は
ピクセル特徴抽出器 で、その典型的なアーキテクチャはエンコーダ/デコーダです。ペアの場合、RGB 空間のピクセル入力を D 次元の高次元空間にマッピングすることでピクセル特徴が得られます。 2 番目の部分は ピクセル分類器 で、主流のソフトマックス分類器であり、入力ピクセル特徴を C クラス Real にエンコードします。出力 (ロジット) を数値化し、次にソフトマックス関数を使用して出力 (ロジット) を正規化し、確率の意味を割り当てます。つまり、ロジットを使用してピクセル分類の事後確率を計算します。 最終的に、2 つの部分で構成される完全なモデルは、クロスエントロピー損失を使用してエンドツーエンドで最適化されます。 #ここ このプロセスでは、モデルはピクセル自体の分布を無視し、ピクセル分類予測の条件付き確率 p (c|x) を直接推定します。主流のソフトマックス分類器は本質的に #識別分類器 # であることがわかります。 判別分類器は単純な構造を持ち、その最適化目標は判別誤差を減らすことを直接の目的としているため、多くの場合、優れた判別パフォーマンスを実現できます。ただし、同時に、既存の研究では注目されていないいくつかの致命的な欠点があり、ソフトマックス分類器の分類パフォーマンスと一般化に大きな影響を与えます。まず第一に、これは決定境界をモデル化するだけであり、ピクセルの特徴の分布を完全に無視するため、各カテゴリの固有の特性をモデル化して利用することができず、一般化と表現の能力が弱まります。 2 番目に、単一のパラメーター ペア (w,b) を使用してクラスをモデル化します。つまり、ソフトマックス分類器は単峰性の仮定に依存します。非常に強力で単純化しすぎた仮定は、実際のアプリケーションでは成り立たないことが多く、その結果、次善のパフォーマンスしか得られません。 , c) をモデル化し、ベイズの定理分類確率を使用してそれを導出します。 その中で、一般化を考慮して、カテゴリ事前 p (c) は一様分布に設定されることが多く、カテゴリ条件付き分布をモデル化する方法ピクセル特徴の p (#xx|c) が現在の主な問題となっています。 この論文、つまり GMMSeg では、混合ガウス モデルを使用して p (xx 成分の数が制限されていない場合、混合ガウス モデルは理論的にはあらゆる分布に適合できるため、非常にエレガントで強力であると同時に、ハイブリッド モデルの性質により、マルチモダリティのモデル化、つまりクラス内変動のモデル化も可能になります。これに基づいて、この記事では最尤推定を使用してモデルのパラメーターを最適化します。 古典的なソリューションは EM アルゴリズムです。 E-M - F の 2 段階の段階的最適化 - 関数: を交互に実行することにより 混合ガウス モデルの最適化に特有です。EM アルゴリズムは、データ ポイントが E ステップの各サブモデルに属する確率を実際に再推定します。言い換えれば、これは E ステップでのピクセルのソフト クラスタリングと同等であり、その後、M ステップでクラスタリングの結果を使用してモデル パラメータを再度更新できます。 しかし、実際のアプリケーションでは、標準の EM アルゴリズムの収束が遅く、最終結果が不十分であることが著者はわかりました。著者は、EM アルゴリズムがパラメーター最適化の初期値に敏感すぎるため、より良い局所極点に収束することが困難になっているのではないかと考えています。最適輸送理論に基づく一連の最近のクラスタリング アルゴリズムに触発され、著者は混合モデル分布の前に追加の均一性を導入しています。 これに対応して、パラメータ最適化プロセスの E ステップは、次のように制約付き最適化問題に変換されます。 #このプロセスは直感的に理解でき、同等です。クラスタリング プロセスに分散制約が導入されます。クラスタリング プロセス中に、データ ポイントを各サブモデルにある程度まで均等に分散できます。この制約を導入した後、この最適化プロセスは、次の式にリストされている最適伝送問題と同等になります。 この式では、Sinkhorn-Knopp を使用できます。アルゴリズムはすぐに解決します。改良された最適化プロセス全体は Sinkhorn EM と呼ばれます。これは、いくつかの理論研究によって、標準の EM アルゴリズムと同じグローバル最適解を持ち、ローカル最適解に陥る可能性が低いことが証明されています。 その後、完全な最適化プロセスで、この記事ではオンライン ハイブリッド最適化モードを使用します。生成シンホーン EM を通じて、ガウス混合分類器は次のようになります。段階的に更新される特徴空間で継続的に最適化され、フレームワーク全体の別の部分、つまりピクセル特徴抽出部分では、生成分類器の予測結果に基づいて、識別クロスエントロピー損失を伴う最適化を使用します。 2 つの部分が交互に最適化され、相互に調整されるため、モデル全体が緊密に結合され、エンドツーエンドのトレーニングが可能になります。このプロセス、特徴 抽出部分は勾配逆伝播を通じてのみ最適化され、生成分類器部分は SinkhornEM を通じてのみ最適化されます。この交互の最適化設計により、モデル全体をコンパクトに統合し、識別モデルと生成モデルの利点を継承することができます。 最終的に、GMMSeg は生成分類アーキテクチャとオンライン ハイブリッド トレーニング戦略の恩恵を受け、識別ソフトマックス分類器にはない機能を実証します。利点: 実験結果は、CNN アーキテクチャに基づいているか、Transformer アーキテクチャに基づいているかにかかわらず、広く使用されているセマンティック セグメンテーション データでより良い結果を達成できることを示しています。セット (ADE20K、Cityscapes、COCO-Stuff) では、GMMSeg は安定した明らかなパフォーマンスの向上を実現できます。 また、異常セグメンテーションタスクでは、閉集合タスクを実行する必要はありません。つまり、セマンティック セグメンテーション タスクでトレーニングされたモデルに何らかの変更が加えられた場合、GMMSeg は、すべての一般的な評価指標において特別な後処理を必要とする他のメソッドを上回ることができます。 #
xオンライン ハイブリッド最適化
実験結果
以上が生成セマンティック セグメンテーションの新しいパラダイムである GMMSeg は、閉集合と開集合の両方の認識を処理できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。