生成セマンティック セグメンテーションの新しいパラダイムである GMMSeg は、閉集合と開集合の両方の認識を処理できます。

PHPz
リリース: 2023-05-02 08:34:13
転載
1592 人が閲覧しました

現在の主流のセマンティック セグメンテーション アルゴリズムは、基本的にソフトマックス分類器に基づく識別分類モデルです。これは p (クラス|ピクセル特徴) を直接モデル化し、基礎となるピクセル データ分布、つまり p (クラス| ピクセル特徴) を完全に無視します。ピクセル機能)。これにより、OOD (配布外) データに対するモデルの表現力と一般化が制限されます。

最近の研究で、浙江大学、シドニー工科大学、Baidu Research Institute の研究者は、混合ガウス モデル (GMM) 生成セマンティック セグメンテーション モデルに基づいた、新しいセマンティック セグメンテーション パラダイムを提案しました。 GMMSeg.

生成セマンティック セグメンテーションの新しいパラダイムである GMMSeg は、閉集合と開集合の両方の認識を処理できます。

  • 論文リンク: https://arxiv.org/abs/2210.02025
  • コードリンク: https://github.com/leonnnop/GMMSeg

GMMSeg はピクセルとカテゴリの結合分散を実行します。 EM アルゴリズムを使用してピクセル特徴空間内のガウス混合分類器 (GMM 分類器) を学習し、生成パラダイムを使用して各カテゴリのピクセル特徴分布を細かく捕捉します。一方、GMMSeg は識別損失を採用して、深い特徴抽出器をエンドツーエンドで最適化します。これにより、GMMSeg には識別モデルと生成モデルの両方の利点が得られます。

実験結果は、GMMSeg がさまざまなセグメンテーション アーキテクチャおよびバックボーン ネットワーク上でパフォーマンスの向上を達成したことを示しています。同時に、後処理や微調整を行わずに、GMMSeg を直接実行できることを示しています。異常セグメンテーションタスクに適用されます。

これまでのところ、セマンティック セグメンテーション手法で単一のモデル インスタンスを使用できるのはこれが初めてです。クローズドセット (クローズドセット)およびオープン オープンワールド条件下で高度なパフォーマンスを同時に達成します。また、生成分類器が大規模な視覚タスクにおいて利点を実証したのはこれが初めてです。

識別分類子と生成分類子

生成セマンティック セグメンテーションの新しいパラダイムである GMMSeg は、閉集合と開集合の両方の認識を処理できます。

既存のセグメンテーション パラダイムと提案された方法を詳しく説明する前に、ここで簡単に説明します。識別分類子と生成分類子の概念。

データセット D があり、サンプルとラベルのペア (xx, y) が含まれているとします。分類器の最終目標はサンプルを予測することです。分類確率 p ( y|#xxx)。分類方法は、識別分類子と生成分類子の 2 つのカテゴリに分類できます。

    判別分類器: 条件付き確率 p (y|#xxx
  • ) を直接モデル化します。分類に最適な決定境界のみを学習しますが、サンプル自体の分布なので、サンプルの特性を反映することはできません。 生成分類器: まず同時確率分布 p (
  • xx
  • , y) をモデル化し、次にベイズの定理を通じて分類条件付き確率を導出します。その明示的なモデル化は、データ自体の分布に応じて、多くの場合、カテゴリごとに対応するモデルが確立されます。識別分類器と比較して、サンプルの特性情報を十分に考慮します。

主流のセマンティック セグメンテーション パラダイム: 識別 Softmax 分類器生成セマンティック セグメンテーションの新しいパラダイムである GMMSeg は、閉集合と開集合の両方の認識を処理できます。

現在の主流のピクセルごとのセグメンテーション モデルのほとんどuse Depth ネットワークはピクセル特徴を抽出し、ソフトマックス分類器を使用してピクセル特徴を分類します。そのネットワーク アーキテクチャは 2 つの部分で構成されます。

最初の部分は

ピクセル特徴抽出器 で、その典型的なアーキテクチャはエンコーダ/デコーダです。ペアの場合、RGB 空間のピクセル入力を D 次元の高次元空間にマッピングすることでピクセル特徴が得られます。

2 番目の部分は ピクセル分類器 で、主流のソフトマックス分類器であり、入力ピクセル特徴を C クラス Real にエンコードします。出力 (ロジット) を数値化し、次にソフトマックス関数を使用して出力 (ロジット) を正規化し、確率の意味を割り当てます。つまり、ロジットを使用してピクセル分類の事後確率を計算します。

最終的に、2 つの部分で構成される完全なモデルは、クロスエントロピー損失を使用してエンドツーエンドで最適化されます。 生成セマンティック セグメンテーションの新しいパラダイムである GMMSeg は、閉集合と開集合の両方の認識を処理できます。

#ここ このプロセスでは、モデルはピクセル自体の分布を無視し、ピクセル分類予測の条件付き確率 p (c|x) を直接推定します。主流のソフトマックス分類器は本質的に

生成セマンティック セグメンテーションの新しいパラダイムである GMMSeg は、閉集合と開集合の両方の認識を処理できます。

#識別分類器

# であることがわかります。 判別分類器は単純な構造を持ち、その最適化目標は判別誤差を減らすことを直接の目的としているため、多くの場合、優れた判別パフォーマンスを実現できます。ただし、同時に、既存の研究では注目されていないいくつかの致命的な欠点があり、ソフトマックス分類器の分類パフォーマンスと一般化に大きな影響を与えます。まず第一に、これは決定境界をモデル化するだけであり、ピクセルの特徴の分布を完全に無視するため、各カテゴリの固有の特性をモデル化して利用することができず、一般化と表現の能力が弱まります。

2 番目に、単一のパラメーター ペア (w,b) を使用してクラスをモデル化します。つまり、ソフトマックス分類器は単峰性の仮定に依存します。非常に強力で単純化しすぎた仮定は、実際のアプリケーションでは成り立たないことが多く、その結果、次善のパフォーマンスしか得られません。

  • 最後に、ソフトマックス分類器の出力は、真の確率的意味を正確に反映できません。その最終予測は、他のカテゴリと比較する場合の参照としてのみ使用できます。これは、多くの主流のセグメンテーション モデルが OOD 入力を検出することが難しい根本的な理由でもあります。
  • これらの問題に対応して、著者は現在の主流の識別パラダイムを再考する必要があると考えており、対応する解決策がこの記事で提供されています: 生成的意味セグメンテーション モデル— — GMMSeg.
  • 生成セマンティック セグメンテーション モデル: GMMSeg
  • 著者は、生成モデルの観点からセマンティック セグメンテーション プロセスを再編成しました。分類確率 p (c|#xxx
  • ) を直接モデル化するのと比較して、生成分類器は同時分布 p (
x

, c) をモデル化し、ベイズの定理分類確率を使用してそれを導出します。

その中で、一般化を考慮して、カテゴリ事前 p (c) は一様分布に設定されることが多く、カテゴリ条件付き分布をモデル化する方法ピクセル特徴の p (#xx|c) が現在の主な問題となっています。 この論文、つまり GMMSeg では、混合ガウス モデルを使用して p (xx

|c) をモデル化します。これは次の形式になります。

生成セマンティック セグメンテーションの新しいパラダイムである GMMSeg は、閉集合と開集合の両方の認識を処理できます。

成分の数が制限されていない場合、混合ガウス モデルは理論的にはあらゆる分布に適合できるため、非常にエレガントで強力であると同時に、ハイブリッド モデルの性質により、マルチモダリティのモデル化、つまりクラス内変動のモデル化も可能になります。これに基づいて、この記事では最尤推定を使用してモデルのパラメーターを最適化します。

古典的なソリューションは EM アルゴリズムです。 E-M - F の 2 段階の段階的最適化 - 関数:

を交互に実行することにより

生成セマンティック セグメンテーションの新しいパラダイムである GMMSeg は、閉集合と開集合の両方の認識を処理できます。

混合ガウス モデルの最適化に特有です。EM アルゴリズムは、データ ポイントが E ステップの各サブモデルに属する確率を実際に再推定します。言い換えれば、これは E ステップでのピクセルのソフト クラスタリングと同等であり、その後、M ステップでクラスタリングの結果を使用してモデル パラメータを再度更新できます。

生成セマンティック セグメンテーションの新しいパラダイムである GMMSeg は、閉集合と開集合の両方の認識を処理できます。

しかし、実際のアプリケーションでは、標準の EM アルゴリズムの収束が遅く、最終結果が不十分であることが著者はわかりました。著者は、EM アルゴリズムがパラメーター最適化の初期値に敏感すぎるため、より良い局所極点に収束することが困難になっているのではないかと考えています。最適輸送理論に基づく一連の最近のクラスタリング アルゴリズムに触発され、著者は混合モデル分布の前に追加の均一性を導入しています。

生成セマンティック セグメンテーションの新しいパラダイムである GMMSeg は、閉集合と開集合の両方の認識を処理できます。

これに対応して、パラメータ最適化プロセスの E ステップは、次のように制約付き最適化問題に変換されます。

生成セマンティック セグメンテーションの新しいパラダイムである GMMSeg は、閉集合と開集合の両方の認識を処理できます。

#このプロセスは直感的に理解でき、同等です。クラスタリング プロセスに分散制約が導入されます。クラスタリング プロセス中に、データ ポイントを各サブモデルにある程度まで均等に分散できます。この制約を導入した後、この最適化プロセスは、次の式にリストされている最適伝送問題と同等になります。

生成セマンティック セグメンテーションの新しいパラダイムである GMMSeg は、閉集合と開集合の両方の認識を処理できます。

この式では、Sinkhorn-Knopp を使用できます。アルゴリズムはすぐに解決します。改良された最適化プロセス全体は Sinkhorn EM と呼ばれます。これは、いくつかの理論研究によって、標準の EM アルゴリズムと同じグローバル最適解を持ち、ローカル最適解に陥る可能性が低いことが証明されています。

オンライン ハイブリッド最適化

その後、完全な最適化プロセスで、この記事ではオンライン ハイブリッド最適化モードを使用します。生成シンホーン EM を通じて、ガウス混合分類器は次のようになります。段階的に更新される特徴空間で継続的に最適化され、フレームワーク全体の別の部分、つまりピクセル特徴抽出部分では、生成分類器の予測結果に基づいて、識別クロスエントロピー損失を伴う最適化を使用します。 2 つの部分が交互に最適化され、相互に調整されるため、モデル全体が緊密に結合され、エンドツーエンドのトレーニングが可能になります。このプロセス、特徴 抽出部分は勾配逆伝播を通じてのみ最適化され、生成分類器部分は SinkhornEM を通じてのみ最適化されます。この交互の最適化設計により、モデル全体をコンパクトに統合し、識別モデルと生成モデルの利点を継承することができます。

生成セマンティック セグメンテーションの新しいパラダイムである GMMSeg は、閉集合と開集合の両方の認識を処理できます。

最終的に、GMMSeg は生成分類アーキテクチャとオンライン ハイブリッド トレーニング戦略の恩恵を受け、識別ソフトマックス分類器にはない機能を実証します。利点:

  • 第一に、GMMSeg はそのユニバーサル アーキテクチャの利点を活かして、ほとんどの主流のセグメンテーション モデルと互換性があり、つまり、分類にソフトマックスを使用するモデルと互換性があり、識別ソフトマックス分類器を置き換えるだけで済みます。既存モデルの性能。
  • 第 2 に、ハイブリッド トレーニング モードの適用により、GMMSeg は生成分類器と識別分類器の利点を組み合わせ、softmax がクラス内変更をモデル化できないという問題をある程度解決します。 ; 識別性能が大幅に向上します。
  • 第三に、GMMSeg はピクセル特徴の分布、つまり p (xx|c) を明示的にモデル化します。GMMSeg は、サンプルがそれぞれの特徴に属する確率を直接与えることができます。 category 、これにより、目に見えない OOD データを自然に処理できるようになります。

実験結果

実験結果は、CNN アーキテクチャに基づいているか、Transformer アーキテクチャに基づいているかにかかわらず、広く使用されているセマンティック セグメンテーション データでより良い結果を達成できることを示しています。セット (ADE20K、Cityscapes、COCO-Stuff) では、GMMSeg は安定した明らかなパフォーマンスの向上を実現できます。

生成セマンティック セグメンテーションの新しいパラダイムである GMMSeg は、閉集合と開集合の両方の認識を処理できます。

生成セマンティック セグメンテーションの新しいパラダイムである GMMSeg は、閉集合と開集合の両方の認識を処理できます。

また、異常セグメンテーションタスクでは、閉集合タスクを実行する必要はありません。つまり、セマンティック セグメンテーション タスクでトレーニングされたモデルに何らかの変更が加えられた場合、GMMSeg は、すべての一般的な評価指標において特別な後処理を必要とする他のメソッドを上回ることができます。

生成セマンティック セグメンテーションの新しいパラダイムである GMMSeg は、閉集合と開集合の両方の認識を処理できます。

生成セマンティック セグメンテーションの新しいパラダイムである GMMSeg は、閉集合と開集合の両方の認識を処理できます。


生成セマンティック セグメンテーションの新しいパラダイムである GMMSeg は、閉集合と開集合の両方の認識を処理できます。#

以上が生成セマンティック セグメンテーションの新しいパラダイムである GMMSeg は、閉集合と開集合の両方の認識を処理できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート