最近、Google AI チームは、Transformer と DETR からインスピレーションを得た、Mask Transformer を使用したパノラマ セグメンテーションのためのエンドツーエンド ソリューションを提案しました。
正式名称は、マスク トランスフォーマーを使用したパノプティック セグメンテーションのエンドツーエンド ソリューションで、主にセグメンテーション MaskTransformer アーキテクチャの拡張機能を生成するために使用されます。
このソリューションでは、ピクセル パス (畳み込みニューラル ネットワークまたはビジュアル トランスフォーマーで構成) を使用してピクセル特徴を抽出し、メモリ パス (トランスフォーマー デコーダー モジュールで構成) でメモリ特徴を抽出し、デュアル パスを使用します。ピクセルの特徴とメモリ間の相互作用の特性のためのトランスフォーマー。
ただし、クロスアテンションを利用したデュアルパス Transformer は、もともと言語タスク用に設計されており、その入力シーケンスは数百の単語で構成されています。
視覚的なタスク、特にセグメンテーションの問題の場合、入力シーケンスは数万のピクセルで構成されます。これは、入力スケールの大きさがはるかに大きいことを示すだけでなく、言語の単語と比較して表現が低いことを示します。 . 埋め込みのレベル。
パノラマ セグメンテーションはコンピュータ ビジョンの問題であり、現在多くのアプリケーションの中核的なタスクとなっています。
これは、セマンティック セグメンテーションとインスタンス セグメンテーションの 2 つの部分に分かれています。
セマンティック セグメンテーションは、「人」や「空」など、画像内の各ピクセルにセマンティック ラベルを割り当てることに似ています。
インスタンス セグメンテーションでは、「歩行者」や「車」など、グラフ内の数えられるオブジェクトのみを識別してセグメント化し、さらにそれらをいくつかのサブタスクに分割します。
各サブタスクは個別に処理され、追加のモジュールが適用されて各サブタスク段階の結果がマージされます。
このプロセスは複雑であるだけでなく、サブタスクを処理し、さまざまなサブタスクの結果を統合するときに、人為的に設計された多くの事前分布も導入します。
CVPR 2022 で公開された「CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation」では、クロス アテンションのクラスタリングの観点からクロス アテンションを再解釈し、再設計することを提案しています。 (つまり、同じセマンティック ラベルを持つピクセルを同じグループにグループ化する)、視覚的なタスクによりよく適応します。
CMT-DeepLab は、以前の最先端の手法である MaX-DeepLab を基にして構築されており、クロスアテンションを実行するためにピクセル クラスタリング手法を採用しており、その結果、より高密度で合理的なアテンション マップが得られます。
kMaX-DeepLab は、アクティベーション関数を簡単に変更するだけで、k-means クラスタリング アルゴリズムに近くなるようにクロスアテンションをさらに再設計します。
研究者は、変更を加えずに視覚タスクに直接相互注意を適用するのではなく、クラスタリングの観点からそれを再解釈します。
具体的には、Mask Transformer オブジェクトのクエリは (同じセマンティック ラベルを持つピクセルをグループ化することを目的とした) クラスター センターとして考えることができることに注目しています。
クロスアテンションのプロセスは、K 平均法クラスタリング アルゴリズム (1) ピクセルをクラスターの中心に割り当てる反復プロセスに似ています。このプロセスでは、複数のピクセルを 1 つのクラスターの中心に割り当てることができ、一部のクラスター中心にはピクセルが割り当てられていない可能性があり、(2) クラスターの中心は、同じクラスターの中心に割り当てられたピクセルを平均することによって更新されます。ピクセルが割り当てられていない場合、クラスターの中心は更新されません)。
#CMT-DeepLab と kMaX-DeepLab では、クラスタリングの観点からクロスアテンションを再定式化します。これには、反復的なクラスタ割り当てとクラスタリング更新ステップが含まれますK 平均法クラスタリング アルゴリズムの人気を考慮して、CMT-DeepLab では、空間アスペクト ソフトマックス操作 (つまり、画像ソフトマックス操作の空間解像度に沿って適用される) のクロスアテンションを再設計しました。これにより、実際に次のことが割り当てられます。クラスターの中心を反対側に配置すると、ピクセルがクラスターの中心に沿って適用されます。 kMaX-DeepLab では、空間方向のソフトマックスをクラスター方向の argmax にさらに単純化します (つまり、クラスターの中心に沿って argmax 演算を適用します)。 彼らは、argmax 演算が、k-means クラスタリング アルゴリズムで使用されるハード割り当て (つまり、1 つのピクセルが 1 つのクラスターのみに割り当てられる) と同じであることに注目しています。クラスタリングの観点から MaskTransformer のクロスアテンションを再構築すると、セグメンテーションのパフォーマンスが大幅に向上し、複雑な MaskTransformer パイプラインが簡素化されて解釈しやすくなります。
まず、エンコーダー/デコーダー構造を使用して、入力画像からピクセル特徴を抽出します。次に、ピクセルはクラスター中心のセットを使用してグループ化され、クラスターの割り当てに基づいてさらに更新されます。最後に、クラスターの割り当てと更新のステップが繰り返し実行され、最後の割り当てをセグメンテーション予測として直接使用できます。
典型的な MaskTransformer デコーダ (クロスアテンション、マルチヘッド セルフ アテンション、およびフィードフォワード ネットワークで構成される) をK 平均クロスアテンション上で提案されたものは、空間的なソフトマックスをクラスター的な最大パラメータに置き換えるだけです。
今回提案するkMaX-DeepLabのメタアーキテクチャは、ピクセルエンコーダ、拡張ピクセルデコーダ、kMaXデコーダの3つのコンポーネントで構成されます。
ピクセル エンコーダはあらゆるネットワークのバックボーンであり、画像の特徴を抽出するために使用されます。
強化されたピクセル デコーダには、ピクセルの特徴を強化するための Transformer エンコーダと、より高解像度の特徴を生成するためのアップサンプリング レイヤーが含まれています。
一連の kMax デコーダは、クラスター中心を (1) 予測マスクを生成するためにピクセル特徴と乗算されるマスク埋め込みベクトル、および (2) 各マスクのクラス予測に変換します。
kMaX-DeepLab のメタ アーキテクチャ
研究チームは最後に、最も困難な 2 つのパノラマ セグメンテーション データで成功を収めました。 COCO および Cityscapes のパノラマ品質 (PQ) メトリクスを使用して CMT-DeepLab と kMaX-DeepLab を評価し、MaX-DeepLab を他の最先端の手法と比較します。
その中で、CMT-DeepLab は大幅なパフォーマンス向上を達成しましたが、kMaX-DeepLab は修正を簡略化するだけでなく、さらに改善し、COCO val set の PQ は 58.0%、PQ は 68.4%、44.0 でした。 % マスク平均精度 (マスク AP)、Cityscapes 検証セットの平均交差オーバーユニオン (mIoU) 83.5% (テスト時の拡張や外部データセットの使用なし)。
クラスタリングの観点から設計された kMaX-DeepLab は、パフォーマンスが高いだけでなく、アテンション マップをより合理的に視覚化し、その動作メカニズムを理解することができます。
以下の例では、kMaX-DeepLab はクラスターの割り当てと更新を繰り返し実行し、マスクの品質を徐々に向上させます。
kMaX-DeepLab のアテンション マップはパノラマ セグメンテーションとして直接視覚化できるため、モデルの動作メカニズムがより合理的になります
この研究ビジョン タスクで MaskTransformers をより適切に設計する方法を示します。
簡単な変更を加えることで、CMT-DeepLab と kMaX-DeepLab はクロスアテンションを再構築し、よりクラスタリング アルゴリズムに似たものになります。
したがって、提案されたモデルは COCO および Cityscapes データセット上で最先端のパフォーマンスを実現します。
研究チームは、DeepLab2 ライブラリ内の kMaX-DeepLab のオープンソース バージョンが、ビジュアル トランスフォーマー専用のアーキテクチャの設計に関する将来の研究に貢献することを期待していると述べました。
以上がGoogle チームがパノラマ セグメンテーション ソリューションを最適化する新しい Transformer を発表の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。