「Segment Anything」大規模モデルの最初のドメイン適応戦略はここにあります。関連論文が CVPR 2024 に受理されました。
成功言語モデル (LLM) の開発により、コンピューター ビジョンの分野におけるセグメンテーションの基本モデルの探索に対する関心が高まっています。これらの基本的なセグメンテーション モデルは通常、Prompt Engineer によるゼロまたは少数の画像セグメンテーションに使用されます。その中でも、Segment Anything Model (SAM) は、画像セグメンテーションの最も高度な基本モデルです。
## しかし、最近の研究によると、 SAM は、医療画像、カモフラージュされたオブジェクト、干渉が加わった自然画像などでのパフォーマンスの低下など、さまざまな下流タスクにおいてあまり堅牢ではなく、一般化可能ではありません。これは、トレーニング データ セットと下流のテスト データ セット間の大きな ドメイン シフト
が原因である可能性があります。したがって、非常に重要な問題は、現実世界と多様な下流タスクに直面する際に SAM をより堅牢にするドメイン適応スキームをどのように設計するかということです。
事前トレーニング済み SAM を下流タスクに適応させるには、主に 3 つの課題があります。 まず第一に、従来の教師なしドメイン適応パラダイムには - ソース データセット とターゲット データセットが必要ですが、これはプライバシーと計算コストの観点から比較的現実的ではありません。
第 2 に、ドメイン適応の場合、すべての重みを更新すると通常はパフォーマンスが向上しますが、- 高価なメモリ コスト
最後に、SAM は、さまざまなタイプや粒度のプロンプトに対して多様なセグメンテーション機能を示すことができるため、 - 下流タスクのプロンプト情報が欠如している場合には、教師なし適応が行われます。非常に挑戦的であること。
##—。弱い監視を使用して、さまざまな下流タスクに SAM を適応させます
弱い監視を使用する方法を提案します。アンカーポイント正則化
と低ランク微調整
の教師あり自己トレーニングアーキテクチャにより、適応性のある堅牢性と計算効率が向上します。 具体的には、ソース データへの依存を回避するために、まずパッシブ ドメインで自己トレーニング戦略を採用します。自己トレーニングでは、モデルの更新を監視するために使用される擬似ラベルが生成されますが、間違った擬似ラベルの影響を受けやすいため、モデルの更新を標準化するために、フリーズ ソース モデルをアンカー ネットワークとして導入します
モデル全体の重みを更新するための高い計算コストをさらに削減するために、低ランクの重み分解
をエンコーダに適用し、低ランクの重み分解を実行します。 -rank ショートカット パス バックプロパゲーション。
最後に、受動的ドメイン適応の効果をさらに向上させるために、ターゲット ドメインに weak supervise
を導入します。たとえば、スパース ドット アノテーションなどです。より強力なドメイン適応情報を提供しますが、この弱い監視は SAM のキュー エンコーダと自然に互換性があります。
プロンプトとして弱い監視を使用すると、よりローカルで明示的な自己訓練された疑似ラベルが得られます。調整されたモデルは、複数の下流タスクに対してより強力な汎化能力を示します。 1. 私たちは SAM の一般化問題に悩まされています。ダウンストリームタスクで にインスピレーションを得て、タスクに依存せず、ソースデータを必要としないソリューションが、自己トレーニングを通じて SAM を適応させるために提案されています。 2. 適応効果を高めるために、ボックス、ポイント、その他のラベルを含む弱い監視を使用します。これらの弱く監視されたラベルは、SAM のプロンプト エンコーダと完全に互換性があります。
3. 提案された弱教師適応手法の有効性を実証するために、5 種類の下流インスタンス セグメンテーション タスクについて広範な実験を実施しました。
- 論文アドレス: https://arxiv.org/pdf/2312.03502.pdf
- プロジェクト アドレス: https://github.com/Zhang- Haojie/WeSAM
- 論文タイトル: 弱い教師あり適応による分布シフト下のセグメンテーション基盤モデルの一般化の改善
-
弱い監督が効果的な自己トレーニングの達成にどのように役立つか
-
##1.Segment Anything Model #SAM は主に、
イメージ エンコーダー (ImageEncoder)、プロンプト エンコーダー (PromptEncoder)、およびデコーダー (MaskDecoder) の 3 つのコンポーネントで構成されます。 画像エンコーダーは MAE を使用して事前トレーニングされています。SAM 全体は、11 億のアノテーションを備えたトレーニング セット SA-1B でさらに微調整されています。焦点損失とダイスは、トレーニング中に使用され、損失の組み合わせ。推論時には、テスト画像 x が最初に画像エンコーダーによってエンコードされ、次にプロンプトが与えられると、軽量デコーダーが 3 レベルの予測を行います。
#2.ソースフリーのドメイン適応セルフトレーニング
図 2 アンカー ネットワーク正則化と対比損失正則化を使用した提案された自己学習アーキテクチャ
ラベルが提供されていないターゲット データセットの場合 DT={ xi} と事前トレーニングされたセグメンテーション モデル。私たちは、自己トレーニングのために 学生と教師のアーキテクチャを使用します。図 2 に示すように、アンカー モデル、学生モデル、教師モデルという 3 つのエンコーダ ネットワークを維持します。学生モデルと教師モデルは重みを共有します。
具体的には、各サンプル xi に対して、ランダムな弱いデータ拡張をアンカー モデルと教師モデルの入力として適用し、ランダムな強いデータ拡張を学生モデルとして適用します。入力を受け取ると、3 つのエンコーダ ネットワークがエンコードして 3 つの特徴マップを生成します。
デコーダ ネットワークでは、ボックス、ポイント、または粗いマスクなどのプロンプトの特定の数 Np が与えられると、一連のインスタンス セグメンテーション マスクが推論されます。
#上記の知識に基づいて、以下で自己トレーニングのための 3 つの最適化目標について詳しく説明します。
まず、セルフトレーニングと同じ損失関数を使用します。 SAM をトレーニングするときは、生徒/教師モデルを更新するために最適化目標をトレーニングします。自己トレーニングは半教師あり学習で広く使用されており、最近では受動的なドメイン適応に非常に効果的であることが示されています。具体的には、教師モデルによって生成された予測結果を擬似ラベルとして使用し、Focal loss と Dice loss を使用して生徒の出力を監視します。
2) 堅牢な正則化のためのアンカー損失
自己トレーニング損失のみを使用したネットワーク トレーニングは影響を受けやすい教師ネットワークによって予測された偽の擬似ラベルの蓄積、いわゆる確証バイアス。また、自己トレーニングのみを使用して長時間反復するとパフォーマンスが低下することも観察によって示されています。既存の受動的なドメイン適応方法では、予測の均一な分布など、自己学習の悪影響を防ぐために追加の制約が採用されることがよくあります。
式 3 に示すように、アンカー損失を通じて正則化します。
アンカー モデルと学生/教師モデルの間の Dice 損失をそれぞれ最小化します。凍結されたアンカー モデルは、
ソース ドメインから継承された知識として、ソース モデルと自己学習更新モデルの間の過度の逸脱を抑制し、モデルの崩壊を防ぐことができます。 3) コントラスト損失の正規化エンコーダ特徴空間
以上两个训练目标デコーダの出力空間で実行されます。実験セクションでは、エンコーダ ネットワークを更新することが SAM を適応させる最も効率的な方法であることが明らかになったため、 エンコーダ ネットワークからの特徴出力に正則化 を直接適用する必要があります。図 3 に示すように、アンカー ブランチと教師ブランチの予測マスクに基づいて、特徴マップから各インスタンスの特徴を切り取ります。 対比損失で正と負のサンプル ペアをさらに定義します。正のサンプル ペアは、2 つのブランチの同じプロンプトに対応するインスタンスの特徴から構築されます。負のサンプルのペア。これは、さまざまなプロンプトに対応するインスタンスの特性によって構成されます。最終的なコントラストの損失を以下に示します。 は温度係数です。 4) 総損失上記の 3 つの損失関数を最終的なソースフリー適応損失に結合します。 SAM セグメンテーションでは、セグメント化するターゲット オブジェクトを示すプロンプト入力が必要ですが、パーティクルが存在する可能性があります。 . 漠然とした質問です。迅速なプロジェクトは、完全に自動化された方法で、または人間の対話を通じて実装できます。 まず、Anchor を介してプロンプト入力としてグリッドの密なサンプリング ポイントを使用します。モデルは初期段階でセグメンテーション用のマスクを生成し、IoU と安定性スコアが低いマスクを削除してから、非最大抑制を実行してセグメンテーションの結果を取得します。次に、3 つのブランチすべてに対するプロンプト入力として、最終マスクからプロンプトの固定セットが生成されます。したがって、3 つのネットワーク セグメンテーション出力のマスク長は同じであり、正確に 1 対 1 で対応します。 プロンプトは画像のグリッド サンプリングを使用して取得できますが、自動セグメンテーションのために、低品質の重複マスクをフィルターで除外します。ただし、これらのセグメンテーションの品質は比較的低く、多くの誤検知予測が含まれる可能性があり、粒度が不明確です。結果として得られるプロンプトの品質にはばらつきがあり、自己トレーニングの効果が低下します。 したがって、以前の弱教師ありドメイン適応作業を利用して、境界ボックスボックス、疎点注釈ポイント、粗セグメンテーションポリゴン粗マスクを含む 3 つの弱教師教師あり手法を使用することを提案します。 。 SAM では、これらの弱い監視方法はプロンプト入力と完全に一致し、弱い監視は SAM に適応するためにシームレスに統合できます。 ベーシックの巨大なエンコーダ ネットワークすべてのモデルの重みを更新することは非常に困難になります。ただし、多くの既存の研究では、エンコーダー ネットワークの重みを更新することが、事前トレーニングされたモデルを調整する効果的な方法であることが示されています。 #エンコーダ ネットワークをより効率的かつコスト効率よく更新できるようにするために、計算に適した低ランクの更新方法を選択します。エンコーダ ネットワークの各重み θ に対して、低ランク近似 ω = AB を使用し、圧縮率 r を設定します。メモリ使用量を削減するために、A と B のみが逆伝播によって更新されます。推論段階では、低ランク近似と元の重みを組み合わせることによって重みが再構築されます (つまり、θ = θ AB)。 実験では、状態を詳細に説明します。 -最先端の方法 比較および定性的な結果。最後に、各部分の有効性とネットワークの具体的な設計を分析します。 この作業では、さまざまな種類の下流セグメンテーション タスクを実行します。そのうちのいくつかは SA-1B から分布が大きく変化しています。データセットは、鮮明な自然画像、干渉を加えた自然画像、医療画像、偽装物体、ロボット画像の計10種類を網羅しています。 データの分割: 各ダウンストリーム データ セットは、重複しないトレーニング セットとテスト セットに分割されます。 各タイプの下流タスクが評価されたデータセットと、トレーニング データセットとテスト データセットの分割を表 1 に示します。
#2. 実験の詳細
Segment-Anything モデル: メモリ制限のため、エンコーダーネットワークには当社ViT-Bを採用しています。標準のヒント エンコーダとマスク デコーダを使用します。
プロンプト生成: トレーニング フェーズと評価フェーズの両方のプロンプト入力は、インスタンス セグメンテーション GT マスクから計算され、弱い監視として人間の対話をシミュレートします。
#具体的には、GT マスク全体の最小境界ボックスからボックスを抽出します。ポイントは、GT マスク内の 5 つの正のサンプル ポイントとマスクの外側の 5 つの負のサンプル ポイントをランダムに選択することによって作成されます。粗いマスクは、ポリゴンを GT マスクに適合させることによってシミュレートされます。 3. 実験結果
表 2、3、4、5 は次のとおりです。それぞれ、干渉を加えた自然画像、鮮明な自然画像、医療画像、およびカモフラージュされたオブジェクト データ セットに関するテスト結果です。完全な実験結果は論文に記載されています。実験では、私たちのスキームが、ほぼすべての下流セグメンテーション データセット上で、事前トレーニングされた SAM および最先端のドメイン適応スキームよりも優れたパフォーマンスを発揮することが実証されています。
視覚化の一部結果は次のとおりです。図 4 に示すように、論文にはさらに多くの視覚化結果が記載されています。
表 7 に示すように、COCO データセットに対する 3 つの自己トレーニング最適化目標のそれぞれの有効性を分析しました。表 7 では、弱い監視情報を使用せずに、適応に対する提案手法の効果も分析します。
#表 8 に示すように、さまざまなカテゴリのプロンプトを使用して、トレーニングとテストのパフォーマンスの違いを分析しました。実験では、私たちのスキームがクロスプロンプト条件下でも依然として良好に動作することが示されています。
さらに、デコーダー、LayerNorm、さまざまな微調整スキームとその組み合わせを含むさまざまなモジュールを最適化した実験結果も分析しました。実験により、微調整エンコーダーのパフォーマンスが証明されました。 . LoRA スキームが最適に機能します。
概要
基本的なビジョン モデルはセグメンテーション タスクでは適切に実行できますが、下流タスクのパフォーマンス低下に依然として悩まされています。我々は、複数の下流画像セグメンテーションタスクにおけるセグメント何でもモデルの汎化能力を研究し、アンカー正則化と低ランク微調整に基づく自己学習方法を提案します。この方法はソース データ セットへのアクセスを必要とせず、メモリ コストが低く、当然弱い監視と互換性があり、適応効果を大幅に向上させることができます。広範な実験検証の結果、提案したドメイン適応手法がさまざまな分布シフトの下で SAM の汎化能力を大幅に向上できることがわかりました。 以上がCVPR 2024 | すべてのモデルのセグメンテーションは SAM の汎化能力が低いですか?ドメイン適応戦略を解決の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。