CVPR 2024 | すべてのモデルのセグメンテーションは SAM の汎化能力が低いですか?ドメイン適応戦略を解決-AI-php.cn

ホームページ

テクノロジー周辺機器

CVPR 2024 | すべてのモデルのセグメンテーションは SAM の汎化能力が低いですか?ドメイン適応戦略を解決

王林

Apr 09, 2024 pm 04:55 PM

git プロジェクトメモリ使用量

「Segment Anything」大規模モデルの最初のドメイン適応戦略はここにあります。関連論文が CVPR 2024 に受理されました。

はじめに

成功言語モデル (LLM) の開発により、コンピュータービジョンの分野におけるセグメンテーションの基本モデルの探索に対する関心が高まっています。これらの基本的なセグメンテーションモデルは通常、Prompt Engineer によるゼロまたは少数の画像セグメンテーションに使用されます。その中でも、Segment Anything Model (SAM) は、画像セグメンテーションの最も高度な基本モデルです。

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

## 図

## しかし、最近の研究によると、 SAM は、医療画像、カモフラージュされたオブジェクト、干渉が加わった自然画像などでのパフォーマンスの低下など、さまざまな下流タスクにおいてあまり堅牢ではなく、一般化可能ではありません。これは、トレーニングデータセットと下流のテストデータセット間の大きな

ドメインシフト

が原因である可能性があります。したがって、非常に重要な問題は、現実世界と多様な下流タスクに直面する際に SAM をより堅牢にするドメイン適応スキームをどのように設計するかということです。

事前トレーニング済み SAM を下流タスクに適応させるには、主に 3 つの課題があります。

ソースデータセット
とターゲットデータセットが必要ですが、これはプライバシーと計算コストの観点から比較的現実的ではありません。
高価なメモリコスト
によっても制限されます。
下流タスクのプロンプト情報が欠如している場合には、教師なし適応が行われます。非常に挑戦的であること。

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了 ##—。弱い監視を使用して、さまざまな下流タスクに SAM を適応させます

#上記の課題に対処するために、

弱い監視を使用する方法を提案します。アンカーポイント正則化
と

低ランク微調整

の教師あり自己トレーニングアーキテクチャにより、適応性のある堅牢性と計算効率が向上します。 具体的には、ソースデータへの依存を回避するために、まずパッシブドメインで自己トレーニング戦略を採用します。自己トレーニングでは、モデルの更新を監視するために使用される擬似ラベルが生成されますが、間違った擬似ラベルの影響を受けやすいため、モデルの更新を標準化するために、

フリーズソースモデルをアンカーネットワークとして導入します

。

モデル全体の重みを更新するための高い計算コストをさらに削減するために、

低ランクの重み分解

をエンコーダに適用し、低ランクの重み分解を実行します。 -rank ショートカットパスバックプロパゲーション。

最後に、受動的ドメイン適応の効果をさらに向上させるために、ターゲットドメインに

weak supervise

を導入します。たとえば、スパースドットアノテーションなどです。より強力なドメイン適応情報を提供しますが、この弱い監視は SAM のキューエンコーダと自然に互換性があります。

プロンプトとして弱い監視を使用すると、よりローカルで明示的な自己訓練された疑似ラベルが得られます。調整されたモデルは、複数の下流タスクに対してより強力な汎化能力を示します。

この研究の貢献を次のように要約します:

1. 私たちは SAM の一般化問題に悩まされています。ダウンストリームタスクでにインスピレーションを得て、タスクに依存せず、ソースデータを必要としないソリューションが、自己トレーニングを通じて SAM を適応させるために提案されています。

2. 適応効果を高めるために、ボックス、ポイント、その他のラベルを含む弱い監視を使用します。これらの弱く監視されたラベルは、SAM のプロンプトエンコーダと完全に互換性があります。

3. 提案された弱教師適応手法の有効性を実証するために、5 種類の下流インスタンスセグメンテーションタスクについて広範な実験を実施しました。

論文アドレス: https://arxiv.org/pdf/2312.03502.pdf
プロジェクトアドレス: https://github.com/Zhang- Haojie/WeSAM
論文タイトル: 弱い教師あり適応による分布シフト下のセグメンテーション基盤モデルの一般化の改善

メソッド

メソッドの紹介は 4 つの部分に分かれています:

Segment Anything Model
自己トレーニングに基づく適応フレームワーク
弱い監督が効果的な自己トレーニングの達成にどのように役立つか
#低ランクの重みの更新

##1.Segment Anything Model

#SAM は主に、

イメージエンコーダー (ImageEncoder)、プロンプトエンコーダー (PromptEncoder)、およびデコーダー (MaskDecoder) の 3 つのコンポーネントで構成されます。

画像エンコーダーは MAE を使用して事前トレーニングされています。SAM 全体は、11 億のアノテーションを備えたトレーニングセット SA-1B でさらに微調整されています。焦点損失とダイスは、トレーニング中に使用され、損失の組み合わせ。推論時には、テスト画像 x が最初に画像エンコーダーによってエンコードされ、次にプロンプトが与えられると、軽量デコーダーが 3 レベルの予測を行います。

#2.ソースフリーのドメイン適応セルフトレーニング

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

図 2 アンカーネットワーク正則化と対比損失正則化を使用した提案された自己学習アーキテクチャ

ラベルが提供されていないターゲットデータセットの場合 DT={ xi} と事前トレーニングされたセグメンテーションモデル。私たちは、自己トレーニングのために

学生と教師のアーキテクチャを使用します。図 2 に示すように、アンカーモデル、学生モデル、教師モデルという 3 つのエンコーダネットワークを維持します。学生モデルと教師モデルは重みを共有します。

具体的には、各サンプル xi に対して、ランダムな弱いデータ拡張をアンカーモデルと教師モデルの入力として適用し、ランダムな強いデータ拡張を学生モデルとして適用します。入力を受け取ると、3 つのエンコーダネットワークがエンコードして 3 つの特徴マップを生成します。

デコーダネットワークでは、ボックス、ポイント、または粗いマスクなどのプロンプトの特定の数 Np が与えられると、一連のインスタンスセグメンテーションマスクが推論されます。

#上記の知識に基づいて、以下で自己トレーニングのための 3 つの最適化目標について詳しく説明します。

1) 生徒と教師のセルフトレーニング

まず、セルフトレーニングと同じ損失関数を使用します。 SAM をトレーニングするときは、生徒/教師モデルを更新するために最適化目標をトレーニングします。自己トレーニングは半教師あり学習で広く使用されており、最近では受動的なドメイン適応に非常に効果的であることが示されています。具体的には、教師モデルによって生成された予測結果を擬似ラベルとして使用し、Focal loss と Dice loss を使用して生徒の出力を監視します。

2) 堅牢な正則化のためのアンカー損失 CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

自己トレーニング損失のみを使用したネットワークトレーニングは影響を受けやすい教師ネットワークによって予測された偽の擬似ラベルの蓄積、いわゆる確証バイアス。また、自己トレーニングのみを使用して長時間反復するとパフォーマンスが低下することも観察によって示されています。既存の受動的なドメイン適応方法では、予測の均一な分布など、自己学習の悪影響を防ぐために追加の制約が採用されることがよくあります。

式 3 に示すように、アンカー損失を通じて正則化します。
アンカーモデルと学生/教師モデルの間の Dice 損失をそれぞれ最小化します

。凍結されたアンカーモデルは、

ソースドメインから継承された知識として、ソースモデルと自己学習更新モデルの間の過度の逸脱を抑制し、モデルの崩壊を防ぐことができます。

3) コントラスト損失の正規化エンコーダ特徴空間

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

^{図3 两个分支下对比损失}

以上两个训练目标デコーダの出力空間で実行されます。実験セクションでは、エンコーダネットワークを更新することが SAM を適応させる最も効率的な方法であることが明らかになったため、 エンコーダネットワークからの特徴出力に正則化 を直接適用する必要があります。図 3 に示すように、アンカーブランチと教師ブランチの予測マスクに基づいて、特徴マップから各インスタンスの特徴を切り取ります。 CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

対比損失で正と負のサンプルペアをさらに定義します。正のサンプルペアは、2 つのブランチの同じプロンプトに対応するインスタンスの特徴から構築されます。負のサンプルのペア。これは、さまざまなプロンプトに対応するインスタンスの特性によって構成されます。最終的なコントラストの損失を以下に示します。

は温度係数です。

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

4) 総損失

上記の 3 つの損失関数を最終的なソースフリー適応損失に結合します。

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

3. 自己学習型プロンプト生成

SAM セグメンテーションでは、セグメント化するターゲットオブジェクトを示すプロンプト入力が必要ですが、パーティクルが存在する可能性があります。 . 漠然とした質問です。迅速なプロジェクトは、完全に自動化された方法で、または人間の対話を通じて実装できます。

1) プロンプトを完全に自動生成します

まず、Anchor を介してプロンプト入力としてグリッドの密なサンプリングポイントを使用します。モデルは初期段階でセグメンテーション用のマスクを生成し、IoU と安定性スコアが低いマスクを削除してから、非最大抑制を実行してセグメンテーションの結果を取得します。次に、3 つのブランチすべてに対するプロンプト入力として、最終マスクからプロンプトの固定セットが生成されます。したがって、3 つのネットワークセグメンテーション出力のマスク長は同じであり、正確に 1 対 1 で対応します。

2) プロンプトとしての監視が弱い

プロンプトは画像のグリッドサンプリングを使用して取得できますが、自動セグメンテーションのために、低品質の重複マスクをフィルターで除外します。ただし、これらのセグメンテーションの品質は比較的低く、多くの誤検知予測が含まれる可能性があり、粒度が不明確です。結果として得られるプロンプトの品質にはばらつきがあり、自己トレーニングの効果が低下します。

したがって、以前の弱教師ありドメイン適応作業を利用して、境界ボックスボックス、疎点注釈ポイント、粗セグメンテーションポリゴン粗マスクを含む 3 つの弱教師教師あり手法を使用することを提案します。。 SAM では、これらの弱い監視方法はプロンプト入力と完全に一致し、弱い監視は SAM に適応するためにシームレスに統合できます。

4. 低ランクの重みの更新

ベーシックの巨大なエンコーダネットワークすべてのモデルの重みを更新することは非常に困難になります。ただし、多くの既存の研究では、エンコーダーネットワークの重みを更新することが、事前トレーニングされたモデルを調整する効果的な方法であることが示されています。

#エンコーダネットワークをより効率的かつコスト効率よく更新できるようにするために、計算に適した低ランクの更新方法を選択します。エンコーダネットワークの各重み θ に対して、低ランク近似 ω = AB を使用し、圧縮率 r を設定します。メモリ使用量を削減するために、A と B のみが逆伝播によって更新されます。推論段階では、低ランク近似と元の重みを組み合わせることによって重みが再構築されます (つまり、θ = θ AB)。

#実験

実験では、状態を詳細に説明します。 -最先端の方法比較および定性的な結果。最後に、各部分の有効性とネットワークの具体的な設計を分析します。

1. データセット

この作業では、さまざまな種類の下流セグメンテーションタスクを実行します。そのうちのいくつかは SA-1B から分布が大きく変化しています。データセットは、鮮明な自然画像、干渉を加えた自然画像、医療画像、偽装物体、ロボット画像の計10種類を網羅しています。

データの分割: 各ダウンストリームデータセットは、重複しないトレーニングセットとテストセットに分割されます。

各タイプの下流タスクが評価されたデータセットと、トレーニングデータセットとテストデータセットの分割を表 1 に示します。

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

#2. 実験の詳細

Segment-Anything モデル: メモリ制限のため、エンコーダーネットワークには当社ViT-Bを採用しています。標準のヒントエンコーダとマスクデコーダを使用します。

プロンプト生成: トレーニングフェーズと評価フェーズの両方のプロンプト入力は、インスタンスセグメンテーション GT マスクから計算され、弱い監視として人間の対話をシミュレートします。

#具体的には、GT マスク全体の最小境界ボックスからボックスを抽出します。ポイントは、GT マスク内の 5 つの正のサンプルポイントとマスクの外側の 5 つの負のサンプルポイントをランダムに選択することによって作成されます。粗いマスクは、ポリゴンを GT マスクに適合させることによってシミュレートされます。

3. 実験結果

表 2、3、4、5 は次のとおりです。それぞれ、干渉を加えた自然画像、鮮明な自然画像、医療画像、およびカモフラージュされたオブジェクトデータセットに関するテスト結果です。完全な実験結果は論文に記載されています。実験では、私たちのスキームが、ほぼすべての下流セグメンテーションデータセット上で、事前トレーニングされた SAM および最先端のドメイン適応スキームよりも優れたパフォーマンスを発揮することが実証されています。

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

#4. 視覚化の結果

視覚化の一部結果は次のとおりです。図 4 に示すように、論文にはさらに多くの視覚化結果が記載されています。

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

# 図 4いくつかの例の視覚化された結果

##5. アブレーション実験と追加の分析

表 7 に示すように、COCO データセットに対する 3 つの自己トレーニング最適化目標のそれぞれの有効性を分析しました。表 7 では、弱い監視情報を使用せずに、適応に対する提案手法の効果も分析します。

#表 8 に示すように、さまざまなカテゴリのプロンプトを使用して、トレーニングとテストのパフォーマンスの違いを分析しました。実験では、私たちのスキームがクロスプロンプト条件下でも依然として良好に動作することが示されています。

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

さらに、デコーダー、LayerNorm、さまざまな微調整スキームとその組み合わせを含むさまざまなモジュールを最適化した実験結果も分析しました。実験により、微調整エンコーダーのパフォーマンスが証明されました。 . LoRA スキームが最適に機能します。

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

概要 CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

基本的なビジョンモデルはセグメンテーションタスクでは適切に実行できますが、下流タスクのパフォーマンス低下に依然として悩まされています。我々は、複数の下流画像セグメンテーションタスクにおけるセグメント何でもモデルの汎化能力を研究し、アンカー正則化と低ランク微調整に基づく自己学習方法を提案します。この方法はソースデータセットへのアクセスを必要とせず、メモリコストが低く、当然弱い監視と互換性があり、適応効果を大幅に向上させることができます。広範な実験検証の結果、提案したドメイン適応手法がさまざまな分布シフトの下で SAM の汎化能力を大幅に向上できることがわかりました。

以上がCVPR 2024 | すべてのモデルのセグメンテーションは SAM の汎化能力が低いですか?ドメイン適応戦略を解決の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7542

CakePHP チュートリアル

1381

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

GITでリポジトリを削除する方法 Apr 17, 2025 pm 04:03 PM

gitリポジトリを削除するには、次の手順に従ってください。削除するリポジトリを確認します。リポジトリのローカル削除：RM -RFコマンドを使用して、フォルダーを削除します。倉庫をリモートで削除する：倉庫の設定に移動し、「倉庫の削除」オプションを見つけて、操作を確認します。

Gitサーバーのパブリックネットワークに接続する方法 Apr 17, 2025 pm 02:27 PM

GITサーバーをパブリックネットワークに接続するには、5つのステップが含まれます。1。パブリックIPアドレスのセットアップ。 2。ファイアウォールポート（22、9418、80/443）を開きます。 3。SSHアクセスを構成します（キーペアを生成し、ユーザーを作成します）。 4。http/httpsアクセスを構成します（サーバーをインストールし、許可を構成）; 5.接続をテストします（SSHクライアントまたはGITコマンドを使用）。

GitでSSHキーを生成する方法 Apr 17, 2025 pm 01:36 PM

リモートGitサーバーに安全に接続するには、パブリックキーとプライベートキーの両方を含むSSHキーを生成する必要があります。 SSHキーを生成する手順は次のとおりです。端子を開き、ssh -keygen -t rsa -b 4096を入力します。キー保存場所を選択します。秘密鍵を保護するには、パスワード句を入力します。公開キーをリモートサーバーにコピーします。アカウントにアクセスするための資格情報であるため、秘密鍵を適切に保存します。

Gitアカウントにパブリックキーを追加する方法 Apr 17, 2025 pm 02:42 PM

Gitアカウントに公開キーを追加する方法は？ステップ：SSHキーペアを生成します。公開キーをコピーします。 gitlabまたはgithubに公開キーを追加します。 SSH接続をテストします。

GITコードの競合に対処する方法 Apr 17, 2025 pm 02:51 PM

コード競合とは、複数の開発者が同じコードを変更し、GITが変更を自動的に選択せずにマージすると発生する競合を指します。解決手順には、競合するファイルを開き、競合するコードを見つけます。コードを手動でマージし、競合マーカーに保持する変更をコピーします。競合マークを削除します。変更を保存して送信します。

GitでSSHを検出する方法 Apr 17, 2025 pm 02:33 PM

GITを介してSSHを検出するには、次の手順を実行する必要があります。SSHキーペアを生成します。 Gitサーバーに公開キーを追加します。 sshを使用するようにgitを構成します。 SSH接続をテストします。実際の条件に応じて可能な問題を解決します。

gitコミットを分離する方法 Apr 17, 2025 pm 02:36 PM

GITを使用してコードを個別に送信して、詳細な変更追跡と独立した作業能力を提供します。手順は次のとおりです。1。変更されたファイルを追加します。 2。特定の変更を送信します。 3.上記の手順を繰り返します。 4.リモートリポジトリへの提出をプッシュします。

gitマージの競合を解決する方法 Apr 17, 2025 pm 12:24 PM

同じコード行に異なるコミット変更がある場合、マージ競合が発生します。競合の解決には、競合ファイルの開き、競合ポイントのチェック、変更の選択とマージ、競合マーカーの削除、変更の送信とプッシュの変更が必要です。 Git Mergetoolツールを使用して、特定の競合を解決し、困難がある場合は助けを求め、頻繁に競合の数を減らすために支店をマージします。

See all articles

CVPR 2024 | すべてのモデルのセグメンテーションは SAM の汎化能力が低いですか?ドメイン適応戦略を解決

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック