"Segment Anything" 대형 모델을 위한 첫 번째 도메인 적응 전략이 등장했습니다! CVPR 2024에 관련 논문이 게재되었습니다. LLM(대형 언어 모델)의 성공은 컴퓨터 비전 분야에서 분할을 위한 기본 모델을 탐색하는 데 영감을 주었습니다. 이러한 기본 분할 모델은 일반적으로 Prompt Engineer를 통한 0/몇 개의 이미지 분할에 사용됩니다. 그 중 SAM(Segment Anything Model)은 이미지 분할을 위한 가장 발전된 기본 모델입니다.个 Tu SAM은 여러 다운스트림 작업에서 성능이 좋지 않았습니다. 그러나 최근 연구에 따르면 SAM은 의료 이미지, 위장된 개체 및 간섭이 추가된 자연 이미지와 같은 분야에서 성능이 좋지 않은 등 많은 다운스트림 작업에서 그다지 강력하지 않은 것으로 나타났습니다. 이는 훈련 데이터 세트와 다운스트림 테스트 데이터 세트 사이의 큰 도메인 이동 때문일 수 있습니다. 따라서 매우 중요한 질문은 현실 세계와 다양한 다운스트림 작업에 직면할 때 SAM을 더욱 강력하게 만들기 위해 도메인 적응 체계를 어떻게 설계할 것인가입니다.
사전 훈련된 SAM을 다운스트림 작업에 적용하는 것은 주로 세 가지 과제에 직면합니다.
첫째, 전통적인 비지도 도메인 적응 패러다임에는 개인 정보 보호 및 계산 비용이 적기 때문에 소스 데이터 세트
와 대상 데이터 세트가 필요합니다. 실현 가능 한. 두 번째로, 도메인 적응의 경우 모든 가중치를 업데이트하는 것이 일반적으로 더 나은 성능을 발휘하지만
마지막으로 SAM은 다양한 유형과 세분화된 프롬프트에 대해 다양한 세분화 기능을 보여줄 수 있으므로
다운스트림 작업에 대한 프롬프트 정보가 부족한 경우
감독되지 않은 적응은 매우 어려울 것입니다.大 그림 1 SAM은 대규모 데이터 세트에 대한 사전 학습을 수행하지만 일반화 문제가 있습니다. 우리는 약한 감독을 사용하여 다양한 다운스트림 작업에 SAM을 적용하여 적응형 견고성과 계산 효율성
특히 소스 데이터에 대한 의존성을 피하기 위해 먼저 패시브 도메인에서 자체 학습 전략을 채택합니다. 자체 훈련은 모델 업데이트를 감독하기 위해 의사 라벨을 생성하지만 잘못된 의사 라벨에 취약합니다. 모델 업데이트를 표준화하기 위해 동결된 소스 모델을 앵커 네트워크
전체 모델 가중치를 업데이트하는 데 드는 높은 계산 비용을 더욱 줄이기 위해 인코더에 - 낮은 순위 가중치 분해를 적용하고 낮은 순위 바로가기 경로를 통해 역전파를 수행합니다.
- 마지막으로 패시브 도메인 적응 효과를 더욱 향상시키기 위해 대상 도메인에 희소 포인트 주석과 같은 weak supervise를 도입하여 동시에 보다 강력한 도메인 적응 정보를 제공합니다. 일종의 약한 감독은 자연스럽게 SAM의 큐 인코더와 호환됩니다.
- Prompt의 약한 감독을 통해 더 많은 지역적이고 명시적인 자체 학습 의사 라벨을 얻습니다. 조정된 모델은 여러 다운스트림 작업에서 더 강력한 일반화 능력을 보여줍니다.
우리는 이 작업의 기여를 다음과 같이 요약합니다:
1. 다운스트림 작업에서 SAM의 일반화 문제에서 영감을 받아 작업에 구애받지 않고 소스 데이터가 필요하지 않은 솔루션을 제안합니다. SAM에 적응하도록 자동으로 훈련합니다. 2. 박스, 포인트, 기타 라벨을 포함한 약한 감독을 사용하여 적응 효과를 향상시킵니다. 이러한 약한 감독 레이블은 SAM의 프롬프트 인코더와 완벽하게 호환됩니다. 3. 제안된 약한 감독 적응 방법의 효율성을 입증하기 위해 5가지 유형의 다운스트림 인스턴스 분할 작업에 대한 광범위한 실험을 수행합니다.
- 논문 주소: https://arxiv.org/pdf/2312.03502.pdf
- 프로젝트 주소: https://github.com/Zhang-Haojie/WeSAM
- 논문 제목: Improving the Generalization of Weakly Supervised Adaptation
-
- 기준 self-training 적응형 프레임워크
- 약한 감독이 효과적인 self-training을 달성하는 데 도움이 되는 방법
-
SAM은 주로 구성되어 있습니다 세 가지 구성 요소 구성: 이미지 인코더(ImageEncoder), 프롬프트 인코더(PromptEncoder) 및 디코더(MaskDecoder) . 이미지 인코더는 MAE를 사용하여 사전 훈련되었으며, 전체 SAM은 훈련 중에 초점 손실과 주사위 손실의 조합이 11억 개의 주석으로 훈련 세트 SA-1B에서 더욱 미세 조정되었습니다. 추론 시 테스트 이미지 x는 먼저 이미지 인코더에 의해 인코딩된 다음 프롬프트가 제공되면 경량 디코더가 세 가지 수준의 예측을 수행합니다. C 2. 자가 훈련에 적응하는 소스 프리 도메인 그림 2에서 제안된 앵커 네트워크의 정규화 및 비교 손실을 갖춘 자가 훈련 아키텍처 레이블이 없는 대상 데이터 세트 DT={xi} 및 사전- 훈련된 분할 모델. 우리는 자가 훈련을 위한 학생-교사 아키텍처를 채택했습니다. 그림 2에서 볼 수 있듯이 우리는 학생 모델과 교사 모델이 가중치를 공유하는 앵커 모델, 학생 모델, 교사 모델이라는 세 가지 인코더 네트워크를 유지합니다.
구체적으로, 각 샘플 xi에 대해 앵커 및 교사 모델의 입력으로 무작위 약한 데이터 증대가 적용되고 학생 모델의 입력으로 무작위 강한 데이터 증대가 적용되며 3개의 인코더 네트워크 인코딩은 다음과 같습니다. 세 개의 특징 맵이 생성되었습니다. 디코더 네트워크에서 상자, 점 또는 거친 마스크와 같은 특정 수의 프롬프트 Np가 주어지면 인스턴스 분할 마스크 세트가 추론됩니다. 위의 지식을 바탕으로 아래에서는 셀프 트레이닝을 위한 세 가지 최적화 목표에 대해 자세히 설명합니다.
먼저 SAM을 자가 훈련 최적화 대상으로 훈련할 때 사용한 것과 동일한 손실 함수를 사용하여 학생/교사 모델을 업데이트합니다. 자가 훈련은 준지도 학습에 널리 사용되며 최근 수동 도메인 적응에 매우 효과적인 것으로 나타났습니다. 구체적으로, 우리는 교사 모델에 의해 생성된 예측 결과를 의사 레이블로 사용하고 초점 손실과 주사위 손실을 사용하여 학생 출력을 감독합니다.
self-training loss만 사용하는 네트워크 학습은 Teacher 네트워크에서 예측한 잘못된 의사 라벨이 축적되는 소위 확증 편향에 취약합니다. 또한 관찰 결과에 따르면 자체 훈련만 사용하여 장기간 반복하면 성능이 저하되는 것으로 나타났습니다. 기존의 수동 도메인 적응 방법은 예측의 균일한 분포와 같은 자가 훈련의 부정적인 영향을 방지하기 위해 추가 제약 조건을 사용하는 경우가 많습니다.
수식 3과 같이 앵커 손실을 통해 정규화를 수행하여 각각 앵커 모델과 학생/교사 모델 간의 다이스 손실을 최소화
합니다. 고정 앵커 모델은 소스 도메인에서 상속된 지식이므로 소스 모델과 자체 학습 업데이트 모델 간의 과도한 편차를 조장하지 않으며 모델 붕괴를 방지할 수 있습니다. 3) 대비 손실 정규화 인코더 기능 공간
下 그림 3의 두 가지 가지의 손실 비교
위의 두 가지 훈련 목표는 디코더의 출력 공간에서 수행됩니다. 실험 부분에서는 인코더 네트워크를 업데이트하는 것이 SAM을 적용하는 가장 효율적인 방법이므로 인코더 네트워크에서 출력되는 특성에 정규화를 직접 적용해야 함을 보여줍니다. 그림 3에서 볼 수 있듯이 앵커 및 교사 분기의 예측 마스크를 기반으로 특징 맵에서 각 인스턴스의 특징을 자릅니다. 대비 손실에서 양성 및 음성 샘플 쌍을 추가로 정의합니다. 양성 샘플 쌍은 두 분기의 동일한 프롬프트에 해당하는 인스턴스 기능으로 구성되고 음성 샘플 쌍은 인스턴스 기능으로 구성됩니다. 다양한 프롬프트에 해당합니다. 최종 대비 손실은 아래와 같습니다. 여기서 는 온도 계수입니다.
4) 총 손실
위의 세 가지 손실 함수를 최종 Source-Free 적응 손실로 결합합니다. SAM 분할에는 분할할 대상 개체를 나타내는 프롬프트 입력이 필요하지만 세분화된 모호성에 문제가 있을 수 있습니다. 신속한 프로젝트는 완전히 자동화된 방식으로 또는 인간의 상호 작용을 통해 구현될 수 있습니다. 먼저 그리드 밀집 샘플링 포인트를 프롬프트 입력으로 사용하고, 앵커 모델을 통해 초기 단계 분할을 위한 마스크를 생성하고, IoU가 낮고 안정성 점수가 낮은 마스크를 제거합니다. 그런 다음 계속 진행합니다. 비최대 억제를 사용하여 분할 결과를 얻습니다. 다음으로 세 가지 분기 모두에 대한 프롬프트 입력으로 최종 마스크에서 고정된 프롬프트 세트가 생성됩니다. 따라서 세 개의 네트워크 분할 출력의 마스크 길이는 동일하며 정확한 일대일 대응을 갖습니다. 이미지에서 그리드 샘플링을 사용하고 자동 분할을 위해 품질이 낮고 중복된 마스크를 필터링하여 프롬프트를 얻을 수 있지만. 그러나 이러한 세분화는 상대적으로 품질이 낮고 잘못된 긍정 예측이 많이 포함될 수 있으며 세분성이 불분명합니다. 그 결과 즉각적인 품질이 고르지 않아 자가 훈련의 효과가 떨어집니다. 따라서 이전의 약한 감독 도메인 적응 작업을 바탕으로 경계 상자 상자, 희소 점 주석 점 및 거친 분할 다각형 거친 마스크를 포함한 세 가지 약한 감독 방법을 사용할 것을 제안합니다. SAM에서 이러한 약한 감독 방법은 프롬프트 입력과 완벽하게 일치하며 약한 감독은 SAM에 적응하기 위해 원활하게 통합될 수 있습니다. 기본 모델의 거대한 인코더 네트워크로 인해 모든 모델의 가중치를 업데이트하기가 매우 어렵습니다. 그러나 기존의 많은 연구에서는 인코더 네트워크 가중치를 업데이트하는 것이 사전 훈련된 모델을 조정하는 효과적인 방법이라는 것을 보여줍니다. 인코더 네트워크를 보다 효율적이고 비용 효율적으로 업데이트할 수 있도록 계산 친화적인 하위 업데이트 방법을 선택했습니다. 인코더 네트워크의 각 가중치 θ에 대해 낮은 순위 근사 Ω = AB를 사용하고 압축 비율 r을 설정합니다. 메모리 사용량을 줄이기 위해 A와 B만 역전파를 통해 업데이트됩니다. 추론 단계에서 가중치는 낮은 순위 근사치를 원래 가중치와 결합하여 재구성됩니다(예: θ = θ + AB). 실험에서는 최첨단 방법과 정성적 결과를 자세하게 비교해드립니다. 마지막으로 각 부분의 효율성과 네트워크의 구체적인 설계를 분석합니다. 이 작업에서는 5가지 유형의 다운스트림 세분화 작업을 평가하며, 그 중 일부는 SA-1B에서 상당한 분포 변화가 있습니다. 데이터 세트는 선명한 자연 이미지, 간섭이 추가된 자연 이미지, 의료 이미지, 위장 개체 및 로봇 이미지 등 총 10가지 유형을 포함합니다. 데이터 분할: 각 다운스트림 데이터 세트는 겹치지 않는 훈련 세트와 테스트 세트로 나뉩니다. 표 1에는 각 유형의 다운스트림 작업이 평가된 데이터 세트와 훈련 및 테스트 데이터 세트의 구분이 나열되어 있습니다.
Segment-Anything 모델: 메모리 제한으로 인해 ViT-B를 인코더 네트워크로 채택합니다. 표준 힌트 인코더와 마스크 디코더를 사용합니다. 프롬프트 생성: 학습 및 평가 단계 모두에 대한 프롬프트 입력은 인스턴스 분할 GT 마스크에서 계산되어 인간 상호 작용을 약한 감독으로 시뮬레이션합니다. 구체적으로는 전체 GT 마스크의 최소 경계 상자에서 상자를 추출합니다. GT 마스크 내의 양수 샘플 점 5개와 마스크 외부의 음수 샘플 점 5개를 무작위로 선택하여 점을 생성합니다. 거친 마스크는 다각형을 GT 마스크에 맞춰 시뮬레이션합니다. 표 2, 3, 4, 5는 각각 간섭이 추가된 자연 이미지, 선명한 자연 이미지, 의료 이미지 및 위장 개체 데이터 세트에 대한 테스트 결과입니다. 전체 실험 결과는 논문에서 확인할 수 있습니다. 실험은 우리의 체계가 거의 모든 다운스트림 세분화 데이터 세트에서 사전 훈련된 SAM 및 최첨단 도메인 적응 체계보다 성능이 우수하다는 것을 보여줍니다.
시각화 결과의 일부는 그림 4에 나와 있으며, 더 많은 시각화 결과는 논문에서 확인할 수 있습니다. 그림 4 일부 예시의 시각화 결과 5. 절제 실험 및 추가 분석
COCO 데이터세트에서 세 가지 자가 훈련 최적화 목표 각각의 효과가 표 7과 같이 분석됩니다. . 표 7에서는 약한 감독 정보를 사용하지 않고 제안된 방법이 적응에 미치는 영향을 분석합니다.
표 8과 같이 다양한 프롬프트 카테고리를 사용하여 훈련과 테스트 간의 성능 차이를 분석했습니다. 실험에 따르면 우리의 계획은 교차 프롬프트 조건에서도 여전히 잘 작동하는 것으로 나타났습니다. 또한 디코더, LayerNorm 및 다양한 미세 조정 방식과 그 조합을 포함한 다양한 모듈을 최적화한 실험 결과를 분석하여 미세 조정 인코더의 LoRA 방식이 가장 좋은 효과가 있음을 입증했습니다.
요약비전 기본 모델은 분할 작업에서는 좋은 성능을 발휘하지만 다운스트림 작업에서는 여전히 성능이 좋지 않습니다. 우리는 다중 다운스트림 이미지 분할 작업에서 Segment-Anything 모델의 일반화 능력을 연구하고 앵커 정규화 및 하위 순위 미세 조정을 기반으로 하는 자체 학습 방법을 제안합니다. 이 방법은 원본 데이터 세트에 대한 액세스가 필요하지 않고 메모리 비용이 낮으며 약한 감독과 자연스럽게 호환되며 적응 효과를 크게 향상시킬 수 있습니다. 광범위한 실험 검증 후, 결과는 우리가 제안한 도메인 적응 방법이 다양한 분포 변화에서 SAM의 일반화 능력을 크게 향상시킬 수 있음을 보여줍니다.
위 내용은 CVPR 2024 | 모든 모델의 세분화가 SAM의 일반화 능력이 좋지 않습니까? 도메인 적응 전략 해결의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!