객체 추적은 컴퓨터 비전의 기본 작업 중 하나입니다. 최근 몇 년 동안 단일 양식(RGB) 객체 추적이 크게 발전했습니다. 그러나 단일 이미징 센서의 한계로 인해 복잡한 환경에서 전천후 표적 추적을 달성하려면 이러한 단점을 보완하기 위해 다중 모드 이미지(RGB, 적외선 등)를 도입해야 합니다. 이러한 다중 모드 이미지를 적용하면 보다 포괄적인 정보를 제공하고 표적 탐지 및 추적의 정확성과 견고성을 향상시킬 수 있습니다. 다중 모드 표적 추적의 개발은 더 높은 수준의 컴퓨터 비전 응용 프로그램을 실현하는 데 매우 중요합니다.
그러나 기존 다중 모드 추적 작업도 두 가지 주요 문제에 직면해 있습니다.
RGB 시퀀스를 사전 훈련한 다음 다중 모드 장면으로 완전히 미세 조정하는 많은 다중 모드 추적 작업에는 시간 및 효율성 문제가 있을 뿐만 아니라 성능이 제한됩니다.
완전한 미세 조정 방법 외에도 자연어 처리(NLP) 분야의 매개변수에 대한 효율적인 미세 조정 방법에서 영감을 얻었습니다. 최근의 일부 방법에서는 다중 모드 추적에 매개변수 효율적인 프롬프트 미세 조정을 도입했습니다. 이러한 방법은 백본 네트워크 매개변수를 고정하고 학습 가능한 매개변수 세트를 추가하여 이를 수행합니다.
일반적으로 이러한 방법은 하나의 양식(일반적으로 RGB)을 기본 양식으로, 다른 양식을 보조 양식으로 집중합니다. 그러나 이 방법은 다중 모드 데이터 간의 동적 상관 관계를 무시하므로 복잡한 장면에서 다중 모드 정보의 보완 효과를 완전히 활용할 수 없으므로 추적 성능이 제한됩니다.
사진 1: 복잡한 시나리오에서 다양한 지배 모드.
위 문제를 해결하기 위해 텐진대학교 연구진은 BAT(Bidirection Adapter for Multi-Modal Tracking)라는 솔루션을 제안했습니다. BAT 방식은 기존 방식과 달리 고정된 우세 모드와 보조 모드에 의존하지 않고, 효과적인 정보를 동적으로 추출하는 과정을 통해 보조 모드에서 우세 모드로 변경 시 더 나은 성능을 얻습니다. 이 방법의 혁신은 다양한 데이터 특성과 작업 요구 사항에 적응할 수 있어 다운스트림 작업에서 기본 모델의 표현 능력이 향상된다는 것입니다. 연구자들은 BAT 방법을 사용하여 보다 유연하고 효율적인 다중 모드 추적 솔루션을 제공하여 관련 분야의 연구 및 응용에 더 나은 결과를 가져오기를 희망합니다.
BAT는 모달 분기에 특정한 공유 매개변수가 있는 두 개의 기본 모델 인코더와 일반 양방향 어댑터로 구성됩니다. 훈련 과정에서 BAT는 기본 모델을 완전히 미세 조정하지 않고 단계별 훈련 방법을 채택했습니다. 각각의 특정 양식 분기는 고정 매개변수가 있는 기본 모델을 사용하여 초기화되고 새로 추가된 양방향 어댑터만 훈련됩니다. 각 모달 분기는 다른 양식으로부터 큐 정보를 학습하고 이를 현재 양식의 기능 정보와 결합하여 표현 기능을 향상시킵니다. 두 가지 양식별 분기는 범용 양방향 어댑터를 통해 상호 작용하여 주요 정보와 보조 정보를 서로 동적으로 융합하여 다중 모드 비고정 연관의 패러다임에 적응합니다. 이 설계를 통해 BAT는 원본 콘텐츠의 의미를 변경하지 않고 콘텐츠를 미세 조정할 수 있어 모델의 표현 능력과 적응성이 향상됩니다.
범용 양방향 어댑터는 가벼운 모래시계 구조를 채택하고 학습 가능한 많은 매개변수를 도입하지 않도록 기본 모델의 변압기 인코더의 각 레이어에 내장될 수 있습니다. 적은 수의 훈련 매개변수(0.32M)만 추가함으로써 범용 양방향 어댑터는 완전히 미세 조정된 방법 및 큐 학습 기반 방법에 비해 훈련 비용이 저렴하고 더 나은 추적 성능을 달성합니다.
논문 "다중 모드 추적을 위한 양방향 어댑터":
논문 링크: https://arxiv.org/abs/2312.10611
코드 링크: https://github .com/SparkTempest/BAT
그림 2와 같이 양방향 어댑터 기반의 다중 모드 추적 시각적 큐 프레임워크(BAT)를 제안합니다. 이 프레임워크에는 RGB 형식과 열적외선을 갖춘 듀얼 스트림 인코더가 있습니다. 양식 구조에서는 각 스트림이 동일한 기본 모델 매개변수를 사용합니다. 양방향 어댑터는 두 가지 양식의 다중 모드 데이터를 교차 큐하기 위해 듀얼 스트림 인코더 레이어와 병렬로 설정됩니다.
방법은 기본 모델을 완전히 미세 조정하지 않고 경량 양방향 어댑터만 학습하여 사전 훈련된 RGB 추적기를 다중 모드 장면으로 효율적으로 전송하여 뛰어난 다중 모드 보완성과 뛰어난 추적 정확도를 달성합니다.
그림 2: BAT의 전체 아키텍처.
먼저 각 양식의 템플릿 프레임(첫 번째 프레임 에서 대상 개체의 초기 프레임)과 검색 프레임(후속 추적 이미지)을 로 변환합니다. 함께 접합되어 각각 N 레이어 듀얼 스트림 변압기 인코더로 전달됩니다.
양방향 어댑터는 듀얼 스트림 인코더 레이어와 병렬로 설정되어 한 양식에서 다른 양식으로의 기능 단서를 학습합니다. 이를 위해 두 가지 가지의 출력 특징을 추가하고 예측 헤드 H에 입력하여 최종 추적 결과 상자 B를 얻습니다.
양방향 어댑터는 모듈형 설계를 채택하고 다중 헤드 Self-Attention 스테이지와 MLP 스테이지에 각각 내장됩니다. 양방향 어댑터의 자세한 구조는 그림 1의 오른쪽에 나와 있습니다. 한 모델의 기능 신호를 다른 모델의 상태로 전송하도록 설계되었습니다. 3개의 선형 투영 레이어로 구성되며, tn은 각 양식의 토큰 수를 나타내며, 입력 토큰은 먼저 하향 투영을 통해 de로 차원 감소되고 선형 투영 레이어를 통과한 다음 원래 차원 dt로 위쪽으로 투영되어 피드백됩니다. 기능 프롬프트로 Transformer 인코더 레이어를 다른 형식으로 전환합니다.
이 간단한 구조를 통해 양방향 어댑터는 모드 간 기능 프롬프트를 효과적으로 수행하여 다중 모드 추적을 달성할 수 있습니다.
트랜스포머 인코더와 예측 헤드가 고정되어 있으므로 새로 추가된 어댑터의 매개변수만 최적화하면 됩니다. 특히, 대부분의 기존 어댑터와 달리 당사의 양방향 어댑터는 주요 양식을 동적으로 변경하기 위한 교차 모드 기능 단서 역할을 하여 개방형 세계에서 우수한 추적 성능을 보장합니다.
표 1에서 볼 수 있듯이 RGBT234와 LasHeR의 두 데이터 세트를 비교하면 우리 방법이 정확도와 성공률 모두에서 최신 방법보다 우수하다는 것을 알 수 있습니다. 그림 3에서 볼 수 있듯이 LasHeR 데이터 세트의 다양한 장면 속성에서 최신 방법과의 성능 비교도 제안된 방법의 우수성을 보여줍니다.
이 실험은 우리의 듀얼 스트림 추적 프레임워크와 양방향 어댑터가 가장 복잡한 환경에서 성공적으로 목표를 추적하고 동적으로 변화하는 주-보조 모드에서 효과적인 정보를 적응적으로 추출하여 최상의 결과를 달성한다는 것을 완전히 입증합니다.
표 1 RGBT234 및 LasHeR 데이터 세트의 전반적인 성능.
그림 3 LasHeR 데이터 세트의 다양한 속성에 따른 BAT 및 경쟁 방법 비교.
실험은 복잡한 시나리오에서 주보조 패턴을 변경하여 효과적인 정보를 동적으로 유도하는 효과를 입증합니다. 그림 4에서 볼 수 있듯이 우성 모드를 수정하는 관련 방법과 비교할 때 우리의 방법은 RGB를 완전히 사용할 수 없는 경우에도 효과적으로 대상을 추적할 수 있으며, RGB와 TIR이 후속 장면에서 효과적인 정보를 제공할 수 있으면 추적 효과가 훨씬 더 좋습니다. . 당사의 양방향 어댑터는 RGB 및 IR 양식 모두에서 대상의 효과적인 특징을 동적으로 추출하고 보다 정확한 대상 응답 위치를 캡처하며 RGB 양식의 간섭을 제거합니다.
그림 4 추적 결과 시각화.
또한 RGBE 추적 데이터 세트에 대한 방법을 평가합니다. 그림 5에서 볼 수 있듯이 VisEvent 테스트 세트의 다른 방법과 비교할 때 우리의 방법은 다양한 복잡한 시나리오에서 가장 정확한 추적 결과를 제공하여 BAT 모델의 효율성과 일반화를 입증합니다.
그림 5 VisEvent 데이터 세트의 추적 결과.
그림 6 주의 가중치 시각화.
그림 6에서 목표를 추적하는 다양한 레이어의 주의 가중치를 시각화합니다. Baseline-dual(기본 모델 매개변수 초기화를 위한 이중 스트림 프레임워크) 방법과 비교하여, 우리의 BAT는 네트워크 깊이가 증가함에 따라 지배적 모드의 효율성을 유지하면서 지배적 모드에서 더 많은 보완 정보를 학습하기 위해 보조 모드를 효과적으로 구동합니다. 성능을 향상시켜 전반적인 추적 성능을 향상시킵니다.
실험에 따르면 BAT는 다중 모드 보완 정보를 성공적으로 캡처하고 샘플 적응형 동적 추적을 달성합니다.
위 내용은 BAT 방법: AAAI 2024 최초의 다중 모드 표적 추적 범용 양방향 어댑터의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!