Referring VOS(RVOS)는 참조 텍스트를 기반으로 비디오 시퀀스에서 텍스트가 참조하는 개체를 분할하는 것을 목표로 하는 새로 등장한 작업입니다. 준지도 비디오 객체 분할과 비교하여 RVOS는 픽셀 수준 참조 마스크 대신 추상적인 언어 설명에만 의존하여 인간과 컴퓨터의 상호 작용에 보다 편리한 옵션을 제공하므로 광범위한 관심을 받았습니다.
논문 링크: https://www.aaai.org/AAAI22Papers/AAAI-1100.LiD.pdf
본 연구의 주요 목적은 기존 RVOS가 직면한 문제를 해결하는 것입니다. 작업 두 가지 주요 과제:
이와 관련하여 이 연구는 크로스 모달 요소 마이그레이션을 위한 엔드 투 엔드 RVOS 프레임워크인 YOFO를 제안합니다. 주요 기여와 혁신은 다음과 같습니다.
그림 1: YOFO 프레임워크의 주요 프로세스.
다중 스케일 교차 모달 특성 마이닝 모듈
: 이 모듈은 서로 다른 스케일의 두 모달 특성을 점진적으로 융합하여 이미지 특성이 전달하는 스케일 정보와 언어 특성 간의 관계를 유지할 수 있습니다. 일관성, 그리고 더 중요하게는 융합 프로세스 중에 언어 정보가 다중 규모 이미지 정보로 인해 희석되거나 압도되지 않도록 보장합니다.
그림 2: 다중 규모 교차 모달 기능 마이닝 모듈.Meta-migration 모듈
: 학습-학습 전략을 채택했으며, 그 과정은 간단히 다음 매핑 기능으로 설명할 수 있습니다. 마이그레이션 함수 가 컨볼루션인 경우 는 컨볼루션 커널 매개변수 입니다.
최적화 과정은 다음과 같은 목적함수로 표현할 수 있습니다.
이 중 M은 과거 정보를 저장할 수 있는 메모리 뱅크를 나타내고, W는 다양한 위치의 가중치를 나타냅니다. 다양한 위치와 다양한 특징 주의 정도 Y는 메모리 뱅크에 저장된 각 비디오 프레임의 이중 모드 특징을 나타냅니다. 이 최적화 프로세스는 바이모달 특징을 재구성하는 메타 전송 기능의 능력을 최대화하고 전체 프레임워크를 엔드투엔드 학습할 수 있도록 합니다.
Training and Testing: 훈련에 사용된 손실 함수는 lovasz 손실이며, 훈련 세트는 Ref-DAVIS2017과 Ref-Youtube-VOS 두 개의 비디오 데이터 세트이며 정적 데이터 세트 Ref를 통해 수행됩니다. -COCO 무작위 아핀 변환은 비디오 데이터를 보조 훈련으로 시뮬레이션합니다. 메타 마이그레이션 프로세스는 훈련 및 예측 중에 수행되며 전체 네트워크는 1080ti에서 10FPS의 속도로 실행됩니다.
연구에 사용된 방법은 두 개의 주류 RVOS 데이터 세트(Ref-DAVIS2017 및 Ref-Youtube-VOS)에서 우수한 결과를 얻었습니다. 정량적 지표와 일부 시각화 렌더링은 다음과 같습니다.
그림 3: 두 가지 주류 데이터 세트에 대한 정량적 지표.
그림 4: VOS 데이터 세트의 시각화.
그림 5: YOFO의 기타 시각화 효과.
이 연구에서는 기능 마이닝 모듈(FM)과 메타 전송 모듈(MT)의 효율성을 설명하기 위해 일련의 절제 실험도 수행했습니다.
그림 6: 기능 마이닝 모듈(FM) 및 메타 전송 모듈(MT)의 효율성.
또한, MT 모듈을 사용하지 않고 MT 모듈을 사용하여 디코더의 출력 특성을 시각화한 결과, MT 모듈이 언어가 설명하는 내용을 올바르게 캡처하고 간섭 노이즈를 수행할 수 있음을 명확하게 알 수 있습니다. .
그림 7: MT 모듈 사용 전후의 디코더 출력 기능 비교. 팀 소개
본 논문은 메이투 이미징 연구소(MT Lab) 연구원과 다롄 공과대학교 루후추안 팀이 공동으로 제안한 것입니다. Meitu Imaging Research Institute(MT Lab)는 컴퓨터 비전, 기계 학습, 증강 현실, 클라우드 컴퓨팅 및 기타 분야의 알고리즘 연구, 엔지니어링 개발 및 제품화에 전념하는 Meitu 팀입니다. Meitu의 기존 제품과 미래 제품의 기반을 제공합니다. 핵심 알고리즘 지원을 제공하고 최첨단 기술을 통해 Meitu 제품 개발을 촉진합니다. "Meitu의 기술 센터"로 알려져 있으며 CVPR, ICCV, ECCV 등 최고의 국제 컴퓨터 비전 컨퍼런스에 참가하여 우승했습니다. 10번 이상의 우승과 준우승.
위 내용은 교차 모달 요소 전송을 기반으로 Meitu 및 Dalian University of Technology의 참조 비디오 개체 분할 방법에는 단일 단계만 필요합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!