Southern University of Science and Technology의 이 비디오 분할 모델은 비디오의 모든 것을 추적할 수 있습니다.
"보기"뿐만 아니라 "자르기"도 가능합니다. 동영상에서 개인을 쉽게 삭제할 수도 있습니다.
작업 측면에서 보면 마우스 클릭 몇 번만 하면 됩니다.
특수효과 아티스트는 이 제품이 CGI 업계의 게임 규칙을 바꿀 것이라고 직설적으로 말하면서 뉴스를 보고 구세주를 찾은 듯했습니다.
이 모델을 TAM(Track Anything Model)이라고 합니다. 메타의 이미지 분할 모델인 SAM과 이름이 비슷한가요?
실제로 TAM은 SAM을 비디오 분야로 확장하여 동적 개체 추적의 스킬 트리를 조명합니다.
비디오 분할 모델은 실제로 새로운 기술은 아니지만 기존의 분할 모델은 인간의 작업을 완화하지 않습니다.
이러한 모델에서 사용되는 교육 데이터는 모두 수동 주석이 필요하며 사용하기 전에 특정 객체의 마스크 매개변수로 초기화해야 할 수도 있습니다.
SAM의 출현은 이 문제를 해결하기 위한 전제 조건을 제공합니다. 최소한 초기화 데이터는 더 이상 수동으로 얻을 필요가 없습니다.
물론 TAM은 SAM을 프레임 단위로 사용한 후 이를 겹쳐서 해당 시공간 관계도 구축해야 합니다.
팀은 SAM을 XMem이라는 메모리 모듈과 통합했습니다.
SAM을 사용하여 첫 번째 프레임에서 초기 매개변수를 생성하기만 하면 XMem이 후속 추적 프로세스를 안내할 수 있습니다.
아래의 Qingming River Scene과 같이 많은 추적 대상이 있을 수 있습니다.
장면이 바뀌더라도 TAM의 성능에는 영향을 미치지 않습니다.
경험해본 결과 TAM이 Interactive를 채택한 것으로 나타났습니다. 사용자 인터페이스는 매우 간단하고 조작하기 쉽습니다.
하드 파워 측면에서 TAM의 추적 효과는 정말 좋습니다.
그러나 일부 세부 사항에서 제거 기능의 정확도는 개선될 필요가 있습니다.
앞서 언급했듯이 TAM은 메모리 기능을 결합하여 시공간 상관 관계를 설정함으로써 SAM을 기반으로 구현됩니다.
구체적으로 첫 번째 단계는 SAM의 정적 이미지 분할 기능을 사용하여 모델을 초기화하는 것입니다.
한 번의 클릭만으로 SAM은 대상 객체의 초기 마스크 매개변수를 생성하여 기존 분할 모델의 복잡한 초기화 프로세스를 대체할 수 있습니다.
팀은 초기 매개변수를 사용하여 반 수동 개입 훈련을 위해 XMem에 넘겨주어 인력 작업량을 크게 줄일 수 있습니다.
이 과정에서는 일부 수동 예측 결과를 XMem의 출력과 비교하는 데 사용됩니다.
실제 과정에서는 시간이 지날수록 XMem이 정확한 분할 결과를 얻는 것이 점점 더 어려워집니다.
결과와 기대치의 차이가 너무 크면 재분할 단계에 들어가게 되며, 이 단계는 여전히 SAM에 의해 완료됩니다.
SAM을 다시 최적화한 후에는 대부분의 출력 결과가 더 정확해졌지만 일부는 여전히 수동 조정이 필요합니다.
TAM의 훈련 과정은 대략 이렇고, 처음에 언급한 물체 제거 스킬은 TAM과 E2FGVI를 결합하여 형성됩니다.
E2FGVI 자체도 TAM의 정확한 분할을 지원하여 작업의 목표를 더욱 명확하게 하는 비디오 요소 제거 도구입니다.
TAM을 테스트하기 위해 팀에서는 DAVIS-16 및 DAVIS-17 데이터세트를 사용하여 이를 평가했습니다.
직관적인 느낌은 여전히 매우 좋으며, 데이터로 보면 그렇습니다.
TAM은 마스크 매개변수를 수동으로 설정할 필요가 없지만 J(지역 유사성)와 F(경계 정확도)의 두 지표는 수동 모델과 매우 유사합니다.
DAVIS-2017 데이터 세트의 성능도 STM보다 약간 더 좋습니다.
다른 초기화 방법 중 SiamMask의 성능은 TAM과 전혀 비교할 수 없습니다.
MiVOS라는 다른 방법이 TAM보다 성능이 좋지만 결국 8라운드 동안 진화했습니다...
TAM은 Southern University of Science and Technology의 VIP (Visual Intelligence and Perception) 연구소 출신입니다.
이 연구실의 연구 방향에는 텍스트-이미지-소리 다중 모델 학습, 다중 모델 인식, 강화 학습 및 시각적 결함 탐지가 포함됩니다.
현재 팀은 30개 이상의 논문을 발표했으며 5개의 특허를 획득했습니다.
팀의 리더는 Southern University of Science and Technology의 Zheng Feng 부교수입니다. 그는 영국 셰필드 대학교에서 박사 학위를 취득했으며 중국 과학원 고등 연구 연구소에서 근무했습니다. Tencent Youtu 및 기타 기관. 그는 2018년에 Southern Science and Technology 대학에 입학했으며 2021년에 부교수로 승진했습니다.
논문 주소:
https://arxiv.org/abs/2304.11968
GitHub 페이지:
https://github.com/gaomingqi/Track-Anything
참조 링크:
https://twitter.com/bilawalsidhu/status/1650710123399233536?s=20
위 내용은 남부 과학 기술의 블랙 테크놀로지: 클릭 한 번으로 영상 캐릭터를 제거하세요. 특수효과 아티스트의 구세주가 여기 있습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!