올해 ICCV2023 최우수 학생논문은 현재 캘리포니아대학교 버클리캠퍼스에서 박사후 연구원으로 재직 중인 코넬대학교 Qianqian Wang 선생님께 선정되었습니다!
전반적으로 동영상의 조밀하고 장거리 궤적 추정은 현장에서 해결되지 않은 문제로 남아 있습니다. 이 문제에는 세 가지 주요 과제가 포함됩니다. 1) 긴 시퀀스에서 궤적 정확도를 유지하는 방법, 2) 교합 중인 점의 위치를 추적하는 방법, 3) 시공간 일관성을 유지하는 방법
이 기사에서 저자는 새로운 비디오 모션을 제안합니다. 비디오의 모든 정보를 활용하여 각 픽셀의 완전한 움직임 궤적을 공동으로 추정하는 추정 방법입니다. 이 방법은 "OmniMotion"이라고 하며 준 3D 표현을 사용합니다. 이 표현에서는 표준 3D 볼륨이 각 프레임의 로컬 볼륨에 매핑됩니다. 이 매핑은 동적 다중 뷰 형상을 유연하게 확장하는 역할을 하며 카메라와 장면 모션을 동시에 시뮬레이션할 수 있습니다. 이 표현은 루프 일관성을 보장할 뿐만 아니라 폐색 중에 모든 픽셀을 추적합니다. 작성자는 각 비디오에 대해 이 표현을 최적화하여 비디오 전체의 모션에 대한 솔루션을 제공합니다. 최적화 후에는 이 표현을 비디오의 연속 좌표에 대해 쿼리하여 전체 비디오에 걸친 모션 궤적을 얻을 수 있습니다.
본 문서에서 제안된 방법은 다음을 수행할 수 있습니다. 1) 전체 비디오 모션의 모든 지점에 대해 전역적으로 일관된 완전한 표현을 생성합니다. 궤적, 2) 폐색을 통한 점 추적, 3) 다양한 카메라 및 장면 동작 조합으로 실제 비디오를 처리합니다. TAP 비디오 추적 벤치마크에서 이 방법은 이전 방법을 훨씬 능가하는 우수한 성능을 보였습니다.
3. 방법본 논문에서는 비디오 시퀀스에서 밀집된 장거리 모션을 추정하기 위한 테스트 시간 최적화 기반 방법을 제안합니다. 먼저, 논문에서 제안된 방법에 대한 개요를 제공하겠습니다.
비디오 콘텐츠는 관찰된 장면의 3차원 지도 역할을 하는 G라는 일반적인 볼륨으로 표현됩니다. NeRF에서 수행된 작업과 유사하게 G의 각 일반적인 3D 좌표 uvw를 밀도 σ 및 색상 c에 매핑하는 좌표 기반 네트워크 nerf를 정의했습니다. G에 저장된 밀도는 일반적인 공간에서 표면의 위치를 알려줍니다. 3D 전단사와 결합하면 여러 프레임에 걸쳐 표면을 추적하고 폐색 관계를 이해할 수 있습니다. G에 저장된 색상을 사용하면 최적화 중 광도 손실을 계산할 수 있습니다.
이 문서에서는 3D 점을 로컬 좌표계에서 표준 3D 좌표계로 변환하는 연속 전단사 매핑을 소개합니다. 이 표준 좌표는 장면 점 또는 3D 궤적에 대한 시간에 따른 일관된 참조 또는 "인덱스" 역할을 합니다. 전단사 매핑을 사용하는 주요 이점은 모두 동일한 표준 지점에서 시작되므로 서로 다른 프레임 간의 3D 지점에서 제공되는 주기적인 일관성입니다.
한 로컬 프레임에서 다른 프레임으로의 3D 점 매핑 방정식은 다음과 같습니다.
복잡한 실제 동작을 캡처하기 위해 이러한 전단사는 INN(역전 신경망)으로 매개변수화됩니다. Real-NVP를 모델로 선택한 것은 단순성과 분석적으로 가역적인 속성의 영향을 받았습니다. Real-NVP는 아핀 결합 레이어라는 기본 변환을 사용하여 전단사 매핑을 구현합니다. 이러한 레이어는 한 부분은 변경되지 않고 다른 부분은 아핀 변환을 거치도록 입력을 분할합니다.
이 아키텍처를 더욱 향상시키기 위해 각 프레임의 잠재 코드 latent_i를 조건화하여 수행할 수 있습니다. 따라서 모든 가역 매핑 i는 단일 가역 네트워크 매핑 네트워크에 의해 결정되지만 서로 다른 잠재 코드를 갖습니다
프레임 간 동작 재계산
이 섹션에서는 2D 동작을 계산하는 방법을 설명합니다. 프레임 i의 모든 쿼리 픽셀에 대해. 직관적으로 쿼리 픽셀은 먼저 광선의 점을 샘플링하여 3D로 "리프트"된 다음 이러한 3D 점은 전단사 매핑 i 및 매핑 j를 사용하여 대상 프레임 j에 "매핑"되고 이어서 다른 샘플에서 알파 합성이 수행됩니다." 이렇게 매핑된 3D 점은 가정된 대응을 얻기 위해 "렌더링"되고 마지막으로 다시 2D로 "투영"됩니다.
이 실험 데이터 테이블은 Kinetics, DAVIS 및 RGB-Stacking의 세 가지 데이터 세트에 대한 다양한 모션 추정 방법의 성능을 보여줍니다. 개별 방법의 성능을 평가하기 위해 AJ, 평균, OA 및 TC의 네 가지 측정항목이 사용됩니다. 저자가 제안한 두 가지 방법(우리(TAP-Net)과 우리(RAFT)) 외에 7가지 다른 방법이 있습니다. 저자의 두 가지 방법 모두 대부분의 측정항목과 데이터세트에서 좋은 성능을 발휘한다는 점은 주목할 가치가 있습니다. 특히, 우리의 (RAFT) 방법은 세 가지 데이터 세트 모두에 대해 AJ, 평균 및 OA에서 최상의 결과를 달성하는 동시에 TC에서는 두 번째로 좋은 결과를 얻습니다. 우리의 (TAP-Net) 방법도 일부 측정에서 유사한 우수한 성능을 달성합니다. 한편, 다른 방법은 이러한 지표에 대해 엇갈린 성능을 보였습니다. 저자의 방법과 "Deformable Sprites" 방법은 각 비디오에 대한 테스트 시간 최적화를 통해 전역 모션을 추정하는 반면, 다른 모든 방법은 순방향 접근 방식을 사용하여 로컬에서 모션 추정을 수행한다는 점을 언급해야 합니다. 요약하자면, 저자의 방법은 위치 정확도, 폐색 정확도 및 시간적 연속성 측면에서 테스트된 다른 모든 방법을 능가하여 상당한 이점을 보여줍니다
이것은 DAVIS 데이터 세트에 대한 절제 실험 결과 표입니다. 전체 시스템 성능에 대한 각 구성 요소의 기여도를 확인하기 위해 절제 실험이 수행됩니다. 이 표에는 네 가지 방법이 나열되어 있으며 그 중 세 가지는 특정 주요 구성 요소를 제거하는 버전이며 최종 "전체" 버전에는 모든 구성 요소가 포함됩니다.
전반적으로 이 제거 실험의 결과는 각 구성 요소가 성능 면에서 어느 정도 향상되었지만 가역성이 아마도 가장 중요한 구성 요소일 것임을 보여줍니다. 왜냐하면 가역성이 없으면 성능 손실이 매우 심각할 것이기 때문입니다
이 작업에서 DAVIS 데이터 세트에 대해 수행된 절제 실험은 전체 시스템 성능에 대한 각 구성 요소의 중요한 역할을 밝히는 귀중한 통찰력을 제공합니다. 실험 결과에서 우리는 가역성 구성 요소가 전체 프레임워크에서 중요한 역할을 한다는 것을 분명히 알 수 있습니다. 이 중요한 구성 요소가 누락되면 시스템 성능이 크게 저하됩니다. 이는 동적 비디오 분석에서 가역성을 고려하는 것의 중요성을 더욱 강조합니다. 동시에 광도 성분의 손실로 인해 성능 저하도 발생하지만 가역성만큼 성능에 큰 영향을 미치지는 않는 것으로 보입니다. 또한 통합 샘플링 전략은 성능에 일정한 영향을 미치지만 처음 두 가지에 비해 그 영향이 상대적으로 작습니다. 마지막으로 완전한 접근 방식은 이러한 모든 구성 요소를 통합하고 모든 고려 사항에서 달성 가능한 최고의 성능을 보여줍니다. 전반적으로 이 작업은 비디오 분석의 다양한 구성 요소가 서로 상호 작용하는 방식과 전체 성능에 대한 구체적인 기여에 대한 통찰력을 얻을 수 있는 귀중한 기회를 제공하므로 비디오 처리 알고리즘을 설계하고 최적화할 때 통합 접근 방식의 필요성을 강조합니다
. 그러나 많은 모션 추정 방법과 마찬가지로 우리의 방법은 빠르고 매우 단단하지 않은 모션과 작은 구조를 처리하는 데 어려움을 겪습니다. 이러한 시나리오에서 쌍별 대응 방법은 정확한 전역 동작을 계산하는 방법에 대해 충분히 신뢰할 수 있는 대응을 제공하지 못할 수 있습니다. 또한 기본 최적화 문제의 볼록하지 않은 특성으로 인해 특정 어려운 동영상의 경우 최적화 프로세스가 초기화에 매우 민감할 수 있음을 관찰했습니다. 이는 예를 들어 잘못된 표면 순서 또는 표준 공간의 중복 개체와 같이 최적이 아닌 로컬 최소값으로 이어질 수 있으며 때로는 최적화를 통해 수정하기 어렵습니다.
마지막으로, 우리의 방법은 현재 형태에서는 계산 비용이 많이 들 수 있습니다. 첫째, 흐름 수집 프로세스에는 시퀀스 길이에 따라 2차적으로 증가하는 모든 쌍별 흐름에 대한 포괄적인 계산이 포함됩니다. 그러나 우리는 어휘 트리 또는 키프레임 기반 매칭과 같은 보다 효율적인 매칭 방법을 탐색하고 구조 동작 및 SLAM 문헌에서 영감을 얻어 이 프로세스의 확장성을 향상시킬 수 있다고 믿습니다. 둘째, 신경 암시적 표현을 사용하는 다른 방법과 마찬가지로 우리의 방법에는 상대적으로 긴 최적화 프로세스가 포함됩니다. 이 분야의 최근 연구는 이 프로세스를 가속화하고 더 긴 시퀀스로 확장하는 데 도움이 될 수 있습니다.
이 논문은 전체 상황과 일치하는 전체 비디오 움직임의 완전성을 평가하기 위한 새로운 테스트 시간 최적화 방법을 제안합니다. . 준3D 표준 볼륨과 각 프레임에 대한 로컬 표준 전단사로 구성된 OmniMotion이라는 새로운 비디오 모션 표현이 도입되었습니다. OmniMotion은 다양한 카메라 설정과 장면 역학으로 일반 비디오를 처리하고 폐색을 통해 정확하고 부드러운 장거리 모션을 생성할 수 있습니다. 이전의 최첨단 방법에 비해 질적, 양적 측면에서 상당한 개선이 이루어졌습니다.
다시 작성해야 하는 내용은 다음과 같습니다. 원본 링크: https://mp.weixin.qq.com/s/HOIi5y9j-JwUImhpHPYgkg
위 내용은 제목 재작성: ICCV 2023 우수한 학생 논문 추적, Github은 1.6K 별, 마법과 같은 포괄적인 정보를 획득했습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!