문서 링크: https://arxiv.org/abs/2203.12602
코드와 사전 훈련 가중치는 Github에서 오픈 소스로 공개되었습니다: https://github.com/MCG- NJU/VideoMAE
목차1. 배경 소개2. 연구 동기3. VideoMAE 구현 세부 사항5. VideoMAE
7. . 커뮤니티에 Impact
9. 요약
배경 소개
비디오 자기 지도 학습: 레이블 정보를 사용하지 않고 자기 지도 에이전트 작업을 설계하여 비디오 데이터에서 시공간 표현 정보를 학습합니다. 기존 비디오 자기지도 사전 학습 알고리즘은 크게 두 가지 범주로 나뉩니다. (1) CoCLR, CVRL 등과 같은 대조 학습을 기반으로 하는 자기 지도 방법. (2) DPC, SpeedNet, Pace 등 시계열 관련 에이전트 작업을 기반으로 한 자기 감독 방법.
동작 감지: 이 작업은 영상의 동작 분류, 영상 속 캐릭터의 동작 식별뿐만 아니라 공간 범위 내에서 경계 상자를 사용하여 캐릭터의 공간 위치를 표시해야 합니다. 동작 감지에는 영화 비디오 분석, 스포츠 비디오 분석 및 기타 시나리오에서 광범위한 응용 시나리오가 있습니다.
연구 동기
2020년 말 시각적 self-attention 모델(Vision Transformer)이 제안된 이후 Transformer는 컴퓨터 비전 분야에서 널리 사용되어 왔으며 일련의 컴퓨터 비전 성능 향상에 도움을 주었습니다. 작업.
그러나 Vision Transformer는 훈련을 위해 대규모 레이블이 지정된 데이터 세트를 활용해야 합니다. 처음에 원본 ViT(Vanilla Vision Transformer)는 수억 개의 레이블이 지정된 이미지를 사용한 지도 사전 학습을 통해 좋은 성능을 달성했습니다. 현재 비디오 변환기는 일반적으로 이미지 데이터(예: TimeSformer, ViViT 등)에 대해 훈련된 Vision Transformer 모델을 기반으로 하며 사전 훈련된 대규모 이미지 데이터 모델(예: ImageNet-1K, ImageNet-21K, JFT- 300M 등). TimeSformer와 ViViT는 모두 비디오 데이터 세트에서 Video Transformer 모델을 처음부터 훈련하려고 시도했지만 만족스러운 결과를 얻지 못했습니다. 따라서 다른 사전 훈련된 모델이나 추가적인 이미지 데이터를 사용하지 않고 Video Transformer, 특히 원본 ViT(Vanilla Vision Transformer)를 비디오 데이터 세트에서 직접 효과적으로 훈련하는 방법은 여전히 해결해야 할 시급한 문제입니다. 기존 비디오 데이터세트는 이미지 데이터세트에 비해 상대적으로 작다는 점에 유의해야 합니다. 예를 들어, 널리 사용되는 Kinectics-400 데이터 세트에는 200,000개가 넘는 훈련 샘플만 있습니다. 샘플 수는 ImageNet-21K 데이터 세트의 약 1/50, JFT-300M 데이터 세트의 1/1500입니다. 몇 배의 차이가 납니다. 동시에, 이미지 모델을 훈련하는 것에 비해 비디오 모델을 훈련하는 데 드는 계산 오버헤드도 훨씬 높습니다. 이로 인해 비디오 데이터 세트에 대한 Video Transformer 교육의 어려움이 더욱 높아집니다.최근에는 "마스킹 및 재구성"이라는 자율 학습 패러다임이 자연어 처리(BERT) 및 이미지 이해(BEiT, MAE) 분야에서 성공을 거두었습니다. 따라서 우리는 이 자기 감독 패러다임을 사용하여 비디오 데이터 세트에 대한 Video Transformer를 훈련시키고 Masked Autoencoder의 프록시 작업을 기반으로 하는 비디오 자기 감독 사전 훈련 알고리즘 VideoMAE(Video MAE)를 제안합니다. ). VideoMAE로 사전 학습된 ViT 모델은 Kinetics-400 및 Something-Something V2와 같은 대규모 비디오 데이터 세트는 물론 UCF101 및 HMDB51과 같은 상대적으로 작은 비디오 데이터 세트에서 다른 방법보다 훨씬 더 나은 결과를 얻을 수 있습니다.
MAE는 비대칭 인코더-디코더 아키텍처를 채택하여 마스킹 및 재구성의 자체 감독 사전 학습 작업을 수행합니다. 224x224 해상도 입력 이미지는 먼저 16×16 크기의 겹치지 않는 시각적 픽셀 블록(토큰)으로 나뉩니다. 각 픽셀 블록(토큰)은 블록 임베딩(토큰 임베딩) 작업을 통해 고차원 특징으로 변환됩니다. MAE는 더 높은 마스크 비율(75%)을 사용하여 일부 픽셀 블록(토큰)을 무작위로 마스크 처리합니다. 마스킹 작업 후 나머지 픽셀 블록은 특징 추출을 위해 인코더로 전송됩니다. 그 직후, 인코더에서 추출된 특징 블록은 미리 설정된 학습 가능한 픽셀 블록(학습 가능한 토큰)의 다른 부분과 접합되어 원래 입력 이미지 크기만큼 큰 특징을 형성합니다. 마지막으로 경량 디코더를 사용하여 이러한 특징을 기반으로 원본 이미지를 재구성합니다(실제 실험 과정에서 재구성 대상은 정규화된 픽셀 블록(정규화된 토큰)입니다. 이미지와 비교) 데이터에 대한 다양한 마스킹 전략의 예 시간적 중복 비디오 데이터에는 조밀한 이미지 프레임과 의미가 포함되어 있습니다. 이러한 이미지 프레임에 포함된 정보는 시간이 지남에 따라 매우 느리게 변하는 것을 볼 수 있습니다. 그림에서 볼 수 있듯이 컬러 이미지 프레임은 중복성이 매우 높으므로 MAE를 구현하는 과정에서 두 가지 문제가 발생할 수 있습니다. 첫째, 사전 훈련에 원본 비디오의 조밀한 프레임 속도(예: 30FPS)를 사용하면 이 설정으로 인해 네트워크가 정적 외관 특성에 더 많은 주의를 기울이게 되기 때문에 훈련 효율성이 매우 낮습니다. 둘째, 비디오의 시간적 중복성은 비디오 모션 특성을 크게 약화시킵니다. 따라서 이러한 상황은 일반 마스킹 속도(예: 50)에서 마스킹된 픽셀 블록을 재구성하는 작업을 상대적으로 간단하게 만듭니다. % ~ 75%) 이러한 문제는 인코더로서 Backbone에 영향을 미칩니다. 모션 특징은 사전 학습 과정에서 추출됩니다. 비디오는 시간이 지남에 따라 정적 이미지가 진화하여 생성된 것으로 간주할 수 있습니다. 따라서 비디오 프레임 간에 의미론적 일치가 존재하므로 이러한 시간적 상관 관계는 재구성 프로세스 중에 "정보 유출" 위험을 증가시킬 수 있습니다. 마스크 이미지 프레임이 사용됩니다. 네트워크는 비디오의 시간적 상관 관계를 사용하여 인접한 프레임의 해당 시간적 위치에 폐색되지 않은 픽셀 블록을 "복사 및 붙여넣기"하여 픽셀 블록 재구성을 수행할 수 있습니다. 이 경우 프록시 작업도 수행될 수 있습니다. 이는 VideoMAE가 비디오 콘텐츠에 대한 시공간 추론 기능과 같은 높은 수준의 추상적인 의미 정보가 아닌 낮은 의미의 시간 대응 기능만 학습하게 할 수 있습니다. 새로운 마스킹 전략을 설계해야 네트워크가 비디오의 시공간 특징 표현을 더 잘 학습할 수 있습니다. 전체 프레임워크 of VideoMAE 에 몇 가지 새로운 디자인을 도입했습니다. 비디오의 조밀한 연속 프레임에 존재하는 시간적 중복에 대한 이전 분석에 따르면, 우리는 보다 효율적인 비디오 자체 지도 예측을 위해 VideoMAE에서 시간적 간격이 있는 샘플링 전략을 채택하기로 결정했습니다. 구체적으로 $t$ 연속 프레임으로 구성된 비디오 세그먼트는 먼저 원본 비디오에서 무작위로 샘플링됩니다. 그런 다음 비디오 클립은 시간적 간격 샘플링을 사용하여 각각 픽셀을 포함하는 프레임으로 압축됩니다. 특정 실험 설정에서 Kinetics-400 및 Something-Something V2 데이터 세트의 샘플링 간격은 각각 4와 2로 설정됩니다. 인코더에 입력되기 전 샘플링된 비디오 클립은 시공간 조인트 형태로 임베딩된 픽셀 블록입니다. 특히 크기의 비디오 클립에서 크기의 시각적 픽셀은 하나의 시각적 픽셀 블록으로 간주됩니다. 따라서 샘플링된 비디오 클립이 시공간 블록 임베딩(큐브 임베딩) 레이어를 통과한 후 시각적 픽셀 블록을 얻을 수 있습니다. 이 프로세스에서 시각적 픽셀 블록의 채널 크기도 매핑됩니다. 이러한 설계는 입력 데이터의 시공간 차원 크기를 줄일 수 있으며, 비디오 데이터의 시공간 중복성을 어느 정도 완화하는 데에도 도움이 됩니다. 비디오 데이터의 시간적 중복성과 시간적 상관 관계로 인해 발생하는 "정보 유출" 문제를 해결하기 위해 이 방법을 선택합니다. 사전 훈련 과정. 파이프라인 마스킹 전략은 단일 프레임 컬러 이미지의 마스킹 방법을 전체 비디오 시퀀스로 자연스럽게 확장할 수 있습니다. 즉, 서로 다른 프레임의 동일한 공간 위치에 있는 시각적 픽셀 블록이 마스킹됩니다. 구체적으로 파이프라인 마스킹 전략은 로 표현할 수 있습니다. 서로 다른 시간은 동일한 값을 공유합니다. 이 마스킹 전략을 사용하면 동일한 공간 위치에 있는 토큰이 항상 마스킹됩니다. 따라서 일부 시각적 픽셀 패치(예: 다양한 마스킹 전략의 예시 이미지에서 4번째 줄에 손가락이 포함된 픽셀 패치)의 경우 네트워크는 다른 프레임에서 해당 부분을 찾을 수 없습니다. 이 설계는 재구성 프로세스 중 "정보 유출" 위험을 완화하는 데 도움이 되며 VideoMAE는 원본 비디오 클립에서 높은 수준의 의미 정보를 추출하여 마스크된 토큰을 재구성할 수 있습니다. 이미지 데이터에 비해 비디오 데이터는 중복성이 더 강하며, 비디오 데이터의 정보 밀도는 이미지보다 훨씬 낮습니다. 이 기능을 통해 VideoMAE는 사전 훈련에 매우 높은 마스크 비율(예: 90% ~ 95%)을 사용할 수 있습니다. MAE의 기본 마스크 비율이 75%라는 점은 주목할 가치가 있습니다. 실험 결과에 따르면 극도로 높은 마스크 비율을 사용하면 사전 훈련 속도를 높일 수 있을 뿐만 아니라(시각적 픽셀 블록의 5~10%만 인코더에 입력됨) 모델의 표현 능력과 다운스트림 효과도 향상됩니다. 작업. 이전 기사에서 언급했듯이 VideoMAE는 매우 높은 마스킹 비율을 사용하며 매우 적은 수의 토큰만 인코더에 대한 입력으로 유지합니다. 폐색되지 않은 토큰의 이 부분의 시공간적 특징을 더 잘 추출하기 위해 VideoMAE는 원래 ViT를 백본으로 사용하기로 선택했으며 동시에 주의 계층(즉, 모델 구조)에서 시공간 조인트 셀프 어텐션을 사용했습니다. 원래 ViT는 변경되지 않았습니다). 따라서 모든 폐쇄되지 않은 토큰은 self-attention 레이어에서 서로 상호 작용할 수 있습니다. 시공간 공동 self-attention 메커니즘의 수준 계산 복잡성은 네트워크의 계산 병목 현상입니다. 이전 기사에서는 VideoMAE에 매우 높은 마스크 비율 전략이 사용되었으며 마스크되지 않은 토큰만 사용되었습니다(예: 10%)이 용기의 인코딩에 입력되었습니다. 이 디자인은 레벨 계산의 복잡성 문제를 어느 정도 효과적으로 완화할 수 있습니다. VideoMAE 프레임워크의 특정 디자인 세부 정보 위 그림은 VideoMAE에서 사용하는 인코더 및 디코더의 특정 아키텍처 디자인을 보여줍니다(ViT-B를 예로 사용). . 우리는 4개의 다운스트림 비디오 동작 인식 데이터 세트와 1개의 동작 감지 데이터 세트에 대해 VideoMAE를 평가합니다. 이러한 데이터 세트는 비디오 모션 정보의 다양한 측면에 중점을 둡니다. Kinetics-400은 400개의 다양한 동작 카테고리를 포괄하는 약 300,000개의 잘린 비디오 클립을 포함하는 대규모 YouTube 비디오 데이터세트입니다. Kinetics-400 데이터 세트는 주로 일상 생활에서의 활동을 포함하며 일부 카테고리는 대화형 개체 또는 장면 정보와 높은 상관 관계를 갖습니다. Something-Something V2 데이터 세트의 비디오에는 주로 동일한 동작을 수행하는 다양한 개체가 포함되어 있으므로 이 데이터 세트의 동작 인식은 개체나 장면 정보보다는 동작 속성에 더 중점을 둡니다. 훈련 세트에는 약 170,000개의 비디오 클립이 포함되어 있고 검증 세트에는 약 25,000개의 비디오 클립이 포함되어 있습니다. UCF101과 HMDB51은 비교적 작은 두 개의 비디오 동작 인식 데이터세트입니다. UCF101의 훈련 세트에는 약 9500개의 비디오가 포함되어 있고, HMDB51의 훈련 세트에는 약 3500개의 비디오가 포함되어 있습니다. 실험 중에 우리는 먼저 VideoMAE를 사용하여 훈련 세트에서 네트워크의 자체 감독 사전 훈련을 수행한 다음 훈련 세트에서 인코더(ViT)의 감독 미세 조정을 수행하고 마지막으로 모델 성능을 평가했습니다. 검증 세트. 동작 감지 데이터 세트 AVA의 경우 먼저 Kinetics-400 데이터 세트에서 훈련된 모델을 로드하고 ViT(인코더 감독 미세 조정)를 수행합니다. 이 섹션에서는 Something-Something V2 및 Kinetics-400 데이터 세트에서 VideoMAE에 대한 절제 실험을 수행합니다. 절제 실험에서는 기본적으로 16프레임의 입력이 있는 원본 ViT 모델을 사용합니다. 동시에 미세 조정 후 평가 시 Something-Something V2에서는 비디오 클립 2개와 크롭 3개를 테스트하고 Kinetics-400에서는 비디오 클립 5개와 크롭 3개를 테스트하도록 선택했습니다. 경량 디코더는 VideoMAE의 핵심 구성 요소입니다. 다양한 깊이의 디코더를 사용한 실험 결과는 표 (a)에 나와 있습니다. MAE와 달리 VideoMAE의 더 깊은 디코더는 더 나은 성능을 달성할 수 있는 반면, 더 얕은 디코더는 GPU 메모리 사용량을 효과적으로 줄일 수 있습니다. 디코더 레이어 수는 기본적으로 4로 설정됩니다. MAE의 경험적 설계에 따라 VideoMAE의 디코더 채널 폭은 인코더 채널 폭의 절반으로 설정됩니다(예를 들어 ViT-B가 인코더로 사용되는 경우 디코더의 채널 폭은 384로 설정됩니다) ). 다양한 마스킹 전략을 75%의 마스킹 비율을 사용하는 파이프라인 마스킹 전략과 비교합니다. 표 (b)에서 볼 수 있듯이 전역 무작위 마스킹 및 무작위 마스킹 이미지 프레임의 성능은 파이프라인 마스킹 전략보다 나쁩니다. 이는 파이프라인 마스킹 전략이 비디오 데이터의 타이밍 중복성과 타이밍 상관 관계를 어느 정도 완화할 수 있다는 사실 때문일 수 있습니다. 마스크 비율을 90%로 높이면 Something-Something에 대한 VideoMAE의 성능이 68.0%에서 69.6%로 더욱 향상될 수 있습니다. VideoMAE의 마스킹 전략 및 마스킹 비율 설계는 마스킹과 재구성을 더욱 어려운 프록시 작업으로 만들어 모델이 더 높은 수준의 시공간 기능을 학습하도록 할 수 있습니다. 여기에서 VideoMAE의 재구성 대상을 비교하고 그 결과를 표(c)에 표시합니다. 첫째, 비디오 클립의 중앙 프레임만 재구성 대상으로 사용하는 경우 다운스트림 작업에서 VideoMAE의 성능이 크게 저하됩니다. 동시에 VideoMAE는 샘플링 간격에도 매우 민감합니다. 더 조밀하게 압축된 비디오 클립을 재구성하기로 선택한 경우 결과는 일시적으로 다운샘플링된 기본 비디오 클립보다 훨씬 낮습니다. 마지막으로 우리는 일시적으로 다운샘플링된 비디오 클립에서 비디오 클립의 더 밀도가 높은 프레임을 재구성하려고 시도했지만 이 설정에는 더 많은 프레임을 디코딩해야 하므로 훈련 속도가 느려지고 그다지 효과적이지 않습니다. 여기서 VideoMAE의 사전 훈련 전략을 비교하고 결과를 표(d)에 표시합니다. 이전 방법(TimeSformer, ViViT)의 실험적 결론과 유사하게 모션 정보에 더 민감한 데이터 세트인 Something-Something V2에서 ViT를 처음부터 훈련하는 것은 만족스러운 결과를 얻을 수 없습니다. 대규모 이미지 데이터 세트(ImageNet-21K)에 대해 사전 훈련된 ViT 모델을 초기화로 사용하면 더 나은 정확도를 얻을 수 있으며 이는 32.6%에서 61.8%로 향상될 수 있습니다. ImageNet-21K 및 Kinetics-400에서 사전 훈련된 모델을 사용하면 정확도가 65.2%로 더욱 향상되었습니다. VideoMAE를 사용하여 비디오 데이터 세트 자체에서 사전 학습된 ViT는 궁극적으로 추가 데이터를 사용하지 않고도 69.6%의 최고 성능을 달성할 수 있습니다. Kinetics-400에서도 유사한 결론이 도출되었습니다. VideoMAE의 사전 훈련 데이터 세트를 여기서 비교하고 결과를 표 (e)에 표시합니다. 첫째, MAE 설정에 따라 ViT는 ImageNet-1K에서 1600 epoch 동안 사전 훈련된 자체 감독을 받습니다. 그런 다음 2D 블록 임베딩 레이어는 I3D의 전략을 사용하여 3D 시공간 블록 임베딩 레이어로 확장되고 모델은 비디오 데이터 세트에서 미세 조정됩니다. 이 훈련 패러다임은 처음부터 지도를 통해 훈련된 모델보다 성능이 뛰어날 수 있습니다. 다음으로, MAE 사전 훈련된 모델의 성능을 Kinetics-400에서 VideoMAE 사전 훈련된 ViT 모델과 비교했습니다. VideoMAE가 MAE보다 더 나은 성능을 달성할 수 있음을 알 수 있습니다. 그러나 사전 훈련된 두 모델 모두 Something-Something V2 데이터 세트에 대해 사전 훈련된 자체 지도 방식인 VideoMAE보다 더 나은 성능을 달성하지 못했습니다. 사전 훈련 데이터 세트와 목표 데이터 세트의 영역 차이가 중요한 문제가 될 수 있음을 분석할 수 있습니다. VideoMAE의 총 사전 훈련 라운드의 영향 절제 실험에서 VideoMAE 사전 훈련 라운드의 총 수는 기본적으로 800으로 설정됩니다. . 우리는 Kinetics-400 및 Something-Something V2 데이터 세트에 대한 사전 훈련 시대에 대한 심층적인 탐색을 시도합니다. 그림의 결과에 따르면, 더 긴 사전 훈련 에포크를 사용하면 두 데이터 세트 모두에서 일관된 이득을 얻을 수 있습니다. 다양한 다운스트림 비디오 동작 인식 데이터 세트에서 VideoMAE와 MoCov3의 성능 비교 많은 이전 연구에서 비디오 자기주도 사전 훈련에 대한 광범위한 연구를 수행했지만 이러한 방법은 주로 컨벌루션 신경망을 백본으로 사용하고 ViT 기반 훈련 메커니즘을 연구하는 방법은 거의 없습니다. 따라서 비디오 자체 감독 사전 훈련에 대한 ViT 기반 VideoMAE의 효율성을 검증하기 위해 두 가지 ViT 기반 훈련 방법을 비교했습니다. (1) 처음부터 모델의 감독 훈련, (2) 대조 학습 방법(MoCo) 사용 v3) 자기 감독 사전 훈련을 수행합니다. 실험 결과에 따르면 VideoMAE가 다른 두 가지 훈련 방법보다 훨씬 우수하다는 것을 알 수 있습니다. 예를 들어, 데이터 크기가 가장 큰 Kinetics-400 데이터 세트에서 VideoMAE는 처음부터 훈련하는 것보다 약 10% 더 정확하고 MoCo v3 사전 훈련 결과보다 약 6% 더 높습니다. VideoMAE의 뛰어난 성능은 마스킹 및 재구성의 자체 감독 패러다임이 ViT에 대한 효율적인 사전 훈련 메커니즘을 제공한다는 것을 보여줍니다. 동시에 훈련 세트가 작아질수록 VideoMAE와 다른 두 가지 훈련 방법 간의 성능 격차가 점점 더 커진다는 점은 주목할 가치가 있습니다. HMDB51 데이터세트에 약 3,500개의 비디오 클립만 포함되어 있음에도 불구하고 VideoMAE를 기반으로 사전 훈련된 모델은 여전히 매우 만족스러운 정확도를 달성할 수 있다는 점은 주목할 가치가 있습니다. 이 새로운 결과는 VideoMAE가 데이터 효율적인 학습자임을 보여줍니다. 이는 사전 학습을 위해 많은 양의 데이터가 필요한 대조 학습과 다릅니다. VideoMAE의 데이터 효율적인 기능은 비디오 데이터가 제한된 시나리오에서 특히 중요합니다. Something-SomethingV2 데이터 세트에서 VideoMAE 및 MoCov3의 효율성 분석 또한 사전 훈련에 VideoMAE를 사용하고 사전 훈련에 MoCo v3을 사용하는 경우의 계산 효율성을 추가로 비교했습니다. 마스킹 및 재구성이라는 매우 어려운 프록시 작업으로 인해 네트워크는 각 반복에서 입력 데이터의 10%(토큰의 90%가 마스킹됨)만 관찰할 수 있으므로 VideoMAE에는 더 많은 교육 라운드가 필요합니다. 매우 높은 비율의 토큰이 가려져 있습니다. 이 설계는 계산 소모와 사전 훈련 시간을 크게 절약합니다. 800회 라운드에 대한 VideoMAE 사전 훈련은 19.5시간만 소요되는 반면, 300회 라운드에 대한 MoCo v3 사전 훈련은 61.7시간이 소요됩니다. VideoMAE에서 마스킹 비율의 영향 매우 높은 마스킹 비율은 VideoMAE의 핵심 디자인 중 하나입니다. 우리는 Kinetics-400 및 Something-Something V2 데이터 세트에서 이 디자인에 대한 심층적인 탐색을 수행합니다. 그림의 결과에 따르면 마스크 비율이 95%로 매우 높은 경우에도 네트워크는 다운스트림 비디오 동작 인식 작업을 위한 이 두 가지 중요한 데이터 세트에서 여전히 뛰어난 성능을 보여줍니다. 이러한 현상은 자연어 처리 분야의 BERT나 이미지 분야의 MAE와는 큰 차이가 있습니다. 비디오 데이터에 시간적 중복성과 시간적 상관 관계가 존재하므로 VideoMAE는 이미지 데이터 및 자연어에 비해 매우 높은 마스크 비율로 작동할 수 있습니다. 또한 사전 훈련된 VideoMAE의 재구성 예를 시각화합니다. VideoMAE는 매우 높은 마스크 속도에서도 만족스러운 재구성 결과를 생성할 수 있다는 것을 그림에서 확인할 수 있습니다. 이는 VideoMAE가 비디오의 시공간 특징을 학습하고 추출할 수 있음을 의미합니다. 더 작은 데이터 세트에서 VideoMAE와 MoCov3 간의 기능 전송 기능 성능 비교 VideoMAE에서 학습한 기능을 추가로 연구하기 위해 이 섹션에서는 사전 훈련된 VideoMAE의 일반화 및 전송 기능을 평가합니다. 위 표는 Something-Something V2, UCF101 및 HMDB51 데이터 세트로 설정된 Kinetics-400 데이터에 사전 훈련된 VideoMAE의 전송 효과를 보여줍니다. 동시에 이 표는 MoCo v3를 사용하여 사전 훈련된 모델의 마이그레이션 능력도 보여줍니다. 표의 결과에 따르면 VideoMAE를 사용하여 사전 훈련된 모델의 전송 및 일반화 기능은 MoCo v3을 기반으로 사전 훈련된 모델보다 우수합니다. 이는 VideoMAE가 더 많은 전송 가능한 기능 표현을 학습할 수 있음을 보여줍니다. Kinetics-400 데이터세트에서 사전 훈련된 VideoMAE는 UCF101 및 HMDB51 데이터세트에서 직접 사전 훈련된 VideoMAE보다 성능이 뛰어납니다. 그러나 Kinetics-400 데이터 세트에서 사전 훈련된 모델은 Something-Something V2 데이터 세트에서 제대로 전송되지 않습니다. 이 불일치의 이유를 더 자세히 살펴보기 위해 우리는 Something-Something V2 데이터세트에서 사전 학습 동영상 수를 줄이는 실험을 수행했습니다. 탐색 프로세스에는 두 가지 실험이 포함됩니다. (1) 사전 훈련에 동일한 수의 훈련 라운드(epoch)를 사용하고, (2) 사전 훈련에 동일한 반복 횟수(반복)를 사용합니다. 그림의 결과에서 사전 훈련 샘플 수를 줄일 때 더 많은 훈련 반복을 사용하면 모델 성능도 향상될 수 있음을 알 수 있습니다. 사전 훈련된 비디오가 42,000개만 사용되더라도 Something-Something V2 데이터 세트에서 직접 훈련된 VideoMAE는 240,000개의 비디오 데이터를 사용하는 사전 훈련된 Kinetics-400 데이터 세트보다 더 나은 정확도(68.7% 대 68.5%)를 달성할 수 있습니다. 이 결과는 사전 훈련 데이터 세트와 목표 데이터 세트 간에 도메인 차이가 있는 경우 사전 훈련 데이터의 품질이 더 중요하다는 것을 의미합니다. 데이터의 양보다 동시에, 이 발견은 VideoMAE가 비디오 자가 지도 사전 훈련을 위한 데이터 효율적인 학습자임을 간접적으로 확인합니다. Something-Something V2 데이터 세트 실험 결과 Kinetics-400 데이터 세트 실험 결과 UCF101 및 HMDB51 데이터 세트 실험 결과 추가 데이터를 사용하지 않고 Something-Something V2 및 Kinetics-400에 대한 VideoMAE의 Top-1 정확도는 각각 75.4% 및 87.4%에 도달했습니다. Something-Something V2 데이터 세트의 현재 최첨단 방법은 외부 데이터 세트에 사전 훈련된 모델의 초기화에 크게 의존한다는 점에 유의해야 합니다. 이와 대조적으로 VideoMAE는 외부 데이터를 활용하지 않고도 이전의 최상의 방법보다 정확도가 약 5% 더 뛰어납니다. VideoMAE는 Kinetics-400 데이터 세트에서도 뛰어난 성능을 달성할 수 있습니다. 제한된 비디오 데이터의 경우(예: UCF101 데이터 세트에는 10,000개 미만의 교육 비디오만 포함되고 HMDB51에는 약 3500개의 교육 비디오만 포함됨) VideoMAE는 추가 이미지 및 비디오 데이터를 활용할 필요가 없으며 이는 소규모 비디오 데이터 세트에 대한 이전의 최상의 방법을 훨씬 능가합니다. AVA v2.2 데이터 세트 실험 결과 기존 동작 분류 작업 외에도 비디오 동작 감지와 같은 보다 정교한 이해 작업에서 VideoMAE 모델의 표현 기능을 추가로 검증했습니다. 실험을 위해 AVA v2.2 데이터 세트를 선택했습니다. 실험에서는 먼저 Kinetics-400 데이터 세트에 사전 훈련된 모델을 로드한 다음 ViT를 감독 방식으로 미세 조정합니다. VideoMAE로 사전 훈련된 ViT 모델이 AVA v2.2 데이터 세트에서 매우 좋은 결과를 얻을 수 있다는 것을 표에서 확인할 수 있습니다. 자가 지도 사전 학습된 ViT 모델을 Kinetics-400에서 추가로 미세 조정하여 감독하면 동작 감지 작업에서 더 나은 성능을 발휘할 수 있습니다(3 mAP-6mAP 개선). 이는 또한 업스트림 데이터 세트에 대해 지도 미세 조정을 수행한 다음 다운스트림 작업으로 마이그레이션함으로써 VideoMAE 자체 지도 사전 학습 모델의 성능이 더욱 향상될 수 있음을 보여줍니다. 올해 4월 VideoMAE의 모델과 코드를 오픈소스화하여 커뮤니티로부터 지속적인 관심과 인정을 받았습니다. Paper with Code 목록에 따르면 VideoMAE는 Something-Something V2[1] 및 AVA 2.2[2] 목록에서 반년(2022년 3월 말부터 2022년 3월 말까지) 동안 1위를 차지했습니다. 현재의). 외부 데이터를 활용하지 않고도 Kinetics-400[3], UCF101[4] 및 HMDB51[5] 데이터 세트에 대한 VideoMAE의 결과도 지금까지 최고입니다. https://huggingface.co/docs/transformers/main/en/model_doc/videomae 몇 달 전 VideoMAE의 모델이 Hugging Face의 Transformers 공식 창고에 포함되었습니다. 이 저장소에 포함된 최초의 비디오 이해 모델입니다! 어느 정도는 우리 작업에 대한 커뮤니티의 인식도 반영됩니다! 우리의 작업이 Transformer 기반 비디오 사전 훈련을 위한 간단하고 효율적인 기본 방법을 제공하고 후속 Transformer 기반 비디오 이해 방법에 영감을 줄 수 있기를 바랍니다. https://github.com/open-mmlab/mmaction2/tree/dev-1.x/configs/recognition/videomae 현재 비디오 이해 웨어하우스 MMAction2는 VideoMAE 모델의 추론도 지원합니다. . 방금 끝난 ECCV 2022 제2회 국제 Ego4D 워크숍에서 VideoMAE는 모든 사람이 게임을 플레이하는 데 도움이 되는 도구로 빠르게 자리 잡았습니다. Shanghai Artificial Intelligence Laboratory는 이 Ego4D 챌린지의 여러 하위 트랙에서 우승을 차지했습니다. 그중 VideoMAE는 솔루션에 강력한 비디오 기능을 제공하는 중요한 백본 역할을 합니다. 위의 첫 번째 그림에서 Kinetics-400에서만 사전 훈련된 VideoMAE(ViT-L)의 효과가 이미 IG-65M 비디오 데이터 세트(대략 Kinetics-400)의 효과를 능가할 수 있음을 알 수 있습니다. 사전 훈련된 ir-CSN-152에서 데이터를 300번 샘플링합니다. 이는 또한 VideoMAE 사전 훈련된 모델의 강력한 표현 능력을 더욱 검증합니다. 우리 작업의 주요 기여는 다음 세 가지 측면을 포함합니다: • 우리는 ViT 마스킹 및 재구성을 기반으로 한 비디오 자체 감독 사전 훈련 프레임워크인 VideoMAE를 최초로 제안했습니다. 소규모 비디오 데이터 세트에 대한 자체 지도 사전 학습을 통해 VideoMAE는 여전히 뛰어난 성능을 달성할 수 있습니다. 시간적 중복과 시간적 상관관계로 인해 발생하는 "정보 유출" 문제를 해결하기 위해 매우 높은 마스킹 비율을 갖는 튜브 마스킹을 제안합니다. 실험에 따르면 이 디자인은 SOTA 효과를 달성하는 VideoMAE의 궁극적인 능력의 핵심입니다. 동시에 VideoMAE의 비대칭 인코더-디코더 아키텍처로 인해 사전 학습 프로세스의 계산 소비가 크게 줄어들어 사전 학습 프로세스 시간이 크게 절약됩니다. • VideoMAE는 자연스러우면서도 가치 있는 방식으로 NLP 및 이미지 분야의 경험을 비디오 이해 분야로 성공적으로 확장했으며, 마스킹 및 재구성을 기반으로 한 간단한 프록시 작업이 비디오 자체 감독 사전에 간단하지만 가치 있는 방법을 제공할 수 있음을 검증했습니다. -훈련. 매우 효과적인 솔루션입니다. 자기 감독 사전 훈련을 위해 VideoMAE를 사용한 후, 비디오 이해 분야의 다운스트림 작업(예: 동작 인식, 동작 감지)에서 ViT 모델의 성능은 처음부터 훈련(처음부터 훈련) 또는 대조 학습보다 훨씬 뛰어납니다. 방법(대조 학습). • 실험 중에 NLP 및 이미지 이해에 대한 이전 연구 작업에서 간과되었을 수 있는 두 가지 흥미로운 결과가 있습니다. (1) VideoMAE는 데이터 효율적인 학습자입니다. 약 3,000개의 비디오로 구성된 HMDB51 비디오 데이터 세트에서도 VideoMAE는 자가 감독 사전 훈련을 완료할 수 있으며 다운스트림 분류 작업에서 다른 방법을 훨씬 능가하는 결과를 얻을 수 있습니다. (2) 비디오 자가 지도 사전 훈련의 경우, 사전 훈련 데이터 세트와 다운스트림 작업 데이터 세트 사이에 명백한 영역 차이가 있는 경우 비디오 데이터의 품질이 수량보다 더 중요할 수 있습니다. 방법 소개
MAE 개요
비디오 데이터 특성
이전 기사의 문제를 해결하기 위해 비디오 사전 훈련 중 마스킹 및 재구성 작업을 사용할 때 발생할 수 있는 문제를 해결하기 위해 VideoMAE
시간적 다운샘플링
시공간 블록 임베딩
마스킹 비율이 매우 높은 파이프라인 마스킹 전략
시공간 공동 자체 주의 메커니즘
VideoMAE 구현 세부 정보
절제 실험
디코더 디자인
Mask Strategies
Reconstruction target
사전 훈련 전략
사전 훈련 데이터 세트
사전 훈련 라운드
VideoMAE의 중요한 기능
VideoMAE는 데이터 효율적인 학습자입니다
매우 높은 마스킹 비율
일반화 및 전송 기능: 데이터의 품질과 양
주요 결과
커뮤니티에 미치는 영향
요약
위 내용은 VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!