VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임-일체 포함-php.cn

1. 배경 소개2. 연구 동기3. VideoMAE 구현 세부 사항5. VideoMAE
7. . 커뮤니티에 Impact
9. 요약

배경 소개

비디오 자기 지도 학습: 레이블 정보를 사용하지 않고 자기 지도 에이전트 작업을 설계하여 비디오 데이터에서 시공간 표현 정보를 학습합니다. 기존 비디오 자기지도 사전 학습 알고리즘은 크게 두 가지 범주로 나뉩니다. (1) CoCLR, CVRL 등과 같은 대조 학습을 기반으로 하는 자기 지도 방법. (2) DPC, SpeedNet, Pace 등 시계열 관련 에이전트 작업을 기반으로 한 자기 감독 방법.

동작 인식: 주어진 트리밍된 비디오(Trimmed Video)를 분류하고 이 비디오 속 캐릭터의 동작을 식별합니다. 현재 주류 방식은 2D 기반(TSN, TSM, TDN 등), 3D 기반(I3D, SlowFast 등), Transformer 기반(TimeSformer, ViViT, MViT, VideoSwin 등)이 있습니다. 비디오 분야의 기본 작업으로 동작 인식은 비디오 분야의 다양한 다운스트림 작업(시간적 행동 탐지, 시공간적 동작 탐지 등)을 위한 백본 네트워크(Backbone)로 사용되어 전체 비디오 수준에서 시공간적 특징을 추출하거나 또는 비디오 클립 수준에서.

동작 감지: 이 작업은 영상의 동작 분류, 영상 속 캐릭터의 동작 식별뿐만 아니라 공간 범위 내에서 경계 상자를 사용하여 캐릭터의 공간 위치를 표시해야 합니다. 동작 감지에는 영화 비디오 분석, 스포츠 비디오 분석 및 기타 시나리오에서 광범위한 응용 시나리오가 있습니다.

연구 동기

2020년 말 시각적 self-attention 모델(Vision Transformer)이 제안된 이후 Transformer는 컴퓨터 비전 분야에서 널리 사용되어 왔으며 일련의 컴퓨터 비전 성능 향상에 도움을 주었습니다. 작업.

그러나 Vision Transformer는 훈련을 위해 대규모 레이블이 지정된 데이터 세트를 활용해야 합니다. 처음에 원본 ViT(Vanilla Vision Transformer)는 수억 개의 레이블이 지정된 이미지를 사용한 지도 사전 학습을 통해 좋은 성능을 달성했습니다. 현재 비디오 변환기는 일반적으로 이미지 데이터(예: TimeSformer, ViViT 등)에 대해 훈련된 Vision Transformer 모델을 기반으로 하며 사전 훈련된 대규모 이미지 데이터 모델(예: ImageNet-1K, ImageNet-21K, JFT- 300M 등). TimeSformer와 ViViT는 모두 비디오 데이터 세트에서 Video Transformer 모델을 처음부터 훈련하려고 시도했지만 만족스러운 결과를 얻지 못했습니다. 따라서 다른 사전 훈련된 모델이나 추가적인 이미지 데이터를 사용하지 않고 Video Transformer, 특히 원본 ViT(Vanilla Vision Transformer)를 비디오 데이터 세트에서 직접 효과적으로 훈련하는 방법은 여전히 해결해야 할 시급한 문제입니다. 기존 비디오 데이터세트는 이미지 데이터세트에 비해 상대적으로 작다는 점에 유의해야 합니다. 예를 들어, 널리 사용되는 Kinectics-400 데이터 세트에는 200,000개가 넘는 훈련 샘플만 있습니다. 샘플 수는 ImageNet-21K 데이터 세트의 약 1/50, JFT-300M 데이터 세트의 1/1500입니다. 몇 배의 차이가 납니다. 동시에, 이미지 모델을 훈련하는 것에 비해 비디오 모델을 훈련하는 데 드는 계산 오버헤드도 훨씬 높습니다. 이로 인해 비디오 데이터 세트에 대한 Video Transformer 교육의 어려움이 더욱 높아집니다.

최근에는 "마스킹 및 재구성"이라는 자율 학습 패러다임이 자연어 처리(BERT) 및 이미지 이해(BEiT, MAE) 분야에서 성공을 거두었습니다. 따라서 우리는 이 자기 감독 패러다임을 사용하여 비디오 데이터 세트에 대한 Video Transformer를 훈련시키고 Masked Autoencoder의 프록시 작업을 기반으로 하는 비디오 자기 감독 사전 훈련 알고리즘 VideoMAE(Video MAE)를 제안합니다. ). VideoMAE로 사전 학습된 ViT 모델은 Kinetics-400 및 Something-Something V2와 같은 대규모 비디오 데이터 세트는 물론 UCF101 및 HMDB51과 같은 상대적으로 작은 비디오 데이터 세트에서 다른 방법보다 훨씬 더 나은 결과를 얻을 수 있습니다.

방법 소개

MAE 개요

MAE는 비대칭 인코더-디코더 아키텍처를 채택하여 마스킹 및 재구성의 자체 감독 사전 학습 작업을 수행합니다. 224x224 해상도 입력 이미지는 먼저 16×16 크기의 겹치지 않는 시각적 픽셀 블록(토큰)으로 나뉩니다. 각 픽셀 블록(토큰)은 블록 임베딩(토큰 임베딩) 작업을 통해 고차원 특징으로 변환됩니다. MAE는 더 높은 마스크 비율(75%)을 사용하여 일부 픽셀 블록(토큰)을 무작위로 마스크 처리합니다. 마스킹 작업 후 나머지 픽셀 블록은 특징 추출을 위해 인코더로 전송됩니다. 그 직후, 인코더에서 추출된 특징 블록은 미리 설정된 학습 가능한 픽셀 블록(학습 가능한 토큰)의 다른 부분과 접합되어 원래 입력 이미지 크기만큼 큰 특징을 형성합니다. 마지막으로 경량 디코더를 사용하여 이러한 특징을 기반으로 원본 이미지를 재구성합니다(실제 실험 과정에서 재구성 대상은 정규화된 픽셀 블록(정규화된 토큰)입니다.

비디오 데이터 특성

이미지와 비교) 데이터에 대한 다양한 마스킹 전략의 예

VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임 시간적 중복

비디오 데이터에는 조밀한 이미지 프레임과 의미가 포함되어 있습니다. 이러한 이미지 프레임에 포함된 정보는 시간이 지남에 따라 매우 느리게 변하는 것을 볼 수 있습니다. 그림에서 볼 수 있듯이 컬러 이미지 프레임은 중복성이 매우 높으므로 MAE를 구현하는 과정에서 두 가지 문제가 발생할 수 있습니다. 첫째, 사전 훈련에 원본 비디오의 조밀한 프레임 속도(예: 30FPS)를 사용하면 이 설정으로 인해 네트워크가 정적 외관 특성에 더 많은 주의를 기울이게 되기 때문에 훈련 효율성이 매우 낮습니다. 둘째, 비디오의 시간적 중복성은 비디오 모션 특성을 크게 약화시킵니다. 따라서 이러한 상황은 일반 마스킹 속도(예: 50)에서 마스킹된 픽셀 블록을 재구성하는 작업을 상대적으로 간단하게 만듭니다. % ~ 75%) 이러한 문제는 인코더로서 Backbone에 영향을 미칩니다. 모션 특징은 사전 학습 과정에서 추출됩니다.

시간적 상관

비디오는 시간이 지남에 따라 정적 이미지가 진화하여 생성된 것으로 간주할 수 있습니다. 따라서 비디오 프레임 간에 의미론적 일치가 존재하므로 이러한 시간적 상관 관계는 재구성 프로세스 중에 "정보 유출" 위험을 증가시킬 수 있습니다. 마스크 이미지 프레임이 사용됩니다. 네트워크는 비디오의 시간적 상관 관계를 사용하여 인접한 프레임의 해당 시간적 위치에 폐색되지 않은 픽셀 블록을 "복사 및 붙여넣기"하여 픽셀 블록 재구성을 수행할 수 있습니다. 이 경우 프록시 작업도 수행될 수 있습니다. 이는 VideoMAE가 비디오 콘텐츠에 대한 시공간 추론 기능과 같은 높은 수준의 추상적인 의미 정보가 아닌 낮은 의미의 시간 대응 기능만 학습하게 할 수 있습니다. 새로운 마스킹 전략을 설계해야 네트워크가 비디오의 시공간 특징 표현을 더 잘 학습할 수 있습니다.

전체 프레임워크 of VideoMAE

이전 기사의 문제를 해결하기 위해 비디오 사전 훈련 중 마스킹 및 재구성 작업을 사용할 때 발생할 수 있는 문제를 해결하기 위해 VideoMAE

에 몇 가지 새로운 디자인을 도입했습니다.

시간적 다운샘플링

비디오의 조밀한 연속 프레임에 존재하는 시간적 중복에 대한 이전 분석에 따르면, 우리는 보다 효율적인 비디오 자체 지도 예측을 위해 VideoMAE에서 시간적 간격이 있는 샘플링 전략을 채택하기로 결정했습니다. 구체적으로 $t$ 연속 프레임으로 구성된 비디오 세그먼트는 먼저 원본 비디오에서 무작위로 샘플링됩니다. 그런 다음 비디오 클립은 시간적 간격 샘플링을 사용하여 각각 VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임 픽셀을 포함하는 프레임으로 압축됩니다. 특정 실험 설정에서 Kinetics-400 및 Something-Something V2 데이터 세트의 샘플링 간격은 각각 4와 2로 설정됩니다.

시공간 블록 임베딩

인코더에 입력되기 전 샘플링된 비디오 클립은 시공간 조인트 형태로 임베딩된 픽셀 블록입니다. 특히 VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임 크기의 비디오 클립에서 크기의 시각적 픽셀은 하나의 시각적 픽셀 블록으로 간주됩니다. 따라서 샘플링된 비디오 클립이 시공간 블록 임베딩(큐브 임베딩) 레이어를 통과한 후 VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임 시각적 픽셀 블록을 얻을 수 있습니다. 이 프로세스에서 시각적 픽셀 블록의 채널 크기도 매핑됩니다. 이러한 설계는 입력 데이터의 시공간 차원 크기를 줄일 수 있으며, 비디오 데이터의 시공간 중복성을 어느 정도 완화하는 데에도 도움이 됩니다.

마스킹 비율이 매우 높은 파이프라인 마스킹 전략

비디오 데이터의 시간적 중복성과 시간적 상관 관계로 인해 발생하는 "정보 유출" 문제를 해결하기 위해 이 방법을 선택합니다. 사전 훈련 과정. 파이프라인 마스킹 전략은 단일 프레임 컬러 이미지의 마스킹 방법을 전체 비디오 시퀀스로 자연스럽게 확장할 수 있습니다. 즉, 서로 다른 프레임의 동일한 공간 위치에 있는 시각적 픽셀 블록이 마스킹됩니다. 구체적으로 파이프라인 마스킹 전략은 로 표현할 수 있습니다. 서로 다른 시간은 동일한 값을 공유합니다. 이 마스킹 전략을 사용하면 동일한 공간 위치에 있는 토큰이 항상 마스킹됩니다. 따라서 일부 시각적 픽셀 패치(예: 다양한 마스킹 전략의 예시 이미지에서 4번째 줄에 손가락이 포함된 픽셀 패치)의 경우 네트워크는 다른 프레임에서 해당 부분을 찾을 수 없습니다. 이 설계는 재구성 프로세스 중 "정보 유출" 위험을 완화하는 데 도움이 되며 VideoMAE는 원본 비디오 클립에서 높은 수준의 의미 정보를 추출하여 마스크된 토큰을 재구성할 수 있습니다.

이미지 데이터에 비해 비디오 데이터는 중복성이 더 강하며, 비디오 데이터의 정보 밀도는 이미지보다 훨씬 낮습니다. 이 기능을 통해 VideoMAE는 사전 훈련에 매우 높은 마스크 비율(예: 90% ~ 95%)을 사용할 수 있습니다. MAE의 기본 마스크 비율이 75%라는 점은 주목할 가치가 있습니다. 실험 결과에 따르면 극도로 높은 마스크 비율을 사용하면 사전 훈련 속도를 높일 수 있을 뿐만 아니라(시각적 픽셀 블록의 5~10%만 인코더에 입력됨) 모델의 표현 능력과 다운스트림 효과도 향상됩니다. 작업.

시공간 공동 자체 주의 메커니즘

이전 기사에서 언급했듯이 VideoMAE는 매우 높은 마스킹 비율을 사용하며 매우 적은 수의 토큰만 인코더에 대한 입력으로 유지합니다. 폐색되지 않은 토큰의 이 부분의 시공간적 특징을 더 잘 추출하기 위해 VideoMAE는 원래 ViT를 백본으로 사용하기로 선택했으며 동시에 주의 계층(즉, 모델 구조)에서 시공간 조인트 셀프 어텐션을 사용했습니다. 원래 ViT는 변경되지 않았습니다). 따라서 모든 폐쇄되지 않은 토큰은 self-attention 레이어에서 서로 상호 작용할 수 있습니다. 시공간 공동 self-attention 메커니즘의 VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임 수준 계산 복잡성은 네트워크의 계산 병목 현상입니다. 이전 기사에서는 VideoMAE에 매우 높은 마스크 비율 전략이 사용되었으며 마스크되지 않은 토큰만 사용되었습니다(예: 10%)이 용기의 인코딩에 입력되었습니다. 이 디자인은 VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임 레벨 계산의 복잡성 문제를 어느 정도 효과적으로 완화할 수 있습니다.

VideoMAE 구현 세부 정보

VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임

VideoMAE 프레임워크의 특정 디자인 세부 정보

위 그림은 VideoMAE에서 사용하는 인코더 및 디코더의 특정 아키텍처 디자인을 보여줍니다(ViT-B를 예로 사용). . 우리는 4개의 다운스트림 비디오 동작 인식 데이터 세트와 1개의 동작 감지 데이터 세트에 대해 VideoMAE를 평가합니다. 이러한 데이터 세트는 비디오 모션 정보의 다양한 측면에 중점을 둡니다. Kinetics-400은 400개의 다양한 동작 카테고리를 포괄하는 약 300,000개의 잘린 비디오 클립을 포함하는 대규모 YouTube 비디오 데이터세트입니다. Kinetics-400 데이터 세트는 주로 일상 생활에서의 활동을 포함하며 일부 카테고리는 대화형 개체 또는 장면 정보와 높은 상관 관계를 갖습니다. Something-Something V2 데이터 세트의 비디오에는 주로 동일한 동작을 수행하는 다양한 개체가 포함되어 있으므로 이 데이터 세트의 동작 인식은 개체나 장면 정보보다는 동작 속성에 더 중점을 둡니다. 훈련 세트에는 약 170,000개의 비디오 클립이 포함되어 있고 검증 세트에는 약 25,000개의 비디오 클립이 포함되어 있습니다. UCF101과 HMDB51은 비교적 작은 두 개의 비디오 동작 인식 데이터세트입니다. UCF101의 훈련 세트에는 약 9500개의 비디오가 포함되어 있고, HMDB51의 훈련 세트에는 약 3500개의 비디오가 포함되어 있습니다. 실험 중에 우리는 먼저 VideoMAE를 사용하여 훈련 세트에서 네트워크의 자체 감독 사전 훈련을 수행한 다음 훈련 세트에서 인코더(ViT)의 감독 미세 조정을 수행하고 마지막으로 모델 성능을 평가했습니다. 검증 세트. 동작 감지 데이터 세트 AVA의 경우 먼저 Kinetics-400 데이터 세트에서 훈련된 모델을 로드하고 ViT(인코더 감독 미세 조정)를 수행합니다.

절제 실험

이 섹션에서는 Something-Something V2 및 Kinetics-400 데이터 세트에서 VideoMAE에 대한 절제 실험을 수행합니다. 절제 실험에서는 기본적으로 16프레임의 입력이 있는 원본 ViT 모델을 사용합니다. 동시에 미세 조정 후 평가 시 Something-Something V2에서는 비디오 클립 2개와 크롭 3개를 테스트하고 Kinetics-400에서는 비디오 클립 5개와 크롭 3개를 테스트하도록 선택했습니다.

VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임

디코더 디자인

경량 디코더는 VideoMAE의 핵심 구성 요소입니다. 다양한 깊이의 디코더를 사용한 실험 결과는 표 (a)에 나와 있습니다. MAE와 달리 VideoMAE의 더 깊은 디코더는 더 나은 성능을 달성할 수 있는 반면, 더 얕은 디코더는 GPU 메모리 사용량을 효과적으로 줄일 수 있습니다. 디코더 레이어 수는 기본적으로 4로 설정됩니다. MAE의 경험적 설계에 따라 VideoMAE의 디코더 채널 폭은 인코더 채널 폭의 절반으로 설정됩니다(예를 들어 ViT-B가 인코더로 사용되는 경우 디코더의 채널 폭은 384로 설정됩니다) ).

Mask Strategies

다양한 마스킹 전략을 75%의 마스킹 비율을 사용하는 파이프라인 마스킹 전략과 비교합니다. 표 (b)에서 볼 수 있듯이 전역 무작위 마스킹 및 무작위 마스킹 이미지 프레임의 성능은 파이프라인 마스킹 전략보다 나쁩니다. 이는 파이프라인 마스킹 전략이 비디오 데이터의 타이밍 중복성과 타이밍 상관 관계를 어느 정도 완화할 수 있다는 사실 때문일 수 있습니다. 마스크 비율을 90%로 높이면 Something-Something에 대한 VideoMAE의 성능이 68.0%에서 69.6%로 더욱 향상될 수 있습니다. VideoMAE의 마스킹 전략 및 마스킹 비율 설계는 마스킹과 재구성을 더욱 어려운 프록시 작업으로 만들어 모델이 더 높은 수준의 시공간 기능을 학습하도록 할 수 있습니다.

Reconstruction target

여기에서 VideoMAE의 재구성 대상을 비교하고 그 결과를 표(c)에 표시합니다. 첫째, 비디오 클립의 중앙 프레임만 재구성 대상으로 사용하는 경우 다운스트림 작업에서 VideoMAE의 성능이 크게 저하됩니다. 동시에 VideoMAE는 샘플링 간격에도 매우 민감합니다. 더 조밀하게 압축된 비디오 클립을 재구성하기로 선택한 경우 결과는 일시적으로 다운샘플링된 기본 비디오 클립보다 훨씬 낮습니다. 마지막으로 우리는 일시적으로 다운샘플링된 비디오 클립에서 비디오 클립의 더 밀도가 높은 프레임을 재구성하려고 시도했지만 이 설정에는 더 많은 프레임을 디코딩해야 하므로 훈련 속도가 느려지고 그다지 효과적이지 않습니다.

사전 훈련 전략

여기서 VideoMAE의 사전 훈련 전략을 비교하고 결과를 표(d)에 표시합니다. 이전 방법(TimeSformer, ViViT)의 실험적 결론과 유사하게 모션 정보에 더 민감한 데이터 세트인 Something-Something V2에서 ViT를 처음부터 훈련하는 것은 만족스러운 결과를 얻을 수 없습니다. 대규모 이미지 데이터 세트(ImageNet-21K)에 대해 사전 훈련된 ViT 모델을 초기화로 사용하면 더 나은 정확도를 얻을 수 있으며 이는 32.6%에서 61.8%로 향상될 수 있습니다. ImageNet-21K 및 Kinetics-400에서 사전 훈련된 모델을 사용하면 정확도가 65.2%로 더욱 향상되었습니다. VideoMAE를 사용하여 비디오 데이터 세트 자체에서 사전 학습된 ViT는 궁극적으로 추가 데이터를 사용하지 않고도 69.6%의 최고 성능을 달성할 수 있습니다. Kinetics-400에서도 유사한 결론이 도출되었습니다.

사전 훈련 데이터 세트

VideoMAE의 사전 훈련 데이터 세트를 여기서 비교하고 결과를 표 (e)에 표시합니다. 첫째, MAE 설정에 따라 ViT는 ImageNet-1K에서 1600 epoch 동안 사전 훈련된 자체 감독을 받습니다. 그런 다음 2D 블록 임베딩 레이어는 I3D의 전략을 사용하여 3D 시공간 블록 임베딩 레이어로 확장되고 모델은 비디오 데이터 세트에서 미세 조정됩니다. 이 훈련 패러다임은 처음부터 지도를 통해 훈련된 모델보다 성능이 뛰어날 수 있습니다. 다음으로, MAE 사전 훈련된 모델의 성능을 Kinetics-400에서 VideoMAE 사전 훈련된 ViT 모델과 비교했습니다. VideoMAE가 MAE보다 더 나은 성능을 달성할 수 있음을 알 수 있습니다. 그러나 사전 훈련된 두 모델 모두 Something-Something V2 데이터 세트에 대해 사전 훈련된 자체 지도 방식인 VideoMAE보다 더 나은 성능을 달성하지 못했습니다. 사전 훈련 데이터 세트와 목표 데이터 세트의 영역 차이가 중요한 문제가 될 수 있음을 분석할 수 있습니다.

사전 훈련 라운드

VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임

VideoMAE의 총 사전 훈련 라운드의 영향

절제 실험에서 VideoMAE 사전 훈련 라운드의 총 수는 기본적으로 800으로 설정됩니다. . 우리는 Kinetics-400 및 Something-Something V2 데이터 세트에 대한 사전 훈련 시대에 대한 심층적인 탐색을 시도합니다. 그림의 결과에 따르면, 더 긴 사전 훈련 에포크를 사용하면 두 데이터 세트 모두에서 일관된 이득을 얻을 수 있습니다.

VideoMAE의 중요한 기능

VideoMAE는 데이터 효율적인 학습자입니다

VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임

다양한 다운스트림 비디오 동작 인식 데이터 세트에서 VideoMAE와 MoCov3의 성능 비교

많은 이전 연구에서 비디오 자기주도 사전 훈련에 대한 광범위한 연구를 수행했지만 이러한 방법은 주로 컨벌루션 신경망을 백본으로 사용하고 ViT 기반 훈련 메커니즘을 연구하는 방법은 거의 없습니다. 따라서 비디오 자체 감독 사전 훈련에 대한 ViT 기반 VideoMAE의 효율성을 검증하기 위해 두 가지 ViT 기반 훈련 방법을 비교했습니다. (1) 처음부터 모델의 감독 훈련, (2) 대조 학습 방법(MoCo) 사용 v3) 자기 감독 사전 훈련을 수행합니다. 실험 결과에 따르면 VideoMAE가 다른 두 가지 훈련 방법보다 훨씬 우수하다는 것을 알 수 있습니다. 예를 들어, 데이터 크기가 가장 큰 Kinetics-400 데이터 세트에서 VideoMAE는 처음부터 훈련하는 것보다 약 10% 더 정확하고 MoCo v3 사전 훈련 결과보다 약 6% 더 높습니다. VideoMAE의 뛰어난 성능은 마스킹 및 재구성의 자체 감독 패러다임이 ViT에 대한 효율적인

사전 훈련 메커니즘을 제공한다는 것을 보여줍니다. 동시에 훈련 세트가 작아질수록 VideoMAE와 다른 두 가지 훈련 방법 간의 성능 격차가 점점 더 커진다는 점은 주목할 가치가 있습니다. HMDB51 데이터세트에 약 3,500개의 비디오 클립만 포함되어 있음에도 불구하고 VideoMAE를 기반으로 사전 훈련된 모델은 여전히 매우 만족스러운 정확도를 달성할 수 있다는 점은 주목할 가치가 있습니다. 이 새로운 결과는 VideoMAE가 데이터 효율적인 학습자임을 보여줍니다. 이는 사전 학습을 위해 많은 양의 데이터가 필요한 대조 학습과 다릅니다. VideoMAE의 데이터 효율적인 기능은 비디오 데이터가 제한된 시나리오에서 특히 중요합니다.

VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임

Something-SomethingV2 데이터 세트에서 VideoMAE 및 MoCov3의 효율성 분석

또한 사전 훈련에 VideoMAE를 사용하고 사전 훈련에 MoCo v3을 사용하는 경우의 계산 효율성을 추가로 비교했습니다. 마스킹 및 재구성이라는 매우 어려운 프록시 작업으로 인해 네트워크는 각 반복에서 입력 데이터의 10%(토큰의 90%가 마스킹됨)만 관찰할 수 있으므로 VideoMAE에는 더 많은 교육 라운드가 필요합니다. 매우 높은 비율의 토큰이 가려져 있습니다. 이 설계는 계산 소모와 사전 훈련 시간을 크게 절약합니다. 800회 라운드에 대한 VideoMAE 사전 훈련은 19.5시간만 소요되는 반면, 300회 라운드에 대한 MoCo v3 사전 훈련은 61.7시간이 소요됩니다.

매우 높은 마스킹 비율

VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임

VideoMAE에서 마스킹 비율의 영향

매우 높은 마스킹 비율은 VideoMAE의 핵심 디자인 중 하나입니다. 우리는 Kinetics-400 및 Something-Something V2 데이터 세트에서 이 디자인에 대한 심층적인 탐색을 수행합니다. 그림의 결과에 따르면 마스크 비율이 95%로 매우 높은 경우에도 네트워크는 다운스트림 비디오 동작 인식 작업을 위한 이 두 가지 중요한 데이터 세트에서 여전히 뛰어난 성능을 보여줍니다. 이러한 현상은 자연어 처리 분야의 BERT나 이미지 분야의 MAE와는 큰 차이가 있습니다. 비디오 데이터에 시간적 중복성과 시간적 상관 관계가 존재하므로 VideoMAE는 이미지 데이터 및 자연어에 비해 매우 높은 마스크 비율로 작동할 수 있습니다.

VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임

또한 사전 훈련된 VideoMAE의 재구성 예를 시각화합니다. VideoMAE는 매우 높은 마스크 속도에서도 만족스러운 재구성 결과를 생성할 수 있다는 것을 그림에서 확인할 수 있습니다. 이는 VideoMAE가 비디오의 시공간 특징을 학습하고 추출할 수 있음을 의미합니다.

일반화 및 전송 기능: 데이터의 품질과 양

VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임

더 작은 데이터 세트에서 VideoMAE와 MoCov3 간의 기능 전송 기능 성능 비교

VideoMAE에서 학습한 기능을 추가로 연구하기 위해 이 섹션에서는 사전 훈련된 VideoMAE의 일반화 및 전송 기능을 평가합니다. 위 표는 Something-Something V2, UCF101 및 HMDB51 데이터 세트로 설정된 Kinetics-400 데이터에 사전 훈련된 VideoMAE의 전송 효과를 보여줍니다. 동시에 이 표는 MoCo v3를 사용하여 사전 훈련된 모델의 마이그레이션 능력도 보여줍니다. 표의 결과에 따르면 VideoMAE를 사용하여 사전 훈련된 모델의 전송 및 일반화 기능은 MoCo v3을 기반으로 사전 훈련된 모델보다 우수합니다. 이는 VideoMAE가 더 많은 전송 가능한 기능 표현을 학습할 수 있음을 보여줍니다. Kinetics-400 데이터세트에서 사전 훈련된 VideoMAE는 UCF101 및 HMDB51 데이터세트에서 직접 사전 훈련된 VideoMAE보다 성능이 뛰어납니다. 그러나 Kinetics-400 데이터 세트에서 사전 훈련된 모델은 Something-Something V2 데이터 세트에서 제대로 전송되지 않습니다.

VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임

이 불일치의 이유를 더 자세히 살펴보기 위해 우리는 Something-Something V2 데이터세트에서 사전 학습 동영상 수를 줄이는 실험을 수행했습니다. 탐색 프로세스에는 두 가지 실험이 포함됩니다. (1) 사전 훈련에 동일한 수의 훈련 라운드(epoch)를 사용하고, (2) 사전 훈련에 동일한 반복 횟수(반복)를 사용합니다. 그림의 결과에서 사전 훈련 샘플 수를 줄일 때 더 많은 훈련 반복을 사용하면 모델 성능도 향상될 수 있음을 알 수 있습니다. 사전 훈련된 비디오가 42,000개만 사용되더라도 Something-Something V2 데이터 세트에서 직접 훈련된 VideoMAE는 240,000개의 비디오 데이터를 사용하는 사전 훈련된 Kinetics-400 데이터 세트보다 더 나은 정확도(68.7% 대 68.5%)를 달성할 수 있습니다. 이 결과는 사전 훈련 데이터 세트와 목표 데이터 세트 간에 도메인 차이가 있는 경우 사전 훈련 데이터의 품질이 더 중요하다는 것을 의미합니다. 데이터의 양보다 동시에, 이 발견은 VideoMAE가 비디오 자가 지도 사전 훈련을 위한 데이터 효율적인 학습자임을 간접적으로 확인합니다.

주요 결과

VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임

Something-Something V2 데이터 세트 실험 결과

VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임

Kinetics-400 데이터 세트 실험 결과

VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임

UCF101 및 HMDB51 데이터 세트 실험 결과

추가 데이터를 사용하지 않고 Something-Something V2 및 Kinetics-400에 대한 VideoMAE의 Top-1 정확도는 각각 75.4% 및 87.4%에 도달했습니다. Something-Something V2 데이터 세트의 현재 최첨단 방법은 외부 데이터 세트에 사전 훈련된 모델의 초기화에 크게 의존한다는 점에 유의해야 합니다. 이와 대조적으로 VideoMAE는 외부 데이터를 활용하지 않고도 이전의 최상의 방법보다 정확도가 약 5% 더 뛰어납니다. VideoMAE는 Kinetics-400 데이터 세트에서도 뛰어난 성능을 달성할 수 있습니다. 제한된 비디오 데이터의 경우(예: UCF101 데이터 세트에는 10,000개 미만의 교육 비디오만 포함되고 HMDB51에는 약 3500개의 교육 비디오만 포함됨) VideoMAE는 추가 이미지 및 비디오 데이터를 활용할 필요가 없으며 이는 소규모 비디오 데이터 세트에 대한 이전의 최상의 방법을 훨씬 능가합니다.

VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임

AVA v2.2 데이터 세트 실험 결과

기존 동작 분류 작업 외에도 비디오 동작 감지와 같은 보다 정교한 이해 작업에서 VideoMAE 모델의 표현 기능을 추가로 검증했습니다. 실험을 위해 AVA v2.2 데이터 세트를 선택했습니다. 실험에서는 먼저 Kinetics-400 데이터 세트에 사전 훈련된 모델을 로드한 다음 ViT를 감독 방식으로 미세 조정합니다. VideoMAE로 사전 훈련된 ViT 모델이 AVA v2.2 데이터 세트에서 매우 좋은 결과를 얻을 수 있다는 것을 표에서 확인할 수 있습니다. 자가 지도 사전 학습된 ViT 모델을 Kinetics-400에서 추가로 미세 조정하여 감독하면 동작 감지 작업에서 더 나은 성능을 발휘할 수 있습니다(3 mAP-6mAP 개선). 이는 또한 업스트림 데이터 세트에 대해 지도 미세 조정을 수행한 다음 다운스트림 작업으로 마이그레이션함으로써 VideoMAE 자체 지도 사전 학습 모델의 성능이 더욱 향상될 수 있음을 보여줍니다.

커뮤니티에 미치는 영향

올해 4월 VideoMAE의 모델과 코드를 오픈소스화하여 커뮤니티로부터 지속적인 관심과 인정을 받았습니다.

VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임

Paper with Code 목록에 따르면 VideoMAE는 Something-Something V2[1] 및 AVA 2.2[2] 목록에서 반년(2022년 3월 말부터 2022년 3월 말까지) 동안 1위를 차지했습니다. 현재의). 외부 데이터를 활용하지 않고도 Kinetics-400[3], UCF101[4] 및 HMDB51[5] 데이터 세트에 대한 VideoMAE의 결과도 지금까지 최고입니다.

VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임

https://huggingface.co/docs/transformers/main/en/model_doc/videomae

몇 달 전 VideoMAE의 모델이 Hugging Face의 Transformers 공식 창고에 포함되었습니다. 이 저장소에 포함된 최초의 비디오 이해 모델입니다! 어느 정도는 우리 작업에 대한 커뮤니티의 인식도 반영됩니다! 우리의 작업이 Transformer 기반 비디오 사전 훈련을 위한 간단하고 효율적인 기본 방법을 제공하고 후속 Transformer 기반 비디오 이해 방법에 영감을 줄 수 있기를 바랍니다.

https://github.com/open-mmlab/mmaction2/tree/dev-1.x/configs/recognition/videomae

현재 비디오 이해 웨어하우스 MMAction2는 VideoMAE 모델의 추론도 지원합니다. .

VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임

방금 끝난 ECCV 2022 제2회 국제 Ego4D 워크숍에서 VideoMAE는 모든 사람이 게임을 플레이하는 데 도움이 되는 도구로 빠르게 자리 잡았습니다. Shanghai Artificial Intelligence Laboratory는 이 Ego4D 챌린지의 여러 하위 트랙에서 우승을 차지했습니다. 그중 VideoMAE는 솔루션에 강력한 비디오 기능을 제공하는 중요한 백본 역할을 합니다. 위의 첫 번째 그림에서 Kinetics-400에서만 사전 훈련된 VideoMAE(ViT-L)의 효과가 이미 IG-65M 비디오 데이터 세트(대략 Kinetics-400)의 효과를 능가할 수 있음을 알 수 있습니다. 사전 훈련된 ir-CSN-152에서 데이터를 300번 샘플링합니다. 이는 또한 VideoMAE 사전 훈련된 모델의 강력한 표현 능력을 더욱 검증합니다.

요약

우리 작업의 주요 기여는 다음 세 가지 측면을 포함합니다:

• 우리는 ViT 마스킹 및 재구성을 기반으로 한 비디오 자체 감독 사전 훈련 프레임워크인 VideoMAE를 최초로 제안했습니다. 소규모 비디오 데이터 세트에 대한 자체 지도 사전 학습을 통해 VideoMAE는 여전히 뛰어난 성능을 달성할 수 있습니다. 시간적 중복과 시간적 상관관계로 인해 발생하는 "정보 유출" 문제를 해결하기 위해 매우 높은 마스킹 비율을 갖는 튜브 마스킹을 제안합니다. 실험에 따르면 이 디자인은 SOTA 효과를 달성하는 VideoMAE의 궁극적인 능력의 핵심입니다. 동시에 VideoMAE의 비대칭 인코더-디코더 아키텍처로 인해 사전 학습 프로세스의 계산 소비가 크게 줄어들어 사전 학습 프로세스 시간이 크게 절약됩니다.

• VideoMAE는 자연스러우면서도 가치 있는 방식으로 NLP 및 이미지 분야의 경험을 비디오 이해 분야로 성공적으로 확장했으며, 마스킹 및 재구성을 기반으로 한 간단한 프록시 작업이 비디오 자체 감독 사전에 간단하지만 가치 있는 방법을 제공할 수 있음을 검증했습니다. -훈련. 매우 효과적인 솔루션입니다. 자기 감독 사전 훈련을 위해 VideoMAE를 사용한 후, 비디오 이해 분야의 다운스트림 작업(예: 동작 인식, 동작 감지)에서 ViT 모델의 성능은 처음부터 훈련(처음부터 훈련) 또는 대조 학습보다 훨씬 뛰어납니다. 방법(대조 학습).

• 실험 중에 NLP 및 이미지 이해에 대한 이전 연구 작업에서 간과되었을 수 있는 두 가지 흥미로운 결과가 있습니다. (1) VideoMAE는 데이터 효율적인 학습자입니다. 약 3,000개의 비디오로 구성된 HMDB51 비디오 데이터 세트에서도 VideoMAE는 자가 감독 사전 훈련을 완료할 수 있으며 다운스트림 분류 작업에서 다른 방법을 훨씬 능가하는 결과를 얻을 수 있습니다. (2) 비디오 자가 지도 사전 훈련의 경우, 사전 훈련 데이터 세트와 다운스트림 작업 데이터 세트 사이에 명백한 영역 차이가 있는 경우 비디오 데이터의 품질이 수량보다 더 중요할 수 있습니다.

위 내용은 VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7563

Cakephp 튜토리얼

1385

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

Bytedance Cutting, SVIP 슈퍼 멤버십 출시: 연간 연속 구독료 499위안, 다양한 AI 기능 제공 Jun 28, 2024 am 03:51 AM

이 사이트는 6월 27일에 Jianying이 ByteDance의 자회사인 FaceMeng Technology에서 개발한 비디오 편집 소프트웨어라고 보도했습니다. 이 소프트웨어는 Douyin 플랫폼을 기반으로 하며 기본적으로 플랫폼 사용자를 위한 짧은 비디오 콘텐츠를 제작합니다. Windows, MacOS 및 기타 운영 체제. Jianying은 멤버십 시스템 업그레이드를 공식 발표하고 지능형 번역, 지능형 하이라이트, 지능형 패키징, 디지털 인간 합성 등 다양한 AI 블랙 기술을 포함하는 새로운 SVIP를 출시했습니다. 가격면에서 SVIP 클리핑 월 요금은 79위안, 연간 요금은 599위안(본 사이트 참고: 월 49.9위안에 해당), 월간 연속 구독료는 월 59위안, 연간 연속 구독료는 59위안입니다. 연간 499위안(월 41.6위안)입니다. 또한, 컷 관계자는 "사용자 경험 향상을 위해 기존 VIP에 가입하신 분들도

Rag 및 Sem-Rag를 사용한 상황 증강 AI 코딩 도우미 Jun 10, 2024 am 11:08 AM

검색 강화 생성 및 의미론적 메모리를 AI 코딩 도우미에 통합하여 개발자 생산성, 효율성 및 정확성을 향상시킵니다. EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG에서 번역됨, 저자 JanakiramMSV. 기본 AI 프로그래밍 도우미는 자연스럽게 도움이 되지만, 소프트웨어 언어에 대한 일반적인 이해와 소프트웨어 작성의 가장 일반적인 패턴에 의존하기 때문에 가장 관련성이 높고 정확한 코드 제안을 제공하지 못하는 경우가 많습니다. 이러한 코딩 도우미가 생성한 코드는 자신이 해결해야 할 문제를 해결하는 데 적합하지만 개별 팀의 코딩 표준, 규칙 및 스타일을 따르지 않는 경우가 많습니다. 이로 인해 코드가 애플리케이션에 승인되기 위해 수정되거나 개선되어야 하는 제안이 나타나는 경우가 많습니다.

미세 조정을 통해 LLM이 실제로 새로운 것을 배울 수 있습니까? 새로운 지식을 도입하면 모델이 더 많은 환각을 생성할 수 있습니다. Jun 11, 2024 pm 03:57 PM

LLM(대형 언어 모델)은 대규모 텍스트 데이터베이스에서 훈련되어 대량의 실제 지식을 습득합니다. 이 지식은 매개변수에 내장되어 필요할 때 사용할 수 있습니다. 이러한 모델에 대한 지식은 훈련이 끝나면 "구체화"됩니다. 사전 훈련이 끝나면 모델은 실제로 학습을 중단합니다. 모델을 정렬하거나 미세 조정하여 이 지식을 활용하고 사용자 질문에 보다 자연스럽게 응답하는 방법을 알아보세요. 그러나 때로는 모델 지식만으로는 충분하지 않을 때도 있으며, 모델이 RAG를 통해 외부 콘텐츠에 접근할 수 있더라도 미세 조정을 통해 모델을 새로운 도메인에 적응시키는 것이 유익한 것으로 간주됩니다. 이러한 미세 조정은 인간 주석 작성자 또는 기타 LLM 생성자의 입력을 사용하여 수행됩니다. 여기서 모델은 추가적인 실제 지식을 접하고 이를 통합합니다.

7가지 멋진 GenAI 및 LLM 기술 인터뷰 질문 Jun 07, 2024 am 10:06 AM

AIGC에 대해 자세히 알아보려면 다음을 방문하세요. 51CTOAI.x 커뮤니티 https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou는 인터넷 어디에서나 볼 수 있는 전통적인 문제 은행과 다릅니다. 고정관념에서 벗어나 생각해야 합니다. LLM(대형 언어 모델)은 데이터 과학, 생성 인공 지능(GenAI) 및 인공 지능 분야에서 점점 더 중요해지고 있습니다. 이러한 복잡한 알고리즘은 인간의 기술을 향상시키고 많은 산업 분야에서 효율성과 혁신을 촉진하여 기업이 경쟁력을 유지하는 데 핵심이 됩니다. LLM은 자연어 처리, 텍스트 생성, 음성 인식 및 추천 시스템과 같은 분야에서 광범위하게 사용될 수 있습니다. LLM은 대량의 데이터로부터 학습하여 텍스트를 생성할 수 있습니다.

당신이 모르는 머신러닝의 5가지 학교 Jun 05, 2024 pm 08:51 PM

머신 러닝은 명시적으로 프로그래밍하지 않고도 컴퓨터가 데이터로부터 학습하고 능력을 향상시킬 수 있는 능력을 제공하는 인공 지능의 중요한 분야입니다. 머신러닝은 이미지 인식, 자연어 처리, 추천 시스템, 사기 탐지 등 다양한 분야에서 폭넓게 활용되며 우리의 삶의 방식을 변화시키고 있습니다. 기계 학습 분야에는 다양한 방법과 이론이 있으며, 그 중 가장 영향력 있는 5가지 방법을 "기계 학습의 5개 학교"라고 합니다. 5개 주요 학파는 상징학파, 연결주의 학파, 진화학파, 베이지안 학파, 유추학파이다. 1. 상징주의라고도 알려진 상징주의는 논리적 추론과 지식 표현을 위해 상징을 사용하는 것을 강조합니다. 이 사고 학교는 학습이 기존을 통한 역연역 과정이라고 믿습니다.

대형 모델에 대한 새로운 과학적이고 복잡한 질문 답변 벤치마크 및 평가 시스템을 제공하기 위해 UNSW, Argonne, University of Chicago 및 기타 기관이 공동으로 SciQAG 프레임워크를 출시했습니다. Jul 25, 2024 am 06:42 AM

편집자 |ScienceAI 질문 응답(QA) 데이터 세트는 자연어 처리(NLP) 연구를 촉진하는 데 중요한 역할을 합니다. 고품질 QA 데이터 세트는 모델을 미세 조정하는 데 사용될 수 있을 뿐만 아니라 LLM(대형 언어 모델)의 기능, 특히 과학적 지식을 이해하고 추론하는 능력을 효과적으로 평가하는 데에도 사용할 수 있습니다. 현재 의학, 화학, 생물학 및 기타 분야를 포괄하는 과학적인 QA 데이터 세트가 많이 있지만 이러한 데이터 세트에는 여전히 몇 가지 단점이 있습니다. 첫째, 데이터 형식이 비교적 단순하고 대부분이 객관식 질문이므로 평가하기 쉽지만 모델의 답변 선택 범위가 제한되고 모델의 과학적 질문 답변 능력을 완전히 테스트할 수 없습니다. 이에 비해 개방형 Q&A는

SOTA 성능, 샤먼 다중 모드 단백질-리간드 친화성 예측 AI 방법, 최초로 분자 표면 정보 결합 Jul 17, 2024 pm 06:37 PM

Editor | KX 약물 연구 및 개발 분야에서 단백질과 리간드의 결합 친화도를 정확하고 효과적으로 예측하는 것은 약물 스크리닝 및 최적화에 매우 중요합니다. 그러나 현재 연구에서는 단백질-리간드 상호작용에서 분자 표면 정보의 중요한 역할을 고려하지 않습니다. 이를 기반으로 Xiamen University의 연구자들은 처음으로 단백질 표면, 3D 구조 및 서열에 대한 정보를 결합하고 교차 주의 메커니즘을 사용하여 다양한 양식 특징을 비교하는 새로운 다중 모드 특징 추출(MFE) 프레임워크를 제안했습니다. 조정. 실험 결과는 이 방법이 단백질-리간드 결합 친화도를 예측하는 데 있어 최첨단 성능을 달성한다는 것을 보여줍니다. 또한 절제 연구는 이 프레임워크 내에서 단백질 표면 정보와 다중 모드 기능 정렬의 효율성과 필요성을 보여줍니다. 관련 연구는 "S"로 시작된다

SK하이닉스가 8월 6일 12단 HBM3E, 321고 NAND 등 AI 관련 신제품을 선보인다. Aug 01, 2024 pm 09:40 PM

1일 본 사이트 소식에 따르면 SK하이닉스는 오늘(1일) 블로그 게시물을 통해 8월 6일부터 8일까지 미국 캘리포니아주 산타클라라에서 열리는 글로벌 반도체 메모리 서밋 FMS2024에 참가한다고 밝혔다. 많은 새로운 세대의 제품. 인공지능 기술에 대한 관심이 높아지고 있는 가운데, 이전에는 주로 NAND 공급업체를 대상으로 한 플래시 메모리 서밋(FlashMemorySummit)이었던 미래 메모리 및 스토리지 서밋(FutureMemoryandStorage) 소개를 올해는 미래 메모리 및 스토리지 서밋(FutureMemoryandStorage)으로 명칭을 변경했습니다. DRAM 및 스토리지 공급업체와 더 많은 플레이어를 초대하세요. SK하이닉스가 지난해 출시한 신제품

See all articles

VideoMAE: 간단하고 효율적인 비디오 자가 감독 사전 훈련의 새로운 패러다임

방법 소개

MAE 개요

비디오 데이터 특성

이전 기사의 문제를 해결하기 위해 비디오 사전 훈련 중 마스킹 및 재구성 작업을 사용할 때 발생할 수 있는 문제를 해결하기 위해 VideoMAE

시간적 다운샘플링

시공간 블록 임베딩

마스킹 비율이 매우 높은 파이프라인 마스킹 전략

시공간 공동 자체 주의 메커니즘

VideoMAE 구현 세부 정보

절제 실험

디코더 디자인

Mask Strategies

Reconstruction target

사전 훈련 전략

사전 훈련 데이터 세트

사전 훈련 라운드

VideoMAE의 중요한 기능

VideoMAE는 데이터 효율적인 학습자입니다

매우 높은 마스킹 비율

일반화 및 전송 기능: 데이터의 품질과 양

주요 결과

커뮤니티에 미치는 영향

요약

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제