1. 간략한 소개
이 문서에서는 손으로 만든 데이터 증대에 의존하지 않고 의미론적인 이미지 표현을 학습하는 방법을 보여줍니다. 이 논문에서는 이미지에서 자기 지도 학습을 위한 비생성적 접근 방식인 이미지 기반 공동 임베딩 예측 아키텍처(I-JEPA)를 소개합니다. I-JEPA의 아이디어는 간단합니다. 단일 컨텍스트 패치에서 동일한 이미지의 다양한 대상 패치 표현을 예측하는 것입니다. 의미론적 표현을 생성하기 위해 I-JEPA를 안내하는 핵심 설계 선택은 마스킹 전략입니다. 특히 (a) 이미지의 여러 대상 패치를 예측하고, (b) 충분히 큰 규모(이미지의 15% - 20)에서 샘플 샘플 대상 패치를 예측합니다. %), (c) 충분히 풍부한(공간적으로 분산된) 컨텍스트 블록을 사용하는 것이 중요합니다. 경험적으로, 이 논문은 I-JEPA가 시각적 변환기와 결합될 때 확장성이 높다는 것을 발견했습니다. 예를 들어, 이 논문은 32개의 A100 GPU를 사용하여 ImageNet에서 38시간 만에 ViT-Huge/16을 교육하여 선형 분류에서 객체 계산 및 깊이 예측에 이르기까지 다양한 수준의 추상화가 필요한 광범위한 작업에서 강력한 다운스트림 성능을 달성합니다.
2. 연구 배경
컴퓨터 비전에는 두 가지 일반적인 이미지 자기 지도 학습 방법이 있습니다.
불변 기반 방법 및 생성 방법. 불변 기반 사전 학습 접근 방식을 통해 인코더를 최적화함으로써 동일한 이미지에 대한 두 개 이상의 뷰에 대해 유사한 임베딩을 생성할 수 있습니다. 일반적으로 이미지 뷰는 임의 크기 조정, 자르기, 색상 디더링 등과 같은 일련의 손으로 만든 데이터 증대 방법을 사용하여 구성됩니다. 이러한 사전 훈련 방법은 높은 의미 수준의 표현을 생성할 수 있지만 동시에 일부 다운스트림 작업이나 심지어 데이터 분포가 다른 사전 훈련 작업에 부정적인 영향을 미칠 수 있는 강한 편향을 도입합니다.
인지 학습 이론은 믿습니다. 생물학적 시스템에서의 표현 학습의 이면에 있는 한 가지 추진 메커니즘은 감각 입력에 대한 반응을 예측하기 위한 내부 모델의 적응입니다. 이 아이디어는 입력의 일부를 제거하거나 손상시키고 무엇이 손상되었는지 예측하는 방법을 배우는 자체 감독 생성 방법의 핵심입니다. 특히 마스크 노이즈 제거 방법은 입력의 픽셀 또는 토큰 수준에서 무작위 마스크 패치를 재구성하여 표현을 학습합니다. 뷰 불변 방법과 비교할 때 마스크의 사전 훈련 작업은 사전 지식이 덜 필요하며 이미지 양식을 넘어 쉽게 일반화됩니다. 그러나 결과 표현은 의미 체계 수준이 낮고 의미 체계 분류 작업에 대한 감독이 제한된 선형 프로빙 및 전송 설정과 같은 기성 평가에서 불변 기반 사전 훈련이 부족한 경우가 많습니다. 따라서 이러한 방법의 장점을 최대한 활용하려면 보다 정교한 적응 메커니즘(예: 엔드투엔드 미세 조정)이 필요합니다.
이 연구에서 논문은 인코딩된 이미지 변환에 대한 추가 사전 지식을 사용하지 않고 자기 지도 표현의 의미 수준을 향상시키는 방법을 탐구합니다. 이를 위해 본 논문에서는 이미지 조인트 임베딩 예측 아키텍처(I-JEPA)를 소개합니다. 그림 3은 이 접근 방식을 보여줍니다. I-JEPA의 기본 개념은 추상 표현 공간에서 누락된 정보를 예측하는 것입니다. 예를 들어 컨텍스트 패치가 주어지면 동일한 이미지에서 다른 대상 패치의 표현을 예측합니다. 여기서 대상 표현은 학습된 대상 인코더 네트워크에 의해 계산됩니다.
픽셀/마커 공간에서 예측하는 생성 방법과 비교하여 I-JEPA는 불필요한 픽셀 수준 세부 정보를 제거할 수 있는 추상 예측 대상을 활용하여 모델이 더 많은 의미론적 특징을 학습하도록 합니다. I-JEPA가 의미론적 표현을 생성하도록 안내하는 또 다른 핵심 설계 선택은 제안된 다중 블록 마스킹 전략입니다. 특히, 이 논문은 이미지에서 (충분히 큰 규모의) 여러 대상 패치를 예측하기 위해 유익한(공간적으로 분산된) 컨텍스트 패치를 사용하는 것의 중요성을 보여줍니다. 재작성된 콘텐츠: 픽셀/마커 공간에서 예측하는 생성 방법과 비교하여 I-JEPA는 추상적 예측 대상을 활용하여 잠재적으로 불필요한 픽셀 수준 세부 정보를 제거함으로써 모델이 더 많은 의미론적 특징을 학습할 수 있도록 합니다. I-JEPA의 또 다른 핵심 설계 선택은 의미론적 표현을 생성하기 위해 다중 블록 마스킹 전략을 채택하는 것입니다. 특히, 이 논문은 이미지에서 (충분히 큰 규모의) 여러 대상 패치를 예측하기 위해 유익한(공간적으로 분산된) 컨텍스트 패치를 사용하는 것의 중요성을 보여줍니다.
광범위한 실증적 평가를 바탕으로 연구 결과는 다음과 같습니다.
I-JEPA는 강력한 학습을 수행합니다. -수작업으로 만든 뷰 확대를 사용하지 않고 바로 사용할 수 있는 의미 표현(그림 1). I-JEPA는 ImageNet-1K 선형 감지의 MAE, 준지도 1% ImageNet-1K 및 의미론적 전송 작업과 같은 픽셀 재구성 방법보다 성능이 뛰어납니다.
I-JEPA는 의미론적 작업에 대한 뷰 불변 사전 훈련 방법으로 경쟁력이 있으며 객체 계산 및 깊이 예측과 같은 낮은 수준의 비전 작업에서 더 나은 성능을 달성합니다. 더 간단한 모델과 덜 엄격한 유도 바이어스를 사용함으로써 I-JEPA는 더 넓은 작업 세트에 적용 가능합니다.
I-JEPA는 확장성과 효율성도 뛰어납니다. ImageNet에서 ViT-H/14를 사전 훈련하는 데는 약 2400 GPU 시간이 소요됩니다. 이는 iBOT으로 사전 훈련된 ViTB/16보다 50% 빠르고 MAE로 사전 훈련된 ViT-L/16보다 140% 빠릅니다. 표현 공간의 예측은 자기 지도 사전 훈련에 필요한 전체 계산을 크게 줄입니다.
자기 지도 학습은 시스템이 입력 간의 관계를 포착하는 방법을 학습하는 표현 학습 방법입니다. 이 목표는 에너지 기반 모델(EBM)의 프레임워크를 사용하여 쉽게 설명할 수 있습니다. 여기서 자기 감독의 목표는 호환되지 않는 입력에 높은 에너지를 할당하고 호환 가능한 입력에 낮은 에너지를 할당하는 것입니다. 기존의 생성적 및 비생성적 자기 지도 학습 방법은 실제로 이 프레임워크에서 변환될 수 있습니다. 그림 2
다시 작성된 내용을 참조하세요. 강제 변환을 수행하기 위해 EBM 프레임워크에서 사용됩니다(그림 2a 참조). 조인트 임베딩 아키텍처의 학습 목표는 호환 가능한 입력 x와 y가 유사한 임베딩을 출력하도록 하고, 호환되지 않는 입력은 서로 다른 임베딩을 출력하도록 만드는 것입니다. 이미지 기반 사전 훈련에서 호환 가능한 x 및 y 쌍은 일반적으로 동일한 입력 이미지에 손으로 만든 데이터 증대를 무작위로 적용하여 구성됩니다.
JEA의 주요 과제는 에너지 환경이 평평한 표현 붕괴입니다(예: 인코더는 입력에 관계없이 일정한 출력을 생성합니다. 지난 몇 년 동안 음의 예제 임베딩을 명시적으로 푸시하는 대조 손실, 임베딩의 정보 중복을 최소화하는 비대비 손실, 평균 임베디드 엔트로피를 최대화하는 클러스터링 기반 방법과 같은 표현 붕괴를 방지하기 위한 여러 가지 방법이 연구되었습니다. . 붕괴를 피하기 위해 x 인코더와 y 인코더 사이에 비대칭 아키텍처 설계를 사용하는 몇 가지 경험적 방법도 있습니다. 생성 아키텍처. 재구성 기반 자기 지도 학습 방법은 생성 아키텍처를 사용하여 EBM 프레임워크에서 캐스팅될 수도 있습니다. 그림 2b를 참조하세요.
생성 아키텍처는 변수 z에 대한 추가(잠재적) 디코더 네트워크를 사용하여 호환 가능한 신호 x에서 신호 y를 직접 재구성하는 방법을 학습합니다. 재건축을 촉진하기 위해. 이미지 기반 사전 훈련에서 컴퓨터 비전의 일반적인 접근 방식은 마스크를 사용하여 호환 가능한 x,y 쌍을 생성하는 것입니다. 여기서 x는 이미지 y의 복사본이지만 일부 패치는 마스크되어 있습니다. 그러면 조건 변수 z는 재구성될 이미지 패치의 디코더를 지정하는 (학습 가능한) 마스크 및 위치 마커 세트에 해당합니다. z의 정보 용량이 신호 y보다 낮은 한 이러한 아키텍처는 표현 붕괴에 초점을 맞추지 않습니다.
공동 내장 예측 아키텍처. 그림 2c에서 볼 수 있듯이 공동 임베딩 예측 아키텍처는 개념적으로 생성 아키텍처와 유사하지만 주요 차이점은 손실 함수가 입력 공간이 아닌 임베딩 공간에 적용된다는 것입니다. JEPA는 예측을 용이하게 하기 위해 추가(아마도 잠재) 변수 z의 예측 네트워크를 사용하여 호환 가능한 신호 x에서 신호 y의 임베딩을 예측하는 방법을 학습합니다. 제안된 I-JEPA는 마스크를 사용하는 이미지의 맥락에서 이 아키텍처의 인스턴스화를 제공합니다(그림 3 참조). 공동 임베딩 아키텍처와 달리 JEPA는 손으로 만든 데이터 확장 세트에 불변하는 표현을 추구하지 않고 오히려 추가 정보 z 조건이 있을 때 서로를 예측하는 표현을 추구합니다. 그러나 조인트 임베딩 아키텍처와 마찬가지로 표현 붕괴도 JEPA의 관심사입니다. 이 논문은 I-JEPA의 표현 붕괴를 방지하기 위해 x와 y 인코더 사이의 비대칭 아키텍처를 활용합니다.
3. 방법 소개
이제 논문에서는 제안된 이미지 기반 조인트 임베딩 예측 아키텍처(I-JEPA)를 그림 3과 같이 설명합니다. 전반적인 목표는 다음과 같습니다. 컨텍스트 패치가 주어지면 동일한 이미지에서 다양한 대상 패치의 표현을 예측합니다. 이 문서에서는 ViT(Visual Transformer) 아키텍처를 컨텍스트 인코더, 대상 인코더 및 예측자로 사용합니다. ViT는 Transformer 레이어의 스택으로 구성되며 각 레이어는 self-attention 작업과 완전히 연결된 MLP로 구성됩니다. 논문의 인코더/예측기 아키텍처는 생성 마스크 자동 인코더(MAE) 접근 방식을 연상시킵니다. 그러나 주요 차이점은 I-JEPA 방법이 비생성적이며 표현 공간에서 예측이 이루어진다는 것입니다.
이미지 분류
I-JEPA가 손으로 만든 데이터 확대에 의존하지 않고 높은 수준의 표현을 학습한다는 것을 입증하기 위해 이 논문에서는 선형 감지 및 부분 미세 조정 프로토콜을 사용하여 다양한 이미지 분류 작업에 대한 결과를 보고합니다. 이 섹션에서는 ImageNet-1K 데이터 세트에 대해 사전 훈련된 자체 감독 모델을 고려합니다. 사전 교육 및 평가 구현 세부 사항은 부록 A를 참조하세요. 모든 I-JEPA 모델은 별도로 명시하지 않는 한 해상도 224×224로 훈련됩니다.
ImageNet-1K 표 1은 일반적인 ImageNet-1K 선형 평가 벤치마크의 성능을 보여줍니다. 자체 감독 사전 훈련 후에는 모델 가중치가 고정되고 전체 ImageNet-1K 훈련 세트를 사용하여 선형 분류기가 훈련됩니다. 훈련 전에 손으로 만든 광범위한 데이터 확대에 의존하지 않는 인기 있는 마스크 자동 인코더(MAE) 및 data2vec 방법과 비교할 때, 이 논문에서는 I-JEPA가 더 적은 양의 계산을 사용하면서 선형 감지 성능을 크게 향상시키는 것으로 나타났습니다. 또한 I-JEPA는 규모의 이점을 누리고 있습니다. 해상도 448로 훈련된 ViT-H/16은 추가적인 수동 데이터 증대 없이도 iBOT과 같은 뷰 불변 방법의 성능과 일치합니다.
낮은 샘플 크기 ImageNet-1K. 표 2는 1% ImageNet 벤치마크의 성능을 보여줍니다. 이러한 방법은 ImageNet 분류를 위해 사전 훈련된 모델을 활용하며, 카테고리당 약 12개 또는 13개의 이미지가 포함된 ImageNet 레이블의 1%만을 사용합니다. 모델은 각 방법에 가장 적합한 방법에 따라 미세 조정 또는 선형 프로빙을 통해 조정됩니다. 유사한 인코더 아키텍처를 사용할 때 I-JEPA는 MAE보다 성능이 뛰어나며 사전 훈련 기간이 더 적게 필요합니다. ViTH/14 아키텍처를 사용하는 I-JEPA는 데이터 2vec를 사용하여 사전 훈련된 ViT-L/16과 비슷한 성능을 갖지만 계산 부하가 훨씬 적습니다. 이미지 입력 해상도를 높임으로써 I-JEPA는 MSN, DINO 및 iBOT
Transfer 학습과 같은 훈련 전 추가적인 수작업 데이터 증대 방법을 활용하고 공동 임베딩 방법을 포함하여 이전 방법보다 더 나은 성능을 발휘합니다. 표 3은 사용 성능을 보여줍니다. 다양한 다운스트림 이미지 분류 작업을 위한 선형 프로브. I-JEPA는 증강을 사용하지 않는 이전 방법(MAE 및 Data2vec)보다 훨씬 뛰어난 성능을 발휘하며 훈련 전에 손으로 만든 관점 불변성을 활용하는 최고의 방법으로 격차를 줄입니다. 심지어 CIFAR100 및 Place205 DINO에서 널리 사용되는 방법을 능가합니다.
5. 로컬 예측 작업
I-JEPA는 의미론적 이미지 표현을 학습하고 MAE 및 data2vec와 같은 이전 방법의 다운스트림 이미지 분류 성능을 크게 향상시킵니다. 또한 I-JEPA는 규모의 이점을 누리고 뷰 불변 기반 방법의 추가 수작업 데이터 확대를 활용하여 격차를 줄일 수 있습니다. 이 섹션에서는 I-JEPA가 로컬 이미지 특징을 학습하고 객체 계산 및 깊이 예측과 같은 저수준 및 집중적 예측 작업에서 뷰 불변 기반 방법보다 뛰어난 성능을 발휘할 수 있음을 확인했습니다.
표 4는 선형 프로빙을 사용한 다양한 하위 수준 작업의 성능을 보여줍니다. 특히, 사전 훈련 후에는 모델의 가중치가 고정되고 Clevr 데이터 세트에 대한 객체 계산 및 깊이 예측을 위해 선형 모델이 위에서 훈련됩니다. DINO 및 iBOT과 같은 뷰 불변 방법과 비교할 때 I-JEPA 방법은 훈련 전에 낮은 수준의 이미지 특징을 효과적으로 캡처하고 객체 계산(Clevr/Count) 및 (대체로) 깊이 예측(Clevr/Dist) 성능이 뛰어납니다. . 6. 확장성
다시 작성된 내용은 다음과 같습니다. 이전 방법과 비교하면 I-JEPA는 모델 효율성 측면에서 확장성이 뛰어납니다. 그림 5는 ImageNet-1K의 1%에 대한 GPU 시간 평가의 준지도 결과를 보여줍니다. I-JEPA는 이전 방법보다 계산이 덜 필요하며 수동 데이터 확장에 의존하지 않고도 강력한 성능을 달성합니다. 픽셀을 직접 타겟으로 사용하는 MAE와 같은 재구성 기반 방법과 비교하여 I-JEPA는 표현 공간에서 타겟을 계산하여 추가 오버헤드를 발생시킵니다(반복당 약 7% 느림)
스케일 데이터 크기. 또한 이 논문에서는 I-JEPA가 더 큰 데이터 세트에 대한 사전 교육을 통해 이점을 얻는다는 사실을 발견했습니다. 표 5는 사전 훈련 데이터 세트(IN1K vs IN22K)의 크기를 늘릴 때 의미론적 작업과 하위 수준 작업에 대한 전이 학습 성능을 보여줍니다. 이러한 개념적으로 구별되는 작업에 대한 전이 학습 성능은 더 크고 다양한 데이터 세트에 대해 사전 훈련될 때 향상됩니다. 확장 모델 크기. 표 5는 또한 I-JEPA가 IN22K에서 사전 훈련될 때 더 큰 모델 크기로부터 이점을 얻는다는 것을 보여줍니다. ViT-H/14 모델과 비교하여 ViT-G/16의 사전 훈련은 Place205 및 INat18과 같은 이미지 분류 작업의 다운스트림 성능을 크게 향상시킵니다. ViTG/16 모델은 낮은 수준의 다운스트림 작업에서 성능을 향상시키지 않습니다. ViT-G/16은 더 큰 입력 패치 크기를 사용하므로 로컬 예측 작업에 해로울 수 있습니다.
7. 예측기 시각화는 다시 작성될 수 있습니다
I-JEPA에서 예측기의 기능은 컨텍스트 인코더의 출력을 가져와서 위치 마스크 토큰에 대해 조건을 지정하는 것입니다. 해당 위치의 대상 블록. 한 가지 질문은 위치 마스크 토큰을 기반으로 한 예측자가 대상의 위치 불확실성을 올바르게 캡처하는 방법을 학습하고 있는지 여부입니다. 이 질문을 정성적으로 연구하기 위해 예측 변수의 출력을 시각화합니다. 사전 훈련 후 논문에서는 컨텍스트 인코더와 예측기의 가중치를 고정하고 RCDM 프레임워크에 따라 디코더를 훈련하여 예측기 출력의 평균 풀을 픽셀 공간에 다시 매핑합니다. 그림 6은 다양한 랜덤 시드에 대한 디코더 출력을 보여줍니다. 표본 전체에 공통적인 특징은 평균 통합 예측 변수 표현에 포함된 정보를 나타냅니다. I-JEPA 예측기는 위치 불확실성을 정확하게 포착하고 올바른 자세(예: 새의 뒷부분, 자동차 윗부분)를 가진 높은 수준의 물체 부분을 생성합니다. 서로 다른 샘플의 서로 다른 질량은 표현에 포함되지 않은 정보를 나타냅니다. 이 경우 I-JEPA 예측기는 정확한 하위 수준 세부 정보와 배경 정보를 삭제합니다.
8. 절제의 중요성
표현 공간에서 예측. 표 7은 픽셀 공간과 표현 공간에서 1% ImageNet-1K를 계산할 때 낮은 샷 성능을 비교합니다. 논문에서는 I-JEPA의 핵심 구성 요소가 손실이 표현 공간에서 완전히 계산되어 대상 인코더가 관련 없는 픽셀 수준 세부 사항을 제거하는 추상 예측 대상을 생성할 수 있도록 한다는 것이라고 추측합니다. 표 7에서 픽셀 공간에서의 예측은 선형 검출 성능의 상당한 저하로 이어진다는 것이 분명합니다.
재작성된 내용: 마스킹 전략이 표 8에서 수정되었습니다. 본 연구에서는 I-JEPA 사전 훈련 과정에서 제안한 다중 블록 마스크 전략에서 대상 블록 수를 줄이고 그림 4와 같이 컨텍스트 및 대상 블록의 규모를 조정했습니다. 다양한 다중 블록 설정을 사용하여 300세대 동안 I-JEPA를 훈련하고 선형 프로브를 사용하여 1% ImageNet-1K 벤치마크에서 성능 비교를 수행했습니다. 요약하면, 정보 제공(공간적으로 분산된) 컨텍스트 패치와 결합된 여러 개의 비교적 큰(의미론적) 대상 패치를 예측하는 것이 매우 중요하다는 것을 발견했습니다.
표 6은 다른 마스킹 전략과 비교하여 유사한 제거도 수행되었습니다. 이 논문에서는 이미지가 4개의 큰 사분면으로 분할되고 목표는 한 사분면을 컨텍스트로 사용하여 다른 3개 사분면을 예측하는 래스터화된 마스킹 전략과 비교합니다. 또한 이 논문에서는 재구성 기반 방법에 일반적으로 사용되는 기존 블록 및 무작위 마스킹 전략을 비교합니다. 블록 마스킹에서 대상은 단일 이미지 패치이고 컨텍스트는 이미지 보완입니다. 무작위 마스킹에서 대상은 이미지 패치의 무작위(불연속적일 수 있음) 집합이고 컨텍스트는 이미지의 보완입니다. 고려된 모든 마스킹 전략에서 컨텍스트와 대상 블록 사이에는 겹치는 부분이 없습니다. 제안된 다중 블록 마스킹 전략은 I-JEPA가 의미 표현을 학습하는 데 핵심입니다. 기존 블록 마스크로 전환해도 ImageNet 성능이 24% 이상 감소합니다.
9. 결론 논문
에서는 의미적 이미지 표현 학습을 위해 I-JEPA라는 방법을 제안했습니다. 이 방법은 손으로 만든 데이터 증대에 의존하지 않습니다. 연구에 따르면 표현 공간에서 예측을 수행함으로써 I-JEPA는 픽셀 재구성 방법보다 빠르게 수렴하고 높은 의미 수준 표현을 학습할 수 있습니다. 뷰 불변성을 기반으로 한 방법과 비교하여 I-JEPA는 손으로 만든 뷰 향상에 의존하지 않고 조인트 임베딩 아키텍처를 사용하여 일반 표현을 학습하는 경로를 강조합니다
Appendix 원문 보기, 원 링크: https://arxiv.org /abs /2301.08243
위 내용은 [논문해석] 그래프 기반 자기지도 학습 공동 임베딩 예측 아키텍처의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!