간단하고 보편적임: 시각적 기본 네트워크는 무손실 훈련을 최대 3배 가속화하며 Tsinghua EfficientTrain++가 TPAMI 2024에 선택되었습니다.-일체 포함-php.cn

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

문서 링크: https://www.php.cn/link/db4db5ec58a9433419cb104eeab915c2
코드와 사전 훈련된 모델은 오픈 소스입니다: https://www.php. cn/link/a896144046a1b5bd6e3e034d00b4f73a
컨퍼런스 버전 문서(ICCV 2023): https://www.php.cn/link/45012e4d2d42c232d4d284754e19d9cf

컴퓨터비전연구소 칼럼

컴퓨터비전 칼럼 Institute

이 글은 IEEE TPAMI(Transactions on Pattern Analysis and Machine Intelligence)에서 최근 채택한 글인 EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbone Training을 주로 소개합니다.

최근 몇 년간 컴퓨터 비전 연구의 주역 중 하나는 '스케일링'이었습니다. 모델 크기 및 훈련 데이터 규모의 증가, 학습 알고리즘의 발전, 정규화 및 데이터 향상 기술의 광범위한 적용으로 인해 대규모 훈련을 통해 얻은 시각적 기본 네트워크(예: ImageNet1K/22K에서 훈련된 Vision Transformer 및 MAE, DINOv2 등)은 시각적 인식, 대상 탐지, 의미론적 분할 등 많은 중요한 시각적 작업에서 놀라운 성능을 달성했습니다.

그러나 "확장"은 종종 엄청난 높은 모델 훈련 오버헤드를 가져오며, 이는 기본 비전 모델의 추가 개발 및 산업적 적용을 크게 방해합니다.

이 문제를 해결하기 위해 칭화대학교 연구팀은 일반화된 커리큘럼 학습 알고리즘인 EfficientTrain++을 제안했습니다. 핵심 아이디어는 "쉬운 것부터 어려운 것까지 데이터를 선별하고 사용하며 점차적으로 모델을 훈련시키는" 전통적인 과정 학습 패러다임을 "데이터 차원을 필터링하지 않고 항상 모든 훈련 데이터를 사용하지만 훈련 과정에서 점차적으로 각 기능을 드러내는 것"으로 승격시키는 것입니다. "각 데이터 샘플의 특징이나 패턴(패턴)이 쉬운 것부터 어려운 것까지."

EfficientTrain++에는 몇 가지 중요한 하이라이트가 있습니다.

Visual Basic Network 1.5−3.0× 무손실 훈련 가속의 플러그 앤 플레이 구현. 업스트림이나 다운스트림 모델 성능은 손실되지 않습니다. 측정된 속도는 이론적인 결과와 일치합니다.
다양한 훈련 데이터 크기에 보편적으로 적용 가능합니다(예: ImageNet-1K/22K, 22K 효과는 더욱 분명합니다). 지도 학습 및 자기 지도 학습(예: MAE)에 일반적으로 사용됩니다. 다양한 학습 비용에 공통적입니다(예: 0~300개 이상의 에포크에 해당).
ViT, ConvNet 및 기타 네트워크 구조 에서 일반적으로 사용됩니다(이 기사에서는 다양한 크기와 유형의 20개 이상의 모델이 테스트되었으며 일관되고 효과적입니다).
더 작은 모델의 경우 훈련 가속화 외에도 성능을 크게 향상시킬 수 있습니다. 예를 들어 추가 정보의 도움이나 추가 훈련 오버헤드 없이 ImageNet-1K에서 81.3%의 DeiT-S를 얻었습니다. , 오리지널 Swin-Tiny에 필적함).
두 가지 도전적이고 일반적인 실제 상황을 위한 전문 실제 효율성 최적화 기술을 개발했습니다. 1) CPU/하드 디스크가 충분히 강력하지 않고 데이터 전처리 효율성이 GPU를 따라잡을 수 없습니다. 2) 대규모 병렬 훈련; 64개 이상의 GPU를 사용하여 ImageNet-22K에서 대규모 모델을 훈련하는 것과 같은 것입니다.

다음으로 연구 내용을 살펴보겠습니다.

하나. 연구동기

최근에는 대규모 기반 모델의 폭발적인 발전으로 인공지능과 딥러닝의 발전이 크게 촉진되었습니다. 컴퓨터 비전 분야에서는 ViT(Vision Transformer), CLIP, SAM, DINOv2 등의 대표 작품을 통해 신경망 및 훈련 데이터의 크기를 확장하면 인식, 감지, 분할과 같은 중요한 시각적 작업이 크게 확장될 수 있음이 입증되었습니다. . 성능 경계.

그러나 대형 기본 모델은 훈련 오버헤드가 높은 경우가 많으며 그림 1에는 두 가지 일반적인 예가 나와 있습니다. 8개의 NVIDIA V100 또는 고성능 GPU를 예로 들면, GPT-3 및 ViT-G에 대한 하나의 교육 세션을 완료하는 데 수년 또는 수십 년이 걸릴 것입니다. 이러한 높은 교육 비용은 학계와 산업계 모두 감당하기 어려운 엄청난 비용입니다. 종종 소수의 최고 기관만이 많은 양의 리소스를 소비하여 딥 러닝의 발전을 앞당길 수 있습니다. 따라서 해결해야 할 시급한 질문은 대규모 딥러닝 모델의 학습 효율성을 효과적으로 향상시키는 방법입니다.

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

그림 1 예: 대규모 딥 러닝 기본 모델의 높은 훈련 오버헤드

컴퓨터 비전 모델의 경우 고전적인 아이디어는 그림 2와 같이 커리큘럼 학습, 즉 인간을 모방하는 것입니다. 진보적이고 고도로 구조화된 학습 과정에서 우리는 "가장 간단한" 훈련 데이터부터 시작하여 점차적으로 쉬운 것부터 어려운 것까지 데이터를 도입합니다.

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 그림 2 클래식 커리큘럼 학습 패러다임(이미지 출처: "A Survey on Curriculum Learning", TPAMI'22)

그러나 자연스러운 동기에도 불구하고 커리큘럼 학습은 교육에 대규모로 적용되지 않았습니다. 시각적 기반 모델의 일반적인 방법을 사용하는 주된 이유는 그림 3에 표시된 것처럼 두 가지 주요 병목 현상이 있다는 것입니다. 첫째, 효과적인 훈련 커리큘럼(커리큘럼)을 설계하는 것이 쉽지 않다. "단순" 샘플과 "어려운" 샘플을 구별하려면 추가 사전 학습 모델, 더 복잡한 AutoML 알고리즘 설계, 강화 학습 도입 등의 도움이 필요한 경우가 많으며 활용성이 낮습니다. 둘째, 강좌학습 자체의 모델링이 다소 불합리하다. 자연 분포의 시각적 데이터는 종종 높은 수준의 다양성을 가지고 있습니다(그림 3)(ImageNet에서 무작위로 선택된 앵무새 사진). 모델 훈련 데이터에는 다양한 움직임을 가진 많은 수의 앵무새가 포함되어 있습니다. 카메라, 다양한 관점과 배경의 앵무새, 앵무새와 사람, 사물과의 다양한 상호작용 등, 이러한 다양한 데이터를 '단순함'과 '어려움'이라는 일차원적인 지표만으로 구분하는 것은 사실 상대적으로 거친 방법이다. " 그리고 터무니없는 모델링 방법.

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 그림 3 시각적 기본 모델 교육에서 과정 학습의 대규모 적용을 방해하는 두 가지 주요 병목 현상

2. 방법 소개

위의 과제에서 영감을 받아 이 기사에서는 일반화된 커리큘럼 학습 패러다임을 제안합니다. 핵심 아이디어는 "쉬운 것부터 어려운 것까지 데이터를 선별하여 사용하고 점진적으로 모델을 훈련합니다"입니다. 전통적인 코스 학습 패러다임이 확장됩니다. "데이터 차원을 필터링하지 않고 모든 훈련 데이터가 항상 사용되지만 각 데이터 샘플의 쉬운 것부터 어려운 것까지의 특성이나 패턴이 훈련 과정에서 점차적으로 드러납니다"로 인해 발생하는 한계와 차선책 설계를 효과적으로 방지합니다. 그림 4와 같이 데이터 스크리닝 패러다임이 제거되었습니다.

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

그림 4 전통적인 커리큘럼 학습(샘플 차원) 대 일반화된 커리큘럼 학습(특성 차원)

이 패러다임의 제안은 주로 흥미로운 현상에 기초합니다. 시각적 모델, 모델은 언제든지 데이터에 포함된 모든 정보를 얻을 수 있지만, 모델은 항상 자연스럽게 먼저 데이터에 포함된 상대적으로 간단한 판별 기능(패턴)을 식별하는 방법을 학습한 다음 점차적으로 더 어려운 식별 방법을 학습합니다. 이를 기반으로 한 패턴 판별 기능 . 더욱이 이 규칙은 상대적으로 보편적이며 "비교적 단순한" 판별 특징은 주파수 영역과 공간 영역 모두에서 쉽게 찾을 수 있습니다. 본 논문에서는 아래에 설명된 바와 같이 위의 결과를 입증하기 위해 일련의 흥미로운 실험을 설계했습니다.

주파수 영역 관점에서 '저주파 특징'은 모델

에 대해 '상대적으로 간단'합니다. 그림 5에서 이 기사의 작성자는 표준 ImageNet-1K 교육 데이터를 사용하여 DeiT-S 모델을 교육하고 다양한 대역폭의 저역 통과 필터를 사용하여 검증 세트를 필터링하고 검증 이미지의 저주파 구성 요소만 유지했습니다. 이를 바탕으로 학습 과정 중 저역 통과 필터링된 검증 데이터에 대한 DeiT-S의 정확도가 그림 5의 오른쪽에 표시됩니다.

흥미로운 현상을 볼 수 있습니다. 훈련 초기 단계에서는 저역 통과 필터링된 검증 데이터만 사용해도 정확도가 크게 떨어지지 않으며, 필터 대역폭이 커짐에 따라 곡선과 일반 검증 세트 정확도 사이의 분리점이 증가합니다. 그리고 점차 오른쪽으로 이동합니다. 이러한 현상은 모델이 훈련 데이터의 저주파 및 고주파 부분에 항상 접근할 수 있음에도 불구하고 학습 과정이 자연스럽게 저주파 정보에만 집중하여 시작되며 점차 고주파 특징을 식별하는 능력을 습득하게 됨을 보여줍니다. (이 현상에 대한 더 많은 증거는 원문을 참조하세요.)

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 그림 5 주파수 영역 관점에서 모델은 자연스럽게 저주파 특징을 먼저 식별하는 방법을 학습하는 경향이 있습니다.

이 발견은 흥미로운 질문을 제기합니다. 모델은 처음에는 저주파 정보를 시각적으로 입력한 다음 점차적으로 고주파 정보를 제공합니까?

그림 6은 특정 길이의 초기 훈련 단계에서만 훈련 데이터에 대해 저역 통과 필터링을 수행하고 나머지 훈련 프로세스는 변경하지 않는 아이디어를 조사합니다. 결과에서 볼 수 있듯이, 최종 성능 향상은 제한적이지만, 상당한 시간 동안 저주파 성분만 모델에 제공하더라도 모델의 최종 정확도는 상당 부분 유지될 수 있다는 점이 흥미롭습니다. 이는 또한 "모델이 주로 훈련 초기 단계에서 저주파 특징을 식별하는 학습에 중점을 둔다"는 그림 5의 관찰과 일치합니다.

이 발견은 이 기사의 저자가 훈련 효율성에 대해 생각하도록 영감을 주었습니다. 모델은 훈련 초기 단계의 데이터에서 저주파 구성요소만 필요하고 저주파 구성요소에는 원래 데이터보다 적은 정보가 포함되어 있기 때문입니다. , 모델이 더 적은 계산 비용으로 저주파 구성 요소에서만 효율적으로 학습하는 것보다 더 빠른 속도로 원래 입력을 처리할 수 있습니까?

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

그림 6 장기간의 초기 학습 동안 모델에 저주파 구성 요소만 제공해도 최종 성능에 큰 영향을 미치지 않습니다.

사실 이 아이디어는 완전히 실현 가능합니다. 그림 7의 왼쪽에 표시된 것처럼 이 기사의 저자는 이미지의 푸리에 스펙트럼에서 자르기 작업을 도입하여 저주파 부분을 잘라내고 이를 픽셀 공간에 다시 매핑합니다. 이 저주파 자르기 작업은 모든 저주파 정보를 정확하게 보존하는 동시에 이미지 입력 크기를 줄이므로 입력에서 학습하는 모델의 계산 비용을 기하급수적으로 줄일 수 있습니다.

이런 저주파 크롭핑 연산을 학습 초기 단계에서 모델 입력 처리에 활용한다면, 전체 학습 비용을 대폭 절감할 수 있으면서도, 모델 학습에 필요한 정보는 최대한 유지된 최종 모델의 실험 결과는 그림 7의 오른쪽 하단에 나타내었다.

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

그림 7 저주파 자르기: 모델이 저주파 정보에서만 효율적으로 학습하도록 허용

주파수 영역 연산 외에도 공간 영역 변환의 관점에서도 찾을 수 있습니다. 모델을 위한 "비교적 간단한" 기능입니다. 예를 들어, 강력한 데이터 향상이나 왜곡 처리를 거치지 않은 원시 시각적 입력에 포함된 자연스러운 이미지 정보는 실제 분포에서 파생되기 때문에 모델에 대해 "더 단순"하고 모델이 학습하기 더 쉽습니다. 데이터 향상과 같은 전처리 기술에 의해 도입된 정보, 불변성 등은 모델이 학습하기 어려운 경우가 많습니다(전형적인 예가 그림 8의 왼쪽에 나와 있습니다).

실제로 기존 연구에서도 데이터 증강이 주로 훈련의 후반 단계에서 역할을 한다는 사실이 관찰되었습니다(예: "증강 현명한 체중 공유를 통한 자동 증강 개선", NeurIPS'20).

이 차원에서는 일반화된 강좌 학습의 패러다임을 달성하기 위해 단순히 데이터 증강의 강도를 변경하여 훈련 데이터에서 학습하기 쉬운 자연스러운 이미지 정보만을 모델에 제공함으로써 쉽게 달성할 수 있습니다. 훈련 초기 단계에서. 그림 8의 오른쪽은 RandAugment를 대표적인 예로 사용하여 이 아이디어를 보여줍니다. RandAugment에는 일련의 일반적인 공간 데이터 향상 변환(예: 무작위 회전, 선명도 변경, 아핀 변환, 노출 변경 등)이 포함되어 있습니다.

약한 데이터 확대부터 시작하여 모델을 훈련하면 모델의 최종 성능이 효과적으로 향상될 수 있으며 이 기술은 저주파 자르기와 호환됩니다.

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

그림 8 공역 관점에서 모델의 "배우기 쉬운" 기능 찾기: 데이터 향상 관점

이 기사에서는 일반화 과정의 핵심 프레임워크와 가정을 제안했습니다. 주파수 영역과 공간 영역의 두 가지 주요 현상을 드러냄으로써 일반화된 과정 학습의 합리성과 효율성을 입증합니다. 이를 바탕으로 이 논문은 아래에 나열된 일련의 체계적인 작업을 추가로 완성합니다. 공간적 제한으로 인해 더 자세한 연구 내용은 원본 논문을 참조하시기 바랍니다.

주파수 영역과 공간 영역의 두 가지 핵심 발견을 통합하고 특별히 설계된 최적화 알고리즘을 제안 및 개선하며 통합되고 통합된 EfficientTrain++ 일반화 과정 학습 계획을 수립합니다.
실제 하드웨어에서 저주파 자르기 작업을 효율적으로 구현하기 위한 구체적인 방법을 논의하고 이론적 및 실험적 관점에서 저주파 정보를 추출하는 두 가지 가능한 방법인 저주파 자르기와 이미지 다운샘플링을 비교했습니다. 연결하다.
두 가지 도전적이고 일반적인 실제 상황을 위한 특별하고 실용적인 효율성 최적화 기술을 개발했습니다. 1) CPU/하드 디스크가 충분히 강력하지 않고 데이터 전처리 효율성이 GPU를 따라잡을 수 없습니다. 2) 대규모 병렬 훈련 ImageNet - 64개 이상의 GPU를 사용하여 22K에서 대규모 모델을 교육합니다.

이 기사에서 최종적으로 얻은 EfficientTrain++ 일반화 과정 학습 계획은 그림 9에 나와 있습니다. EfficientTrain++는 모델 훈련의 총 컴퓨팅 오버헤드 소비 비율을 기반으로 주파수 영역 저주파 자르기의 대역폭과 공간 영역 데이터 향상의 강도를 동적으로 조정합니다.

플러그 앤 플레이 방식인 EfficientTrain++는 추가 하이퍼파라미터 조정이나 검색 없이 다양한 시각적 기본 네트워크와 다양한 모델 훈련 시나리오에 직접 적용할 수 있으며 효과가 비교적 안정적이라는 점은 주목할 가치가 있습니다. .

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 그림 9 통합되고 통합된 일반화 과정 학습 계획: EfficientTrain++

III. 실험 결과

플러그 앤 플레이 방식인 EfficientTrain++는 기본적으로 성능 손실이나 개선 없이 ImageNet-1K에서 다양한 시각적 기본 네트워크의 실제 학습 오버헤드를 약 1.5배 줄입니다.

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

그림 10 ImageNet-1K 실험 결과: 다양한 시각적 기본 네트워크에서 EfficientTrain++의 성능

EfficientTrain++의 이점은 다양한 훈련 오버헤드 예산에 보편적이며 동일한 성능인 DeiT/ Swin ImageNet-1K의 훈련 가속 비율은 약 2~3배입니다.

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 그림 11 ImageNet-1K 실험 결과: 다양한 학습 오버헤드 예산 하에서 EfficientTrain++의 성능

EfficientTrain++는 ImageNet-22k에서 2~3배의 성능 무손실 사전 학습 가속을 달성할 수 있습니다.

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 그림 12 ImageNet-22K 실험 결과: 대규모 교육 데이터에서 EfficientTrain++의 성능

소형 모델의 경우 EfficientTrain++는 상당한 성능 상한 향상을 달성할 수 있습니다.

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 그림 13 ImageNet-1K 실험 결과: EfficientTrain++는 소규모 모델의 성능 상한을 크게 향상시킬 수 있습니다.

EfficientTrain++는 자기 지도 학습 알고리즘(예: MAE)에도 효과적입니다.

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 그림 14 EfficientTrain++는 자기 지도 학습(예: MAE)에 적용될 수 있습니다.

EfficientTrain++로 훈련된 모델은 대상 감지, 인스턴스 분할, 의미론적 분할과 같은 다운스트림 작업에서도 성능을 잃지 않습니다.

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 그림 15 COCO 타겟 탐지, COCO 인스턴스 분할 및 ADE20K 의미론적 분할 실험 결과

위 내용은 간단하고 보편적임: 시각적 기본 네트워크는 무손실 훈련을 최대 3배 가속화하며 Tsinghua EfficientTrain++가 TPAMI 2024에 선택되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!