簡單通用：視覺基礎網路3倍無損訓練加速，清華EfficientTrain++入選TPAMI 2024-人工智慧-PHP中文網

本討論文作者王語霖是清華大學自動化系2019級直博生，師從吳澄院士和黃高副教授，主要研究方向為高效深度學習、計算機視覺等。他曾以第一作者在 TPAMI、NeurIPS、ICLR、ICCV、CVPR、ECCV 等期刊、會議上發表討論文，曾獲百度獎學金、微軟學者、CCF-CV 學術新銳獎、字節跳動獎學金等榮譽。個人首頁：wyl.cool。

本文主要介紹剛被 IEEE Transactions on Pattern Analysis and Machine Intelligence （TPAMI）錄用的文章：EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbone Training。

简单通用：视觉基础网络3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

論文連結：https://arxiv.org/pdf/2405.08768
程式碼和預訓練模型已開源：https://github.com/LeapLabTHU/EfficientTrain
會議版本論文（ICCV 2023）：https://arxiv.org/pdf/2211.09703

#近年來，「scaling」是電腦視覺研究的主角之一。隨著模型尺寸和訓練資料規模的增大、學習演算法的進步以及正則化和資料增強等技術的廣泛應用，透過大規模訓練得到的視覺基礎網路（如ImageNet1K/22K上訓得的Vision Transformer、MAE 、DINOv2等）已在視覺辨識、目標偵測、語意分割等許多重要視覺任務上取得了令人驚豔的表現。

然而，「scaling」往往會帶來令人望而卻步的高昂模型訓練開銷，顯著阻礙了視覺基礎模型的進一步發展和工業應用。

面向解決這個問題，清華大學的研究團隊提出了一種廣義課程學習（generalized curriculum learning）演算法：EfficientTrain++。其核心思想在於，將「篩選和使用由易到難的數據、逐步訓練模型」的傳統課程學習範式推廣至「不進行資料維度的篩選，一直使用全部訓練數據，但在訓練過程中逐步揭示每個資料樣本的由易到難的特徵或模式（pattern）」。

EfficientTrain++ 有幾個重要的亮點：

即插即用地實現視覺基礎網路 1.5−3.0×無損訓練加速。上游、下游模型性能均不損失。實測速度與理論結果一致。
通用於不同的訓練資料規模（例如 ImageNet-1K/22K，22K 效果甚至更為明顯）。通用於監督學習、自監督學習（例如 MAE）。通用於不同訓練開銷（例如對應於 0-300 或更多 epochs）。
通用於 ViT、ConvNet 等多種網路結構（文中測試了二十餘種尺寸、種類不同的模型，一致有效）。
對較小模型，訓練加速之外，還可顯著提升性能（例如在沒有額外資訊幫助、沒有額外訓練開銷的條件下，在ImageNet-1K 上得到了81.3% 的DeiT-S#，可與原版Swin-Tiny 抗衡）。
對兩種有挑戰性的常見實際情況開發了專門的實際效率最佳化技術：1）CPU / 硬碟不夠強力，資料預處理效率跟不上GPU；2）大規模並行訓練，例如在ImageNet-22K 上使用64 或以上的GPUs 訓練大型模型。

接下來，我們一起來看看研究的細節。

一．研究動機

近年來，大型基礎模型（foundation models）的蓬勃發展推進了人工智慧和深度學習的進步。在電腦視覺領域，Vision Transformer（ViT）、CLIP、SAM、DINOv2等代表性工作已證明，同步增大（scaling up）神經網路尺寸和訓練資料規模能夠顯著拓展認知、偵測、分割等重要視覺任務的性能邊界。

然而，大型基礎模型往往具有高昂的訓練開銷，圖 1 給出了兩個典型例子。以使用 8 塊 NVIDIA V100 或性能更強的 GPU 為例，GPT-3、ViT-G 僅完成一次訓練即需要等效為數年甚至數十年的時間。如此高昂的訓練成本，無論是對學術界還是工業界而言，都是較難負擔的巨大開銷，往往只有少數高級機構消耗大量資源才能推進深度學習的進展。因此，一個亟待解決的問題是：如何有效提升大型深度學習模式的訓練效率？

简单通用：视觉基础网络3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 圖1 範例：大型深度學習基礎模型的高昂訓練開銷

對於電腦視覺模型而言，一個經典的想法是課程學習（curriculum learning），如圖2 所示，即模仿人類漸進式、高度結構化的學習過程，在模型訓練過程中，從最「簡單」的訓練資料開始，逐步引入由易到難的數據。

简单通用：视觉基础网络3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 圖2 經典課程學習典範（圖片來源：《A Survey on Curriculum Learning》，TPAMI'22）

#然而，儘管動機比較自然，課程學習並沒有被大規模應用為訓練視覺基礎模型的通用方法，其主要原因在於存在兩個關鍵的瓶頸，如圖3 所示。其一，設計有效的訓練課程（curriculum）並非易事。區別「簡單」、「困難」樣本往往需要藉助額外的預訓練模型、設計較複雜的 AutoML 演算法、引入強化學習等，且通用性較差。其二，課程學習本身的建模存在一定不合理性。自然分佈中的視覺資料往往具有高度的多樣性，圖3 下方給出了一個例子（從ImageNet 中隨機抽取的鸚鵡圖片），模型訓練資料中包含大量不同動作的鸚鵡、離鏡頭不同距離的鸚鵡、不同視角、不同背景的鸚鵡、以及鸚鵡與人或物的多樣化的交互等，將如此多樣化的數據數據僅以“簡單”、“困難”的單一維度指標進行區分，事實上是一個比較粗糙和牽強的建模方式。

简单通用：视觉基础网络3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 圖 3 阻礙課程學習大規模應用於訓練視覺基礎模型的兩個關鍵瓶頸

二．方法簡介

受到上述挑戰的啟發，本文提出了一種廣義課程學習（generalized curriculum learning）範式，其核心思想在於，將「篩選和使用由易到困難的數據、逐步訓練模型”的傳統課程學習範式推廣至“不進行數據維度的篩選，一直使用全部訓練數據，但在訓練過程中逐步揭示每個數據樣本的由易到難的特徵或模式」，這樣就有效避開了因資料篩選範式引發的局限和次優設計，如圖4 所示。

简单通用：视觉基础网络3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 圖4 傳統課程學習（樣本維度） v.s. 廣義課程學習（特徵維度）

此範式的提出主要基於一個有趣的現象：在一個自然的視覺模型訓練過程中，雖然模型總是可以隨時獲取數據中包含的全部信息，但模型總是會自然地先學習識別數據中包含的某些比較簡單的判別特徵（pattern），而後在此基礎上再逐步學習辨識較難的判別特徵。而且，這個規律是比較普遍的，「比較簡單」的判別特徵在頻域和空域都可以較方便地找到。本文設計了一系列有趣的實驗來證明上述發現，如下所述。

从频域的角度来说，「低频特征」对于模型而言「比较简单」。在图 5 中，本文作者使用标准 ImageNet-1K 训练数据训练了一个 DeiT-S 模型，并使用带宽不同的低通滤波器对验证集进行滤波，只保留验证图像的低频分量，在此基础上报告 DeiT-S 在训练过程中、在低通滤波的验证数据上的准确率，所得准确率相对训练过程的曲线显示于图 5 右侧。

我们可以看到一个有趣的现象：在训练早期阶段，仅使用低通滤波的验证数据不会显著降低准确性，且曲线与正常验证集准确率间的分离点随滤波器带宽的增大而逐渐右移。这一现象表明，尽管模型始终可以访问训练数据的低频和高频部分，但其学习过程自然地从仅关注低频信息开始，识别较高频特征的能力则在训练后期逐步习得（这一现象的更多证据可参考原文）。

简单通用：视觉基础网络3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 图 5 频域角度上，模型自然倾向于先学习识别低频特征

这一发现引出了一个有趣的问题：我们是否可以设计一个训练课程（curriculum），从只为模型提供视觉输入的低频信息开始，而后逐渐引入高频信息？

图 6 研究了这个想法，即仅在特定长度的早期训练阶段对训练数据执行低通滤波，训练过程的其余部分保持不变。从结果中可以观察到，尽管最终性能提升有限，但有趣的是，即使在相当长的一段早期训练阶段中仅向模型提供低频分量，模型的最终精度也可以在很大程度上得到保留，这也与图 5 中「模型在训练初期主要关注学习识别低频特征」的观察不谋而合。

这一发现启发了本文作者关于训练效率的思考：既然模型在训练初期只需要数据中的低频分量，且低频分量包含的信息小于原始数据，那么能否使模型以比处理原始输入更少的计算成本高效地仅从低频分量中学习？

简单通用：视觉基础网络3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 图 6 在相当长的一段早期训练阶段中仅向模型提供低频分量并不会显著影响最终性能

事实上，这一思路是完全可行的。如图 7 左侧所示，本文作者在图像的傅里叶频谱中引入了裁切操作，裁切出低频部分，并将其映射回像素空间。这一低频裁切操作准确地保留了所有低频信息，同时减小了图像输入的尺寸，因此模型从输入中学习的计算成本可以呈指数级降低。

如果使用这一低频裁切操作在训练早期阶段处理模型输入，可以显著节省总体训练成本，但由于最大限度地保留了模型学习所必要的信息，仍然可以获得性能几乎不受损失的最终模型，实验结果如图 7 右下方所示。

简单通用：视觉基础网络3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 图 7 低频裁切（low-frequency cropping）：使模型高效地仅从低频信息中学习

在频域操作之外，从空域变换的角度，同样可以找到对于模型而言「比较简单」的特征。例如，没有经过较强数据增强或者扭曲处理的原始视觉输入中所包含的自然图像信息往往对于模型而言「比较简单」、更容易让模型学习，因为它们是从现实世界的分布中得出的，而数据增强等预处理技术所引入的额外信息、不变性等往往对于模型而言较难学习（图 8 左侧给出了一个典型示例）。

事实上，现有研究也已观察到，数据增强主要在训练较晚期阶段发挥作用（如《Improving Auto-Augment via Augmentation-Wise Weight Sharing》, NeurIPS’20）。

In this dimension, in order to realize the paradigm of generalized course learning, it can be easily achieved by simply changing the intensity of data augmentation to provide the model with only natural image information that is easier to learn in the training data in the early stages of training. . The right side of Figure 8 uses RandAugment as a representative example to verify this idea. RandAugment contains a series of common spatial data enhancement transformations (such as random rotation, changing sharpness, affine transformation, changing exposure, etc.).

It can be observed that training the model starting from weaker data augmentation can effectively improve the final performance of the model, and this technique is compatible with low-frequency cropping.

简单通用：视觉基础网络3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 Figure 8 Looking for the "easier to learn" features of the model from the perspective of airspace: a data enhancement perspective

This is it So far, this article has proposed the core framework and assumptions of generalized curriculum learning, and proved the rationality and effectiveness of generalized curriculum learning by revealing two key phenomena in the frequency domain and spatial domain. On this basis, this paper further completes a series of systematic work, which are listed below. Due to space limitations, please refer to the original paper for more research details.

Integrate the two core findings of frequency domain and spatial domain, propose and improve specially designed optimization algorithms, and establish a unified and integrated EfficientTrain++ generalized course learning plan.
This paper discusses the specific methods for efficient implementation of low-frequency cropping operations on actual hardware, and compares two feasible methods for extracting low-frequency information from both theoretical and experimental perspectives: low-frequency cropping The differences and connections between image downsampling and image downsampling.
Specialized actual efficiency optimization technology has been developed for two challenging common practical situations: 1) The CPU/hard disk is not powerful enough, and the data preprocessing efficiency cannot keep up with the GPU; 2) Massively parallel training, such as training large models on ImageNet-22K using 64 or more GPUs.

The EfficientTrain++ generalized course learning plan finally obtained in this article is shown in Figure 9. EfficientTrain++ dynamically adjusts the bandwidth of frequency domain low-frequency cropping and the intensity of spatial domain data enhancement based on the consumption percentage of the total computing overhead of model training.

Notably, as a plug-and-play approach, EfficientTrain++ can be directly applied to a variety of vision-based networks and diverse In model training scenarios, the effect is relatively stable and significant.

简单通用：视觉基础网络3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 Figure 9 Unified and integrated broad curriculum learning plan: EfficientTrain++

III. Experimental results

As a plug-and-play method, EfficientTrain++ combines the actual performance of various visual basic networks on ImageNet-1K without basically losing or improving performance. The training overhead is reduced by about 1.5 times.

简单通用：视觉基础网络3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 Figure 10 ImageNet-1K experimental results: Performance of EfficientTrain++ on a variety of visual basic networks

The gain of EfficientTrain++ is universal for With different training overhead budgets and strictly the same performance, the training acceleration ratio of DeiT/Swin on ImageNet-1K is about 2-3 times.

简单通用：视觉基础网络3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 Figure 11 ImageNet-1K experimental results: Performance of EfficientTrain++ under different training overhead budgets

EfficientTrain++ on ImageNet-22k It can achieve 2-3 times performance lossless pre-training acceleration.

简单通用：视觉基础网络3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 Figure 12 ImageNet-22K experimental results: Performance of EfficientTrain++ on larger-scale training data

For smaller models , EfficientTrain++ can achieve significant performance upper bound improvements.

简单通用：视觉基础网络3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 Figure 13 ImageNet-1K experimental results: EfficientTrain++ can significantly improve the performance upper bound of smaller models

EfficientTrain++ For self-supervised learning algorithms (such as MAE ) is equally valid.

简单通用：视觉基础网络3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 Figure 14 EfficientTrain++ can be applied to self-supervised learning (such as MAE)

The model trained by EfficientTrain++ is used in target detection and examples There is also no loss of performance on downstream tasks such as segmentation and semantic segmentation.

简单通用：视觉基础网络3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024 Figure 15 COCO target detection, COCO instance segmentation, and ADE20K semantic segmentation experimental results

以上是簡單通用：視覺基礎網路3倍無損訓練加速，清華EfficientTrain++入選TPAMI 2024的詳細內容。更多資訊請關注PHP中文網其他相關文章！