OTO는 업계 최초의 자동화된 원스톱 사용자 친화적 다용도 신경망 훈련 및 구조 압축 프레임워크입니다.
인공지능 시대에는 신경망을 어떻게 배치하고 유지 관리할지가 제품화의 핵심 문제입니다. 모델 성능 손실을 최소화하면서 컴퓨팅 비용을 절감한다는 점을 고려하면 신경망 압축은 DNN 제품화의 핵심 중 하나가 되었습니다.
DNN 압축에는 일반적으로 가지치기, 지식 증류, 양자화의 세 가지 방법이 있습니다. 프루닝은 중복된 구조를 식별하여 제거하고 모델 성능을 최대한 유지하면서 DNN을 줄이는 것을 목표로 합니다. 이는 가장 다양하고 효과적인 압축 방법입니다. 일반적으로 세 가지 방법은 서로를 보완하고 함께 작동하여 최상의 압축 효과를 얻을 수 있습니다.
기존 가지치기 방법의 대부분은 특정 모델과 특정 작업만을 대상으로 하며 강력한 전문 도메인 지식이 필요하므로 일반적으로 AI 개발자는 이러한 방법을 자신의 시나리오에 적용하기 위해 많은 노력을 기울여야 합니다. 인적, 물적 비용이 많이 소모됩니다.
기존 가지치기 방법의 문제점을 해결하고 AI 개발자에게 편의성을 제공하기 위해 Microsoft 팀에서는 Only-Train-Once OTO 프레임워크를 제안했습니다. OTO는 업계 최초의 자동화된 원스톱 사용자 친화적 범용 신경망 훈련 및 구조 압축 프레임워크입니다. 일련의 작업이 ICLR2023 및 NeurIPS2021에 게시되었습니다.
OTO를 사용하면 AI 엔지니어는 대상 신경망을 쉽게 훈련하고 원스톱으로 고성능 경량 모델을 얻을 수 있습니다. OTO는 엔지니어링 시간과 노력에 대한 개발자의 투자를 최소화하고, 기존 방법에서 일반적으로 요구되는 시간이 많이 소요되는 사전 교육 및 추가 모델 미세 조정이 필요하지 않습니다.
네트워크 구조의 복잡성과 상관 관계로 인해 네트워크 구조를 삭제하면 나머지 네트워크 구조가 유효하지 않게 될 수 있습니다. 따라서 자동화된 네트워크 구조 압축의 가장 큰 문제 중 하나는 나머지 네트워크가 여전히 유효하도록 함께 정리해야 하는 모델 매개변수를 찾는 방법입니다. 이 문제를 해결하기 위해 Microsoft 팀은 OTOv1에서 ZIG(Zero-Invariant Group)를 제안했습니다. 영불변 그룹은 제거 가능한 가장 작은 단위의 유형으로 이해될 수 있으므로 그룹의 해당 네트워크 구조가 제거된 후에도 나머지 네트워크는 여전히 유효합니다. 영불변 그룹의 또 다른 큰 특성은 영불변 그룹이 0과 같으면 입력 값이 무엇이든 출력 값은 항상 0이라는 것입니다. OTOv2에서 연구원들은 일반 네트워크에서 제로 불변 그룹의 그룹화 문제를 해결하기 위해 일련의 자동화된 알고리즘을 제안하고 구현했습니다. 자동화된 그룹화 알고리즘은 일련의 그래프 알고리즘을 신중하게 조합한 것입니다. 전체 알고리즘은 매우 효율적이며 선형적인 시간 및 공간 복잡성을 갖습니다.
Dual Half Plane Projected Gradient Optimization Algorithm(DHSPG)대상 네트워크의 모든 영불변 그룹을 나눈 후 다음 모델 훈련 및 가지치기 작업에서는 어떤 영불변 그룹이 중복되는지 알아내야 합니다. . 나머지는 중요한 것입니다. 압축 모델의 성능을 보장하려면 중복된 제로 불변 그룹에 해당하는 네트워크 구조를 삭제하고 중요한 제로 불변 그룹을 유지해야 합니다. 연구진은 이 문제를 구조적 희소화 문제로 공식화하고, 이를 해결하기 위한 새로운 DHSPG(Dual Half-Space Projected Gradient) 최적화 알고리즘을 제안했습니다.
DHSPG는 중복된 제로 불변 그룹을 매우 효과적으로 찾아 이를 0으로 투영할 수 있으며, 중요한 제로 불변 그룹을 지속적으로 훈련하여 원래 모델과 비슷한 성능을 달성할 수 있습니다.
기존 희소 최적화 알고리즘과 비교하여 DHSPG는 더 강력하고 안정적인 희소 구조 탐색 기능을 갖추고 훈련 검색 공간을 확장하므로 일반적으로 더 높은 실제 성능 결과를 달성합니다.
경량 압축 모델을 자동으로 구축
DHSPG를 사용하여 모델을 학습하면 영불변 그룹의 높은 구조적 희소성을 준수하는 솔루션을 얻을 수 있습니다. 즉, 솔루션에 많은 것이 있습니다. 이는 0의 0 불변 그룹으로 투영되며 이 솔루션은 또한 높은 모델 성능을 갖습니다. 다음으로, 연구진은 중복된 제로 불변 그룹에 해당하는 모든 구조를 삭제하여 자동으로 압축 네트워크를 구축했습니다. 영불변 그룹의 특성으로 인해, 즉 영불변 그룹이 0이면 입력 값이 무엇이든 출력 값은 항상 0이 되므로 중복된 영불변 그룹을 삭제하면 네트워크에 영향을 미칠 수 있습니다. 따라서 OTO를 통해 얻은 압축 네트워크는 기존 방법에서 요구되는 추가 모델 미세 조정이 필요 없이 전체 네트워크와 동일한 출력을 갖게 됩니다.
수많은 실험 CIFAR10의 VGG16 및 VGG16-BN 모델과 CIFAR10의 VGG16-BN 모델에서 볼륨이 97.5% 감소했으며 성능이 인상적이었습니다.
표 2: CIFAR10에 대한 ResNet50 실험
CIFAR10에 대한 ResNet50 실험에서 OTO는 단 7.8%의 FLOP와 4.1%의 매개변수를 사용하여 양자화 없이 SOTA 신경망 압축 프레임워크 AMC 및 ANNC보다 성능이 뛰어났습니다.
표 3. ImageNet의 ResNet50 실험
ImageNet의 ResNet50 실험에서 OTOv2는 다양한 구조적 희소화 목표 하에서 기존 SOTA 방법과 비슷하거나 훨씬 더 나은 성능을 보여주었습니다.
표 4: 추가 구조 및 데이터 세트
OTO는 또한 더 많은 데이터 세트 및 모델 구조에서 좋은 성능을 달성합니다.
저수준 비전 작업
표 4: CARNx2 실험
초해상도 작업에서 OTO 원스톱 훈련은 CARNx2 네트워크를 압축하여 원래 모델과 경쟁력 있는 결과를 얻었습니다. 성능을 향상시키고 계산 작업량과 모델 크기를 75% 이상 압축했습니다.언어 모델 작업
또한 연구진은 핵심 알고리즘 중 하나인 DHSPG 최적화 알고리즘에 대해 Bert에 대한 비교 실험을 진행하여 다른 희소 최적화 알고리즘에 비해 높은 성능을 검증했습니다. Squad에서는 훈련에 DHSPG를 사용하여 얻은 매개변수 감소 및 모델 성능이 다른 희소 최적화 알고리즘보다 훨씬 우수하다는 것을 알 수 있습니다.
결론Microsoft 팀은 OTO(Only-Train-Once)라는 자동화된 원스톱 신경망 훈련 구조 가지치기 프레임워크를 제안했습니다. 고성능을 유지하면서 전체 신경망을 경량 네트워크로 자동 압축할 수 있습니다. OTO는 기존 구조 가지치기 방법의 복잡한 다단계 프로세스를 크게 단순화하고 다양한 네트워크 아키텍처 및 애플리케이션에 적합하며 사용자의 추가 엔지니어링 투자를 최소화합니다. 다용도이고 효과적이며 사용하기 쉽습니다.위 내용은 Microsoft는 원스톱으로 고성능 경량 모델을 얻기 위해 자동화된 신경망 훈련 가지치기 프레임워크 OTO를 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!