대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

WBOY
풀어 주다: 2023-04-11 22:31:01
앞으로
1341명이 탐색했습니다.

최근 몇 년 동안 Tsinghua University 컴퓨터 과학과의 Sun Maosong 팀은 대규모 언어 모델 매개변수에 대한 효율적인 미세 조정 방법의 메커니즘과 특성을 심층적으로 탐구했으며 학교 내 다른 관련 팀과 협력하여 연구 결과 "Efficient Fine-tuning ofparameters for 대규모 사전 훈련된 언어 모델"(Parameter -efficient Fine-tuning of Large scale Pre-trained Language Models)이 "Nature Machine Intelligence" 3월 2일자에 게재되었습니다. 연구 결과는 Sun Maosong, Li Juanzi, Tang Jie, Liu Yang, Chen Jianfei, Liu Zhiyuan 및 Shenzhen International Graduate School Zheng Haitao, Zheng Haitao 등 컴퓨터 과학과의 교사와 학생들이 공동으로 완료했습니다. Sun Maosong은 이 기사의 교신저자이며 Tsinghua University 컴퓨터 공학과에서 박사 학위를 취득했습니다. Sheng Dingning(멘토 Zheng Haitao)과 Qin Yujia(멘토 Liu Zhiyuan)는 이 기사의 공동 제1저자입니다.

배경 및 개요

2018년부터 사전 훈련된 언어 모델(PLM)과 이에 대한 "사전 훈련-미세 조정" 방법이 자연어 처리(NLP) 작업의 주류 패러다임이 되었습니다. 레이블이 없는 데이터를 확장합니다. 자기 지도 학습을 통해 대규모 언어 모델을 사전 학습하여 기본 모델을 얻은 다음 다운스트림 작업의 주석이 달린 데이터를 사용하여 지도 학습을 수행하고 모델 매개변수를 미세 조정하여 다운스트림 작업에 적응합니다.

기술의 발전과 함께 PLM은 의심할 여지없이 다양한 NLP 작업의 인프라가 되었으며, PLM의 개발에는 모델의 크기가 점점 더 커지고 있다는 돌이킬 수 없는 추세가 있습니다. 더 큰 모델은 알려진 작업에서 더 나은 결과를 얻을 뿐만 아니라 더 복잡한 알려지지 않은 작업을 완료할 수 있는 잠재력도 보여줍니다.

그러나 대규모 모델은 사전 훈련된 초대형 모델을 전체 매개변수로 미세 조정하는 전통적인 방법은 많은 양의 GPU 컴퓨팅 리소스와 스토리지 리소스를 소비하므로 적용 시 더 큰 문제에 직면하게 됩니다. 엄청난 비용입니다. 이 비용은 학계에서도 일종의 '관성'을 만들어냈습니다. 즉, 연구자들은 중소 규모 모델에 대해서만 자신의 방법을 검증하고 대규모 모델을 습관적으로 무시합니다.

이 기사의 통계에서 우리는 지난 5번의 NLP 컨퍼런스에서 무작위로 1,000개의 논문을 선택했으며 사전 훈련된 모델을 사용하는 것이 기본 연구 패러다임이 되었지만 대형 모델과 관련된 논문은 거의 없음을 확인했습니다(그림 1 표시). .

대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

그림 1: 무작위로 선택된 1000개의 논문에 사용된 사전 훈련된 모델의 통계적 분포

이러한 맥락에서 새로운 모델 적응 방식인 매개변수 효율적인 방법은 다음과 같습니다. 표준 전체 매개변수 미세 조정과 비교하여 이러한 방법은 모델 매개변수 중 일부만 미세 조정하고 나머지는 변경하지 않아 컴퓨팅 및 저장 비용을 크게 절감합니다. 전체 매개변수 미세 조정. 우리는 이러한 방법이 본질적으로 "증분"(Delta Paremters)에 따라 조정된다고 믿기 때문에 이름을 Delta Tuning으로 지정했습니다.

이 글에서는 델타 튜닝 문제를 정의 및 설명하고, 통합된 프레임워크를 통해 이전 연구를 검토합니다. 이 프레임워크에서 기존 델타 튜닝 방법은 증분(추가 기반), 사양 기반(사양 기반) 및 재매개변수화(Reparameterization) 방법의 세 그룹으로 나눌 수 있습니다.

실용적인 중요성 외에도 Delta Tuning은 대형 모델의 메커니즘을 어느 정도 밝혀내므로 대형 모델 및 심층 신경망 이론에 대한 방법을 더욱 발전시키는 데 도움이 됩니다. 이를 위해 우리는 후속 구조와 알고리즘 설계를 안내하기 위해 최적화와 최적 제어라는 두 가지 관점에서 델타 튜닝을 논의하는 이론적 틀을 제안합니다. 또한, 우리는 대표적인 방법에 대한 포괄적인 실험적 비교를 수행하고 100개 이상의 NLP 작업 결과에 대한 다양한 방법의 포괄적인 성능 비교를 보여줍니다. 실험 결과는 Delta Tuning의 성능, 융합 성능, 효율성 성능, Power of Scale, 일반화 성능, 마이그레이션 성능에 대한 연구 및 분석을 포함합니다. 또한 우리는 실무자가 PLM에서 델타 튜닝을 효율적이고 유연하게 구현할 수 있도록 지원하는 오픈 소스 툴킷인 OpenDelta를 개발했습니다.

대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

  • 논문 링크: https://www.nature.com/articles/s42256-023-00626-4
  • OpenDelta 툴킷: https://github.com/thunlp/OpenDelta

대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

그림 2: 델타 튜닝의 분할 프레임워크

델타 튜닝: 방법 및 분석

사전 훈련된 모델과 훈련 데이터가 주어지면 PLM 적응의 목표는 모델을 생성하는 것입니다. 매개변수는 다음과 같습니다. 원본 모델 위에 대한 작업으로 정의됩니다. 전통적인 전체 매개변수 미세 조정의 경우

대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

이 있습니다. 여기서

대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

은 훈련 데이터를 기준으로

대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

에 있는 모든 매개변수의 업데이트된 값입니다. Delta Tuning에서

대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

은 소수의 매개변수를 수정하는 것을 의미합니다. 경험적으로 말하면, 전체 매개변수 미세 조정에는

대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

이 있는 반면, 델타 튜닝에는

대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

이 있습니다. 따라서 조정된 매개변수 형태와 구조에 따라 매개변수 효율적인 Delta Tuning을 세 가지 전략으로 나누고 이전 방법을 정리할 수 있습니다. 원래 모델에는 없는 매개변수입니다. 이러한 유형의 방법에는 위의 정의에 따라

이 있습니다. 일반적인 증분 방법에는 어댑터 조정, 접두사 조정, 프롬프트 조정 등이 포함됩니다. 그들은 항상 소규모 신경 모듈이나 조정 가능한 매개변수를 모델에 삽입하고, 이 작은 매개변수 부분만 미세 조정하여 효율적인 모델 적응을 달성합니다. 그 중 어댑터 조정(Adapter-tuning)은 이러한 유형의 방법의 선구적인 작업으로, 각 계층에 간단한 신경망을 추가하는 것만으로도 많은 작업에 대한 전체 매개변수 미세 조정과 비슷할 수 있음을 입증합니다. 동시에 Adapter는 멀티 태스킹 및 다중 언어 시나리오에서도 잠재력을 보여줍니다. Prefix-tuning과 Prompt Tuning은 최근 매우 인기 있는 Delta Tuning 알고리즘입니다. 이들은 미세 조정을 위해 입력 레이어 또는 프리젠테이션 레이어에 조정 가능한 벡터를 삽입합니다. 그 중 Prompt Tuning은 Prefix Tuning의 단순화된 버전, 즉 입력 레이어에 Soft Prompt만 추가한 것이라고 볼 수 있습니다. 이 접근 방식은 모델의 내부 구조를 수정할 필요가 없다는 매우 큰 장점이 있으며, 동시에 모델 매개변수 수가 100억 개로 증가함에 따라 다음과 같은 목표를 달성할 수 있다는 것도 입증되었습니다. 일부 데이터에 대한 전체 매개변수 미세 조정과 동일한 효과. 그러나 이러한 유형의 방법은 또한 큰 최적화 문제에 직면해 있습니다. 실험을 통해 최적화 효율성이 다른 미세 조정 패러다임보다 낮고 수렴하는 데 시간이 더 오래 걸리며 중소 규모 모델에서는 제대로 수행되지 않는 것으로 나타났습니다.

대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

그림 3: 델타 튜닝의 형식적 표현

대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

사양 기반 방법

이 유형의 방법은 원래 모델의 특정 매개변수를 학습 가능하게 하고 다른 매개변수는 고정하도록 지정합니다. 이러한 유형의 방법에서는 훈련 매개변수 세트를 로 표현할 수 있으며, 이때 업데이트된 매개변수는 로 나타낼 수 있습니다. 그런 다음 증분 값이고, 그렇지 않으면 증분 값입니다. 지정된 방법은 모델에 새로운 매개변수를 도입하거나 모델의 구조를 변경하려고 하지 않고 최적화할 일부 매개변수를 직접 지정합니다. 아이디어는 간단하지만 놀라울 정도로 잘 작동합니다. 예를 들어 일부 방법은 BERT 및 RoBERTa의 마지막 레이어의 1/4만 미세 조정하고 전체 매개변수 미세 조정 성능의 90%를 생성할 수 있습니다. BitFit의 연구에 따르면 모델 내부의 편향 항만 최적화하고 다른 매개변수를 동결함으로써 모델은 여러 벤치마크에서 전체 매개변수 미세 조정 성능의 95% 이상을 재현할 수 있습니다. BitFit의 경험적 결과는 또한 델타 튜닝을 위해 작은 무작위 매개변수 세트를 사용하더라도(명백히 성능 저하) 모델이 여전히 GLUE 벤치마크에서 허용 가능한 결과를 생성할 수 있음을 보여줍니다. 또 다른 귀중한 관찰은 모델 적응 중에 다양한 편향 항이 다른 기능을 가질 수 있다는 것입니다.

업데이트할 매개변수를 수동 또는 경험적으로 지정하는 것 외에도 이러한 사양을 학습할 수도 있습니다. Diff Pruning은 미세 조정된 모델 매개변수를 사전 학습된 매개변수와 차이 벡터의 합, 즉 차이 벡터로 다시 매개변수화하는 대표적인 작업 중 하나입니다. 이때 중요한 문제는 차이 벡터를 가능한 한 희소하게 만드는 것입니다. 이 작업은 희소성 목표를 달성하기 위해 미분 가능한 근사를 통해 벡터를 정규화합니다. 실제로 Diff Pruning은 학습 단계에서 최적화할 새로운 매개변수의 도입으로 인해 전체 매개변수 미세 조정보다 더 많은 GPU 메모리를 소비합니다. 이는 대규모 PLM의 애플리케이션에서는 어려울 수 있습니다. 마스킹 방법(Masking)은 PLM에 대한 선택적 마스크를 학습하여 특정 작업에 대한 임계 가중치만 업데이트합니다. 이러한 마스크 세트를 학습하기 위해 모델 가중치와 관련된 이진 행렬이 도입되었으며, 여기서 각 값은 임계값 함수에 의해 생성됩니다. 역전파 중에 행렬은 잡음 추정기에 의해 업데이트됩니다.

재매개변수화 기반 방법

이러한 유형의 방법은 기존 최적화 프로세스를 변환하여 매개변수 유효 형식으로 다시 매개변수화합니다. 다시 매개변수화할 매개변수 세트를 로 표시하고, 각 매개변수가 새 매개변수로 표시된다고 가정하면 업데이트된 매개변수는 으로 표시됩니다. 여기서 . 간단히 말해서, 재매개변수화 방법은 사전 훈련된 모델의 적응 프로세스가 본질적으로 낮은 순위 또는 저차원이라는 유사한 가정을 기반으로 하는 경우가 많습니다. 따라서 이 프로세스는 매개변수 효율적인 패러다임과 동일할 수 있습니다.

예를 들어, 모델 적응에 "내재적 차원"이 있다고 가정할 수 있습니다. 미세 조정 프로세스를 저차원 부분 공간의 최적화 프로세스로 다시 매개변수화하면 미세 조정만으로도 인상적인 결과를 얻을 수 있습니다. 부분공간의 매개변수는 만족스럽습니다. 이러한 의미에서 PLM은 최적화 복잡성을 높은 차원에서 낮은 차원으로 압축하는 일반적인 압축 프레임워크 역할을 할 수 있습니다. 일반적으로 더 큰 PLM은 일반적으로 더 작은 본질적인 차원을 가지며, 사전 학습 프로세스는 암시적으로 PLM의 본질적인 차원을 줄입니다. 이러한 관찰에서 영감을 받아 저차원 대리 매개변수를 사용하여 원래 모델 매개변수(일부)를 다시 매개변수화하고 대리 매개변수만 최적화하여 계산 및 메모리 비용을 줄이는 재매개변수화된 델타 튜닝 방법도 제안되었습니다.

또 다른 잘 알려진 연구인 LoRA는 모델 조정 중 가중치 변화가 낮은 "내재 순위"를 갖는다고 가정합니다. 이 가정을 기반으로 그들은 self-attention 모듈의 원래 가중치 행렬의 변화에 ​​대한 낮은 순위 분해를 최적화할 것을 제안합니다. 배포 시 최적화된 하위 순위 분해 행렬을 곱하여 self-attention 가중치 행렬의 증분을 얻습니다. 이러한 방식으로 LoRA는 GLUE 벤치마크에서 미세 조정된 성능을 일치시킬 수 있습니다. 이들은 다양한 규모와 아키텍처의 PLM, 심지어 GPT3에 대한 접근 방식의 효율성을 보여줍니다.

이러한 저차원 가정은 단일 작업 적응에 적합할 뿐만 아니라 다중 작업 시나리오로 확장될 수도 있습니다. IPT는 여러 작업에 대해 동일한 저차원 고유부분공간이 존재한다고 가정하며, 부분공간의 매개변수를 조정하는 것만으로도 동시에 100개 이상의 NLP 작업에서 만족스러운 결과를 얻을 수 있습니다. 무작위 부분 공간을 사용하는 대신 이 방법은 여러 NLP 작업에서 공유하는 공통 부분 공간을 찾으려고 시도합니다. 실험에 따르면 250차원 저차원 부분공간에서 250개 매개변수만 조정하면 100개 이상의 NLP 작업에서 프롬프트 튜닝 성능의 80% 이상이 재현될 수 있습니다.

대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

그림: 재매개변수화 방법은 종종 유사한 저차원 또는 낮은 순위 가정을 기반으로 합니다.

델타 튜닝의 이론적 관점

델타 튜닝에는 본질적인 공통점이 있나요? 우리는 Delta Tuning 방법이 높은 실용적 가치를 가질 뿐만 아니라 광범위한 이론적 중요성을 가지고 있다고 믿습니다. 이 방법들은 모두 한 가지 사실을 변함없이 증명하는 것 같습니다. 즉, 대형 모델의 적응 과정은 매우 저렴한 과정인 것 같습니다. ((사전 훈련의 경우)에 비해 매우 적은 데이터와 매우 적은 매개변수 조정으로 수행할 수 있습니다. Delta Tuning의 성공은 우리가 모델 적응 뒤에 있는 이론적 프레임워크를 더 탐구하도록 영감을 주었습니다. 이 기사에서는 이론적 수준에서 Delta Tuning을 설명하기 위해 최적화와 최적 제어라는 두 가지 관점에서 프레임워크를 제안합니다.

최적화 각도

델타 튜닝은 소수의 매개변수를 미세 조정하고 메모리 사용량을 줄여 원래의 대규모 언어 모델에서 전체 매개변수 미세 조정 효과를 얻으려고 시도합니다. 최적화 관점에서 델타 튜닝의 효과를 분석하고 저차원 가정 하에서 일부 델타 튜닝 방법의 설계에 대해 논의합니다. Delta Tuning을 사용한 후에는 목적 함수와 이에 의존하는 매개변수가 변경될 수 있습니다. 새로운 목적 함수의 경우 Delta Tuning과 관련된 매개변수만 최적화됩니다. 초기 값이 충분하면 특정 가정 하에서 모델의 성능이 크게 손상되지 않습니다. 그러나 Delta Tuning의 효율성을 보장하려면 문제의 구조를 개발하여 이 새로운 목적 함수를 설계해야 합니다. 출발점은 문제의 고유한 저차원 특성을 활용하는 것입니다. 일반적으로 실제로 유용하다고 입증된 두 가지 아이디어가 있습니다.

  • 특정 저차원 부분공간에서 해 벡터 찾기
  • 특정 저차원 함수 공간 함수에서 목표 근사.

대부분의 딥러닝 응용에서 목적함수는 대개 국소최소점을 많이 가지기 때문에 초기값이 국소최소점에 가까우면 개별 탐색 방향만 중요하거나 목적함수가 여기에 들어갑니다. 이웃은 더 간단한 함수로 근사화될 수 있습니다. 따라서 두 최적화 아이디어 모두 좋은 결과를 얻을 것으로 예상되며 일반적으로 저차원 매개변수를 최적화하는 것이 더 효과적이고 안정적입니다.

솔루션 공간의 저차원 표현입니다. 연구에 따르면 사전 훈련된 언어 모델의 매개변수 최적화는 저차원 다양체(Aghajanyan et al., 2021)를 따르므로 이 다양체는 솔루션 벡터의 저차원 표현에 포함될 수 있습니다. 이 저차원 표현이 정확하다면 원래 모델에 대한 전체 매개변수 미세 조정은 이 저차원 매개변수에 대한 미세 조정과 동일합니다. 저차원 표현에 오류가 있는 경우 사전 훈련된 모델의 목적 함수와 새로운 목적 함수가 Lipschitz 연속성을 만족할 때 전체 매개변수 미세 조정과 저차원 매개변수 미세 조정 간의 최종 효과 차이는 튜닝도 제어 가능합니다.

일부 델타 튜닝 방법은 이 설계 아이디어의 이점을 얻습니다. 예를 들어 LoRA(Hu et al., 2021a)에서는 가중치 행렬이 낮은 순위 근사를 채택하고 BitFit(Zaken et al., 2021) 및 diff pruning(Guo et al., 2021)에서는 일부 선택된 매개변수만 다음과 같습니다. 최적화. 이러한 방법의 핵심은 솔루션 벡터의 더 작은 하위 공간에서 매개변수를 업데이트하고 궁극적으로 더 나은 결과를 얻는 것입니다.

기능 공간의 저차원 표현. 또 다른 접근 방식은 원래 목적 함수의 근사 함수를 직접 설계하고 이 함수의 근사 오차가 작을 것으로 기대하는 것입니다. 이러한 함수 근사는 증분 네트워크(Houlsby et al., 2019) 또는 증강된 특징 공간(Lester et al., 2021)일 수 있습니다. 우리는 일반적으로 언어 모델의 최종 효과에 더 관심이 있기 때문에 목적 함수 자체에 대한 대략적인 효과를 직접 고려하는 것이 합리적입니다.

실제로 이러한 함수 근사치를 구성하는 방법은 다양합니다. 가장 간단한 방법은 네트워크의 일부 매개변수만 수정하고 나머지는 미세 조정하는 것입니다. 이 방법은 네트워크의 일부가 전체 네트워크의 성능을 대략적으로 반영할 수 있다고 예상합니다. 네트워크에서 기능의 역할은 데이터 흐름으로 특징지어지기 때문에 낮은 순위 표현이 원래 네트워크의 데이터 경로에 주입될 수 있으며 결과적으로 새로운 모델은 어댑터와 같은 증분 네트워크입니다. 함수의 오차는 델타 네트워크의 표현력에 따라 결정됩니다.

Transformer의 자동회귀 구조가 개발되면 좀 더 세련된 함수 근사도 얻을 수 있습니다. 예를 들어 프롬프트 조정(Lester et al., 2021)은 일련의 프롬프트 토큰을 입력에 접두사로 추가하고 이러한 프롬프트 토큰이 의존하는 매개 변수만 미세 조정합니다. 이 방법은 기능 공간의 확장으로 간주될 수 있으며 Transformer의 속성 덕분에 이러한 기능은 원래 기능에 더 잘 근접할 수 있으며 언어 모델이 특정 작업에 집중하도록 안내할 수 있습니다. 관련 방법으로는 접두사 조정(Li & Liang, 2021)이 있습니다. 실험을 통해 신속한 조정이 더 큰 모델과 더 큰 데이터 세트에 더 나은 이점이 있다는 것이 관찰되었습니다. 이는 이러한 방법이 기본적으로 모델과 데이터의 규모가 증가할 때 저차원 함수를 사용하기 때문에 합리적입니다. 크면 함수 근사의 부분공간을 선택할 수 있는 자유도가 자연스럽게 더 높아집니다.

두 가지 저차원 표현은 일반적으로 형식적으로 유사한 델타 튜닝 방법으로 이어질 수 있습니다. (He et al., 2022)은 Adapter, Prefix Tuning, LoRA를 공식적으로 통일한 성명을 발표했는데, 이는 다양한 Delta Tuning 기법을 함수 근사의 관점에서 보는 것으로 볼 수 있다. 우리의 논의는 이러한 델타 튜닝 방법이 저차원 가정에 의존한다는 것을 보여줍니다. 실제로 다양한 작업에는 공통적인 저차원 부분공간도 있습니다(Qin et al., 2021b). Su et al.(2021)과 실험 섹션에서는 다양한 작업에 걸쳐 델타 튜닝의 이전 가능성도 보여줍니다. Delta Tuning의 실제 효과는 필연적으로 작업과 관련되어 있으므로 전체 매개변수 미세 조정의 효과를 얻으려면 문제 자체의 구조를 더 잘 탐색하고 활용하거나 일부 하이브리드 알고리즘을 설계하는 것이 좋습니다.

최적 제어 각도

딥 러닝을 최적 제어 관점에서 설명하는 기존 이론을 바탕으로 델타 튜닝을 최적의 컨트롤러를 찾는 과정으로 볼 수 있음을 밝혔습니다. 자동 회귀 분류 모델의 경우 모델은 마지막 단계(위치로 레이블이 지정됨)에서 레이블 예측을 생성합니다. 이 최적화 프로세스는 다음과 같이 표현될 수 있습니다. 개입에 따른 변화. 특히, 학습 가능한 활성화는 레이어의 표현이 올바르게 변환될 수 있도록 고정된 매개변수입니다. 따라서 연속된 두 레이어 사이의 표현 변환은 Transformer의 함수와 잔여 연결로 설명됩니다. Addition 기반의 Adapter 및 Prefix 방식, BitFit의 특정 방식, LoRA의 Heavy-parameterized 방식 등 Delta Tuning을 나타내는 함수를 도출할 수 있습니다(자세한 도출은 논문에 있음).

델타 튜닝의 소프트맥스 함수와 정규화 항을 터미널로 간주하고, 델타 매개변수를 제어 변수의 연산 손실로 간주하여 델타 튜닝 문제를 이산 시간 제어 문제로 공식화합니다. 델타 튜닝 및 역전파는 Pontryagin의 최대 원리에서 동형 프로세스 계산과 동일합니다. 요약하면 증분 튜닝은 특정 다운스트림 작업에 대한 PLM에 대한 최적의 컨트롤러를 찾는 프로세스로 볼 수 있습니다. 대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

우리의 분석은 새로운 델타 튜닝 방법의 설계에 영감을 줄 수 있으며 PLM에 대한 델타 매개변수의 개입이 컨트롤러 설계와 동일하다는 것을 보여줍니다. 컨트롤러 설계 이론을 적용함으로써 설계된 델타 구조가 PLM의 충분한 여기 하에서 원칙적으로 해석 가능하다는 이론적 보장을 갖춘 더 많은 델타 튜닝 방법을 제안할 수 있을 것으로 기대합니다.

델타 튜닝의 종합적인 실험 분석

대규모 PLM을 자극하고 호출하는 효율적인 방법인 델타 튜닝은 다양한 실제 응용 시나리오에서 큰 잠재력을 가지고 있습니다. 이 섹션에서는 다양한 주류 델타 튜닝 방법의 속성을 더 깊이 이해하기 위해 체계적인 실험을 수행합니다.

1. 성능, 융합 및 효율성 분석

먼저 전체 매개변수 Fine-tuning과 4가지 대표적인 Delta Tuning 방법(Prompt Tuning(PT), Prefix-Tuning(PF), LoRA(LR) 및 Adapter(AP) 포함)을 선택합니다. 효율성 분석을 철저히 비교합니다. 보다 다양한 언어 모델링 기능을 테스트하기 위해 텍스트 분류(예: 감정 분류, 자연어 추론), 질문 답변(예: 추출적 독해), 언어 생성(예: 텍스트 요약)을 포함하여 100개 이상의 일반적인 NLP 작업을 선택했습니다. ), 대화) 및 기타 작업과 모든 작업의 ​​입력 및 출력이 Sequence-to-Sequence 형식으로 모델링되므로 모든 작업을 균일하게 모델링하려면 동일한 모델(T5)을 사용하는 것이 편리합니다. PT가 T5-base와 T5-large에서 테스트되는 것을 제외하고 다른 방법은 T5-base에서 테스트됩니다.

대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

성능 분석: 실험 결과는 위 표에 나와 있습니다. (1) 일반적으로 다양한 Delta Tuning 방법은 몇 가지 매개변수만 미세 조정하므로 최적화가 어렵습니다. 따라서 대부분의 경우 성능 면에서 FT와 일치할 수 없지만 둘 사이의 격차는 극복할 수 없는 것이 아니며 이는 효율적인 매개변수 적응의 대규모 적용 가능성을 보여줍니다. (2) PF, LR, AP 3가지 방식의 설계요소는 다르지만 성능은 비슷하다. 그들 중 어느 하나가 일부 작업에서 다른 것(또는 심지어 FT)보다 더 나은 성능을 발휘하는 것이 가능합니다. 평균 결과를 기준으로 모든 방법의 성능 순위는 FT > LR > AP > PF > PT입니다. 동시에 우리는 Delta Tuning 방법의 성능이 조정 가능한 매개변수의 수와 일치하지 않는다는 것을 발견했습니다. 즉, 조정 가능한 매개변수가 더 많다고 해서 반드시 Delta Tuning의 특정 구조 설계가 더 나은 성능을 가져오는 것은 아닙니다. 더욱 중요한 역할을 할 수 있습니다. (3) PT는 이들 방법 중 구현하기가 가장 쉽다(즉, 모델의 내부 구조를 수정하지 않음). 대부분의 경우 성능이 다른 델타 튜닝 방법에 비해 크게 뒤떨어집니다.

대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

수렴 분석: PT는 다른 방법에 비해 너무 느리게 수렴하므로 일부 데이터 세트에 대한 다양한 미세 조정 방법의 성능 변화를 발췌했습니다. 위의 그림. 일반적으로 이러한 미세 조정 방법의 수렴 속도 순서는 FT > AP ≒ LR > PF라는 것을 알 수 있습니다. PF는 모든 델타 튜닝 방법 중 조정 가능한 매개변수의 수가 가장 많지만 여전히 수렴에 어려움을 겪고 있으므로 수렴 속도는 미세 조정할 수 있는 매개변수 수와 직접적인 관련이 없습니다. 실험에서 우리는 또한 각 델타 튜닝 방법에 대해 성능과 수렴이 조정 가능한 매개변수의 수에 민감하지 않지만 특정 구조에 더 민감하다는 것을 발견했습니다. 전반적으로 우리의 실험은 수렴과 전반적인 성능 측면에서 매우 유사한 결론을 얻었으며 이러한 결론은 수많은 데이터 세트에 대한 결과로 잘 뒷받침됩니다.

대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

효율성 분석: 델타 튜닝은 매개변수의 기울기 계산을 줄여 GPU 메모리를 절약하고 컴퓨팅 리소스의 효율성을 반영할 수 있습니다. GPU 메모리에 대한 Delta Tuning의 효율성 향상을 구체적으로 검증하기 위해 다양한 크기의 PLM을 미세 조정하기 위한 다양한 Delta Tuning 방법에 의해 소비되는 GPU 메모리를 비교하는 실험을 수행했습니다. 구체적으로 우리는 T5 모델의 세 가지 규모, 즉 T5-base, T5-large 및 T5-xl을 선택하고 다양한 배치 크기에서 도달한 최대 GPU 메모리를 테스트했습니다. NVIDIA A100(최대 GPU 메모리 = 39.58GB)을 사용하여 실험을 수행합니다. 위 그림을 보면 배치 사이즈가 작은 경우(예: 1, 8) Delta Tuning을 통해 GPU 메모리를 최대 3/4까지 절약할 수 있고, 배치 사이즈가 큰 경우 Delta Tuning을 통해 GPU 메모리를 절약할 수 있는 것을 알 수 있습니다. GPU 메모리의 최소 1/3. 위 결과는 Delta Tuning의 컴퓨팅 리소스 효율성을 반영합니다.

2. 구성성 분석

다양한 델타 튜닝 방법이 서로 호환되므로 동일한 PLM에 동시에 적용할 수 있다는 점을 고려합니다. 그래서 우리는 Delta Tuning의 조합이 성능 향상으로 이어질 수 있는지 조사했습니다. 구체적으로는 동시결합과 순차결합이라는 두 가지 결합방식을 탐구하였고, Prompt Tuning, BitFit, Adapter 등 대표적인 Delta Tuning 방식 3가지를 선정하였다.

동시 조합: 먼저 세 가지 Delta Tuning 방법을 동시에 적용했을 때의 효과를 탐색하고 RoBERTa-large를 사용하여 8개의 GLUE 하위 작업에 대한 실험을 수행합니다. 우리는 전체 데이터와 저자원 시나리오 모두에서 실험을 수행하고 인공 입력 템플릿이 성능에 미치는 영향을 조사했습니다. 인공 템플릿은 사전 훈련과 다운스트림 작업 적응 사이의 격차를 해소하도록 설계되었습니다.

대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

위 표에서 볼 수 있듯이, (1) 전체 데이터이든 리소스 부족 시나리오든, 수동 템플릿이 있든 없든 거의 항상 Delta Tuning 조합으로 어댑터를 도입합니다. 평균 GLUE 성능에 도움이 됩니다. (2) 조합에 프롬프트 조정을 도입하면 일반적으로 평균 성능이 저하되며, 이는 프롬프트 조정이 다른 두 가지 델타 조정 방법과 호환되지 않을 수 있음을 나타냅니다. (3) 조합에 BitFit을 도입하면 일반적으로 평균 성능이 향상됩니다. 수동 템플릿은 다운스트림 작업 적응과 사전 훈련 간의 격차를 줄여 제로샷 성능(23.7에서 43.4로)을 크게 향상시킬 수 있습니다. 몇 장의 샷 설정에서 인공 템플릿은 평균 성능을 크게 향상시킬 수도 있습니다. 그러나 훈련 감독 신호가 상대적으로 풍부한 경우(전체 데이터 시나리오에서) 인공 템플릿을 도입해도 성능 향상이 약할 뿐이며 성능이 손상될 수도 있습니다.

순차 조합: 동시 조합 외에도 위의 세 가지 델타 튜닝 방법을 특정 순서로 도입했을 때의 호환성을 추가로 연구했습니다. 구체적으로 전체 미세 조정을 3단계로 나누어 진행합니다. 각 단계에서 별도의 Delta Tuning 방법을 학습합니다. 다음 단계에서는 이전 단계에서 학습한 Delta Tuning 매개변수를 변경하지 않고 수정하고 새로 도입된 Delta Tuning 매개변수만 최적화합니다. SST-2 감정 분류 데이터 세트에 대한 인공 템플릿 유무에 관계없이 RoBERTa-large에 대한 실험을 수행합니다. 결과는 아래 그림(발췌)에 나와 있으며, 어떤 경우에는 새로운 Delta Tuning 방법을 지속적으로 도입하여 전체 성능을 지속적으로 향상시킬 수 있으며 동시에 순차 조합의 장점도 검증할 수 있다는 결론을 내릴 수 있습니다. 우리는 또한 다른 설정에서 고정된 최적의 조합 순서가 없다는 것을 발견했습니다. 최적의 조합은 다양한 다운스트림 작업, 사용된 모델 아키텍처 및 기타 요인에 따라 달라질 수 있습니다.

대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

일반화 격차 분석: 다양한 미세 조정 방법에는 훈련 데이터의 메모리 기능(Memorization)과 일반화 기능(Generalization)이 다릅니다. 이를 위해 전체 데이터 설정에서 RoBERTa-large의 일반화 격차(훈련 세트 효과 - 개발 세트 효과)를 보고합니다. 그 결과는 아래 표와 같습니다. (1) 단일의 일반화 Delta Tuning 방법 간격은 Fine-tuning보다 항상 작습니다. 즉, 초과 매개변수화가 훈련 샘플을 더 잘 기억(과대적합)하는 데 도움이 될 수 있습니다. 프롬프트 튜닝은 모든 델타 튜닝 방법 중에서 일반화 격차가 가장 작은 경향이 있습니다. 각 Delta Tuning 방법은 일반화가 잘되고 개발 세트에서 사소한 성능을 보여줄 수 있다는 점을 고려하면 훈련 세트를 과대적합하는 것은 좋은 일반화를 위한 필수 조건이 아닐 수 있습니다. (2) 일반적으로 여러 A Delta Tuning 방법을 결합하면 일반화가 향상됩니다. 완전한 Fine-tuning과 동일한 수준까지 도달합니다. 이는 훈련 세트를 기억(기억)하는 데 너무 많은 미세 조정이 필요하지 않을 수 있음을 보여줍니다. 즉, PLM이 다운스트림 작업에 적응할 때 모델의 미세 조정 용량이 작더라도 여전히 기억하기에 충분합니다. (3) 인공 템플릿을 사용하면 일반적으로 일반화 격차에 영향을 미치지 않습니다.

3. 모델 크기 증가에 따른 성능 변화

모델 크기 증가가 델타 튜닝 성능에 미치는 영향을 연구했습니다. 최근 일부 연구에서는 사용되는 PLM 모델의 크기가 커질수록 Prompt Tuning의 성능이 점점 더 강력해지고 심지어 전체 매개변수 Fine-tuning 미세 조정과 비슷한 수준에 도달할 수 있다는 사실이 밝혀졌습니다. 이 섹션에서는 모든 델타 튜닝 방법이 규모의 힘을 나타내는지 살펴봅니다. 구체적으로, 대표적인 NLP 작업 3개(MNLI, QNLI, SST-2)에 대한 실험을 진행하고 규모가 점점 커지는 PLM 3개(T5-small, T5-base, T5-xxl)를 선정하여 대표적인 6개 델타 튜닝의 성능을 평가했습니다. 방법(Adapter, LoRA, Prefix-Tuning, Prompt Tuning, Last Layer Tuning 및 Selective Module Tuning)을 수행한 결과는 아래 그림과 같습니다.

대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구


대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

그림(a-i)에서 PLM 네트워크 규모가 커짐에 따라 모든 델타 튜닝 방법의 성능과 수렴이 크게 감소하는 것을 확인할 수 있습니다. (2) 또한 그림 (j-l)은 다른 델타 튜닝 방법과 비교하여 프롬프트 튜닝이 소규모 PLM(T5 소형 및 T5 기반)에서 성능이 떨어지는 경우가 많다는 것을 보여줍니다. 그러나 다른 델타 튜닝 방법에는 이 문제가 없습니다. (3) 기존 결과를 기반으로 그림 11 (m-o) 및 (p-r)에서 마지막 레이어 튜닝과 선택적 모듈 튜닝이라는 두 가지 델타 튜닝 방법을 추가로 설계합니다. 마지막 레이어 튜닝의 경우 T5 인코더의 마지막 레이어만 미세 조정하고, 선택적 모듈 튜닝의 경우 미세 조정을 위해 T5 모델에서 일부 모듈을 무작위로 선택합니다. 두 방법 모두 우수한 결과를 보여주며, 특히 PLM 규모가 매우 큰 경우 선택적 모듈 튜닝이 마지막 레이어 튜닝보다 약간 더 나은 결과를 보여줍니다. 이러한 결과는 미세 조정 가능한 매개변수를 특정 계층으로 제한하는 것이 좋은 전략이 아닐 수 있음을 시사합니다. 반면, PLM의 규모가 매우 커지면 여러 계층에 걸쳐 모듈을 무작위로 선택하여 미세 조정하면 탁월한 성능을 얻을 수 있습니다. 전반적으로 위의 결과는 PLM 모델 크기가 커짐에 따라 다양한 미세 조정 방법의 성능/수렴 속도가 크게 향상되는 것이 Delta Tuning에서 공통적으로 나타나는 현상임을 나타냅니다. 우리는 더 큰 PLM이 일반적으로 더 작은 고유 차원(Intrinsic Dimension)을 갖기 때문에 이러한 현상이 존재한다고 추측합니다. 따라서 몇 가지 매개변수만 조정하면 과도하게 매개변수화된 모델 외에도 다운스트림 작업에서 구현할 수 있을 만큼 강력한 표현 기능을 얻을 수 있습니다. 다운스트림 최적화 중에 로컬 최적 상태에 빠질 가능성이 낮아져 수렴이 가속화될 수 있습니다.

4. 작업 간 이전 가능성

서로 다른 다운스트림 작업 간 델타 튜닝 방법의 이전 가능성을 연구했습니다. 특히 4가지 델타 튜닝 방법(Prompt Tuning, Prefix-Tuning, Adapter 및 LoRA)을 채택했습니다. 5가지 유형의 12가지 NLP 작업(감정 분석, 자연어 추론, 의역 인식, 질문과 답변, 요약 포함)을 수행하고, 소스 작업에서 훈련된 Delta 매개변수를 대상 작업으로 전송하고, 제로샷 마이그레이션 효과를 테스트합니다. 결과는 아래 그림에 나와 있으며 이를 통해 관찰할 수 있습니다. (1) 동일한 범주에 속하는 작업의 경우 일반적으로 해당 작업 간의 전송이 잘 수행됩니다. (2) 서로 다른 유형의 작업의 경우 해당 작업 간의 전송 성능이 좋지 않습니다. (3) 또한 텍스트 생성 작업(예: 질문 및 답변, 요약)에서 훈련된 델타 매개변수가 감정 분석 작업으로 전환되어 우수한 성능을 얻을 수 있음을 발견했습니다. 해결해야 할 복잡한 작업에는 감정 분석 기술이 포함될 수 있습니다.

대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구

Delta Tuning 앱

빠른 교육 및 저장 공간 절약. Transformer 모델은 본질적으로 병렬화 가능하지만 크기가 크기 때문에 학습 속도가 매우 느립니다. Delta Tuning의 수렴 속도는 기존의 전체 매개변수 미세 조정보다 느릴 수 있지만 역전파 중 미세 조정 가능한 매개변수의 계산 노력이 크게 줄어들기 때문에 Delta Tuning의 학습 속도도 크게 향상됩니다. 이전 연구에서는 다운스트림 조정에 어댑터를 사용하면 전체 매개변수 미세 조정에 필적하는 성능을 유지하면서 훈련 시간을 40%까지 줄일 수 있다는 것을 확인했습니다. 경량 특성으로 인해 훈련된 Delta 매개변수는 저장 공간을 절약하여 실무자 간의 공유를 촉진하고 지식 이전을 촉진할 수 있습니다.

다중 작업 학습. 일반적인 인공지능 시스템을 구축하는 것은 오랫동안 연구자들의 목표였습니다. 최근에는 매우 큰 PLM(예: GPT-3)이 다양한 데이터 분포를 동시에 맞추고 다양한 작업에서 다운스트림 성능을 촉진하는 놀라운 능력을 입증했습니다. 따라서 대규모 사전 훈련 시대에 다중 작업 학습이 점점 더 주목을 받고 있습니다. 전체 매개변수 미세 조정 방법에 대한 효과적인 대안인 Delta Tuning은 상대적으로 적은 추가 저장 공간을 유지하면서 뛰어난 다중 작업 학습 기능을 제공합니다. 성공적인 응용 프로그램에는 다국어 학습, 독해 등이 포함됩니다. 또한 Delta Tuning은 지속적인 학습에서 발생하는 치명적인 망각에 대한 잠재적인 솔루션 역할도 할 것으로 예상됩니다. 사전 훈련 중에 습득한 언어 능력은 모델의 매개변수에 저장됩니다. 따라서 정규화 없이 PLM의 모든 매개변수를 업데이트하면 PLM이 일련의 작업에 걸쳐 순차적으로 훈련될 때 심각하고 치명적인 망각으로 이어질 수 있습니다. Delta Tuning은 최소한의 매개변수만 조정하므로 치명적인 망각 문제를 완화할 수 있는 잠재적인 솔루션이 될 수 있습니다.

중앙 집중식 모델 제공 및 병렬 컴퓨팅. 초대형 PLM은 서비스로 출시되는 경우가 많습니다. 즉, 사용자는 대규모 모델을 로컬에 저장하는 대신 모델 공급자가 게시한 API와 상호 작용하여 대규모 모델을 사용합니다. 사용자와 서비스 제공자 사이의 감당할 수 없는 통신 비용을 고려할 때 Delta Tuning은 가벼운 특성으로 인해 기존의 전체 매개변수 미세 조정보다 분명히 더 경쟁력 있는 선택입니다. 한편, 서비스 제공업체는 컴퓨팅 및 저장 공간을 덜 소비하면서 여러 사용자를 교육하는 데 필요한 다운스트림 작업을 지원할 수 있습니다. 또한 일부 Delta Tuning 알고리즘은 본질적으로 병렬화 가능하다는 점을 고려하면(예: Prompt Tuning 및 Prefix-Tuning 등) Delta Tuning을 사용하면 동일한 배치에서 여러 사용자의 샘플을 병렬 학습/테스트할 수 있습니다(In-batch Parallel Computing). . 최근 연구에서는 본질적으로 병렬화가 불가능하더라도 대부분의 델타 튜닝 방법이 병렬 계산을 지원하기 위해 일부 방식으로 수정될 수 있음을 보여주었습니다. 반면, 중앙 모델의 기울기를 사용자가 사용할 수 없는 경우에도 Delta Tuning은 기울기가 없는 블랙박스 알고리즘을 통해 대규모 PLM을 최적화할 수 있으며 모델 추론 API만 호출합니다.

위 내용은 대규모 모델 매개변수와 효율적인 미세 조정에 대한 종합적인 분석, Nature 하위 저널에 게재된 Tsinghua 연구의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿