GPT-4의 출현 이후 뛰어난 언어 이해 능력, 생성 능력, 논리적 추론 능력 등 강력한 출현 능력에 사람들은 놀랐습니다. 이러한 기능을 통해 GPT-4는 기계 학습 분야의 가장 최첨단 모델 중 하나가 되었습니다. 그러나 OpenAI는 아직까지 GPT-4의 기술적 세부 사항을 공개하지 않았습니다.
지난달 George Hotz는 AI 기술 팟캐스트인 Latent Space와의 인터뷰에서 GPT-4를 언급하면서 GPT-4가 실제로는 하이브리드 모델이라고 밝혔습니다. 구체적으로 George Hotez는 GPT-4가 8개의 전문가 모델로 구성된 통합 시스템을 사용하며 각 모델에는 2,200억 개의 매개변수(GPT-3의 1,750억 개의 매개변수보다 약간 많음)가 있으며 이러한 모델은 다양한 데이터 및 작업에 대해 훈련된다고 말했습니다. 배포판.
Latent Space 인터뷰.
이것은 George Hotz의 추측일 수도 있지만 이 모델에는 어느 정도 정당성이 있습니다. 최근 Google, UC Berkeley, MIT 등 기관의 연구진이 공동으로 발표한 논문에서는 하이브리드 전문가 모델(MoE)과 명령어 튜닝의 결합이 대규모 언어 모델(LLM)의 성능을 크게 향상시킬 수 있음을 확인했습니다.
Pictures
논문 주소: https://arxiv.org/pdf/2305.14705.pdf
희소 혼합 전문가 모델은 비용을 늘리지 않고도 추론 비용을 줄일 수 있는 특수 신경망 아키텍처입니다. 이 경우 LLM(대형 언어 모델)에 학습 가능한 매개변수를 추가합니다. 명령어 튜닝은 LLM이 명령어를 따르도록 교육하는 기술입니다. 이 연구에서는 MoE 모델이 Dense 모델보다 명령어 튜닝에서 더 많은 이점을 얻는다는 사실을 발견했으며 따라서 MoE와 명령어 튜닝을 결합할 것을 제안했습니다.
이 연구는
첫 번째 경우 MoE 모델은 일반적으로 동일한 계산 능력을 갖춘 밀집 모델보다 열등합니다. 그러나 명령어 튜닝(두 번째 및 세 번째 경우)이 도입되면서 FLAN-MoE_32B(Fine-tuned LANguage Net, 약칭 Flan)는 명령어 튜닝 모델이고 Flan-MoE는 명령어 튜닝 모델(Excellent MoE)입니다. 4가지 벤치마크 작업에서 FLAN-PALM_62B보다 성능이 뛰어나지만 FLOP의 1/3만 사용합니다.
아래 그림과 같이 명령어 튜닝을 하기 전의 MoE→FT는 T5→FT만큼 좋지 않습니다. 명령어 튜닝 후 Flan-MoE→FT는 Flan-T5→FT보다 성능이 뛰어납니다. 명령 튜닝(+15.6)으로 인한 MoE의 이점은 밀집 모델(+10.2)보다 큽니다.
Picture
GPT-4에는 실제로 MoE가 하이브리드 모델을 채택할 수 있는 기반이 있는 것 같습니다. 최고로부터 더 큰 이점을 얻으십시오.
Pictures
연구원들은 FLAN-MOE(미세 조정된 희소 혼합 전문가 모델 세트)에서 희소 활성화 MoE를 사용했습니다. 지침 포함) 모델(전문가 혼합). 또한 다른 Transformer 레이어의 피드포워드 구성 요소를 MoE 레이어로 대체했습니다.
각 MoE 계층은 "전문가"로 이해될 수 있습니다. 그런 다음 이러한 전문가는 소프트맥스 활성화 함수를 사용하여 모델링되어 확률 분포를 얻습니다.
각 MoE 계층에는 많은 매개변수가 있지만 전문가의 활성화는 드물습니다. 이는 주어진 입력 토큰에 대해 제한된 전문가 하위 집합만이 작업을 완료할 수 있어 모델에 더 큰 용량을 제공할 수 있음을 의미합니다.
E 전문가가 있는 MoE 계층의 경우 이는 O(E^2)개의 다양한 피드포워드 네트워크 조합을 효과적으로 제공하여 더 큰 계산 유연성을 허용합니다.
FLAN-MoE는 명령 조정 모델이므로 명령 조정이 매우 중요합니다. 본 연구에서는 FLAN 집단 데이터 세트를 기반으로 FLAN-MOE를 미세 조정했습니다. 또한, 본 연구에서는 각 FLAN-MOE의 입력 시퀀스 길이를 2048로, 출력 길이를 512로 조정하였다.
평균적으로 Flan-MoE는 추가 계산 없이 모든 모델 규모에서 밀도가 높은 상대(Flan-T5)보다 성능이 뛰어납니다.
사진
전문가 수. 그림 4는 전문가 수가 증가함에 따라 처음에는 모델이 문제 공간에서 서로 다른 작업이나 측면을 처리할 수 있는 보다 풍부한 특수 하위 네트워크 집합의 이점을 누리는 것을 보여줍니다. 이러한 접근 방식을 통해 MoE는 복잡한 작업을 처리하는 데 있어 적응력이 뛰어나고 효율적이므로 전반적인 성능이 향상됩니다. 그러나 전문가 수가 계속 증가함에 따라 모델 성능 향상은 감소하기 시작하여 결국 포화점에 도달합니다.
Pictures
그림 3과 표 1에서는 다양한 라우팅 결정이 명령어 튜닝 성능에 어떻게 영향을 미치는지 자세히 연구합니다. FLAN-Switch와 FLAN-GS 전략을 비교하면 더 많은 전문가를 활성화하면 성능이 향상된다는 결론을 내릴 수 있습니다. 4가지 벤치마크에 걸쳐 이러한 벤치마크 중 MMLU-Direct 모델은 BASE/LARGE 크기 모델의 경우 38.0%에서 39.9%로 증가하여 가장 큰 개선을 보여줍니다.
특히 명령 튜닝은 동일한 용량의 밀집 모델에 비해 MMLU, BBH, 내부 QA 및 추론 벤치마크를 보존하는 MoE 모델의 성능을 크게 증폭시켰습니다. 이러한 장점은 더 큰 MoE 모델에서 더욱 증폭됩니다. 예를 들어 명령 튜닝은 ST_32B의 경우 성능을 45.2% 향상시키는 반면, FLAN-PALM_62B의 경우 이러한 개선은 약 6.6%로 상대적으로 작습니다.
모델 확장 시 Flan-MoE(Flan-ST-32B)가 Flan-PaLM-62B보다 성능이 뛰어납니다.
Pictures
또한 연구에서는 주어진 모델의 게이팅 기능, 전문가 모듈 및 MoE 매개변수를 동결하여 몇 가지 분석 실험을 수행했습니다. 아래 표 2에서 볼 수 있듯이 실험 결과는 전문가 모듈이나 MoE 구성요소를 동결하는 것이 모델 성능에 부정적인 영향을 미치는 것으로 나타났습니다.
반대로, 동결 게이팅 기능은 분명하지는 않지만 모델 성능을 약간 향상시킵니다. 연구자들은 이 관찰이 FLAN-MOE의 과소적합과 관련이 있다고 추측합니다. 또한 이 연구에서는 아래 그림 5에 설명된 미세 조정 데이터 효율성 제거 연구를 탐색하기 위해 제거 실험을 수행했습니다.
마지막으로 본 연구에서는 MoE의 직접 미세 조정과 FLAN-MOE의 차이를 비교하기 위해 단일 작업 미세 조정 MoE, 단일 작업 미세 조정 FLAN-MOE 및 FLAN-MOE에 대한 실험을 수행했습니다. 결과는 다음과 같습니다. 그림 6에서 볼 수 있듯이:
관심 있는 독자는 논문의 원문을 읽고 연구 내용에 대해 자세히 알아볼 수 있습니다.
위 내용은 GPT-4는 하이브리드 대형 모델을 사용합니까? 연구에 따르면 MoE+ 지침 조정이 실제로 대형 모델의 성능을 향상시키는 것으로 나타났습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!