수천억 또는 수조 개의 매개변수가 있는 매우 큰 모델은 수십억 또는 수백억 개의 매개변수가 있는 대형 모델과 마찬가지로 연구할 사람이 필요합니다.
방금 메타 수석 AI 과학자 Yann LeCun은 매개변수가 70억에서 650억에 이르는 새로운 대형 모델 시리즈인 LLaMA(Large Language Model Meta AI)를 "오픈 소스화"했다고 발표했습니다. 이러한 모델의 성능은 매우 뛰어납니다. 130억 개의 매개변수가 있는 LLaMA 모델은 "대부분의 벤치마크에서" GPT-3(1,750억 개의 매개변수)보다 성능이 뛰어나고 단일 V100 GPU에서 실행될 수 있으며 가장 큰 650억 개의 매개변수 LLaMA 모델은 비슷합니다. Google의 Chinchilla-70B 및 PaLM-540B에 적용됩니다.
우리 모두 알고 있듯이 매개변수는 기계 학습 모델이 입력 데이터를 기반으로 예측하거나 분류하는 데 사용하는 변수입니다. 언어 모델의 매개변수 수는 성능에 영향을 미치는 핵심 요소입니다. 더 큰 모델은 일반적으로 더 복잡한 작업을 처리하고 더 일관성 있는 출력을 생성할 수 있습니다. Richard Sutton은 이를 "쓴 교훈"이라고 부릅니다. 지난 몇 년 동안 주요 기술 대기업들은 수천억, 수조 개의 매개변수를 갖춘 대형 모델을 중심으로 군비 경쟁을 시작하여 AI 모델의 성능을 크게 향상시켰습니다.
그러나 이러한 '금전적 능력'을 겨루는 연구 경쟁은 거대 기술 기업에 근무하지 않는 일반 연구자들에게 우호적이지 않으며 대형 모델의 작동 원리와 문제에 대한 잠재적인 해결책에 대한 연구를 방해합니다. 또한 실제 응용 프로그램에서는 매개변수가 많을수록 더 많은 공간을 차지하고 실행하는 데 더 많은 컴퓨팅 리소스가 필요하므로 대형 모델의 경우 응용 프로그램 비용이 높아집니다. 따라서 한 모델이 더 적은 수의 매개변수를 사용하여 다른 모델과 동일한 결과를 얻을 수 있다면 효율성이 크게 향상됩니다. 이는 일반 연구자에게 매우 친숙하며 실제 환경에 모델을 배포하는 것이 더 쉬울 것입니다. 이것이 메타 연구의 핵심이다.
"이제 1~2년 안에 우리는 (최상급) 휴대폰과 노트북에서 ChatGPT 기능의 상당 부분을 갖춘 언어 모델을 실행할 것이라고 생각합니다." 독립 인공 지능 연구원 Simon Willison Meta의 새로운 AI 모델을 분석했을 때 영향이 기록되었습니다.
오픈 소스 및 재현성 요구 사항을 충족하면서 이 모델을 훈련하기 위해 Meta는 공개적으로 사용 가능한 데이터 세트만 사용합니다. 이는 비공개 데이터에 의존하는 대부분의 대규모 모델과 다릅니다. 이러한 모델은 오픈 소스가 아니며 거대 기술 기업의 개인 자산인 경우가 많습니다. 모델 성능을 향상시키기 위해 Meta는 더 많은 토큰을 학습했습니다. LLaMA 65B 및 LLaMA 33B는 1조 4천억 개의 토큰을 학습했으며 가장 작은 LLaMA 7B도 1조 개의 토큰을 사용했습니다.
트위터에서 LeCun은 LLaMA 모델을 사용한 텍스트 연속 결과도 보여주었습니다. 모델은 계속해 달라고 요청했습니다. "Yann LeCun이 작년에 랩 앨범을 발표했다는 사실을 알고 계셨나요? 우리는 그것을 듣고 다음과 같이 생각했습니다. ____"
그러나 만약에 상업적인 용도로 사용되는 경우, 메타 블로그와 LeCun의 트위터 발언의 차이점으로 인해 일부 논란이 발생했습니다.
Meta는 블로그 게시물에서 무결성을 유지하고 남용을 방지하기 위해 연구 사용 사례에 초점을 맞춘 비상업적 라이선스로 모델을 출시할 것이라고 밝혔습니다. 이 모델에 대한 접근 권한은 사례별로 학계 연구원, 정부 관련 조직, 시민 사회, 학계는 물론 전 세계 산업 연구소에 부여됩니다. 관심 있는 분은 다음 링크에서 신청하실 수 있습니다:
https://docs.google.com/forms/d/e/1FAIpQLSfqNECQnMkycAp2jP4Z9TFX0cGR4uf7b_fBxjY_OjhJILlKGA/viewform
LeCun은 Meta가 GPL v3 라이선스(GPL v3에서는 상업적 사용을 허용함)에 따라 연구를 공개하고 모든 모델을 연구 커뮤니티에 공개하기 위해 최선을 다하고 있다고 말했습니다.
여기서 "모델"이 코드인지 가중치인지, 아니면 둘 다를 가리키는지 명확하게 밝히지 않았기 때문에 이 진술은 상당히 논란의 여지가 있습니다. 많은 연구자들은 모델 가중치가 코드보다 훨씬 더 중요하다고 생각합니다.
이와 관련하여 LeCun은 GPL v3 라이선스로 공개되는 것이 모델 코드라고 설명했습니다.
어떤 사람들은 이러한 개방성이 진정한 "AI 민주화"가 아니라고 생각합니다.
현재 Meta는 논문을 arXiv에 업로드했으며, 일부 콘텐츠도 GitHub 저장소에 업로드되어 있어 찾아보실 수 있습니다.
대규모 텍스트 말뭉치에 대해 훈련된 LLM(대규모 언어 모델)은 텍스트 프롬프트 또는 소수의 텍스트 프롬프트에서 새로운 작업을 수행하는 능력을 보여주었습니다. 샘플 작업. 이러한 소수의 속성은 모델을 충분히 큰 규모로 확장할 때 처음으로 나타났으며, 이러한 모델을 더욱 확장하는 데 초점을 맞춘 일련의 작업이 탄생했습니다.
이러한 노력은 매개변수가 많을수록 성능이 향상된다는 가정에 기초합니다. 그러나 Hoffmann et al.(2022)의 최근 연구에 따르면 주어진 계산 예산에 대해 가장 큰 모델이 아니라 더 많은 데이터에 대해 훈련된 작은 모델이 최고의 성능을 달성한다는 것을 보여줍니다.
Hoffmann et al.(2022)이 제안한 확장 법칙의 목표는 특정 훈련 컴퓨팅 예산 내에서 데이터 세트와 모델 크기를 가장 잘 확장하는 방법을 결정하는 것입니다. 그러나 이 목표는 대규모 언어 모델을 제공할 때 매우 중요한 추론 예산을 무시합니다. 이 경우 목표 성능 수준이 주어지면 선호하는 모델은 훈련 속도가 가장 빠르지는 않지만 추론 속도는 가장 빠릅니다. 특정 수준의 성능에 도달하기 위해 대규모 모델을 교육하는 것이 더 저렴할 수 있지만, 교육하는 데 더 오랜 시간이 걸리는 작은 모델은 궁극적으로 추론 시 비용이 더 저렴해집니다. 예를 들어 Hoffmann et al.(2022)은 200B 토큰에 대한 10B 모델 교육을 권장했지만 연구원들은 1T 토큰 이후에도 7B 모델의 성능이 계속 향상된다는 것을 발견했습니다.
이 작업의 초점은 일반적으로 사용되는 것보다 더 많은 토큰을 교육하여 다양한 추론 예산에서 최적의 성능을 달성할 수 있도록 언어 모델 계열을 교육하는 것입니다. LLaMA라고 불리는 결과 모델은 7B에서 65B 범위의 매개변수를 가지며 최고의 기존 LLM과 경쟁적으로 작동합니다. 예를 들어 LLaMA-13B는 GPT-3보다 10배 작음에도 불구하고 대부분의 벤치마크에서 GPT-3보다 성능이 뛰어납니다.
연구원들은 이 모델이 단일 GPU에서 실행될 수 있기 때문에 LLM 연구를 민주화하는 데 도움이 될 것이라고 말합니다. 더 높은 규모에서 LLaMA-65B 매개변수 모델은 Chinchilla 또는 PaLM-540B와 같은 최고의 대규모 언어 모델과도 비슷합니다.
Chinchilla, PaLM 또는 GPT-3와 달리 이 모델은 공개적으로 사용 가능한 데이터만 사용하므로 이 작업은 오픈 소스와 호환되는 반면, 대부분의 기존 모델은 공개적으로 사용할 수 없거나 문서화되지 않은 데이터(예: Books-2TB 또는 소셜 미디어)에 의존합니다. 언론대화). 물론 OPT(Zhang et al., 2022), GPT-NeoX(Black et al., 2022), BLOOM(Scao et al., 2022) 및 GLM(Zeng et al., 2022)과 같은 몇 가지 예외가 있습니다. 그러나 PaLM-62B나 Chinchilla와 경쟁할 수 있는 것은 없습니다.
이 기사의 나머지 부분에서는 변환기 아키텍처 및 훈련 방법에 대한 연구원의 수정 사항을 간략하게 설명합니다. 그런 다음 모델 성능이 제시되고 일련의 표준 벤치마크에서 다른 대규모 언어 모델과 비교됩니다. 마지막으로 책임 있는 AI 커뮤니티의 최신 벤치마크 중 일부를 사용하여 모델의 편향과 독성을 보여줍니다.
연구원이 사용한 훈련 방법은 (Brown et al., 2020), (Chowdhery et al., 2022) 등 이전 연구에서 설명한 방법과 유사하며 친칠라 스케일링이 적용됩니다. 법률(Hoffmann et al., 2022). 연구원들은 표준 최적화 프로그램을 사용하여 대량의 텍스트 데이터에 대해 대형 변환기를 훈련했습니다.
사전 훈련 데이터
표 1에 표시된 것처럼 이 연구의 훈련 데이터 세트는 다양한 영역을 포괄하는 여러 소스가 혼합되어 있습니다. 대부분의 경우 연구자들은 다른 대규모 언어 모델을 훈련하는 데 사용된 데이터 소스를 재사용하지만 여기서는 공개적으로 사용 가능한 데이터만 사용할 수 있고 공개 리소스와 호환된다는 제한이 있습니다. 훈련 세트의 데이터 혼합 및 비율은 다음과 같습니다:
대형 언어 모델에 대한 최근 작업을 기반으로 하는 이 연구에서는 변환기 아키텍처도 사용합니다. 연구원들은 이후에 제안되어 PaLM과 같은 다양한 모델에서 사용되는 다양한 개선 사항을 활용했습니다. 논문에서 연구원들은 원래 아키텍처와의 주요 차이점을 소개했습니다:
사전 정규화 [GPT3]. 훈련의 안정성을 향상시키기 위해 연구진은 출력을 정규화하는 대신 각 변환기 하위 계층의 입력을 정규화했습니다. 그들은 Zhang과 Sennrich(2019)가 제안한 RMSNorm 정규화 기능을 사용했습니다.SwiGLU 활성화 함수 [PaLM]. 연구진은 성능 향상을 위해 ReLU 비선형성을 대체하기 위해 Shazeer(2020)가 제안한 SwiGLU 활성화 함수를 사용했습니다. PaLM에서는 4D 대신 2D, 3D, 4D의 치수를 각각 사용합니다.
상식 추론
표 3에서 연구자들은 다양한 크기의 기존 모델과 비교하여 해당 논문 번호에 결과를 보고합니다. 첫째, LLaMA-65B는 BoolQ를 제외하고 보고된 모든 벤치마크에서 Chinchilla-70B보다 성능이 뛰어납니다. 이번에도 이 모델은 BoolQ 및 WinoGrande를 제외한 모든 측면에서 PaLM540B를 능가합니다. LLaMA-13B 모델은 10배 더 작음에도 불구하고 대부분의 벤치마크에서 GPT-3보다 성능이 뛰어납니다.
비공개 답변
표 4는 NaturalQuestions의 성능을 보여주고, 표 5는 TriviaQA의 성능을 보여줍니다. 두 벤치마크 모두에서 LLaMA-65B는 제로샷 및 퓨샷 설정 모두에서 최첨단 성능을 달성했습니다. 게다가 LLaMA-13B는 GPT-3 및 Chinchilla의 1/5~1/10 크기에도 불구하고 이러한 벤치마크에서 동등하게 경쟁력이 있습니다. 모델의 추론 프로세스는 단일 V100 GPU에서 실행됩니다. 연구원들은 또한 RACE 독해 벤치마크에 대한 모델을 평가했습니다(Lai et al., 2017). 여기에는 Brown et al.(2020)의 평가 설정을 따르며, 평가 결과는 Table 6과 같다. 이러한 벤치마크에서 LLaMA-65B는 PaLM-540B와 경쟁적이며 LLaMA-13B는 GPT-3보다 몇 퍼센트 포인트 더 뛰어난 성능을 보입니다.
수학적 추론
표 7에서 연구자들은 이를 PaLM 및 Minerva와 비교했습니다(Lewkowycz et al., 2022). GSM8k에서는 LLaMA65B가 수학적 데이터에서 미세 조정되지는 않았지만 Minerva-62B보다 성능이 뛰어난 것으로 나타났습니다.
코드 생성
표 8에서 볼 수 있듯이 비슷한 개수의 매개변수에 대해 LLaMA는 LaMDA, PaLM 등 Dedicated가 되지 않은 다른 일반 모델보다 더 좋은 성능을 발휘합니다. 코드 교육 또는 미세 조정. HumanEval 및 MBPP에서 LLaMA는 13B 이상의 매개변수에 대해 LaMDA를 137B 초과합니다. LLaMA 65B는 훈련 시간이 더 오래 걸리더라도 PaLM 62B보다 성능이 뛰어납니다.
대규모 다중 작업 언어 이해
연구원들은 벤치마크에서 제공한 예제를 사용하여 5샷 사례에서 모델을 평가하고 그 결과를 표 9에 표시했습니다. . 이 벤치마크에서 그들은 대부분의 영역에서 LLaMA-65B가 Chinchilla70B 및 PaLM-540B보다 평균 몇 퍼센트 포인트 뒤처지는 것을 관찰했습니다. 한 가지 잠재적인 설명은 연구원들이 사전 훈련 데이터에서 제한된 수의 책과 학술 논문, 즉 ArXiv, Gutenberg 및 Books3을 사용했는데, 이는 총 177GB에 불과한 반면 모델은 최대 2TB의 책에서 훈련되었습니다. Gopher, Chinchilla 및 PaLM이 사용하는 수많은 책은 Gopher가 이 벤치마크에서 GPT-3보다 성능이 뛰어나지만 다른 벤치마크와 동등한 이유를 설명할 수도 있습니다.
훈련 중 성능 변화
훈련 기간 동안 연구원들은 몇 가지 질문 답변 및 상식 벤치마크에서 LLaMA 모델의 성능을 추적했으며 그 결과는 그림에 나와 있습니다. 2. 성능은 대부분의 벤치마크에서 꾸준히 향상되며 모델의 훈련 복잡성과 양의 상관관계가 있습니다(그림 1 참조).
위 내용은 이것이 ChatGPT 메타 버전의 프로토타입인가요? 오픈 소스, 단일 GPU에서 실행 가능, 매개변수 수가 1/10로 GPT-3를 능가함의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!