Transformer 모델의 확장은 최근 몇 년간 많은 학자들의 연구 관심을 불러일으켰습니다. 그러나 모델 아키텍처에 의해 부과된 다양한 유도 바이어스의 스케일링 속성에 대해서는 알려진 바가 많지 않습니다. 특정 규모(계산, 크기 등)의 개선 사항이 다른 규모와 계산 영역으로 이전될 수 있다고 가정하는 경우가 많습니다.
그러나 아키텍처와 확장 법칙 간의 상호 작용을 이해하는 것이 중요하며 다양한 규모에서 잘 작동하는 모델을 설계하는 것은 연구에 큰 의미가 있습니다. 명확히 해야 할 몇 가지 질문이 남아 있습니다. 모델 아키텍처가 다르게 확장됩니까? 그렇다면 유도 바이어스는 스케일링 성능에 어떤 영향을 줍니까? 업스트림(사전 훈련) 및 다운스트림(전송) 작업에 어떤 영향을 미치나요?
최근 논문에서 Google 연구원들은 귀납적 편견(아키텍처)이 언어 모델 확장에 미치는 영향을 이해하려고 했습니다. 이를 위해 연구원들은 여러 계산 영역과 규모(1,500만 ~ 400억 개의 매개변수)에 걸쳐 10개의 서로 다른 모델 아키텍처를 사전 훈련하고 미세 조정했습니다. 전반적으로 그들은 다양한 아키텍처와 크기의 100개 이상의 모델을 사전 학습하고 미세 조정했으며 이러한 10가지 아키텍처를 확장하는 데 대한 통찰력과 과제를 제시했습니다.
문서 링크: https://arxiv.org/pdf/2207.10551.pdf
그들은 또한 이러한 모델의 크기 조정이 보이는 것만큼 간단하지 않다는 사실도 알아냈습니다. 세부 사항은 이 기사에서 자세히 검토한 아키텍처 선택과 얽혀 있습니다. 예를 들어 Universal Transformers(및 ALBERT)의 기능은 매개변수 공유입니다. 이러한 아키텍처 선택은 성능 측면뿐만 아니라 FLOP, 속도, 매개변수 수와 같은 계산 지표 측면에서도 표준 Transformer와 비교하여 확장 동작을 크게 왜곡합니다. 대조적으로 Switch Transformer와 같은 모델은 완전히 다르며 FLOP와 매개변수 크기 사이의 특이한 관계가 있습니다.
구체적으로 이 논문의 주요 기여는 다음과 같습니다.
논문의 세 번째 장에서 연구자는 전반적인 실험 설정을 개략적으로 설명하고 실험에서 평가된 모델을 소개합니다.
아래 표 1은 검증 난제(업스트림 사전 훈련) 외에도 훈련 가능한 매개변수 수, FLOP(단일 전달 패스), 속도(초당 단계) 등을 포함한 이 기사의 주요 결과를 보여줍니다. ) 및 17개 다운스트림 작업의 결과입니다.
아래 그림 2는 FLOP 수를 늘릴 때 모든 모델의 확장 동작을 보여줍니다. 모든 모델의 스케일링 동작은 매우 독특하고 다르다는 것을 알 수 있습니다. 즉, 대부분이 표준 Transformer와 다릅니다. 아마도 여기서 가장 큰 발견은 대부분의 모델(예: LConv, Evolution)이 표준 Transformer와 동등하거나 더 나은 성능을 보이는 것처럼 보이지만 더 높은 계산 예산으로 확장하지 못한다는 것입니다.
또 다른 흥미로운 추세는 Performer와 같은 "선형" Transformer가 확장되지 않는다는 것입니다. 그림 2i에서 볼 수 있듯이 기본 규모에서 대규모 규모에 비해 사전 훈련 당혹감은 2.7%만 감소했습니다. 바닐라 트랜스포머의 경우 이 수치는 8.4%입니다.
아래 그림 3은 다운스트림 마이그레이션 작업에 대한 모든 모델의 스케일링 곡선을 보여줍니다. Transformer와 비교할 때 대부분의 모델은 다운스트림 작업에서 크게 변경되는 스케일링 곡선이 다릅니다. 대부분의 모델에는 서로 다른 업스트림 또는 다운스트림 스케일링 곡선이 있다는 점은 주목할 가치가 있습니다.
연구원들은 Funnel Transformer 및 LConv와 같은 일부 모델이 업스트림에서 상당히 좋은 성능을 보이는 것처럼 보였지만 다운스트림에 큰 영향을 미친다는 사실을 발견했습니다. Performer의 경우 업스트림과 다운스트림 간의 성능 격차가 더욱 넓어지는 것으로 보입니다. SuperGLUE의 다운스트림 작업에는 컨볼루션과 같은 모델이 처리할 수 없는 인코더에서 의사 교차 주의가 필요한 경우가 많다는 점은 주목할 가치가 있습니다(Tay et al., 2021a).
따라서 연구원들은 일부 모델이 좋은 업스트림 성능을 발휘하더라도 다운스트림 작업을 학습하는 데 여전히 어려움을 겪을 수 있다는 사실을 발견했습니다.
아래 그림 1은 업스트림 또는 다운스트림 성능 측면에서 계산된 파레토 프론티어를 보여줍니다. 플롯의 색상은 서로 다른 모델을 나타내며, 각 척도 및 계산 영역에 따라 가장 적합한 모델이 다를 수 있음을 관찰할 수 있습니다. 또한 이는 위의 그림 3에서도 볼 수 있습니다. 예를 들어, Evolved Transformer는 작은 영역에서 작은 영역(다운스트림)에서 표준 Transformer와 마찬가지로 성능을 발휘하는 것처럼 보이지만 모델을 확장할 때 이러한 변화는 빠르게 변합니다. 연구원들은 또한 MoS-Transformer에서도 이를 관찰했는데, 이는 일부 영역에서는 일반 Transformer보다 훨씬 더 나은 성능을 보였지만 다른 영역에서는 그렇지 않았습니다.
아래 표 2는 다양한 경우의 각 모델별로 피팅된 선형 직선 α의 기울기를 나타냅니다. 연구자들은 F(FLOP), U(업스트림 혼란), D(다운스트림 정확도) 및 P(매개변수 수)를 플로팅하여 α를 얻었습니다. 일반적으로 α는 모델의 확장성을 나타냅니다. 예를 들어 α_F,U는 업스트림 성능에 대해 FLOP를 표시합니다. 유일한 예외는 업스트림 및 다운스트림 성능을 측정하는 α_U,D입니다. α_U,D 값이 높을수록 모델이 다운스트림 작업에 더 잘 확장된다는 의미입니다. 전반적으로 알파 값은 확장에 비해 모델이 얼마나 잘 수행되는지를 측정한 것입니다.
아래 그림 4는 네 가지 모델 아키텍처(MoS-Transformer, Transformer, Evolved Transformer, LConv)에서 확장 깊이의 영향을 보여줍니다.
아래 그림 5는 동일한 4개 아키텍처에서 너비 확장의 영향을 보여줍니다. 첫째, 업스트림(음의 로그 복잡도) 곡선에서 서로 다른 아키텍처 간의 절대 성능에는 분명한 차이가 있지만 확장 추세는 매우 유사하다는 것을 알 수 있습니다. LConv를 제외한 다운스트림의 심층 확장(위 그림 4)은 대부분의 아키텍처에서 동일하게 작동하는 것으로 보입니다. 또한 Evolved Transformer는 너비 스케일링에 비해 너비 스케일링을 적용하는 데 약간 더 나은 것 같습니다. 깊이 스케일링은 너비 스케일링보다 다운스트림 스케일링에 훨씬 더 큰 영향을 미친다는 점에 주목할 가치가 있습니다.
자세한 연구 내용은 원문을 참고해주세요.
위 내용은 Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!