단일 저자 논문, Google은 조밀한 피드포워드 및 희박한 MoE를 능가하는 수백만 개의 전문가 혼합물을 제안합니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

단일 저자 논문, Google은 조밀한 피드포워드 및 희박한 MoE를 능가하는 수백만 개의 전문가 혼합물을 제안합니다.

Jul 17, 2024 pm 02:34 PM

프로젝트 전문가 검색

계산 효율성을 유지하면서 Transformer를 더욱 확장할 수 있는 잠재력을 활용하세요.

표준 Transformer 아키텍처의 FFW(피드포워드) 레이어는 숨겨진 레이어 너비가 증가함에 따라 계산 비용과 활성화 메모리가 선형적으로 증가합니다. LLM(대형 언어 모델)의 크기가 계속 증가함에 따라 MoE(Sparse Mixed Expert) 아키텍처는 이 문제를 해결하기 위한 실행 가능한 방법이 되었으며, 이는 모델 크기를 계산 비용에서 분리합니다. 많은 신흥 MoE 모델은 동일한 크기에서 더 나은 성능과 더 강력한 성능을 달성할 수 있습니다.

최근 발견된 세분화된 MoE 확장 법칙은 세분화가 높을수록 성능이 향상된다는 것을 보여줍니다. 그러나 기존 MoE 모델은 계산 및 최적화 문제로 인해 소수의 전문가로 제한됩니다.

이번 화요일 Google DeepMind의 새로운 연구에서는 제품 키 기술을 활용하여 백만 명의 마이크로 전문가로부터 희소 검색을 수행하는 매개변수 효율적인 전문가 검색 메커니즘을 소개합니다.

단일 저자 논문, Google은 조밀한 피드포워드 및 희박한 MoE를 능가하는 수백만 개의 전문가 혼합물을 제안합니다.

링크: https://arxiv.org/abs/2407.04153

이 접근 방식은 학습된 인덱스 구조를 통해 다수의 소규모 전문가와 효율적으로 연결하여 매개변수 수에서 계산 비용을 분리하려고 시도합니다. 라우팅. 조밀한 FFW, 거친 MoE 및 PKM(제품 키 메모리) 레이어에 비해 뛰어난 효율성을 보여줍니다.

이 작업에서는 제품 키 검색을 사용하여 다수의 전문가에게 효율적으로 라우팅하고 매개변수 양에서 계산 비용을 분리하는 PEER(매개변수 효율적인 전문가 검색) 아키텍처(매개변수 효율적인 전문가 검색)를 소개합니다. 이 설계는 실험에서 뛰어난 계산 성능 수준을 보여 주었으며, 기본 모델 확장을 위한 고밀도 FFW 레이어에 대한 경쟁력 있는 대안으로 자리매김했습니다. 이 작업의 주요 기여는 다음과 같습니다.

극단적인 MoE 설정 탐색: 이전 MoE 연구에서 소수의 대규모 전문가에 초점을 맞춘 것과는 달리 이 작업은 수많은 소규모 전문가의 탐구되지 않은 상황을 조사합니다.

라우팅을 위한 학습된 인덱스 구조: 학습된 인덱스 구조가 백만 명 이상의 전문가에게 효율적으로 라우팅될 수 있다는 최초의 시연입니다.

새로운 레이어 디자인: 제품 키 라우팅과 단일 뉴런 전문가를 결합하여 상당한 계산 오버헤드 없이 레이어 용량을 확장하는 PEER 레이어를 소개합니다. 경험적 결과는 조밀한 FFW, 성긴 MoE 및 PKM(제품 키 메모리) 레이어에 비해 더 높은 효율성을 보여줍니다.

종합적인 절제 연구: PEER에 대한 다양한 디자인 선택(예: 전문가 수, 활동 매개변수, 헤드 수 및 쿼리 일괄 정규화)이 언어 모델링 작업에 미치는 영향을 연구합니다.

방법 소개

이 섹션에서 연구원은 라우팅 및 단일 뉴런 MLP에서 제품 키를 사용하는 하이브리드 전문가 아키텍처인 PEER(Parametric Efficient Expert Retrieval) 레이어에 대해 자세히 설명합니다. 전문가. 아래 그림 2는 PEER 계층 내의 계산 프로세스를 보여줍니다.

단일 저자 논문, Google은 조밀한 피드포워드 및 희박한 MoE를 능가하는 수백만 개의 전문가 혼합물을 제안합니다.

PEER 레이어 개요. 공식적으로 PEER 계층은 함수 f : R^n → R^m으로, 세 부분으로 구성됩니다. N명의 전문가 풀 E := {e_i}^N_i=1, 여기서 각 전문가 e_i : R^n → R ^m은 f와 동일한 서명을 공유합니다. 해당 N 제품 키 세트 K := {k_i}^N_i=1 ⊂ R^d 및 입력 벡터를 매핑하는 쿼리 네트워크 q: R^n → R ^d x ∈ R^n을 쿼리 벡터 q(x)로 변환합니다.

T_k가 상위 k 연산자를 대표하게 하세요. 입력 x가 주어지면 먼저 해당 제품 키가 쿼리 q(x)를 사용하여 가장 높은 내부 제품을 갖는 k 전문가의 하위 집합을 검색합니다.

단일 저자 논문, Google은 조밀한 피드포워드 및 희박한 MoE를 능가하는 수백만 개의 전문가 혼합물을 제안합니다.

그런 다음 상위 k 전문가의 쿼리 키 내부 곱에 비선형 활성화(예: 소프트맥스 또는 시그모이드)를 적용하여 라우팅 점수를 얻습니다.

단일 저자 논문, Google은 조밀한 피드포워드 및 희박한 MoE를 능가하는 수백만 개의 전문가 혼합물을 제안합니다.

마지막으로 라우팅 점수에 따라 가중치가 부여된 전문가 출력을 선형 결합하여 출력을 계산합니다.

단일 저자 논문, Google은 조밀한 피드포워드 및 희박한 MoE를 능가하는 수백만 개의 전문가 혼합물을 제안합니다.

제품 키 검색. 연구자들은 다수의 전문가(N ≥ 10^6)를 활용하려고 하므로 단순히 수학식 1에서 상위 k개의 인덱스를 계산하는 것만으로도 비용이 많이 들 수 있으므로 제품 키 검색 기법을 적용합니다. N개의 독립적인 d차원 벡터를 키 k_i로 사용하는 대신 두 개의 독립적인 d/2차원 하위 키 세트(예: C, C' ⊂ R d/2)의 벡터를 연결하여 생성합니다.

단일 저자 논문, Google은 조밀한 피드포워드 및 희박한 MoE를 능가하는 수백만 개의 전문가 혼합물을 제안합니다.

파라메트릭 효율적 전문가 및 다중 헤드 검색. 다른 MoE 아키텍처와 달리 이러한 아키텍처는 일반적으로 각 전문가의 숨겨진 레이어를 다른 FFW 레이어와 동일한 크기로 설정합니다. PEER에서 각 전문가 e_i는 싱글톤 MLP입니다. 즉, 단일 뉴런이 포함된 숨겨진 레이어가 하나만 있습니다.

단일 저자 논문, Google은 조밀한 피드포워드 및 희박한 MoE를 능가하는 수백만 개의 전문가 혼합물을 제안합니다.

연구원들은 개별 전문가의 크기를 변경하지 않았지만 다중 헤드 검색을 사용했습니다. PEER 레이어의 표현 능력을 조정하는 데 사용되며 이는 트랜스포머의 멀티 헤드 어텐션 메커니즘 및 PKM의 멀티 헤드 메모리와 유사합니다.

특히 그들은 h개의 독립적인 쿼리 네트워크를 사용하며, 각 네트워크는 자체 쿼리를 계산하고 별도의 k명의 전문가 세트를 검색합니다. 그러나 서로 다른 책임자는 동일한 제품 키 세트를 사용하여 동일한 전문가 풀을 공유합니다. 이러한 h 헤드의 출력은 간단히 다음과 같이 요약됩니다.

단일 저자 논문, Google은 조밀한 피드포워드 및 희박한 MoE를 능가하는 수백만 개의 전문가 혼합물을 제안합니다.

왜 많은 수의 소규모 전문가 가 필요한가요? 주어진 MoE 계층은 총 매개변수 수 P, 토큰당 활성 매개변수 수 P_active, 단일 전문가의 크기 P_expert라는 세 가지 하이퍼 매개변수로 특성화될 수 있습니다. Krajewski et al.(2024)은 MoE 모델의 스케일링 법칙이 다음과 같은 형태를 가짐을 보여주었습니다.

단일 저자 논문, Google은 조밀한 피드포워드 및 희박한 MoE를 능가하는 수백만 개의 전문가 혼합물을 제안합니다.

PEER의 경우 연구원은 d_expert = 1로 설정하여 가능한 가장 작은 전문가 크기를 사용하며 활성화된 뉴런의 수는 다음과 같습니다. 검색 헤드 숫자에 헤드당 검색된 전문가 수를 곱합니다: d_active = hk. 따라서 PEER의 세분성은 항상 G = P_active/P_expert = d_active/d_expert = hk입니다.

단일 저자 논문, Google은 조밀한 피드포워드 및 희박한 MoE를 능가하는 수백만 개의 전문가 혼합물을 제안합니다.

실험 결과

먼저 언어 모델링 데이터 세트에 대한 평가 결과를 살펴보겠습니다.

isoFLOP 곡선을 기반으로 각 방법에 대해 계산적으로 최적인 모델을 결정한 후 연구원들은 다음과 같은 인기 있는 언어 모델링 데이터 세트에서 이러한 사전 훈련된 모델의 성능을 평가했습니다.

Curation Corpus
Lambada
Pile
Wikitext
사전 훈련 데이터 세트 C4

아래 표 1은 평가 결과를 보여줍니다. 훈련 중에 사용된 FLOP 예산을 기반으로 모델을 그룹화했습니다. 볼 수 있듯이 PEER는 이러한 언어 모델링 데이터 세트에서 가장 낮은 복잡성을 갖습니다.

단일 저자 논문, Google은 조밀한 피드포워드 및 희박한 MoE를 능가하는 수백만 개의 전문가 혼합물을 제안합니다.

절제 실험에서 연구진은 전체 전문가 수를 변경했습니다. 아래 그림 1의 isoFLOP 곡선에 표시된 모델에는 모두 100만 명(1024^2)명이 넘는 전문가가 있습니다.

단일 저자 논문, Google은 조밀한 피드포워드 및 희박한 MoE를 능가하는 수백만 개의 전문가 혼합물을 제안합니다.

연구원은 isoFLOP의 최적 위치를 가진 모델을 선택하고 PEER 계층의 전문가 수를 변경했지만(N = 128^2, 256^2, 512^2, 1024^2), 활성 전문가 수는 변경되지 않았습니다. (h = 8, k = 16). 결과는 아래 그림 3(a)에 나와 있습니다.

isoFLOP 곡선은 중간 블록의 FFW 레이어를 PEER 레이어로 대체하지 않고 1024^2 전문가가 있는 PEER 모델과 해당 밀도 백본 사이를 보간하는 것을 볼 수 있습니다. 이는 단순히 전문가 수를 늘리는 것만으로도 모델 성능이 향상될 수 있음을 보여줍니다.

동시에 연구원들은 활동하는 전문가의 수를 변경했습니다. 그들은 총 전문가 수(N = 1024^2)를 일정하게 유지하면서 활동적인 전문가 수(hk = 32, 64, 128, 256, 512)를 체계적으로 변화시켰습니다. 주어진 hk에 대해 연구자는 h와 k를 함께 변경하여 최상의 조합을 결정합니다. 아래 그림 3(b)는 헤드 수(h)에 대한 isoFLOP 곡선을 나타냅니다.

단일 저자 논문, Google은 조밀한 피드포워드 및 희박한 MoE를 능가하는 수백만 개의 전문가 혼합물을 제안합니다.

아래 표 2에는 BN이 있거나 없는 다양한 수의 전문가에 대한 전문가 사용법과 불균일성이 나열되어 있습니다. 1M 전문가의 경우에도 전문가 활용률은 100%에 가깝다는 것을 알 수 있으며, BN을 사용하면 전문가 활용률을 보다 균형 있게 만들고 혼란 수준을 낮출 수 있습니다. 이러한 결과는 다수의 전문가를 활용하는 PEER 모델의 효율성을 입증합니다.

단일 저자 논문, Google은 조밀한 피드포워드 및 희박한 MoE를 능가하는 수백만 개의 전문가 혼합물을 제안합니다.