Huawei GTS LocMoE+: 높은 확장성과 친화력 MoE 아키텍처, 활성 라우팅을 달성하기 위한 낮은 오버헤드-일체 포함-php.cn

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com, zhaoyunfeng@jiqizhixin.com

본 논문의 공동 저자는 Li Jing 박사, Sun Zhijie 박사, Lin Dachao 박사입니다. 주요 연구 및 구현 분야에는 LLM 교육 및 홍보, AI 교육 보증 및 그래프 컴퓨팅이 포함됩니다.

MoE는 교육 및 홍보 과정에서 저렴한 비용과 높은 효율성으로 지난 2년간 대형 언어 모델 분야에서 빛을 발했습니다. MoE의 영혼으로서 전문가들이 학습 잠재력을 극대화할 수 있는 방법에 대한 끊임없는 관련 연구와 토론이 있습니다. 앞서 화웨이 GTS AI 컴퓨팅 랩 연구팀은 새로운 라우팅 네트워크 구조, 통신 오버헤드를 줄이는 데 도움이 되는 로컬 손실 등을 포함하는 LocMoE를 제안해 폭넓은 관심을 끌었다.

위의 LocMoE 설계는 훈련 시 일부 MoE 고전 구조의 병목 현상을 효과적으로 완화합니다. 예를 들어 전문적인 라우팅 알고리즘은 토큰을 효과적으로 구별하지 못할 수 있으며 통신 동기화 효율성은 내부 전송 대역폭의 차이로 인해 제한됩니다. 그리고 노드 사이 등. 또한, LocMoE는 차별적인 토큰을 성공적으로 처리할 수 있는 전문가 역량의 하한을 증명하고 해결합니다. 이 하한치는 토큰이 전문가에게 수동적으로 배포되는 시나리오에서 토큰 배치에 존재하는 차별적 토큰의 확률 분포를 기반으로 도출됩니다. 그러다가 전문가에게도 최적의 토큰을 선택할 수 있는 능력이 있다면 차별적인 토큰이 처리될 확률은 크게 높아지고 전문가 역량의 하한은 더욱 압축될 것이다.

위 아이디어를 바탕으로 팀은 낮은 오버헤드 액티브 라우팅을 기반으로 하는 MoE 아키텍처를 LocMoE+라고 명명하여 제안했습니다. LocMoE+는 LocMoE의 차별성이 높은 전문가와 로컬 커뮤니케이션의 장점을 계승하고 라우팅 전략을 더욱 변형하며 토큰과 전문가 간의 친화도 지수를 정의하고 이 지수로 시작하여 토큰 배포를 보다 효율적으로 완료하여 훈련 효율성을 향상시킵니다.

华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由

논문 링크: https://arxiv.org/pdf/2406.00023

논문 소개

종이는 결합하는 것입니다 전문가와 함께하는 전통적인 패시브 라우팅 액티브 라우팅은 특정 용량 하에서 차별적인 토큰을 처리할 확률을 높여 샘플 노이즈를 줄이고 훈련 효율성을 향상시킵니다. 본 논문은 토큰과 할당된 전문가 사이의 관계에서 시작하여 낮은 계산 오버헤드 체계에서 전문가와 토큰 사이의 친화력을 정량화하고 정의합니다. 이에 본 논문에서는 글로벌 적응형 라우팅 전략을 구현하고 선호도 점수를 기반으로 전문가 차원의 토큰을 재배열하고 선택한다. 동시에, 토큰 특성 분포가 안정화됨에 따라 전문가 역량의 하한이 점차 감소하고 훈련 오버헤드를 줄일 수 있음이 입증되었습니다.

이 문서는 학습 라우팅 전략에서 토큰이 더 작은 각도의 전문가에게 라우팅되는 경향이 있다는 발견을 바탕으로 두 가지 라우팅 메커니즘을 결합한 최초의 문서로, 영향을 미치는 기존 활성 라우팅 솔루션의 과도한 오버헤드 문제를 해결합니다. 훈련 효율성을 높이고 패시브 라우팅의 특성을 일관되게 유지합니다.

저자는 이 일련의 작업의 높은 효율성을 입증하기 위해 완전히 다른 하드웨어 환경(서버 모델, NPU 카드 모델, 클러스터 네트워킹 체계), 훈련 프레임워크 및 백본 모델을 LocMoE에서 선택했다는 점을 언급할 가치가 있습니다. 그리고 휴대의 용이성.

적응형 양방향 경로 전달 메커니즘

배경 소개

전통적인 MoE에는 두 가지 경로 전달 메커니즘이 있습니다.

) 하드 라우터, 전체 토큰을 직접 넣습니다.

(2) 토큰 기능의 가중치 조합을 할당하는 소프트 라우터.

이 문서에서는 계산 비용이 더 낮기 때문에 (1)을 계속 고려합니다. 하드 라우터 시나리오의 경우 1) 각 토큰이 상위 k 전문가를 선택할 수 있는 TCR(Token Choice Router), 각 전문가가 적절한 상위 C를 선택할 수 있는 ECR(Expert Choice Router)로 나눌 수 있습니다. 토큰. 용량 제한으로 인해 각 전문가가 받는 토큰 수에는 상한 C가 있으므로 시나리오 1)에서는 각 전문가가 받는 토큰이 잘립니다.

华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由

이전 작업에서는 MoE 교육이 두 단계로 나누어진다고 지적했습니다. 1단계. 라우팅 교육은 라우팅이 토큰을 합리적으로 할당할 수 있도록 보장합니다. 즉, 서로 다른 분야 또는 큰 차이가 있는 토큰을 구별하여 서로 다른 전문가에게 할당할 수 있습니다. 토큰 라우팅으로 인해 각 전문가의 역할은 동일한 분야 또는 유사한 속성을 가진 토큰을 받는 것입니다. 각 전문가는 특정 교육을 받은 후 관련 분야 및 속성에 대한 지식을 얻을 수 있습니다. 요약하면, MoE 교육의 각 단계의 "성공"의 열쇠는 토큰 배포의 정확성과 합리성에 있습니다.

이 기사의 기고

(1) 소프트맥스 활성화 함수 추론을 통해 전문가와 토큰 간의 코사인 유사도를 통해 친화력을 보다 정확하게 측정할 수 있습니다.

华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由

(2) 이론적 모델링에서 TCR과 ECR의 단일 훈련 성공률은 두 가지 일반적인 시나리오로 분석됩니다. 라우팅 토큰 기능이 부족합니다. TCR은 훈련할 때마다 ECR보다 훈련 성공 확률이 높으며, 적절한 토큰을 선택하려면 더 큰 전문가 역량이 필요합니다.

모델 훈련의 후반 단계에서 라우터가 토큰을 올바르게 할당할 수 있는 특정 능력을 갖추고 있으면 ECR이 훈련될 때마다 TCR보다 훈련 성공 확률이 더 높지만 현재로서는 용량이 더 작습니다. 적절한 토큰을 선택하는 데 필요합니다.

이 이론은 또한 매우 직관적입니다. 라우터에 파견 능력이 없을 때, 라우터에 특정 파견 능력이 있을 때, 즉 전문가가 전문가를 선택할 수 있을 때 토큰이 무작위로 선택하도록 하는 것이 좋습니다. 적절한 토큰을 사용하는 것이 더 적절합니다. 따라서 저자는 TCR에서 ECR로의 전환을 권장하고, 동시에 전문가 역량의 수요 예측을 기반으로 훈련 후반부에서는 더 작은 전문가 역량이 사용되는 글로벌 수준의 적응형 라우팅 전환 전략을 제안합니다.
실험 결과

华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由

본 논문의 실험은 Huawei의 독자적인 캐시 일관성 프로토콜 고성능 컴퓨팅 시스템(HCCS) 덕분에 자체 구축된 Ascend 910B3 NPU 클러스터에서 수행되었습니다. 장치 간 데이터 통신은 멀티 카드 시나리오에서 달성되며 Ascend 프로세서용으로 특별히 설계된 Huawei Collective Communication Library(HCCL)는 HCCS와 같은 고속 링크에서 고성능 분산 교육을 가능하게 합니다. 실험에서는 Ascend NPU와 호환되는 Ascend 프레임워크용 PyTorch와 가속 라이브러리 AscendSpeed 및 Ascend 장치용으로 특별히 맞춤화된 훈련 프레임워크인 ModelLink를 사용하여 LLM 병렬 전략 및 통신 마스킹 최적화에 중점을 둡니다.

훈련 효율성

실험 결과에 따르면 모델 훈련의 수렴이나 효율성에 영향을 주지 않으면서 각 전문가가 처리해야 하는 토큰 수를 기준선에 비해 60% 이상 줄일 수 있는 것으로 나타났습니다. 커뮤니케이션 최적화와 결합하여 32카드, 64카드, 256카드의 클러스터 크기에서 훈련 효율성이 평균 5.4%~46.6% 향상됩니다.

비디오 메모리 사용량

LocMoE+는 특히 클러스터 크기가 작고 컴퓨팅 집약적인 시나리오에서 비디오 메모리 사용량이 어느 정도 향상됩니다. 메모리 모니터링 샘플을 분석하기 위해 Ascend Insight 도구를 사용하면 LocMoE+ 메모리 사용량이 기준선 대비 4.57%~16.27%, LocMoE 대비 2.86%~10.5% 감소한 것을 확인할 수 있습니다. 클러스터 크기가 증가하면 메모리 사용량의 차이가 줄어듭니다.

华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由

효과성 평가

LocMoE+의 일반 지식 및 도메인 지식 역량을 평가하기 위해 오픈 소스 평가 세트 C-Eval 및 TeleQnA와 자체 구축된 ICT 도메인 평가 세트 GDAD를 사용했습니다. 이 중 GDAD는 18,060개의 샘플을 포함해 총 47개의 하위 항목을 다루며 도메인 과제, 도메인 역량 인증 시험, 일반 역량의 3대 평가 체계에서 모델의 성능을 검토한다.

충분한 SFT 후에 LocMoE+는 도메인 작업 기능의 16개 하위 능력에서 기준선 대비 평균 약 20.1% 향상되었으며, LocMoE 대비 약 3.5% 향상되었습니다. 도메인 역량 인증 시험은 각각 16%, 4.8% 증가했습니다. 일반 기능의 18개 하위 기능 중 LocMoE+는 각각 약 13.9%, 4.8% 향상되었습니다. 전체적으로 LocMoE+는 GDAD, C-Eval 및 TeleQnA에서 각각 9.7% ~ 14.1%의 성능 향상을 보여줍니다. 华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由