알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해-일체 포함-php.cn

집

기술 주변기기

일체 포함

알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

PHPz

Aug 06, 2024 am 01:49 AM

시작하기 moe

LLM은 매우 강력하며 LLM의 지속 가능한 확장을 달성하려면 효율성을 향상시킬 수 있는 방법을 찾고 구현하는 것이 필요합니다. 하이브리드 전문가(MoE)는 이러한 유형의 방법의 중요한 구성원입니다.

최근 다양한 기술 기업에서 제안하는 차세대 대형 모델은 모두 MoE(Mixture of Experts) 방식을 사용하고 있습니다.

하이브리드 전문가의 개념은 1991년 "지역 전문가의 적응형 혼합"이라는 논문에서 처음 탄생했습니다. 이는 30년 이상 광범위하게 탐구되고 발전되어 왔습니다. 최근 몇 년 동안 Sparse-gated MoE의 출현과 개발로, 특히 Transformer를 기반으로 한 대규모 언어 모델과 결합되었을 때, 이 30년이 넘은 기술은 새로운 생명을 얻었습니다.

MoE 프레임워크는 간단하면서도 강력한 아이디어를 기반으로 합니다. 모델의 다양한 부분(전문가라고 함)은 다양한 작업이나 데이터의 다양한 측면에 중점을 둡니다.

이 패러다임을 사용하면 입력에는 관련 전문가만 처리에 참여하므로 많은 양의 전문 지식을 활용하면서 계산 비용을 제어할 수 있습니다. 따라서 MoE는 계산 요구 사항을 크게 늘리지 않고도 대규모 언어 모델의 기능을 향상시킬 수 있습니다.

그림 1에서 볼 수 있듯이 특히 2024년 Mixtral-8x7B와 Grok-1, DBRX, Arctic, DeepSeek-V2 등과 같은 다양한 산업 수준 LLM이 등장한 이후 MoE 관련 연구가 크게 성장했습니다.

알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

이 사진은 홍콩과기대(광저우) 연구팀이 최근 발표한 MoE 검토 보고서에서 나온 것입니다. 이는 MoE 관련 연구를 명확하고 포괄적으로 요약하고 이러한 연구를 제안합니다. 알고리즘, 시스템, 애플리케이션의 세 가지 범주로 분류됩니다.

알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

논문 제목: A Survey on Mixture of Experts
논문 주소: https://arxiv.org/pdf/2407.06204

이 사이트는 본 리뷰 보고서의 주요 내용을 편집한 것입니다. 독자들이 MoE의 현재 개발 개요를 이해하는 데 도움이 되도록 자세한 내용은 원본 문서를 읽어보시기 바랍니다. 또한 기사 마지막 부분에 MoE 관련 보고서도 정리했습니다.

하이브리드 전문가의 배경지식

Transformer 기반의 LLM(Large Language Model)에서 각 MoE(하이브리드 전문가) 레이어의 구성은 보통 "전문가 네트워크" {?_1, ... , ?_ ?} "게이팅 네트워크" G와 쌍을 이룹니다.

이 게이팅 네트워크는 일반적으로 입력을 적절한 전문가 네트워크로 안내하는 역할을 하는 소프트맥스 활성화 기능을 사용하는 선형 네트워크 형태입니다. MoE 계층은 Transformer 모듈에 배치되며 그 기능은 일반적으로 SA(Self-Attention) 하위 계층 뒤에 위치하는 FFN(순방향 네트워크)을 선택하는 것입니다. 모델이 성장함에 따라 FFN의 계산 요구 사항도 증가하므로 이러한 배치는 매우 중요합니다. 예를 들어, 5,400억 개의 매개변수가 있는 PaLM 모델에서는 매개변수의 90%가 FFN 레이어에 있습니다.

수학적 형식으로 설명: 각 전문가 네트워크 ?_?(일반적으로 선형 - ReLU - 선형 네트워크)는 동일한 입력 x를 수신하고 출력 ?_?(x; W_?)을 생성하는 W_?에 의해 매개변수화됩니다. 동시에, 매개변수 Θ를 갖는 게이트 네트워크 G(보통 선형-ReLU-선형-소프트맥스 네트워크로 구성됨)는 출력 G(x; Θ)를 얻습니다. 게이팅 기능의 설계 방법에 따라 MoE 계층은 대략 다음 두 가지 범주로 나눌 수 있습니다.

알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

Dense MoE

dense 혼합 전문가 계층은 각 반복 동안 모든 전문가 네트워크 {?_1, ... , ?_?}를 활성화하는 것입니다. 초기 MoE 연구에서는 일반적으로 이 전략을 채택했습니다. 최근에는 EvoMoE, MoLE, LoRAMoE 및 DS-MoE와 같은 고밀도 MoE를 사용하는 일부 연구가 있었습니다. 그림 2a는 조밀한 MoE 층의 구조를 보여줍니다. 따라서 조밀한 MoE 레이어의 출력은 다음과 같이 표현될 수 있습니다.

알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

여기서 ?(x;Θ)는 소프트맥스 연산 전의 게이트 값입니다.

Sparse MoE

밀도 혼합 전문가의 예측 정확도는 일반적으로 높지만 계산 부하도 매우 높습니다.

이 문제를 해결하기 위해 Shazeer 등의 논문 "엄청나게 큰 신경망: 희박하게 게이트된 전문가 혼합 계층"에서는 희박하게 게이트된 MoE 계층을 도입합니다. 이는 각 순방향에서 선택된 네트워크만 활성화할 수 있습니다. 전문가의 특정 하위 집합을 통과합니다. 이 전략은 모든 전문가의 출력을 함께 집계하는 대신 상위 k 전문가의 출력에 가중치를 적용한 합계를 계산하여 희소성을 달성합니다. 그림 2b는 이러한 희박한 MoE 층의 구조를 보여줍니다.

위 논문에서 제안된 프레임워크에 따르면 방정식 2.2는 희소 게이팅 메커니즘을 반영하도록 수정될 수 있습니다.

알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

설명: TopK(・, ?) 함수는 벡터의 원래 값 중 처음 k 항목만 유지하고 다른 항목은 -무한대로 설정합니다. 그 다음에는 모든 −무한항이 대략 0이 되는 소프트맥스 연산이 이어집니다. 하이퍼파라미터 k는 특정 애플리케이션에 따라 선택되어야 합니다. 일반적인 옵션은 ? = 1입니다. 잡음 용어 R_noise를 추가하는 것은 드물게 게이트된 MoE 계층을 훈련하기 위한 일반적인 전략으로, 전문가 간의 탐색을 촉진하고 MoE 훈련의 안정성을 향상시킵니다.

희소 게이팅 G(x; Θ)는 해당 계산 비용을 늘리지 않고 모델의 매개변수 공간을 크게 확장할 수 있지만 로드 밸런싱 문제가 발생할 수도 있습니다. 로드 밸런싱 문제는 전문가 간의 로드 분배가 고르지 않음을 의미합니다. 일부 전문가는 자주 사용되는 반면 다른 전문가는 거의 사용되지 않거나 전혀 사용되지 않습니다.

이 문제를 해결하려면 각 MoE 계층에 보조 손실 기능을 통합해야 합니다. 이 기능의 역할은 각 토큰 배치가 각 전문가에게 균등하게 분배되도록 하는 것입니다. 수학적 형식 설명에서 먼저 T 토큰 B = {x_1, x_2, ..., x_?} 및 N 전문가를 포함하는 쿼리 일괄 처리를 정의합니다. 그런 다음 보조 로드 밸런싱 손실은 다음과 같이 정의됩니다.

알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

여기서 D_i는 전문가 i에 할당된 토큰의 비율이고 P_i는 전문가 i에 할당된 게이팅 확률의 비율입니다. 배치가 N명의 전문가에게 균등하게 분산되도록 하려면 로드 밸런싱 손실 함수 L_{load-balancing}을 최소화해야 합니다. 각 전문가에게 동일한 수의 토큰 D_? = 1/? 및 동일한 게이팅 확률 P_? = 1/?이 할당되면 최적 조건에 도달합니다.

알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

이때 각 전문가의 로드는 균형에 도달합니다. .

다음에서 별도로 명시하지 않는 한 "MoE"라는 용어는 "희소 MoE"만을 의미합니다.

하이브리드 전문가 분류

MoE를 대량으로 사용하는 LLM 연구에서 연구원들이 대상을 찾는 데 도움을 주기 위해 팀은 이러한 모델을 알고리즘 설계, 시스템 설계 및 시스템 설계의 세 가지 측면에 따라 분류하는 일련의 분류 방법을 개발했습니다. 응용 프로그램.

그림 3은 이러한 분류 방법과 일부 대표적인 연구 결과를 보여줍니다.

알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

다음은 각 카테고리에 대한 포괄적이고 심층적인 소개입니다.

혼합 전문가의 알고리즘 설계

게이팅 기능

게이팅 기능(라우팅 기능 또는 라우터라고도 함)은 모든 MoE 아키텍처의 기본 구성 요소입니다. 그 역할은 전문가 계산의 사용을 조정하고 전문가를 결합하는 것입니다. 산출.

게이트는 각 입력에 대한 처리 방법에 따라 희소형, 조밀형, 소프트형의 세 가지 유형으로 나눌 수 있습니다. 희소 게이팅 메커니즘은 일부 전문가를 활성화하고, 밀집 게이팅 메커니즘은 모든 전문가를 활성화하며, 소프트 게이팅 메커니즘은 입력 토큰 융합 및 전문가 융합을 포함하여 완전히 차별화 가능한 방법을 포함합니다. 그림 4는 MoE 모델에 사용되는 다양한 게이팅 기능을 보여줍니다. 희소 게이팅 기능은 각 입력 토큰을 처리할 때 선택된 전문가를 활성화하는데, 이는 조건부 계산의 한 형태라고 볼 수 있습니다.

게이팅 기능은 이진 의사결정, 희소 또는 연속 의사결정, 무작위 또는 결정론적 의사결정과 같은 다양한 형태의 게이팅 결정을 구현할 수 있으며 심층적으로 연구되었으며 다양한 형태의 강화 학습 및 역방향 의사결정을 사용할 수 있습니다. 훈련을 위해 퍼집니다. 알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

Shazeer et al.의 연구 "엄청나게 큰 신경망: 희박하게 게이트된 전문가 혼합 계층"은 전문가 계산의 출력에 가중치를 부여하는 보조 로드 밸런싱 손실을 사용하여 미분 가능한 휴리스틱 방법을 개척했습니다. 이는 게이팅 프로세스에 차별화성을 도입하여 게이팅 기능의 최적화가 그라데이션에 의해 안내될 수 있습니다.

이후 이 패러다임은 MoE 연구 분야의 지배적인 패러다임이 되었습니다. 이 방법은 각 입력 토큰에 대해 전문가를 선택하므로 토큰 선택적 게이팅 기능으로 생각할 수 있습니다.
다음은 이 섹션의 주요 내용입니다. 자세한 내용은 원본 문서를 참조하세요.

토큰 선택적 게이팅

토큰 선택적 게이팅의 보조 손실

선택적 게이팅을 위한 토큰 전문가 역량

토큰 선택적 게이팅 할 수없는 토큰 선택적 게이팅 팅 선택적 게이팅 팅이트 intensivensive
의 다른 발전은 각 입력을 처리 할 때 모든 전문가가 활성화된다는 것을 의미합니다.

sparse MoE는 효율성 측면에서 장점이 있지만, Dense MoE의 방향은 여전히 혁신을 환영합니다. 특히 LoRA 전문가에게는 상대적으로 낮은 계산 오버헤드로 LoRA-MoE 미세 조정에서 조밀한 활성화가 잘 수행됩니다. 이 접근 방식을 사용하면 여러 LoRA를 효율적이고 유연하게 통합하여 다양한 다운스트림 작업을 완료할 수 있습니다. 이는 각 작업에 대해 각 LoRA의 고유한 특성을 유지하면서 원래 사전 훈련된 모델의 생성 기능을 유지합니다.
- 소프트 공식
희소 MoE의 경우 근본적인 개별 최적화 문제는 각 토큰에 할당할 적절한 전문가를 결정하는 방법입니다. 균형 잡힌 전문가 참여를 보장하고 할당되지 않은 토큰을 최소화하려면 경험적 지원 손실이 필요한 경우가 많습니다. 이 문제는 분산되지 않은 데이터(예: 소규모 추론 배치, 새로운 입력 또는 전이 학습)와 관련된 시나리오에서 특히 중요합니다.

dense MoE와 유사하게, Soft MoE 방법도 각 입력을 처리할 때 모든 전문가를 사용하여 완전한 차별화성을 유지하고 개별 전문가 선택 방법의 고유한 문제를 방지합니다. 소프트 MoE와 밀도 MoE의 차이점은 전자는 입력 토큰 또는 전문가의 게이트 및 가중치 융합을 통해 계산 요구 사항을 완화한다는 것입니다.

Experts

이 섹션에서는 MoE 프레임워크 내 전문가 네트워크의 아키텍처를 소개하고 이러한 전문가의 활성화를 조정하는 게이팅 기능에 대해 논의합니다.
- 네트워크 유형
MoE는 Transformer 아키텍처에 통합되었기 때문에 이러한 모델의 FFN(순방향 네트워크) 모듈을 대체하는 경우가 많습니다. 일반적으로 MoE 계층의 각 전문가는 대체하는 FFN의 아키텍처를 복제합니다.

전문가로서 FFN을 활용하는 패러다임은 여전히 주류이지만, 많은 개선도 이루어졌습니다.
- 하이퍼파라미터
희소 MoE 모델의 규모는 다음을 포함한 여러 주요 하이퍼파라미터로 제어됩니다.
- MoE 레이어당 전문가 수
- 각 전문가의 크기
- MoE 얼마나 자주 레이어는 모델 전체에 배치됩니다.
이러한 하이퍼파라미터의 선택은 다양한 작업에서 모델의 성능과 계산 효율성에 큰 영향을 미치기 때문에 매우 중요합니다. 따라서 특정 애플리케이션 요구 사항 및 컴퓨팅 인프라를 기반으로 최적의 하이퍼 매개변수가 선택됩니다. 표 2는 MoE를 사용한 모델의 일부 구성을 보여줍니다.

또한 표 3에는 최근 일부 오픈 소스 모델의 매개변수 수와 벤치마크 성능이 나열되어 있습니다.
- 활성화 기능
density Transformer 아키텍처를 기반으로 구축된 Sparse MoE 모델은 BERT, T5, GPT 및 LLAMA와 같은 선두적인 Dense LLM과 유사한 활성화 기능을 채택합니다. 활성화 기능은 ReLU에서 GeLU, GeGLU, SwiGLU 등과 같은 고급 옵션으로 발전했습니다.

이 추세는 RMSNorm(Root Mean Square Layer Normalization), GQA(Grouped Query Attention) 및 RoPE(Rotated Position Embedding)와 같은 기술을 통합하는 MoE 모델의 다른 구성 요소로도 확장됩니다.
- Shared Experts
DeepSpeed-MoE는 Residual-MoE(Residual-MoE) 아키텍처를 혁신적으로 도입했습니다. 각 토큰은 고정 전문가와 게이트 선택 전문가에 의해 처리되어 두 명의 전문가가 참여합니다. 통신 비용은 상위 1개 게이팅 방법을 초과하지 않습니다. 이 접근 방식은 게이팅이 선택한 MoE 전문가를 고정된 밀도 FFN에 대한 오류 수정 보조 도구로 취급합니다.

NLLB에 사용되는 조건부 MoE 라우팅(CMR/조건부 MoE 라우팅)도 밀도가 높은 FFN 및 MoE 레이어의 출력을 결합하는 유사한 접근 방식을 채택합니다.

그림 5b와 같이 고정 FFN과 희소 MoE를 통합하는 패러다임을 종종 공유 전문가라고 합니다.

DeepSeekMoE, OpenMoE, Qwen1.5-MoE 및 MoCLE과 같은 모델은 최근 이 패러다임을 채택하여 주류 구성이 되고 있음을 나타냅니다. 그러나 DeepSeekMoE 및 Qwen1.5-MoE는 단일 전문가가 아닌 여러 공유 전문가를 사용합니다.

하이브리드 매개변수 효율적 미세 조정 전문가

파라미터 효율적 미세 조정(PEFT)은 미세 조정 효율성을 향상시키는 방법입니다. 간단히 말해서 PEFT는 미세 조정 중에 기본 모델 매개변수의 작은 부분만 업데이트합니다.

PEFT는 성공했지만 훈련 가능한 매개변수가 제한되어 있고 치명적인 망각 문제가 발생할 수 있기 때문에 이 방법은 여러 작업에 대한 일반화가 필요한 상황에서는 사용하기 어렵습니다.

이러한 한계를 완화하기 위해 MoE 프레임워크와 PEFT를 통합하는 MoPE(Mixed Parameter Efficient Expert)가 탄생했습니다. MoPE는 MoE의 게이팅 메커니즘과 다중 전문가 아키텍처를 통합하고 각 전문가는 PEFT 기술을 사용하여 구축됩니다. 이 영리한 조합은 다중 작업 시나리오에서 PEFT의 성능을 크게 향상시킬 수 있습니다. 또한 PEFT는 전문가를 구축하는 데 사용되기 때문에 MoPE는 기존 MoE 모델보다 더 적은 수의 매개변수를 사용하고 훨씬 더 리소스 효율적입니다.

MoPE는 MoE의 멀티 태스킹 특성과 PEFT의 자원 효율성을 결합하며 이는 매우 유망한 연구 방향입니다. 그림 6은 Transformer 모델 아키텍처에서의 위치에 따라 MoPE를 분류합니다. MoPE 연구결과에 대한 보다 자세한 소개는 원문을 참고하시기 바랍니다.

훈련 및 추론 솔루션

하이브리드 전문가들이 발전하고 발전하고 있으며, 관련 훈련과 추론 솔루션도 발전하고 발전하고 있습니다.

초기 훈련 및 추론 솔루션을 사용하려면 MoE 모델을 처음부터 훈련하고 훈련된 모델 구성을 직접 사용하여 추론을 수행해야 합니다.

그러나 이제 서로를 보완하기 위해 조밀한 모델과 희소 모델의 장점을 결합하는 것을 포함하여 MoE 모델의 훈련 및 추론에 많은 새로운 패러다임이 등장했습니다.

그림 7은 MoE와 관련된 훈련 및 추론 솔루션을 보여줍니다. 새로운 솔루션은 다음 세 가지 범주로 나눌 수 있음을 알 수 있습니다.
- 밀도에서 희소로: 조밀한 모델 훈련에서 시작하여 점진적으로 희소로 전환 MoE 구성;
- 희소형에서 밀도형으로: 희소형 MoE 모델을 밀도형 형식으로 다운그레이드하여 하드웨어 형식으로 추론을 구현하는 데 유용합니다.
- 전문 모델 융합: 사전 훈련된 여러 개의 밀도형 전문가 모델을 하나의 통합 MoE 모델.
MoE의 파생 기술

MoE(혼합 전문가)는 다양한 변형 기술에 영감을 주었습니다. 예를 들어, Xue et al.의 논문 "깊은 대신 더 넓게"는 모델 너비가 증가된 WideNet을 제안합니다. 이 방법은 Transformer 계층의 공유 훈련 가능성을 유지하면서 순방향 네트워크(FFN)를 MoE 계층으로 대체하는 것입니다. , 정규화 계층을 제외하고.

이 외에도 Tan 등이 제안한 SYT(Sparse Universal Transformer), Antoniak 등이 제안한 MoT(Hybrid Token), Choi 등이 제안한 SMoP(Sparse Mixed Prompter), Chen 등이 있습니다. Raposo 등이 제안한 Lifelong-MoE, MoD(혼합 깊이) 등

요약하자면, MoE 기반 기술의 개발은 추세를 드러냅니다. MoE는 점점 더 많은 기능을 보유하고 있으며 다양한 분야에 점점 더 적응 가능해지고 있습니다.

혼합 전문가의 시스템 설계

혼합 전문가(MoE)는 대규모 언어 모델의 기능을 향상시킬 수 있지만 희소하고 동적 계산 부하로 인해 새로운 기술적 과제도 가져옵니다.

GShard는 전문가 능력의 로드 밸런싱 제약에 따라 분할된 부분 토큰을 예약할 수 있는 전문가 병렬성을 도입하여 병렬 게이팅 및 전문가 계산을 달성합니다. 이 패러다임은 MoE 모델의 효율적인 확장을 촉진하는 기본 전략이 되었습니다. 이 접근 방식을 데이터 병렬성의 향상된 버전으로 생각할 수 있습니다. MoE 계층의 각 전문가는 서로 다른 장치에 할당되고 모든 비전문가 계층은 모든 장치에 복제됩니다.

그림 8a에 표시된 것처럼 전문가 병렬화의 워크플로는 게이트 라우팅, 입력 인코딩, All-to-All 스케줄링, 전문가 계산, All-to-All 조합 및 출력 디코딩 작업을 순서대로 수행하는 것입니다.

일반적으로 GEMM의 입력 크기는 컴퓨팅 장치를 완전히 활용할 수 있을 만큼 커야 합니다. 따라서 입력 인코딩은 동일한 전문가의 입력 토큰을 연속적인 메모리 공간으로 집계하는 데 사용되며 이는 게이트 라우팅의 "토큰-전문가 매핑"에 의해 결정됩니다. 이후 All-to-All 스케줄링의 역할은 입력 토큰을 각 장치의 해당 전문가에게 배포하는 것입니다. 그 다음에는 전문가의 현지화 계산이 이어집니다. 계산이 완료된 후 All-to-All 조합을 통해 요약한 다음 출력을 디코딩하고 게이팅 인덱스에 따라 원본 데이터의 레이아웃을 복원합니다.

또한 일부 연구자들은 대규모 분산 환경에서 MoE 모델의 확장성과 효율성을 향상시키기 위해 전문 병렬성과 기타 기존 병렬 전략(예: 텐서, 파이프라인, 시퀀스 병렬화) 간의 시너지 효과를 탐구하고 있습니다.

(b) 데이터 + 전문가 + 텐서 병렬화, (c) 데이터 + 전문가 + 파이프라인 병렬화, (d) 전문가 + 텐서 병렬화를 포함한 일부 하이브리드 병렬화 예가 그림 8에 나와 있습니다.

컴퓨팅 효율성, 통신 부하 및 메모리 사용량 사이에는 복잡한 상호 작용이 있다는 점을 인식해야 합니다. 분산 병렬화 전략의 선택은 이에 영향을 미치며 다양한 하드웨어 구성의 영향도 받습니다. 따라서 실제 적용을 위한 전략을 배포할 때는 신중한 절충이 이루어져야 하며 특정 시나리오에 맞게 조정이 이루어져야 합니다.

이후 팀은 컴퓨팅, 통신, 스토리지의 세 가지 주요 부문에서 이러한 문제를 해결하기 위한 MoE 모델 개발이 직면한 시스템 설계 과제와 연구 결과를 소개했습니다. 자세한 내용은 원본 논문을 참조하세요. 표 4는 오픈 소스 MoE 프레임워크의 개요를 제공합니다.

믹싱 전문가를 위한 앱

在目前 Transformer 主導的大型語言模型（LLM）領域，混合專家（MoE）範式頗具吸引力，因為其能在不給訓練和推理階段引入過大計算需求的前提下大幅提升模型能力。這類技術能顯著 LLM 在多種下游任務上的效能，甚至造就了一些超越人類等級的 AI 應用。

有傳言說強大如斯的GPT-4 可能也採用了某種MoE 架構—— 由8 個2200 億參數的專家構成，在多樣化的數據集和任務上完成了訓練，並使用了一種16 次迭代的推理過程。有關該傳言的更多詳情可參閱本站報道《終極「揭秘」：GPT-4 模型架構、訓練成本、資料集資訊都被扒出來了》。

所以，毫不奇怪 MoE 在自然語言處理、電腦視覺、推薦系統和多模態應用中遍地開花了。

這些應用本質上就需要使用條件計算來大幅提升模型的參數量，以此增強模型在固定計算成本下的性能，或透過門控機制實現動態專家選擇來實現高效多任務學習。

團隊也介紹了這些不同領域的代表性 MoE 應用，可幫助讀者理解如何將 MoE 用於具體任務。詳見原論文。

挑戰與機會

混合專家，功能強大，降低成本，提升效能。前景雖好，仍有挑戰。在

這一節中，團隊整理了 MoE 相關的關鍵性挑戰，並指出了有希望獲得重要成果的未來研究方向。以下簡要列出了這些挑戰和研究方向，更多詳情請查看原論文。
- 訓練穩定性和負載平衡
- 可擴展性和通訊開銷
- 專家的專業化和協作
- 性稀疏性
  可解釋性和透明性
- 最優的專家架構
- 與現有框架整合
- 30年歷史回顧，Jeff Dean：我們整理了一份「稀疏專家模型」研究綜述
為什麼基於MoE 的大模型更值得關注？

被 OpenAI、Mistral AI 帶火的 MoE 是怎麼回事？一文貫通專家混合架構部署
- 吸引機器學習圈眼球的 MoE，會成為 NLP 與 CV 的未來嗎？
- 手把手教你，從零開始實現一個稀疏混合專家架構語言模型（MoE）
- 前沿：密集前饋、稀疏MoE
- 微軟讓MoE 長出多個頭，大幅提升專家激活率
- 將多模態大模型稀疏化，3B 模型MoE-LVA 將多模態大模型MoLVA 7B
MoE 與Mamba 強強聯合，將狀態空間模型擴展到數百億參數
- 開源大模型王座再易主，1320 億參數DBRX 上，基礎、
- CVPR 2024 | 基於MoE 的通用影像融合模型，加入2.8% 參數完成多項任務
- 谷歌Gemini1.5 火速上線：MoE 架構，100 萬上下文
- 蘋果大模型MM1 殺入場：300 億參數、多模態、MoE 架構，超半數作者是華人
- 8x7B MoE 與Flash Attention 2 結合，不到10 行程式碼實現快速推理
- 4090 可推理，2000 億稀疏大模型「天工MoE」開源
- Mistral 開源8X22B 大模型，OpenAI 更新GPT-4 Turbo 視覺，都在欺負負向底
  圈，87GB 種子直接開源8x7B MoE 模型
- 比MoE 更有潛力？演化演算法融合模型的新路徑是否值得一試？
- 清華發布SmartMoE：一鍵實現高性能MoE 稀疏大模型分佈式訓練
- 一塊錢100 萬元，超強MoE 模型開源，性能直

위 내용은 알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

자바 튜토리얼

1676

Cakephp 튜토리얼

1429

라라벨 튜토리얼

1333

PHP 튜토리얼

1278

C# 튜토리얼

1257

Related knowledge

클릭 한 번으로 PPT를 생성해보세요! 키미: 'PPT 이주노동자'가 먼저 대중화되게 해주세요 Aug 01, 2024 pm 03:28 PM

키미: 단 한 문장이면 단 10초만에 PPT가 완성됩니다. PPT가 너무 짜증나네요! 회의를 하려면 PPT가 있어야 하고, 주간 보고서를 작성하려면 PPT가 있어야 하며, 누군가를 부정행위를 했다고 비난하려면 PPT를 보내야 합니다. 대학은 PPT 전공을 공부하는 것과 비슷합니다. 수업 시간에 PPT를 보고 수업 후에 PPT를 하는 거죠. 아마도 데니스 오스틴이 37년 전 PPT를 발명했을 때, 언젠가 PPT가 이렇게 널리 보급될 것이라고는 예상하지 못했을 것입니다. 우리가 PPT를 만들면서 힘들었던 경험을 이야기하면 눈물이 납니다. "20페이지가 넘는 PPT를 만드는 데 3개월이 걸렸고, 수십 번 수정했어요. PPT를 보면 토할 것 같았어요. 한창 때는 하루에 다섯 장씩 했는데, 숨소리까지 냈어요." PPT였어요." 즉석 회의가 있으면 해야죠.

시간을 투자할 가치가 있는 확산 모델 튜토리얼(Purdue University 제공) Apr 07, 2024 am 09:01 AM

확산은 더 잘 모방할 수 있을 뿐만 아니라 "창조"할 수도 있습니다. 확산 모델(DiffusionModel)은 이미지 생성 모델입니다. AI 분야에서 잘 알려진 GAN, VAE 알고리즘과 비교할 때 확산 모델은 먼저 이미지에 노이즈를 추가한 다음 점차적으로 노이즈를 제거하는 프로세스를 취합니다. 원본 이미지의 노이즈를 제거하고 복원하는 방법이 알고리즘의 핵심 부분입니다. 최종 알고리즘은 임의의 잡음이 있는 이미지에서 이미지를 생성할 수 있습니다. 최근 몇 년 동안 생성 AI의 경이적인 성장으로 인해 텍스트-이미지 생성, 비디오 생성 등에서 많은 흥미로운 애플리케이션이 가능해졌습니다. 이러한 생성 도구의 기본 원리는 이전 방법의 한계를 극복하는 특수 샘플링 메커니즘인 확산의 개념입니다.

세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. 중국의 기능은 GPT-4와 비슷하며 가격은 GPT-4-Turbo의 거의 1%에 불과합니다. May 07, 2024 pm 04:13 PM

기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

CVPR 2024 시상식 전체가 발표되었습니다! 약 10,000명이 오프라인으로 컨퍼런스에 참석했으며 Google의 중국인 연구원이 최우수 논문상을 수상했습니다. Jun 20, 2024 pm 05:43 PM

베이징 시간으로 6월 20일 이른 아침, 시애틀에서 열린 최고의 국제 컴퓨터 비전 컨퍼런스인 CVPR2024가 최우수 논문 및 기타 수상작을 공식 발표했습니다. 올해는 우수논문 2편, 최우수 학생논문 2편 등 총 10편의 논문이 수상하였습니다. 컴퓨터 비전(CV) 분야 최고 학회는 매년 수많은 연구기관과 대학이 모여드는 CVPR이다. 통계에 따르면 올해 총 1만1532편의 논문이 제출돼 2719편이 채택돼 합격률 23.6%를 기록했다. Georgia Institute of Technology의 CVPR2024 데이터 통계 분석에 따르면 연구 주제 관점에서 가장 많은 논문이 이미지 및 비디오 합성 및 생성입니다(Imageandvideosyn

베어메탈부터 700억 개의 매개변수가 있는 대형 모델까지 튜토리얼과 바로 사용할 수 있는 스크립트가 있습니다. Jul 24, 2024 pm 08:13 PM

우리는 LLM이 대규모 데이터를 사용하여 대규모 컴퓨터 클러스터에서 훈련된다는 것을 알고 있습니다. 이 사이트는 LLM 훈련 프로세스를 지원하고 개선하는 데 사용되는 다양한 방법과 기술을 소개합니다. 오늘 우리가 공유하고 싶은 것은 기본 기술에 대해 심층적으로 살펴보고 운영 체제 없이도 수많은 "베어 메탈"을 LLM 교육을 위한 컴퓨터 클러스터로 전환하는 방법을 소개하는 기사입니다. 이 기사는 기계가 생각하는 방식을 이해하여 일반 지능을 달성하기 위해 노력하는 AI 스타트업 Imbue에서 가져온 것입니다. 물론 운영 체제가 없는 "베어 메탈"을 LLM 교육을 위한 컴퓨터 클러스터로 전환하는 것은 탐색과 시행착오로 가득 찬 쉬운 과정이 아니지만 Imbue는 마침내 700억 개의 매개변수를 사용하여 LLM을 성공적으로 교육했습니다. 과정이 쌓이다

PyCharm Community Edition 설치 가이드: 모든 단계를 빠르게 익히세요 Jan 27, 2024 am 09:10 AM

PyCharm Community Edition 빠른 시작: 자세한 설치 튜토리얼 전체 분석 소개: PyCharm은 개발자가 Python 코드를 보다 효율적으로 작성하는 데 도움이 되는 포괄적인 도구 세트를 제공하는 강력한 Python 통합 개발 환경(IDE)입니다. 이 문서에서는 PyCharm Community Edition을 설치하는 방법을 자세히 소개하고 초보자가 빠르게 시작할 수 있도록 구체적인 코드 예제를 제공합니다. 1단계: PyCharm Community Edition 다운로드 및 설치 PyCharm을 사용하려면 먼저 공식 웹사이트에서 다운로드해야 합니다.

PRO | MoE 기반의 대형 모델이 더 주목받는 이유는 무엇인가요? Aug 07, 2024 pm 07:08 PM

2023년에는 AI의 거의 모든 분야가 전례 없는 속도로 진화하고 있다. 동시에 AI는 구체화된 지능, 자율주행 등 핵심 트랙의 기술적 한계를 지속적으로 확장하고 있다. 멀티모달 추세 하에서 AI 대형 모델의 주류 아키텍처인 Transformer의 상황이 흔들릴까요? MoE(Mixed of Experts) 아키텍처를 기반으로 한 대형 모델 탐색이 업계에서 새로운 트렌드가 된 이유는 무엇입니까? 대형 비전 모델(LVM)이 일반 비전 분야에서 새로운 돌파구가 될 수 있습니까? ...지난 6개월 동안 공개된 본 사이트의 2023 PRO 회원 뉴스레터에서 위 분야의 기술 동향과 산업 변화에 대한 심층 분석을 제공하여 새로운 환경에서 귀하의 목표 달성에 도움이 되는 10가지 특별 해석을 선택했습니다. 년. 준비하세요. 이 해석은 2023년 50주차에 나온 것입니다.

AI 활용 | AI가 혼자 사는 소녀의 생활 브이로그를 만들어 3일 만에 수만 개의 좋아요를 받았습니다. Aug 07, 2024 pm 10:53 PM

Machine Power Report 편집자: Yang Wen 대형 모델과 AIGC로 대표되는 인공지능의 물결은 우리가 살고 일하는 방식을 조용히 변화시키고 있지만 대부분의 사람들은 여전히 그것을 어떻게 사용하는지 모릅니다. 이에 직관적이고 흥미롭고 간결한 인공지능 활용 사례를 통해 AI 활용 방법을 자세히 소개하고 모두의 사고를 자극하고자 'AI in Use' 칼럼을 론칭하게 됐다. 또한 독자들이 혁신적인 실제 사용 사례를 제출하는 것을 환영합니다. 영상 링크 : https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ 최근 샤오홍슈에서는 혼자 사는 소녀의 인생 브이로그가 인기를 끌었습니다. 몇 가지 치유의 말과 함께 일러스트레이션 스타일의 애니메이션을 단 며칠 만에 쉽게 익힐 수 있습니다.

See all articles

알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제