하이브리드 전문가들도 수술 분야에 전문성을 갖고 있습니다.
현재 혼합 양식 기본 모델의 경우 일반적인 아키텍처 설계는 특정 양식의 인코더 또는 디코더를 융합하는 것이지만 이 방법에는 한계가 있습니다. 서로 다른 양식의 정보를 통합할 수 없으며 어렵습니다. 다양한 형식의 콘텐츠를 포함합니다. 이러한 한계를 극복하기 위해 Meta FAIR의 Chameleon 팀은 최근 논문 "Chameleon: Mixed-modal early-fusion Foundation models"에서 차세대 토큰을 기반으로 할 수 있는 새로운 단일 Transformer 아키텍처를 제안했습니다. 예측 목표는 개별 이미지와 텍스트 토큰으로 구성된 혼합 모드 시퀀스를 모델링하여 다양한 형식 간의 원활한 추론 및 생성을 허용하는 것입니다.
약 10조 개의 혼합 모드 토큰에 대한 사전 교육을 마친 후 카멜레온은 광범위한 비전과 언어에 적응하는 능력을 입증했으며 다양한 다운스트림 작업을 잘 처리할 수 있습니다. Chameleon의 성능은 혼합 모드 긴 답변을 생성하는 작업에서 특히 인상적이며 Gemini 1.0 Pro 및 GPT-4V와 같은 상용 모델을 능가합니다. 하지만 카멜레온과 같이 모델 학습 초기 단계에서 다양한 양상이 혼합되는 모델의 경우, 성능을 확장하려면 많은 컴퓨팅 파워 투자가 필요합니다. 위 문제를 기반으로 Meta FAIR 팀은 라우팅된 스파스 아키텍처에 대한 연구와 탐색을 수행하고 MoMa: Modality-aware 전문 하이브리드 아키텍처를 제안했습니다.
- 논문 제목: MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts
- 논문 주소: https://arxiv.org/pdf/2407.21770
이전 연구 이러한 유형의 아키텍처는 단일 모드 기본 모델의 기능을 효과적으로 확장하고 다중 모드 대조 학습 모델의 성능을 향상시킬 수 있음을 보여주었습니다. 그러나 다양한 양식을 통합하는 초기 모델 훈련에 이를 사용하는 것은 여전히 기회와 과제가 모두 있는 주제이며 이를 연구한 사람은 거의 없습니다. 팀의 연구는 다양한 양식이 본질적으로 이질적이라는 통찰을 기반으로 합니다. 즉, 텍스트와 이미지 토큰은 서로 다른 정보 밀도와 중복 패턴을 가지고 있습니다. 이러한 토큰을 통합 융합 아키텍처로 통합하는 동안 팀은 특정 양식에 대한 모듈을 통합하여 프레임워크를 더욱 최적화할 것을 제안했습니다. 팀은 이 개념을 모달리티 인식 희소성(MaS)이라고 부릅니다. 이를 통해 모델은 부분 매개변수 공유 및 주의 메커니즘을 사용하면서 각 모달리티의 특성을 더 잘 포착할 수 있습니다. VLMo, BEiT-3 및 VL-MoE와 같은 이전 연구에서는 시각 언어 인코더 및 마스크된 언어 구성을 훈련하기 위해 혼합 양식 전문가(MoME/mixture-of-modality-experts) 방법을 채택했습니다. FAIR 연구팀은 MoE의 사용 가능한 범위를 한 단계 더 확장했습니다. 본 글에서 제안하는 새로운 모델은 이미지와 텍스트를 하나로 통합하여 표현하는 카멜레온의 초기 퓨전 아키텍처를 기반으로 한다. Transformer 일련의 개별 토큰입니다. 기본적으로 Chameleon은 이미지와 텍스트 토큰의 결합된 시퀀스에 self-attention 메커니즘을 적용하는 Transformer 기반 모델입니다. 이를 통해 모델은 양식 내 및 양식 간의 복잡한 상관관계를 포착할 수 있습니다. 모델은 다음 토큰 예측을 목표로 훈련되어 자동 회귀 방식으로 텍스트 및 이미지 토큰을 생성합니다. 카멜레온에서 이미지 토큰화 방식은 학습 이미지 토크나이저를 사용합니다. 학습 이미지 토크나이저는 크기 8192의 코드북을 기반으로 512 × 512 이미지를 1024개의 개별 토큰으로 인코딩합니다. 텍스트 분할을 위해 이미지 토큰을 포함하는 어휘 크기가 65,536인 BPE 토크나이저가 사용됩니다. 이 통합된 단어 분할 방법을 통해 모델은 서로 얽힌 이미지와 텍스트 토큰의 모든 시퀀스를 원활하게 처리할 수 있습니다. 이 방법을 사용하면 새 모델은 통합 표현, 우수한 유연성, 높은 확장성 및 엔드투엔드 학습 지원의 장점을 상속받습니다. 이를 기반으로(그림 1a), 팀은 초기 융합 모델의 효율성과 성능을 더욱 향상시키기 위해 양식 인식 희소성 기술도 도입했습니다. 팀에서는 양식 인식 모듈 희소성을 순방향 모듈에 통합하여 표준 하이브리드 전문가(MoE) 아키텍처를 확장하는 너비 스케일링 방법을 제안합니다. . 이 방법은 다양한 모드의 토큰이 서로 다른 특성과 정보 밀도를 가지고 있다는 통찰에 기반합니다. 각 양식에 대해 서로 다른 전문가 그룹을 구성함으로써 모델은 교차 양식 정보 통합 기능을 유지하면서 전문적인 처리 경로를 개발할 수 있습니다. 그림 1b는 이 양식 인식 전문 혼합물(MoMa)의 핵심 구성 요소를 보여줍니다. 간단히 말하면 각 특정 양식의 전문가를 먼저 그룹화한 다음 계층적 라우팅을 구현하고(양식 인식 라우팅과 모달 내 라우팅으로 구분) 마지막으로 전문가를 선택합니다. 자세한 과정은 원문을 참고해주세요. 일반적으로 입력 토큰 x의 경우 MoMa 모듈의 공식 정의는 다음과 같습니다.
MoMa 계산 후 팀은 잔류 연결과 Swin Transformer 정규화를 추가로 사용했습니다. 이전 연구자들은 깊이 차원에 희소성을 도입하는 방법도 연구했습니다. 그들의 접근 방식은 특정 레이어를 무작위로 삭제하거나 사용 가능한 학습 라우터를 사용하는 것이었습니다. . 구체적으로 아래 그림과 같이 팀의 접근 방식은 하이브리드 전문가(MoE) 라우팅 전에 각 MoD 계층에 MoD를 통합하여 전체 데이터 배치가 MoD를 사용할 수 있도록 하는 것입니다. Inference 단계에서는 top-k(상위 k 선택)가 일괄 데이터에서 수행되므로 MoE의 전문가 선택 라우팅이나 MoD의 레이어 선택 라우팅을 직접 사용할 수 없습니다. ) 선택은 인과관계를 파괴합니다. 위에서 언급한 MoD 논문에서 영감을 받아 추론의 인과 관계를 보장하기 위해 연구팀은 특정 사용자에 의해 토큰이 선택될 것이라고 예측하는 역할을 하는 보조 라우터(보조 라우터)를 도입했습니다. 토큰 가능성의 숨겨진 표현에만 기반한 전문가 또는 레이어. 표현 공간과 라우팅 메커니즘을 최적화하는 측면에서 처음부터 훈련된 MoE 아키텍처에는 고유한 어려움이 있습니다. 팀은 MoE 라우터가 각 전문가의 표현 공간을 분할하는 역할을 담당한다는 것을 발견했습니다. 그러나 모델 훈련의 초기 단계에서는 이 표현 공간이 최적이 아니므로 훈련을 통해 얻은 라우팅 기능이 차선이 됩니다. 이러한 한계를 극복하기 위해 Komatsuzaki 외의 "Sparse upcycling: Training mix-of-experts from Dense checkpoints" 논문을 기반으로 업그레이드 방법을 제안했습니다.
구체적으로 먼저 양식당 FFN 전문가 한 명과 함께 아키텍처를 교육하세요. 몇 가지 미리 설정된 단계를 거친 후 모델이 업그레이드되고 변환됩니다. 구체적인 방법은 각 특정 양식의 FFN을 전문가가 선택한 MoE 모듈로 변환하고 각 전문가를 교육의 첫 번째 단계로 초기화하는 것입니다. 이렇게 하면 이전 단계의 데이터 로더 상태를 유지하면서 학습률 스케줄러를 재설정하여 새로 고친 데이터를 두 번째 훈련 단계에서 사용할 수 있도록 합니다. 전문가를 더욱 전문화하기 위해 팀에서는 Gumbel 노이즈를 사용하여 MoE 라우팅 기능을 향상시켜 새로운 라우터가 전문가를 차별화 가능한 방식으로 샘플링할 수 있도록 했습니다. Gumbel-Sigmoid 기술과 결합된 이 업그레이드 방법은 학습된 라우터의 한계를 극복하여 새로 제안된 모달리티 인식 희소 아키텍처의 성능을 향상시킬 수 있습니다. MoMa의 분산 교육을 촉진하기 위해 팀은 완전 샤딩 데이터 병렬(FSDP/Fully Sharded Data Parallel)을 채택했습니다. 그러나 기존 MoE와 비교할 때 이 방법에는 로드 밸런싱 문제 및 전문가 실행의 효율성 문제를 포함하여 몇 가지 고유한 효율성 문제가 있습니다. 로드 밸런싱 문제를 위해 팀은 각 GPU의 텍스트 대 이미지 데이터 비율을 전문가 비율과 일관되게 유지하는 균형 잡힌 데이터 혼합 방법을 개발했습니다. 전문가 실행 효율성과 관련하여 팀은 다양한 양식에서 전문가의 실행 효율성을 향상시키는 데 도움이 될 수 있는 몇 가지 전략을 탐색했습니다.
- 각 양식의 전문가를 동질적인 전문가로 제한하고 금지합니다. 텍스트 토큰을 이미지 전문가에게 전달하거나 그 반대로 라우팅합니다.
- 블록 희소성을 사용하여 실행 효율성을 높입니다.
- 양식 수가 제한되면 시퀀스 전문가에서 다양한 양식을 실행하세요.
실험에서 각 GPU는 충분한 토큰을 처리했기 때문에 다중 배치 행렬 곱셈을 사용해도 하드웨어 활용도는 큰 문제가 되지 않습니다. 따라서 팀은 현재 규모의 실험 환경에서는 순차적 실행 방법이 더 나은 선택이라고 믿습니다. 처리량을 더욱 향상시키기 위해 팀에서는 몇 가지 다른 최적화 기술도 채택했습니다. 여기에는 그라데이션 통신량 감소 및 자동화된 GPU 코어 융합과 같은 일반적인 최적화 작업도 포함됩니다. 연구팀은 또한 torch.compile을 통해 그래프 최적화를 구현했습니다. 또한 CPU와 GPU 간에 장치를 가장 효율적으로 동기화하기 위해 다양한 계층에서 모달 토큰 인덱스를 재사용하는 등 MoMa를 위한 몇 가지 최적화 기술을 개발했습니다. 실험에 사용된 사전 학습 데이터 세트 및 전처리 과정은 카멜레온과 동일합니다. 확장 성능을 평가하기 위해 1조 개 이상의 토큰을 사용하여 모델을 훈련했습니다. 표 1은 조밀 모델과 희소 모델의 세부 구성을 보여줍니다. 팀은 다양한 컴퓨팅 수준에서 다양한 모델의 확장 성능을 분석했습니다. 이러한 컴퓨팅 수준(FLOP)은 90M, 435M의 세 가지 크기의 밀도 모델에 해당합니다. 그리고 1.4B. 실험 결과에 따르면 희소 모델은 총 FLOP의 1/eta만 사용하여 밀도가 높은 모델의 사전 훈련 손실을 동등한 FLOP와 일치시킬 수 있습니다(θ는 사전 훈련 가속 인자를 나타냄). 모달리티별 전문가 그룹화를 도입하면 다양한 크기의 모델의 사전 학습 효율성을 향상시킬 수 있으며 이는 특히 이미지 모달리티에 유용합니다. 그림 3에서 볼 수 있듯이 이미지 전문가 1명과 텍스트 전문가 1명을 사용하는 moe_1t1i 구성은 해당 밀집 모델보다 훨씬 뛰어난 성능을 보입니다. 각 모달 그룹의 전문가 수를 늘리면 모델 성능을 더욱 향상시킬 수 있습니다. Hybrid Depth with Experts 팀에서는 MoE와 MoD 및 이들을 결합한 형태를 사용할 때 훈련 손실의 수렴 속도가 향상되는 것을 관찰했습니다. 그림 4에 표시된 것처럼 moe_1t1i 아키텍처에 MoD(mod_moe_1t1i)를 추가하면 다양한 모델 크기에 걸쳐 모델 성능이 크게 향상됩니다. 또한, mod_moe_1t1i는 다양한 모델 크기 및 모드에서 moe_4t4i와 일치하거나 심지어 초과할 수 있습니다. 이는 깊이 차원에 희소성을 도입하면 훈련 효율성을 효과적으로 향상시킬 수 있음을 보여줍니다. 한편, MoD와 MoE를 겹쳐서 얻을 수 있는 이점이 점차 감소하는 것도 볼 수 있습니다. 전문가 수 확대가 미치는 영향을 연구하기 위해 팀에서는 추가 절제 실험을 수행했습니다. 그들은 두 가지 시나리오를 탐색했습니다. 즉, 각 양식에 동일한 수의 전문가를 할당하는 것(균형)과 각 양식에 다른 수의 전문가를 할당하는 것(불균형)입니다. 결과는 그림 5에 나와 있습니다. 균형 잡힌 설정의 경우 그림 5a에서 전문가 수가 증가할수록 훈련 손실이 크게 감소하는 것을 볼 수 있습니다. 그러나 텍스트와 이미지 손실은 서로 다른 스케일링 패턴을 나타냅니다. 이는 각 양식의 고유한 특성으로 인해 서로 다른 희소 모델링 동작이 발생함을 의미합니다. 불균형 설정의 경우 그림 5b는 세 가지 다른 구성을 동일한 총 전문가 수(8명)와 비교합니다. 특정 양식에 전문가가 많을수록 모델이 일반적으로 해당 양식에 대해 더 나은 성능을 발휘한다는 것을 알 수 있습니다. 팀에서는 앞서 언급한 업그레이드 및 변형의 효과를 자연스럽게 검증했습니다. 그림 6은 다양한 모델 변형의 훈련 곡선을 비교합니다. 결과는 업그레이드가 실제로 모델 훈련을 더욱 향상시킬 수 있음을 보여줍니다. 첫 번째 단계가 10,000단계인 경우 업그레이드하면 FLOP 이점이 1.2배 증가하고 단계 수가 20,000이면 1.16배 증가합니다. FLOP가 반환됩니다. 또한, 훈련이 진행됨에 따라 업그레이드된 모델과 처음부터 훈련된 모델 사이의 성능 격차가 계속 증가하는 것을 관찰할 수 있습니다. 희소 모델은 역학 및 관련 데이터 균형 문제를 증가시키기 때문에 즉각적인 성능 향상을 가져오지 못하는 경우가 많습니다. 새로 제안된 방법이 훈련 효율성에 미치는 영향을 정량화하기 위해 팀은 일반적으로 제어되는 변수를 사용한 실험에서 다양한 아키텍처의 훈련 처리량을 비교했습니다. 결과를 표 2에 나타내었다. dense 모델에 비해 모달 기반 희소 성능이 더 나은 품질-처리량 trade-off를 달성하고, 전문가 수가 증가함에 따라 합리적인 확장성을 보여줄 수 있음을 알 수 있습니다. 반면, MoD 변형은 최고의 절대 손실을 달성하지만 추가적인 역학 및 불균형으로 인해 계산 비용이 더 많이 드는 경향이 있습니다. 팀은 또한 보유된 언어 모델링 데이터 및 다운스트림 작업에 대한 모델 성능을 평가했습니다. 결과를 표 3 및 4에 나타내었다. 표 3에서 볼 수 있듯이 여러 이미지 전문가를 사용하여 1.4B MoMa 1t1i 모델은 COCO 및 Flickr 예외에 대한 이미지-텍스트 조건부 혼란 지표를 제외하고 대부분의 지표에서 해당 밀도 모델보다 성능이 뛰어납니다. 전문가 수를 더욱 늘리면 성능도 향상됩니다. 14억 MoE 8x는 최고의 이미지-텍스트 성능을 달성합니다. 또한 표 4에서 볼 수 있듯이 1.4B MoE 8x 모델은 텍스트 간 작업에도 매우 뛰어납니다. 14억 MoMa 4t4i는 모든 조건부 이미지 복잡도 측정 항목에서 가장 좋은 성능을 발휘하는 반면, 대부분의 벤치마크에서 텍스트 복잡도도 14억 MoE 8x에 매우 가깝습니다. 일반적으로 1.4B MoMa 4t4i 모델은 혼합 텍스트 및 이미지 형식에서 최고의 모델링 결과를 제공합니다. 위 내용은 하이브리드 전문가는 더욱 적극적이며 다양한 양상을 인식하고 상황에 따라 행동할 수 있습니다. Meta는 양상 인식 전문가 하이브리드를 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!