什么是专家的混合物？-人工智能-PHP中文网

专家（MOE）模型的混合物正在通过提高效率和可扩展性来彻底改变大型语言模型（LLM）。这种创新的体系结构将模型分为专门的子网络或“专家”，每个人都接受了特定数据类型或任务的培训。通过仅根据输入激活专家的一个相关子集，MOE模型可显着提高容量，而不会按比例增加计算成本。这种选择性激活优化了资源使用情况，并可以在自然语言处理，计算机视觉和推荐系统等各个领域跨越复杂的任务。本文探讨了MOE模型，其功能，流行示例和Python实施。

本文是数据科学博客马拉松的一部分。

目录：

什么是专家（MOE）的混合物？
深度学习
MOE模型如何运作？
基于MOE的突出模型
Moes实施Python
比较来自不同MOE模型的输出
dbrx
DeepSeek-V2
常见问题

什么是专家（MOE）的混合物？

MOE模型通过使用多个较小的专业模型而不是单个大型模型来增强机器学习。每个较小的型号都以特定的问题类型出色。 “决策者”（门控机制）为每个任务选择适当的模型，从而提高整体绩效。包括变压器在内的现代深度学习模型使用分层互连的单元（“神经元”）来处理数据并将结果传递到后续层。 MOE通过将复杂的问题分为专业组件（“专家”）来反映这一点，每个组件都可以解决特定方面。

MOE模型的关键优势：

与密集模型相比，训练的速度更快。
更快的推断，即使使用类似的参数计数。
由于同时存储所有专家的内存中，VRAM的需求很高。

MOE模型包括两个主要部分：专家（专业的较小的神经网络）和一个路由器（基于输入的相关专家）。这种选择性激活提高了效率。

深度学习

在深度学习中，MoE通过分解复杂问题来改善神经网络性能。它使用多个专门研究不同输入数据方面的多个较小的“专家”模型，而不是单个大型模型。门控网络确定每个输入要使用的专家，从而提高效率和有效性。

MOE模型如何运作？

MOE模型如下：

多个专家：该模型包含几个较小的神经网络（“专家”），每个神经网络均经过特定输入类型或任务的培训。
门控网络：一个单独的神经网络（门控网络）决定每个输入使用的专家，分配权重以指示每个专家对最终输出的贡献。
动态路由：门控网络动态选择每个输入的最相关的专家，以优化效率。
组合输出：选定的专家的输出是根据门控网络的分配权重组合的，从而产生最终预测。
效率和可扩展性： MOE模型是有效的，因为每个输入只激活了少数专家，从而降低了计算成本。可伸缩性是通过添加更多专家来处理更复杂任务的情况，而无需显着增加每个输入的计算。

基于MOE的突出模型

MOE模型在AI中越来越重要，因为它们在保持性能的同时有效地缩放了LLM。 Mixtral 8x7b是一个值得注意的例子，使用了稀疏的MOE架构，仅激活每个输入的一部分专家，从而导致效率显着提高。

混合8x7b

混合8x7b是仅解码器的变压器。输入令牌嵌入向量中并通过解码器层进行处理。输出是每个位置被一个单词占据的概率，从而实现文本填充和预测。每个解码器层都有一个注意机制（用于上下文信息）和专家（SMOE）部分的稀疏混合物（单独处理每个单词向量）。 SMOE层使用多个层（“专家”），对于每个输入，都会使用最相关的专家输出的加权总和。

什么是专家的混合物？