混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合-人工智能-PHP中文网

首页

科技周边

人工智能

混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合

王林

Aug 11, 2024 pm 01:02 PM

工程混合专家

混合专家，也得术业有专攻。

对于目前的混合模态基础模型，常用的架构设计是融合特定模态的编码器或解码器，但这种方法存在局限：无法整合不同模态的信息，也难以输出包含多种模态的内容。

为了克服这一局限，Meta FAIR 的 Chameleon 团队在近期的论文《Chameleon: Mixed-modal early-fusion foundation models》中提出了一种新的单一 Transformer 架构，它可以根据下一个 token 的预测目标，对由离散图像和文本 token 组成的混合模态序列进行建模，从而在不同模态之间进行无缝推理和生成。

混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合

在约 10 万亿混合模态 token 上完成预训练之后，Chameleon 表现出了适应广泛的视觉和语言能力，能很好地处理多种不同的下游任务。Chameleon 在生成混合模态长回答任务的表现尤其亮眼，它甚至打败了 Gemini 1.0 Pro 和 GPT-4V 等商用模型。然而对于 Chameleon 这样各种模态会在模型训练的早期混合起来的模型，想要拓展它的能力，需要投入大量算力。

基于以上问题，Meta FAIR 的团队对路由式稀疏架构（routed sparse architecture）进行了一番研究探索，提出了 MoMa：模态感知型专家混合架构。

混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合

论文标题：MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts
论文地址：https://arxiv.org/pdf/2407.21770

之前已有研究表明，这类架构可以有效地扩展单模态的基础模型的能力，也可以增强多模态对比学习模型的性能。但是，将其用于较早将各种模态融合的模型训练还是一个机遇与挑战并存的课题，还少有人研究。

该团队的研究基于这一洞见：不同模态具有固有的异构性 —— 文本和图像 token 具有不同的信息密度和冗余模式。

在将这些 token 整合成统一的融合架构的同时，该团队也提出通过整合针对具体模态的模块来进一步优化该框架。该团队将这一概念称为模态感知型稀疏性（modality-aware sparsity），简称 MaS；其能让模型更好地捕获每个模态的特征，同时还能通过部分参数共享和注意力机制维持强大的跨模态整合性能。

之前的 VLMo、BEiT-3 和 VL-MoE 等研究已经采用了混合模态专家（MoME/mixture-of-modality-experts）方法来训练视觉 - 语言编码器和掩码式语言建模，来自 FAIR 的研究团队更进一步将 MoE 的可用范围又推进了一步。

模型架构

早期融合

本文提出的新模型基于 Chameleon 的早期融合架构，其做法是在一个统一 Transformer 中，将图像和文本表示成一系列离散 token。Chameleon 的核心是一个基于 Transformer 的模型，其会在图像和文本 token 的组合序列上应用自注意力机制。这能让该模型捕获模态内和模态间的复杂关联。该模型的训练使用的目标是下一 token 预测目标，以自回归方式生成文本和图像 token。

在 Chameleon 中，图像的 token 化方案采用了一个学习型图像分词器，它将基于大小为 8192 的 codebook 将 512 × 512 的图像编码成 1024 个离散 token。对于文本的分词将使用一个词表大小为 65,536 的 BPE 分词器，其中包含图像 token。这种统一的分词方法可以让模型无缝处理图像和文本 token 交织错杂的任意序列。

借助这种方法，新模型继承了表征统一、灵活性好、可扩展性高、支持端到端学习这些优点。

在此基础上（图 1a），为了进一步提升早融合模型的效率和性能，该团队还引入了模态感知型稀疏性技术。

混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合

宽度扩展：模态感知型混合专家

该团队提出了一种宽度扩展方法：将模态感知型模块稀疏性集成到前向模块中，从而扩展标准混合专家（MoE）架构。

该方法基于这一洞见：不同模态的 token 有各自不同的特征和信息密度。

通过为每个模态构建不同的专家分组，可让模型开发出专门的处理路径，同时维持跨模态的信息整合能力。

图 1b 展示了这种模态感知型专家混合（MoMa）的关键组件。简单来说，先是对各个特定模态的专家进行分组，然后实现分层路由（分为模态感知型路由和模态内路由），最后选择专家。详细过程参见原论文。

总体来说，对于一个输入 token x，MoMa 模块的形式化定义为：

混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合

在 MoMa 计算之后，该团队又进一步使用了残差连接和 Swin Transformer 归一化。

Mixture-of-Depths（MoD）

之前也有研究者探索将稀疏性引入深度维度，他们的做法要么是随机丢弃某些层，要么就是使用可学习的路由器。

该团队的做法参考了第二种方法，同时整合了近期提出的混合深度（MoD）技术。有关 MoD 的更多介绍可参阅本站报道《DeepMind 升级 Transformer，前向通过 FLOPs 最多可降一半》。

具体而言，如下图所示，该团队的做法是在每个 MoD 层中，在混合专家（MoE）路由之前都集成 MoD，从而确保在模态分离之前，整批数据都能应用 MoD。

混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合

推理

在推理阶段，我们不能直接使用 MoE 的专家选择路由或 MoD 的层选择路由，因为在一批数据中进行 top-k（选择前 k 个）选择会破坏因果关系。

为了保证推理的因果关系，受上述 MoD 论文的启发，研究团队引入了辅助路由器（auxiliary router），其作用是仅基于 token 的隐藏表征预测该 token 被某个专家或层选中的可能性。

升级改造（Upcycling）

在优化表征空间和路由机制方面，对于一个从头开始训练 MoE 架构，存在一个独特的难题。该团队发现：MoE 路由器负责为每个专家划分表征空间。但是，在模型训练的早期阶段，这个表征空间并非最优，这就会导致训练得到的路由函数也是次优的。

为了克服这一局限，他们基于 Komatsuzaki 等人的论文《Sparse upcycling: Training mixture-of-experts from dense checkpoints》提出了一种升级改造方法。

混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合

具体来说，首先训练一个每个模态都有一个 FFN 专家的架构。经过一些预先设定的步数之后，再对该模型进行升级改造，具体做法是：将每个特定模态的 FFN 转换成一个专家选择式 MoE 模块，并将每个专家初始化为第一阶段训练的专家。这里会在保留前一阶段的数据加载器状态的同时重置学习率调度器，以确保第二阶段的训练能使用已刷新的数据。

为了促进专家更加专业，该团队还使用了 Gumbel 噪声来增强 MoE 路由函数，从而使得新的路由器能以可微分的方式对专家进行采样。

这种升级改造方法加上 Gumbel-Sigmoid 技术，可克服学习到的路由器的局限性，从而提升新提出的模态感知型稀疏架构的性能。

效率优化

为促进 MoMa 的分布式训练，该团队采用了完全分片式数据并行（FSDP/Fully Sharded Data Parallel）。但是，相比于常规 MoE，该方法存在一些特有的效率难题，包括负载平衡问题和专家执行的效率问题。

对于负载平衡问题，该团队开发了一种平衡的数据混合方法，可让每台 GPU 上的文本 - 图像数据比例与专家比例保持一致。

对于专家执行的效率问题，该团队探索了一些策略，可帮助提升不同模态的专家的执行效率：

将各个模态的专家限制为同构的专家，并禁止将文本 token 路由到图像专家，反之亦然；
使用模块稀疏性（block sparsity）来提升执行效率；
当模态的数量有限时，按顺序运行不同模态的专家。

由于实验中每台 GPU 处理的 token 都足够多，因此即使使用多个分批次矩阵乘法，硬件利用率也不算大问题。因此，该团队认为对于当前规模的实验环境而言，按顺序执行的方法是比较好的选择。

其它优化

为了进一步提升吞吐量，该团队还采用了其它一些优化技术。

其中包括降低梯度通信量、自动化的 GPU 核融合等一般优化操作，研究团队还通过 torch.compile 实现了图优化。

此外，他们还针对 MoMa 开发了一些优化技术，包括跨不同层复用模态 token 索引，以最高效地同步 CPU 和 GPU 之间的设备。

实验

设置

实验中使用的预训练数据集和预处理过程与 Chameleon 一样。为了评估扩展性能，他们训练模型使用的 token 数量超过 1 万亿。

混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合

表 1 给出了密集和稀疏模型的详细配置情况。

不同计算层级的扩展性能

该团队分析了不同模型在不同计算层级上的扩展性能，这些计算层级（FLOPs）相当于三种大小的密集模型：90M、435M 和 1.4B。

实验结果表明，一个稀疏模型仅使用总 FLOPs 的 1/η 就能比肩同等 FLOPs 的密集模型的预训练损失（η 表示预训练加速因子）。

模态解绑

引入特定模态的专家分组可提高不同规模模型的预训练效率，这对图像模态尤其有益。如图 3 所示，使用 1 个图像专家和 1 个文本专家的 moe_1t1i 配置显著优于相应的密集模型。

混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合

扩展每个模态分组的专家数量还能进一步提升模型性能。

混合深度与专家

该团队观察到，当采用 MoE 和 MoD 以及它们的组合形式时，训练损失的收敛速度会得到提升。如图 4 所示，向 moe_1t1i 架构添加 MoD（mod_moe_1t1i）可大幅提升不同模型大小的模型性能。

混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合

此外，在不同的模型大小和模态上，mod_moe_1t1i 能媲美甚至超过 moe_4t4i，这表明在深度维度上引入稀疏性也能有效提升训练效率。

另一方面，还能看到堆叠 MoD 和 MoE 的收益会逐步下降。

扩展专家的数量

为了研究扩展专家数量的影响，该团队进行了进一步的消融实验。他们探索了两种场景：为每种模态分配同等数量的专家（平衡）以及为每种模态分配不同数量的专家（不平衡）。结果见图 5。

混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合

对于平衡的设置，从图 5a 可以看到，随着专家数量提升，训练损失会明显下降。但文本和图像损失表现出了不同的扩展模式。这表明每种模态的固有特性会导致出现不同的稀疏建模行为。

对于不平衡的设置，图 5b 比较了同等专家总数（8）的三种不同配置。可以看到，一个模态的专家越多，模型在该模态上的表现通常就越好。

升级改造

该团队自然也验证了前述的升级改造的效果。图 6 比较了不同模型变体的训练曲线。

混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合

结果表明，升级改造确实能进一步改善模型训练：当第一个阶段有 10k 步时，升级改造能带来 1.2 倍的 FLOPs 收益；而当这个步数为 20k 时，也有 1.16 倍的 FLOPs 收益。

此外，还能观察到，随着训练推进，经过升级改造的模型与从头开始训练的模型之间的性能差距会不断增大。

吞吐量分析

稀疏模型通常不能立即带来性能增益，因为稀疏模型会增加动态性和相关的数据平衡问题。为了量化新提出的方法对训练效率的影响，该团队通常控制变量实验比较了不同架构的训练吞吐量。结果见表 2。

混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合

可以看到，相比于密集模型，基于模态的稀疏性能实现更好的质量 - 吞吐量权衡，并且能随专家数量增长展现出合理的可扩展性。另一方面，尽管 MoD 变体取得了最好的绝对损失，但由于额外的动态性和不平衡性，它们的计算成本往往也更高。

推理时间性能

该团队也评估了模型在留存的语言建模数据和下游任务上的表现。结果见表 3 和 4。

如表 3 所示，通过使用多个图像专家，1.4B MoMa 1t1i 模型在大多数指标上都优于相应的密集模型，只有在 COCO 和 Flickr 上的图像到文本条件困惑度指标例外。进一步扩展专家数量也能提升性能，其中 1.4B MoE 8x 在图像到文本性能上达到了最佳。

此外，如表 4 所示，1.4B MoE 8x 这个模型还非常擅长文本到文本任务。1.4B MoMa 4t4i 在所有条件图像困惑度指标上表现最佳，而其在大多数基准上的文本困惑度也非常接近 1.4B MoE 8x。

总体而言，在混合文本和图像两种模态的数据上，1.4B MoMa 4t4i 模型的建模结果最好。

更多详细内容，请阅读原论文。

以上是混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1667

CakePHP 教程

1426

Laravel 教程

1328

PHP教程

1273

C# 教程

1255

显示更多

Related knowledge

ControlNet作者又出爆款！一张图生成绘画全过程，两天狂揽1.4k Star Jul 17, 2024 am 01:56 AM

同样是图生视频，PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了！这次瞄准绘画领域。新项目PaintsUndo刚上线不久，就收获1.4kstar（还在疯狂涨）。项目地址：https://github.com/lllyasviel/Paints-UNDO通过该项目，用户输入一张静态图像，PaintsUndo就能自动帮你生成整个绘画的全过程视频，从线稿到成品都有迹可循。绘制过程，线条变化多端甚是神奇，最终视频结果和原图像非常相似：我们再来看一个完整的绘

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中，对大语言模型（LLM）的控制与指导始终是核心挑战之一，旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法（RL

登顶开源AI软件工程师榜首，UIUC无Agent方案轻松解决SWE-bench真实编程问题 Jul 17, 2024 pm 10:02 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校（UIUC）张令明老师团队，包括：StevenXia，四年级博士生，研究方向是基于AI大模型的自动代码修复；邓茵琳，四年级博士生，研究方

arXiv论文可以发「弹幕」了，斯坦福alphaXiv讨论平台上线，LeCun点赞 Aug 01, 2024 pm 05:18 PM

干杯！当论文讨论细致到词句，是什么体验？最近，斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv，可以直接在任何arXiv论文之上发布问题和评论。网站链接：https://alphaxiv.org/其实不需要专门访问这个网站，只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文：可以精准定位到论文中的段落、句子：右侧讨论区，用户可以发表问题询问作者论文思路、细节，例如：也可以针对论文内容发表评论，例如：「给出至

黎曼猜想显着突破！陶哲轩强推MIT、牛津新论文，37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近，被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题，与素数分布的精确性质有关（素数是那些只能被1和自身整除的数字，它们在数论中扮演着基础性的角色）。在当今的数学文献中，已有超过一千条数学命题以黎曼猜想（或其推广形式）的成立为前提。也就是说，黎曼猜想及其推广形式一旦被证明，这一千多个命题将被确立为定理，对数学领域产生深远的影响；而如果黎曼猜想被证明是错误的，那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

OpenAI超级对齐团队遗作：两个大模型博弈一番，输出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型给的答案一点也看不懂，你敢用吗？随着机器学习系统在更重要的领域得到应用，证明为什么我们可以信任它们的输出，并明确何时不应信任它们，变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是，要求系统对其输出产生一种解释，这种解释对人类或另一个受信任的系统来说是可读的，即可以完全理解以至于任何可能的错误都可以被发现。例如，为了建立对司法系统的信任，我们要求法院提供清晰易读的书面意见，解释并支持其决策。对于大型语言模型来说，我们也可以采用类似的方法。不过，在采用这种方法时，确保语言模型生

LLM用于时序预测真的不行，连推理能力都没用到 Jul 15, 2024 pm 03:59 PM

语言模型真的能用于时序预测吗？根据贝特里奇头条定律（任何以问号结尾的新闻标题，都能够用「不」来回答），答案应该是否定的。事实似乎也果然如此：强大如斯的LLM并不能很好地处理时序数据。时序，即时间序列，顾名思义，是指一组按照时间发生先后顺序进行排列的数据点序列。在很多领域，时序分析都很关键，包括疾病传播预测、零售分析、医疗和金融。在时序分析领域，近期不少研究者都在研究如何使用大型语言模型（LLM）来分类、预测和检测时间序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的语言模型也能泛化用于时间序

首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。引言近年来，多模态大型语言模型（MLLM）在各个领域的应用取得了显着的成功。然而，作为许多下游任务的基础模型，当前的MLLM由众所周知的Transformer网络构成，这种网

See all articles

混合专家更有主见了，能感知多模态分情况行事，Meta提出模态感知型专家混合

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题