Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
GPT-4o的横空出世,再次创立了一个多模态模型发展的新范式!
为什么这么说?
OpenAI将其称为「首个『原生』多模态」模型,意味着GPT-4o与以往所有的模型,都不尽相同。
传统的多模态基础模型,通常为每种模态采用特定的「编码器」或「解码器」,将不同的模态分离开。
然而,这种方法限制了模型,有效融合跨模态信息的能力。
GPT-4o是一种“首个端到端”训练的模型,能够跨越文本、视觉和音频的模式,所有的输入和输出,都由单个神经网络处理。
而现在,业界首个敢于挑战GPT-4o的模型现身了!
最近,来自Meta团队的研究人员发布了「混合模态基座模型」——Chameleon(变色龙)。
论文地址:https://arxiv.org/pdf/2405.09818
与GPT-4o一样,Chameleon采用了统一的Transformer架构,使用文本、图像和代码混合模态完成训练。
以类似文本生成的方式,对图像进行离散「分词化」(tokenization),最终生成和推理交错的文本和图像序列。
这种「早期融合」的方法,所有的pipeline从一开始就被映射到一个共同的表示空间,因此模型可以无缝处理文本和图像。
Chameleon生成的多模态内容
与此同时,这样的设计,为模型训练带来了重大的技术挑战。
对此,Meta研究团队引入了一系列架构创新和训练技术。
结果表明,在纯文本任务中,340亿参数Chameleon(用10万亿多模态token训练)的性能和Gemini-Pro相当。
在视觉问答和图像标注基准上,刷新SOTA,性能接近GPT-4V。
不过,不论是GPT-4o,还是Chameleon,都是新一代「原生」端到端的多模态基础模型早期探索。
GTC 2024大会上,老黄描述了迈向AGI最终愿景的重要一步——各种模态互通有无。
下一个开源GPT-4o要来?
Chameleon的发布,简直就是对GPT-4o做出最快的反应。
有网友表示,token进,token出,简直无法去解释。
甚至还有人称,在GPT-4o诞生之后发布的非常扎实的研究,OOS将迎头赶上。
不过,目前Chameleon模型支持生成的模态,主要是图像文本。缺少了GPT-4o中的语音能力。
网友称,然后只需添加另一种模态(音频),扩大训练数据集,「烹饪」一段时间,我们就会得到GPT-4o...?
Meta的产品管理总监称,「我非常自豪能够给予这个团队支持。让我们朝着让GPT-4o更接近开源社区的方向迈进一步」。
或许用不了多久,我们就得到了一个开源版的GPT-4o。
接下来,一起看看Chameleon模型的技术细节。
技术架构
Meta在Chameleon的论文中首先表示:很多新近发布的模型依旧没有将「多模态」贯彻到底。
这些模型虽然采用了端到端的训练方式,但仍然单独对不同模态进行建模,使用分开的编码器或解码器。
如开头所述,这种做法限制了模型跨模态信息的能力,也难以生成包含任意形式信息的、真正的多模态文档。
为了改进这种缺陷,Meta提出了一系列「混合模态」的基座模型Chameleon——能够生成文本和图像内容任意交织在一起的内容。
Chameleon的生成结果,文本和图像交错出现
所谓「混合模态」基座模型,指Chameleon不仅使用了端到端的方式从头开始训练,而且训练时将所有模态的信息交织混合在一起,并使用统一的架构处理。
如何将所有模态的信息混合在同一个模型架构中表示?
答案还是「token」。
只要全部表示为token,就可以把所有所有模态的信息映射到同一个向量空间中,让Transformer无缝处理。
但是,这种做法会带来优化稳定性以及模型扩展性方面的技术挑战。
为了解决这些问题,论文相应地对模型架构进行创新,并使用了一些训练技巧,包括QK归一化和Zloss等。
同时,论文也提出了将纯文本LLM微调为多模态模型的方法。
图像「分词器」
要将所有模态全部表示为token,首先需要一个强大的分词器。
为此,Chameleon的团队在Meta之前一篇论文的基础上开发了一种新的图像分词器,基于大小为8192的codebook,将规格为512×512的图像编码为1024个离散的token。
文字分词器则基于谷歌开发的sentencepiece开源库,训练了一个同时含有65536个文本token与8192个图像token的BPE分词器。
预训练
为了彻底激发「混合模态」的潜力,训练数据也是将不同模态打散、混合呈现给模型的,既有纯文本、文本-图像对,也有文本、图像交错出现的多模态文档。
纯文本数据囊括了Llama 2和CodeLlama所使用的所有预训练数据,共计2.9万亿个token。
文本-图像对包含了一些公开数据,共计14亿对、1.5万亿个token。
对于文本和图像交错的数据,论文特意强调没有包含来自Meta产品的数据,完全使用公开数据来源,整理出共4000亿个token。
Chameleon的预训练分两个单独的阶段进行,分别占总训练比例的80%和20%。
训练的第一阶段就是让模型以无监督的方式学习以上数据,第二阶段开始时,先将第一阶段得到的权重降低50%,并混合更高质量的数据让模型继续学习。
在模型扩展到超过8B参数和1T token时,训练后期会产生明显的不稳定问题。
由于所有模态共享模型权重,每个模态似乎都有增加norm的倾向,与其他模态「竞争」。
这在训练初期不会产生太大的问题,但随着训练的进行、数据超出bf16的表达范围时,就会有loss发散的现象。
研究人员将其归因于softmax函数所具有的平移不变性,这种现象在单模态模型中也被称为「logit 漂移」(logit drift)。
因此,论文提出了一些架构调整和优化方法来保证稳定性:
-QK归一化(query-key normalization):将layer norm应用于注意力模块中的query和key向量,从而直接控制softmax层输入的norm增长。
-在注意力层和前馈层之后引入dropout
-在损失函数中使用Zloss正则化
除了数据来源和架构,论文还大方公开了预训练所用的算力规模。
硬件型号为80GB内存的英伟达A100,7B版本并行使用1024个GPU训练了约86万个GPU小时,34B模型所用的GPU数量则扩大了3倍,GPU小时数超过428万。
作为曾经开源Llama 2的公司,Meta的研究团队确实大方,相比连技术报告都没有的GPT-4o,这篇有数据有干货的论文可谓「仁至义尽」。
全面超越Llama 2
具体的实验评估中,研究人员将其分为人工评估和安全测试,以及基准评估。
基准评估
Chameleon-34B使用了比Llama 2多四倍的token进行训练后,在各种单模态的基准测试中都取得了惊艳的效果。
在纯文本任务生成中,研究人员将预训练(非SFT)模型的纯文本功能与其他领先的纯文本LLM进行比较。
评估内容包括,常识推理、阅读理解、数学问题和世界知识领域,评估结果如下表所示。
- 常识推理和阅读理解
可以观察到, 与Llama 2相比,Chameleon-7B和Chameleon-34B更具竞争力。甚至,34B甚至在5/8的任务上超过了Llama-2 70B,性能与Mixtral-8x7B相当。
- 数学和世界知识
尽管进行了其他模态的训练,但两个Chameleon模型都表现出很强的数学能力。
在GSM8k上,Chameleon-7B的表现优于相应参数规模的Llama 2模型,性能与Mistral-7B相当。
此外,Chameleon-34B在maj@1(61.4 vs 56.8)和Mixtral-8x7B在maj@32 (77.0 vs 75.1)上的表现均优于Llama 2-70B。
同样,在数学运算中,Chameleon-7B的性能超过Llama 2,与Mistral-7B在maj@4上的性能相当,而 Chameleon-34B的性能超过Llama 2-70B,接近Mixtral-8x7B在maj@4上的性能(24.7 vs 28.4)。
总体而言,Chameleon的性能全面超过了Llama 2,在某些任务上接近Mistral-7B/8x7B。
在文本到图像任务中,研究人员具体评测了视觉问答、图像标注两项具体任务。
Chameleon在视觉问答和图像标注任务中打败Flamingo和Llava-1.5等模型成为SOTA,在纯文本任务中也和第一梯队的Mixtral 8x7B、Gemini Pro等模型表现相当。
人工评估和安全测试
同时,为了进一步评估模型生成多模态内容的质量,论文也在基准测试之外引入了人类评估实验,发现Chameleon-34B的表现远远超过了Gemini Pro和GPT-4V。
相对于GPT-4V和Gemini Pro,人类评委分别打出了51.6%和60.4的偏好率。
下图展示了,对于一组多样化的、来自人类标注者的prompt,Chameleon与基线模型在理解和生成内容方面的性能对比。
其中的每个问题,都由三个不同的人类标注回答,并将多数票作为最终答案。
为了了解人类标注者的质量,以及问题的设计是否合理,研究人员还检查了不同标注者之间的一致性程度。
表5是对20,000个众包提示和445个红队交互进行的安全测试,引发模型产生不安全内容。
与Gemini和GPT-4V相比,Chameleon在处理需要交错、混合模态响应的提示时,非常有竞争力。
从示例中可以看到,在完成问答任务时,Chameleon既能理解输入的文本+图像,也能为模型输出内容加上合适的「配图」。
并且,Chameleon生成的图像通常与上下文相关,这样一来,这种交错内容的输出对用户来说,极具吸引力。
贡献团队
论文最后,还放上了参与这项研究的贡献者。
包括预训练、对齐和安全、推理和评估、所有项目的参与者。
其中,*表示共同一作,†表示关键贡献者,‡表示工作流程负责人,♯表示项目负责人。
以上是Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

写在前面项目链接:https://nianticlabs.github.io/mickey/给定两张图片,可以通过建立图片之间的对应关系来估计它们之间的相机姿态。通常,这些对应关系是二维到二维的,而我们估计的姿态在尺度上是不确定的。一些应用,例如随时随地实现即时增强现实,需要尺度度量的姿态估计,因此它们依赖于外部的深度估计器来恢复尺度。本文提出了MicKey,这是一个关键点匹配流程,能够够预测三维相机空间中的度量对应关系。通过学习跨图像的三维坐标匹配,我们能够在没有深度测试的情况下推断出度量相对

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP
