首页 科技周边 人工智能 10万美元+26天,一个低成本千亿参数LLM就诞生了

10万美元+26天,一个低成本千亿参数LLM就诞生了

Sep 20, 2023 pm 03:49 PM
大模型 理论

包括仅解码器结构(如 GPT 和 LLAMA 系列模型)、仅编码器结构(如 BERT)和编码器 - 解码器结构(如 T5)以及它们的变体模型在内的大型语言模型(LLM)已经取得了非凡的成功,并已被广泛用于各种语言处理和多模态任务。

尽管如此成功,训练 LLM 的成本还是过于高昂,以至于仅有少数公司能承受其训练成本。此外,当前的趋势说明未来还会使用更大规模的训练数据,这会进一步推升大模型的研发成本。举个例子,LLAMA-1 训练使用了 1-1.4 TB token,而 Llama 2 更是达到了 2 TB。

研发 LLM 的另一大关键性挑战是评估。主流的评估方法分为两类:知识评估(MMLU 和 C-Eval)和 NLP 任务评估。这些评估方法可能无法真实反映模型的能力,因为也许存在数据泄漏问题,即评估数据集中某些部分可能在模型训练过程中已被使用。此外,面向知识的评估方法可能不足以评估智能水平。一种更为公平客观的评估方法是测 LLM 的智商(IQ),即将 LLM 泛化用于未在训练数据中见过的条件和上下文。

增长策略。为了解决训练成本难题,北京智源人工智能研究院和中国科学院计算技术研究所等多所机构近日做出了一番尝试 —— 首次通过增长策略(growth strategy)训练千亿参数级的 LLM。增长意味着训练过程中参数的数量并不固定,而是会从更小的模型扩增成大型模型。

10万美元+26天,一个低成本千亿参数LLM就诞生了

  • 论文:https://arxiv.org/pdf/2309.03852.pdf

  • 需要重写的内容是:模型链接:https://huggingface.co/CofeAI/FLM-101B

图 1 展示了增长策略的三种典型场景。由于 LLM 的 FLOPs 大致与其参数数量成正比,因此模型参数的变化曲线与 X 轴之间的面积便能表示训练的计算成本。

10万美元+26天,一个低成本千亿参数LLM就诞生了


图 1 (a) 展示了没有模型增长的标准训练策略;1 (b) 是直线型的增长策略,其能节省 50% 的成本;1 (c) 是一种适量型的增长策略,其节省的成本不到 50%;1 (d) 则是一种激进型的增长策略,能节省超过 50% 的成本。这一分析说明,为了尽可能地节省计算成本,应当采用激进型增长策略。

这项新研究的增长算子的设计灵感来自论文《2x faster language model pre-training via masked structural growth》中的 MSG,这是一个完整的运算集,涵盖 Transformer 结构的所有四个增长维度。更重要的是,MSG 能在增长的同时严格地保存功能。因此,虽然小模型可以通过较小的参数搜索空间快速学习,但其知识可以被后续更大的模型继承。这让增长策略有可能使用相同或更少的计算成本实现更好的性能。

开源的 FLM-101B 模型。智源研究院的研究者通过逐步增长训练了一个有 1010 亿参数的 LLM 模型,他们也表示会开源发布该模型。该模型的架构是 FreeLM 的一种演进版。因此,研究者将其命名为 FLM-101B,其中 F 表示 Free。

FreeLM 框架有两个预训练目标,分别由语言信号和教师信号引导。在这项新研究中,这两个目标被统一到了一个通用语言建模范式中。

IQ 评估基准。除了低成本的训练范式,该团队还做出了另一项贡献,即为 LLM 的智商(IQ)评估提出了一套系统性的基准。

之前已有研究表明:尽管困惑度(PPL)指标能在一定程度上反映生成文本的质量,但却并不可靠。另一方面,LLM 的训练数据规模非常庞大,以至于我们难以辨别模型究竟只是在引述知识数据,还是真的实现了类似人类的推理、分析和概括能力,而这些能力正是这项研究定义 IQ 的基础。一些常用的评估指标(用于英语的 MMLU 和用于汉语的 C-Eval)明显是面向知识的,无法全面反映模型的智能水平。

为了进行完整性检查,该团队进行了一项测试:来自世界知名大学的五名计算机科学研究者使用 C-Eval 的化学试题进行了考试。结果发现他们的准确度几乎相当于随机乱猜,因为大多数志愿者都已忘记曾学过的化学知识。因此,强调对专业知识的了解程度的评估基准其实不足以衡量模型的 IQ。

为了全面衡量 LLM 的 IQ,该团队开发了一个 IQ 评估基准,其中考虑了智商的四个关键方面:符号映射、规则理解、模式挖掘和抗干扰。
  • 语言本质上是符号的。已经有一些研究在使用符号而非类别标签来评估 LLM 的智能水平。类似地,该团队使用了一种符号映射方法来测试 LLM 在未曾见过的上下文上的泛化能力。 

  • 人类智能的一大重要能力是理解给定的规则并采取相应的行动。这种测试方法已被广泛用在各种等级的测验中。因此,规则理解成为这里的第二项测试。 

  • 重写后的内容:模式挖掘是智能的重要组成部分,它涉及到归纳和演绎。在科学发展历史中,这种方法起着至关重要的作用。此外,各种竞赛的测试题也常常需要这种能力才能解答。出于这些原因,我们选择了模式挖掘作为第三个评估指标

  • 最后一个也很重要的指标是抗干扰能力,这也是智能的核心能力之一。已有研究指出,语言和图像都很容易被噪声干扰。考虑到这一点,该团队把抗干扰用作了最后一个评估指标。

当然,这四个指标绝非 LLM IQ 评估的定案,但它们可作为一个起点,激励后续的研究发展,并可望最终催生出一套全面的 LLM IQ 评估框架。 

这项研究的主要贡献包括: 
  • 研究者表示,这是一个使用增长策略从头开始训练超过千亿参数的LLM研究尝试。同时,这也是目前成本最低的千亿参数模型,仅需10万美元成本

  • 通过改进 FreeLM 训练目标、有潜力的超参数搜索方法和功能保留型增长,这项研究解决了不稳定问题。研究者相信该方法也能为更广大的科研社区提供助力。 

  • 研究人员还对新模型与之前的强大模型进行了实验比较,包括使用面向知识的基准和新提出的系统性IQ评估基准。实验结果显示,FLM-101B模型具有竞争力且稳健

  • 该团队会发布模型检查点、代码、相关工具等,以推进千亿参数规模的汉语和英语双语 LLM 的研究开发。

FLM-101B 设计概况

从架构上看,FLM-101B 以 FreeLM 为骨干网络,并集成了 xPos。在模型大小方面,得益于新的增长策略,研究者能在一次训练中得到 16B、51B 和 101B 三种大小的模型。

至于预训练设置,FLM-101B 继承了 FreeLM 的训练策略。

而在增长策略方面,不同于独立训练不同大小模型的常用实践方法,该团队可以依次训练具有 16B、51B 和 101B 参数的三个模型,其中每个模型都会继承其前一个较小模型的知识。

至于训练硬件,则是使用了 24 台 DGX-A800 GPU (8×80G) 服务器组成的集群;FLM-101B 的训练时长不到 26 天更多并行策略和模型配置请参阅下表 1 和 2。

10万美元+26天,一个低成本千亿参数LLM就诞生了

10万美元+26天,一个低成本千亿参数LLM就诞生了

FLM-101B 的训练稳定性

为了解决损失发散和梯度暴增等不稳定问题,研究者提出了一种颇具潜力的解决方案,简述如下。

损失预测。新提出的实现训练稳定的方法如下:

首先,在 FLM-16B 训练开始之前先确定数据的分布。

接下来,对三个超参数进行网格搜索,包括学习率、初始化标准差和输出层的 softmax 温度。该网格搜索的执行是通过运行一个代理模型,其隐藏状态维度(即模型宽度)为 256、头数为 2,参数数量为 4000 万。该代理模型的其它所有结构超参数和训练数据与 FLM-16B 相同。在 6 个节点上使用数据并行时,一次运行网格搜索耗时为 24.6 小时,这大致表示:如果使用 24 节点的配置,那么运行一次需要 6 小时。

通过这种网格搜索,研究者找到了最优的超参数:学习率 = 4e-4、标准差 = 1.6e-2、softmax 温度 = 2.0。

然后他们通过 µP 迁移这些超参数,能实现规避了不稳定问题的无缝训练体验。再组合使用 MSG,LM-51B 和 FLM-101B 也没出现后续的增长发散问题。

图 2 展示了完整的训练损失曲线。

10万美元+26天,一个低成本千亿参数LLM就诞生了

通过 Bfloat16 实现混合精度。使用混合精度的目的是节省运行时的内存和时间成本,这里他们选择的是 Bfloat16。
 
基准评估

表 3 比较了 FLM-101B 与其它强大基准模型(LLAMA 系列模型和 GLM-130B)的性能表现。

10万美元+26天,一个低成本千亿参数LLM就诞生了

研究者表示,这些结果说明 FLM-101B 在事实性知识方面并没有任何优势,而如果能使用更多训练数据,那么其性能还会继续提升。

表 4 展示了 eFLM-16B 与基准模型在专业知识评估方面的结果。

10万美元+26天,一个低成本千亿参数LLM就诞生了

结果证明,在强调专业知识的数据集上的得分并不能反映 LLM 的智能水平,因为某些特定训练数据可能具有压倒性的贡献。

表 5 给出了 FLM 模型每一阶段的性能表现。

10万美元+26天,一个低成本千亿参数LLM就诞生了

正如预期的那样,FLM 的性能表现会随模型增大而提升。FLM-101B 在几乎所有任务上都表现最佳。这意味着该模型每一次增长后都会继承前一阶段的知识。
 
IQ 实验

实验中,为了对 LLM 的 IQ 进行更为系统性的评估,智源研究院的这个团队使用了现有的 IQ 相关数据集并做了一些必要的修改,他们也生成了一些新的合成数据。

具体来说,他们提出的 IQ 评估主要考虑了四个方面:符号映射、规则理解、模式挖掘和抗干扰。这些任务有一个关键的共同点:它们全都依赖于在新的上下文中进行推理和泛化。

下面几张表格展示了 IQ 实验的结果:

10万美元+26天,一个低成本千亿参数LLM就诞生了

10万美元+26天,一个低成本千亿参数LLM就诞生了

10万美元+26天,一个低成本千亿参数LLM就诞生了

从这些表格来看,在这四个 IQ 评估基准上,FLM-101B 凭借低得多的计算成本取得了与 GPT-3 媲美且优于 GLM-130B 的结果。

除了训练数据的影响外,研究者推测这种优势可能是由于早期阶段的小模型细化了较小的搜索空间,当模型变得更大更宽,泛化能力增强时,这种优势还在持续发挥作用。

以上是10万美元+26天,一个低成本千亿参数LLM就诞生了的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

<🎜>:泡泡胶模拟器无穷大 - 如何获取和使用皇家钥匙
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系统,解释
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1664
14
CakePHP 教程
1423
52
Laravel 教程
1318
25
PHP教程
1269
29
C# 教程
1248
24
大模型App腾讯元宝上线!混元再升级,打造可随身携带的全能AI助理 大模型App腾讯元宝上线!混元再升级,打造可随身携带的全能AI助理 Jun 09, 2024 pm 10:38 PM

5月30日,腾讯宣布旗下混元大模型全面升级,基于混元大模型的App“腾讯元宝”正式上线,苹果及安卓应用商店均可下载。相比此前测试阶段的混元小程序版本,面向工作效率场景,腾讯元宝提供了AI搜索、AI总结、AI写作等核心能力;面向日常生活场景,元宝的玩法也更加丰富,提供了多个特色AI应用,并新增了创建个人智能体等玩法。“腾讯做大模型不争一时之先。”腾讯云副总裁、腾讯混元大模型负责人刘煜宏表示:“过去的一年,我们持续推进腾讯混元大模型的能力爬坡,在丰富、海量的业务场景中打磨技术,同时洞察用户的真实需求

字节跳动豆包大模型发布,火山引擎全栈 AI 服务助力企业智能化转型 字节跳动豆包大模型发布,火山引擎全栈 AI 服务助力企业智能化转型 Jun 05, 2024 pm 07:59 PM

火山引擎总裁谭待企业要做好大模型落地,面临模型效果、推理成本、落地难度的三大关键挑战:既要有好的基础大模型做支撑,解决复杂难题,也要有低成本的推理服务让大模型被广泛应用,还要更多工具、平台和应用帮助企业做好场景落地。——谭待火山引擎总裁01.豆包大模型首次亮相大使用量打磨好模型模型效果是AI落地最关键的挑战。谭待指出,只有大的使用量,才能打磨出好模型。目前,豆包大模型日均处理1,200亿tokens文本、生成3,000万张图片。为助力企业做好大模型场景落地,字节跳动自主研发的豆包大模型将通过火山

突破传统缺陷检测的界限,\'Defect Spectrum\'首次实现超高精度丰富语义的工业缺陷检测。 突破传统缺陷检测的界限,\'Defect Spectrum\'首次实现超高精度丰富语义的工业缺陷检测。 Jul 26, 2024 pm 05:38 PM

在现代制造业中,精准的缺陷检测不仅是保证产品质量的关键,更是提升生产效率的核心。然而,现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性,导致模型无法识别具体的缺陷类别或位置。为了解决这一难题,由香港科技大学广州和思谋科技组成的顶尖研究团队,创新性地开发出了“DefectSpectrum”数据集,为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示,相比其他工业数据集,“DefectSpectrum”数据集提供了最多的缺陷标注(5438张缺陷样本),最细致的缺陷分类(125种缺陷类别

数百万晶体数据训练,解决晶体学相位问题,深度学习方法PhAI登Science 数百万晶体数据训练,解决晶体学相位问题,深度学习方法PhAI登Science Aug 08, 2024 pm 09:22 PM

编辑|KX时至今日,晶体学所测定的结构细节和精度,从简单的金属到大型膜蛋白,是任何其他方法都无法比拟的。然而,最大的挑战——所谓的相位问题,仍然是从实验确定的振幅中检索相位信息。丹麦哥本哈根大学研究人员,开发了一种解决晶体相问题的深度学习方法PhAI,利用数百万人工晶体结构及其相应的合成衍射数据训练的深度学习神经网络,可以生成准确的电子密度图。研究表明,这种基于深度学习的从头算结构解决方案方法,可以以仅2埃的分辨率解决相位问题,该分辨率仅相当于原子分辨率可用数据的10%到20%,而传统的从头算方

英伟达对话模型ChatQA进化到2.0版本,上下文长度提到128K 英伟达对话模型ChatQA进化到2.0版本,上下文长度提到128K Jul 26, 2024 am 08:40 AM

开放LLM社区正是百花齐放、竞相争鸣的时代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等许多表现优良的模型。但是,相比于以GPT-4-Turbo为代表的专有大模型,开放模型在很多领域依然还有明显差距。在通用模型之外,也有一些专精关键领域的开放模型已被开发出来,比如用于编程和数学的DeepSeek-Coder-V2、用于视觉-语言任务的InternVL

谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back 谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back Jul 26, 2024 pm 02:40 PM

对于AI来说,奥数不再是问题了。本周四,谷歌DeepMind的人工智能完成了一项壮举:用AI做出了今年国际数学奥林匹克竞赛IMO的真题,并且距拿金牌仅一步之遥。上周刚刚结束的IMO竞赛共有六道赛题,涉及代数、组合学、几何和数论。谷歌提出的混合AI系统做对了四道,获得28分,达到了银牌水平。本月初,UCLA终身教授陶哲轩刚刚宣传了百万美元奖金的AI数学奥林匹克竞赛(AIMO进步奖),没想到7月还没过,AI的做题水平就进步到了这种水平。IMO上同步做题,做对了最难题IMO是历史最悠久、规模最大、最负

工业知识图谱进阶实战 工业知识图谱进阶实战 Jun 13, 2024 am 11:59 AM

一、背景简介首先来介绍一下云问科技的发展历程。云问科技公...2023年,正是大模型盛行的时期,很多企业认为已经大模型之后图谱的重要性大大降低了,之前研究的预置的信息化系统也都不重要了。不过随着RAG的推广、数据治理的盛行,我们发现更高效的数据治理和高质量的数据是提升私有化大模型效果的重要前提,因此越来越多的企业开始重视知识建设的相关内容。这也推动了知识的构建和加工开始向更高水平发展,其中有很多技巧和方法可以挖掘。可见一个新技术的出现,并不是将所有的旧技术打败,也有可能将新技术和旧技术相互融合后

PRO | 为什么基于 MoE 的大模型更值得关注? PRO | 为什么基于 MoE 的大模型更值得关注? Aug 07, 2024 pm 07:08 PM

2023年,几乎AI的每个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下,Transformer作为AI大模型主流架构的局面是否会撼动?为何探索基于MoE(专家混合)架构的大模型成为业内新趋势?大型视觉模型(LVM)能否成为通用视觉的新突破?...我们从过去的半年发布的2023年本站PRO会员通讯中,挑选了10份针对以上领域技术趋势、产业变革进行深入剖析的专题解读,助您在新的一年里为大展宏图做好准备。本篇解读来自2023年Week50

See all articles