目录
LLM360 的框架
Amber 
CRYSTALCODER 
ANALYSIS360
总结
首页 科技周边 人工智能 全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

Dec 14, 2023 pm 06:13 PM
ai 技术

开源模型正展现着它们蓬勃的生命力,不仅数量激增,性能更是愈发优秀。图灵奖获得者 Yann LeCun 也发出了这样的感叹:「开源人工智能模型正走在超越专有模型的路上。」

专有模型在技术性能和创新能力方面表现出了巨大的潜力,但是由于其非开源的特性,阻碍了LLM的发展。一些开源模型虽然为从业者和研究者提供了多样化的选择,但大多数只公开了最终的模型权重或推理代码,越来越多的技术报告将其范围限制在顶层设计和表面统计之内。这种闭源的策略不仅限制了开源模型的发展,而且在很大程度上阻碍了整个LLM研究领域的进步

这意味着,这些模型需要更全面和深入地共享,包括训练数据、算法细节、实现挑战以及性能评估的细节。

Cerebras、Petuum 和 MBZUAI 等的研究者们共同提出了 LLM360。这是一项全面开源 LLM 的倡议,主张向社区提供与 LLM 训练相关的一切,包含训练代码和数据、模型检查点以及中间结果等。LLM360 的目标是让 LLM 训练过程透明化,使每个人都能复现,从而推动开放和协作式的人工智能研究的发展。

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明


  • 论文地址:https://arxiv.org/pdf/2312.06550.pdf
  • 项目网页:https://www.llm360.ai/
  • 博客:https://www.llm360.ai/blog/introducing-llm360-fully-transparent-open-source-llms.html

研究者们制定了 LLM360 的架构,重点关注其设计原则和完全开源的理由。他们详细规定了 LLM360 框架的组成部分,包含数据集、代码和配置、模型检查点、指标等具体细节。LLM360 为当前和未来的开源模型树立了透明度的样本。

研究者在 LLM360 的开源框架下发布了两个从头开始预训练的大型语言模型:AMBER 和 CRYSTALCODER。AMBER 是基于 1.3T token 进行预训练的 7B 英语语言模型。CRYSTALCODER 是基于 1.4T token 预训练的 7B 英语和代码语言模型。在本文中,研究者们总结了这两个模型的开发细节、初步评估结果、观察结果以及从中汲取的经验和教训。值得注意的是,在发布时,AMBER 和 CRYSTALCODER 在训练过程中分别保存了 360 个和 143 个模型检查点。

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

下面,我们一起来看看文章的详细内容吧

LLM360 的框架

LLM360 将为 LLM 预训练过程中需要收集哪些数据和代码提供一个标准,以确保已有的工作能更好地在社区中流通、共享。它主要包含以下几个部分:

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

1. 训练数据集和数据处理代码

预训练数据集对大型语言模型的性能至关重要。因此,了解预训练数据集,用以评估潜在的行为问题和偏见非常重要。此外,公开的预训练数据集有助于提高 LLM 在后续微调和适应各领域时的可扩展性。最近的研究表明,在重复数据上进行训练会不成比例地降低模型最终的性能。因此,公开原始预训练数据,有助于避免在下游微调或继续在特定领域进行预训练时使用到重复的数据。综合以上原因,LLM360 倡导公开大型语言模型的原始数据集。在合适的情况中,还应公开关于数据过滤、处理和训练顺序的详细信息。

需要重新写作的内容是:2. 训练代码、超参数和配置

训练代码、超参数和配置对 LLM 训练的性能和质量有重大影响,但并不总是公开披露。在 LLM360 中,研究者开源预训练框架的所有训练代码、训练参数以及系统配置。

3. 模型检查点重写为:3. 模型检查点

定期保存模型检查点也相当有用。它们不仅对训练过程中的故障恢复至关重要,而且对训练后的研究也很有用,这些检查点可以让后来的研究者从多个起点继续训练模型,无需从头开始训练,有助于复现和深入研究。

4. 性能指标

训练一个 LLM 往往需要花费数周至数月,训练期间的演化趋势可以提供有价值的信息。然而,目前只有亲历者才能获得训练的详细日志和中间指标,这阻碍了对 LLM 的全面研究。这些统计数据往往包含了难以察觉的关键见解。即使是对这些衡量标准进行方差计算这样的简单分析,也能揭示重要的发现。例如,GLM 的研究团队就是通过分析梯度规范行为,提出了一种有效处理损失尖峰和 NaN 损失的梯度收缩算法。

Amber 

AMBER 是 LLM360 「大家庭」的第一位成员,同时发布的还有它的微调版本:AMBERCHAT 和 AMBERSAFE 。

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

需要重写的内容:数据和模型的详细信息

表 2 详细列出了 AMBER 的预训练数据集,其中包含 1.26 T 个标记。其中包括数据的预处理方法、格式、数据混合比例以及 AMBER 模型的架构细节和特定预训练超参数。详细信息请参考 LLM360 代码库的项目主页

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

AMBER采用了与LLaMA 7B4相同的模型结构,表3总结了LLM的详细结构配置

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

在预训练和超参数方面,研究人员尽力遵循了LLaMA的预训练超参数。AMBER使用AdamW优化器进行训练,超参数为:β₁=0.9,β₂=0.95。此外,研究人员还发布了几个AMBER的微调版本:AMBERCHAT和AMBERSAFE。AMBERCHAT是基于WizardLM的指令训练数据集进行微调的。有关更多参数细节,请参阅原文

为了达到不改变原始含义的目的,需要将内容重写为中文。以下是对"实验及结果"的重写: 进行实验和结果分析

研究者们使用了Open LLM排行榜上的四个基准数据集来评估AMBER的性能。根据图4所示,在HellaSwag和ARC数据集中,AMBER的得分在预训练期间逐渐增加,而在TruthfulQA数据集中,得分则随着训练进行而降低。在MMLU数据集中,AMBER的得分在预训练的初始阶段下降,然后开始上升

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

在表 4 中,研究者将 AMBER 的模型性能与 OpenLLaMA、RedPajama-INCITE、Falcon、MPT 等类似时间段内训练出的模型进行了比较。许多模型的设计灵感都来自 LLaMA 。可以发现,AMBER 在 MMLU 的得分较为出色,但在 ARC 上的表现稍逊一筹。与其他类似模型相比,AMBER 的表现相对较强。

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

CRYSTALCODER 

 LLM360 「大家庭」的第二位成员是 CrystalCoder。

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

CrystalCoder 是一个基于 1.4 T token 训练的 7B 语言模型,实现了编码和语言能力之间的平衡。与大多数之前的代码 LLM 不同,CrystalCoder 是通过精心混合文本和代码数据进行训练的,以最大化在这两个领域的实用性。与 Code Llama 2 相比,CrystalCoder 的代码数据在预训练过程中较早引入。此外,研究者在 Python 和 Web 编程语言上训练了 CrystalCoder,以提高其作为编程助手的实用性。

重新构建模型架构

CrystalCoder 采用了与 LLaMA 7B 非常相似的架构,加入了最大更新参数化(muP)。除了这种特定的参数化,研究者还进行了一些修改。另外,研究者还使用 LayerNorm 代替 RMSNorm,因为 CG-1 架构支持高效计算 LayerNorm。

为了达到不改变原始含义的目的,需要将内容重写为中文。以下是对"实验及结果"的重写: 进行实验和结果分析

在Open LLM Leaderboard上,研究者对该模型进行了基准测试,包括四个基准数据集和编码基准数据集。如图6所示

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

参考表5,可以看到CrystalCoder在语言任务和代码任务之间取得了良好的平衡

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

ANALYSIS360

根据之前的研究,通过分析模型的中间检查点,可以进行深入研究。研究人员希望LLM360能够为社区提供有用的参考和研究资源。为此,他们发布了ANALYSIS360项目的初始版本,这是一个对模型行为进行多方面分析的有组织存储库,包括模型特征和下游评估结果

作为对一系列模型检查点进行分析的示例,研究者对LLM中的记忆化进行了初步研究。最近的研究显示,LLM可能会记忆大部分训练数据,并且通过适当的提示可以提取这些数据。这种记忆化不仅存在着泄露私人训练数据方面的问题,而且如果训练数据包含重复或特殊性,还会降低LLM的性能。研究者公开了所有检查点和数据,以便可以对整个训练阶段的记忆化进行全面分析

以下为本文所采用的记忆化得分方法,该得分表示在长度为 k 的提示后续长度为 l 的 token 的准确性。具体记忆化得分设置,请参阅原文。

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

在图7中呈现了10个选定检查点的记忆化分数分布情况

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

研究者根据所选检查点对数据块进行分组,并在图 8 中绘制每个检查点的每个数据块组的记忆化分数。他们发现 AMBER 检查点对最新数据的记忆化程度超过之前的数据。此外对于每个数据块,记忆化分数在额外训练后会略有下降,但之后会持续上升。

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

图 9 展示了序列之间在记忆化得分和可提取 k 值的相关性。可见,检查点之间存在很强的相关性。

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

总结

研究者总结了对AMBER和CRYSTALCODER的观察结果和一些启示。他们表示,预训练是一项计算量巨大的任务,许多学术实验室或小型机构都无力承担。他们希望LLM360能够提供全面的知识,让用户了解LLM预训练过程中发生的情况,而无需亲自动手

请查看原文以获取更多详细信息

以上是全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

如何优化debian readdir的性能 如何优化debian readdir的性能 Apr 13, 2025 am 08:48 AM

在Debian系统中,readdir系统调用用于读取目录内容。如果其性能表现不佳,可尝试以下优化策略:精简目录文件数量:尽可能将大型目录拆分成多个小型目录,降低每次readdir调用处理的项目数量。启用目录内容缓存:构建缓存机制,定期或在目录内容变更时更新缓存,减少对readdir的频繁调用。内存缓存(如Memcached或Redis)或本地缓存(如文件或数据库)均可考虑。采用高效数据结构:如果自行实现目录遍历,选择更高效的数据结构(例如哈希表而非线性搜索)存储和访问目录信

debian readdir如何实现文件排序 debian readdir如何实现文件排序 Apr 13, 2025 am 09:06 AM

在Debian系统中,readdir函数用于读取目录内容,但其返回的顺序并非预先定义的。要对目录中的文件进行排序,需要先读取所有文件,再利用qsort函数进行排序。以下代码演示了如何在Debian系统中使用readdir和qsort对目录文件进行排序:#include#include#include#include//自定义比较函数,用于qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

Debian邮件服务器防火墙配置技巧 Debian邮件服务器防火墙配置技巧 Apr 13, 2025 am 11:42 AM

配置Debian邮件服务器的防火墙是确保服务器安全性的重要步骤。以下是几种常用的防火墙配置方法,包括iptables和firewalld的使用。使用iptables配置防火墙安装iptables(如果尚未安装):sudoapt-getupdatesudoapt-getinstalliptables查看当前iptables规则:sudoiptables-L配置

Debian Apache日志级别如何设置 Debian Apache日志级别如何设置 Apr 13, 2025 am 08:33 AM

本文介绍如何在Debian系统中调整ApacheWeb服务器的日志记录级别。通过修改配置文件,您可以控制Apache记录的日志信息的详细程度。方法一:修改主配置文件定位配置文件:Apache2.x的配置文件通常位于/etc/apache2/目录下,文件名可能是apache2.conf或httpd.conf,具体取决于您的安装方式。编辑配置文件:使用文本编辑器(例如nano)以root权限打开配置文件:sudonano/etc/apache2/apache2.conf

Debian OpenSSL如何防止中间人攻击 Debian OpenSSL如何防止中间人攻击 Apr 13, 2025 am 10:30 AM

在Debian系统中,OpenSSL是一个重要的库,用于加密、解密和证书管理。为了防止中间人攻击(MITM),可以采取以下措施:使用HTTPS:确保所有网络请求使用HTTPS协议,而不是HTTP。HTTPS使用TLS(传输层安全协议)加密通信数据,确保数据在传输过程中不会被窃取或篡改。验证服务器证书:在客户端手动验证服务器证书,确保其可信。可以通过URLSession的委托方法来手动验证服务器

Debian邮件服务器SSL证书安装方法 Debian邮件服务器SSL证书安装方法 Apr 13, 2025 am 11:39 AM

在Debian邮件服务器上安装SSL证书的步骤如下:1.安装OpenSSL工具包首先,确保你的系统上已经安装了OpenSSL工具包。如果没有安装,可以使用以下命令进行安装:sudoapt-getupdatesudoapt-getinstallopenssl2.生成私钥和证书请求接下来,使用OpenSSL生成一个2048位的RSA私钥和一个证书请求(CSR):openss

debian readdir如何与其他工具集成 debian readdir如何与其他工具集成 Apr 13, 2025 am 09:42 AM

Debian系统中的readdir函数是用于读取目录内容的系统调用,常用于C语言编程。本文将介绍如何将readdir与其他工具集成,以增强其功能。方法一:C语言程序与管道结合首先,编写一个C程序调用readdir函数并输出结果:#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

Debian Hadoop日志管理怎么做 Debian Hadoop日志管理怎么做 Apr 13, 2025 am 10:45 AM

在Debian上管理Hadoop日志,可以遵循以下步骤和最佳实践:日志聚合启用日志聚合:在yarn-site.xml文件中设置yarn.log-aggregation-enable为true,以启用日志聚合功能。配置日志保留策略:设置yarn.log-aggregation.retain-seconds来定义日志的保留时间,例如保留172800秒(2天)。指定日志存储路径:通过yarn.n

See all articles