24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」
2 月底,Meta 开源了一个大模型系列 LLaMA(直译为羊驼),参数量从 70 亿到 650 亿不等,被称为 Meta 版 ChatGPT 的雏形。之后斯坦福大学、加州大学伯克利分校等机构纷纷在 LLaMA 的基础上进行「二创」,陆续推出了 Alpaca、Vicuna 等多个开源大模型,一时间「羊驼」成为 AI 圈顶流。开源社区构建的这些类 ChatGPT 模型迭代速度非常快,并且可定制性很强,被称为 ChatGPT 的开源平替。
然而,ChatGPT 之所以能在文本理解、生成、推理等方面展现出强大的能力,是因为 OpenAI 为 ChatGPT 等大模型使用了新的训练范式 ——RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习的方式依据人类反馈优化语言模型。使用 RLHF 方法,大型语言模型可与人类偏好保持对齐,遵循人类意图,最小化无益、失真或偏见的输出。但 RLHF 方法依赖于大量的人工标注和评估,通常需要数周时间、花费数千美元收集人类反馈,成本高昂。
现在,推出开源模型 Alpaca 的斯坦福大学又提出了一种模拟器 ——AlpacaFarm(直译为羊驼农场)。AlpacaFarm 能在 24 小时内仅用约 200 美元复制 RLHF 过程,让开源模型迅速改善人类评估结果,堪称 RLHF 的平替。
AlpacaFarm 试图快速、低成本地开发从人类反馈中学习的方法。为了做到这一点,斯坦福的研究团队首先确定了研究 RLHF 方法的三个主要困难:人类偏好数据的高成本、缺乏可信赖的评估、缺乏参考实现。
为了解决这三个问题,AlpacaFarm 构建了模拟注释器、自动评估和 SOTA 方法的具体实现。目前,AlpacaFarm 项目代码已开源。
- GitHub 地址:https://github.com/tatsu-lab/alpaca_farm
- 论文地址:https://tatsu-lab.github.io/alpaca_farm_paper.pdf
如下图所示,研究人员可以使用 AlpacaFarm 模拟器快速开发从人类反馈数据中学习的新方法,也能将已有 SOTA 方法迁移到实际的人类偏好数据上。
模拟注释器
AlpacaFarm 基于 Alpaca 数据集的 52k 指令构建,其中 10k 指令用于微调基本的指令遵循模型,剩余的 42k 指令用于学习人类偏好和评估,并且大部分用于从模拟注释器中学习。该研究针对 RLHF 方法的注释成本、评估和验证实现三大挑战,逐一提出解决方法。
首先,为了减少注释成本,该研究为可访问 API 的 LLM(如 GPT-4、ChatGPT)创建了 prompt,使得 AlpacaFarm 能够模拟人类反馈,成本仅为 RLHF 方法收集数据的 1/45。该研究设计了一种随机的、有噪声的注释方案,使用 13 种不同的 prompt,从多个 LLM 提取出不同的人类偏好。这种注释方案旨在捕获人类反馈的不同方面,如质量判断、注释器之间的变化性和风格偏好。
该研究通过实验表明 AlpacaFarm 的模拟是准确的。当研究团队使用 AlpacaFarm 训练和开发方法时,这些方法与使用实际人类反馈训练和开发的相同方法排名非常一致。下图显示了由 AlpacaFarm 模拟工作流和人类反馈工作流产生的方法在排名上的高度相关性。这一特性至关重要,因为它说明从模拟中得出的实验结论在实际情况下也有可能成立。
除了方法层面的相关性,AlpacaFarm 模拟器还可以复制奖励模型过度优化等定性现象,但以此针对代理奖励(surrogate reward)的持续 RLHF 训练可能会损害模型性能。下图是在人类反馈 (左) 和 AlpacaFarm (右) 两种情况下的该现象,我们可以发现 AlpacaFarm 最初捕获了模型性能提升的正确定性行为,然后随着 RLHF 训练的持续,模型性能下降。
评估
在评估方面,研究团队使用与 Alpaca 7B 的实时用户交互作为指导,并通过结合几个现有公共数据集来模拟指令分布,包括 self-instruct 数据集、anthropic helpfulness 数据集和 Open Assistant、Koala 和 Vicuna 的评估集。使用这些评估指令,该研究比较了 RLHF 模型与 Davinci003 模型的响应(response)情况,并使用一个分值度量 RLHF 模型响应更优的次数,并将这个分值称为胜率(win-rate)。如下图所示,在该研究的评估数据上进行的系统排名量化评估表明:系统排名和实时用户指令是高度相关的。这一结果说明,聚合现有的公开数据能实现与简单真实指令相近的性能。
参考方法
对于第三个挑战 —— 缺少参考实现,研究团队实现并测试了几种流行的学习算法 (如 PPO、专家迭代、best-of-n 采样)。研究团队发现在其他领域有效的更简单方法并不比该研究最初的 SFT 模型更好,这表明在真实的指令遵循环境中测试这些算法是非常重要的。
根据人工评估,PPO 算法被证明是最有效的,它将模型与 Davinci003 相比的胜率从 44% 提高到 55%,甚至超过了 ChatGPT。
这些结果表明,PPO 算法在为模型优化胜率方面是非常有效的。需要注意的是,这些结果是特定于该研究的评估数据和注释器得出的。虽然该研究的评估指令代表了实时用户指令,但它们可能无法涵盖更具有挑战性的问题,并且并不能确定有多少胜率的改进来源于利用风格偏好,而不是事实性或正确性。例如,该研究发现 PPO 模型产生的输出要长得多,并且通常为答案提供更详细的解释,如下图所示:
总的来说,使用 AlpacaFarm 在模拟偏好上训练模型能够大幅改善模型的人类评估结果,而不需要让模型在人类偏好上重新训练。虽然这种迁移过程比较脆弱,并且在效果上仍略逊于在人类偏好数据上重新训练模型。但能在 24 小时内,仅用 200 美元就复制出 RLHF 的 pipeline,让模型迅速提升人类评估性能,AlpacaFarm 这个模拟器还是太香了,是开源社区为复刻 ChatGPT 等模型的强大功能做出的又一努力。
以上是24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

在Debian系统中,readdir函数用于读取目录内容,但其返回的顺序并非预先定义的。要对目录中的文件进行排序,需要先读取所有文件,再利用qsort函数进行排序。以下代码演示了如何在Debian系统中使用readdir和qsort对目录文件进行排序:#include#include#include#include//自定义比较函数,用于qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

在Debian系统中,readdir系统调用用于读取目录内容。如果其性能表现不佳,可尝试以下优化策略:精简目录文件数量:尽可能将大型目录拆分成多个小型目录,降低每次readdir调用处理的项目数量。启用目录内容缓存:构建缓存机制,定期或在目录内容变更时更新缓存,减少对readdir的频繁调用。内存缓存(如Memcached或Redis)或本地缓存(如文件或数据库)均可考虑。采用高效数据结构:如果自行实现目录遍历,选择更高效的数据结构(例如哈希表而非线性搜索)存储和访问目录信

在Debian系统中,OpenSSL是一个重要的库,用于加密、解密和证书管理。为了防止中间人攻击(MITM),可以采取以下措施:使用HTTPS:确保所有网络请求使用HTTPS协议,而不是HTTP。HTTPS使用TLS(传输层安全协议)加密通信数据,确保数据在传输过程中不会被窃取或篡改。验证服务器证书:在客户端手动验证服务器证书,确保其可信。可以通过URLSession的委托方法来手动验证服务器

本文介绍如何在Debian系统中调整ApacheWeb服务器的日志记录级别。通过修改配置文件,您可以控制Apache记录的日志信息的详细程度。方法一:修改主配置文件定位配置文件:Apache2.x的配置文件通常位于/etc/apache2/目录下,文件名可能是apache2.conf或httpd.conf,具体取决于您的安装方式。编辑配置文件:使用文本编辑器(例如nano)以root权限打开配置文件:sudonano/etc/apache2/apache2.conf

Debian系统中的readdir函数是用于读取目录内容的系统调用,常用于C语言编程。本文将介绍如何将readdir与其他工具集成,以增强其功能。方法一:C语言程序与管道结合首先,编写一个C程序调用readdir函数并输出结果:#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

配置Debian邮件服务器的防火墙是确保服务器安全性的重要步骤。以下是几种常用的防火墙配置方法,包括iptables和firewalld的使用。使用iptables配置防火墙安装iptables(如果尚未安装):sudoapt-getupdatesudoapt-getinstalliptables查看当前iptables规则:sudoiptables-L配置

本指南将指导您学习如何在Debian系统中使用Syslog。Syslog是Linux系统中用于记录系统和应用程序日志消息的关键服务,它帮助管理员监控和分析系统活动,从而快速识别并解决问题。一、Syslog基础知识Syslog的核心功能包括:集中收集和管理日志消息;支持多种日志输出格式和目标位置(例如文件或网络);提供实时日志查看和过滤功能。二、安装和配置Syslog(使用Rsyslog)Debian系统默认使用Rsyslog。您可以通过以下命令安装:sudoaptupdatesud

在Debian邮件服务器上安装SSL证书的步骤如下:1.安装OpenSSL工具包首先,确保你的系统上已经安装了OpenSSL工具包。如果没有安装,可以使用以下命令进行安装:sudoapt-getupdatesudoapt-getinstallopenssl2.生成私钥和证书请求接下来,使用OpenSSL生成一个2048位的RSA私钥和一个证书请求(CSR):openss
