为防大模型作恶，斯坦福新方法让模型「遗忘」有害任务信息，模型学会「自毁」了-人工智能-PHP中文网

先模拟，再毁掉

自毁效果针不戳！

首页

科技周边

人工智能

为防大模型作恶，斯坦福新方法让模型「遗忘」有害任务信息，模型学会「自毁」了

PHPz

Sep 13, 2023 pm 08:53 PM

ai 模型

防止大模型作恶的新法子来了！

这下即使模型开源了，想恶意使用模型的人也很难让大模型“作恶”。

不信就来看这项研究。

斯坦福研究人员最近提出了一种新方法对大模型使用附加机制进行训练后，可以阻止它对有害任务的适应。

他们把通过此方法训练出的模型称为“自毁模型”。

为防大模型作恶，斯坦福新方法让模型「遗忘」有害任务信息，模型学会「自毁」了

自毁模型仍然能够高性能地处理有益任务，但在面对有害任务的时候会神奇地“变差”。

目前该论文已被AAAI接收，并获得了最佳学生论文奖荣誉提名。

先模拟，再毁掉

越来越多大模型开源，让更多人可以参与到模型的研发和优化中，开发模型对社会有益的用途。

然而，模型开源也同样意味着恶意使用大模型的成本也降低了，为此不得不防一些别有用心之人（攻击者）。

此前为防止有人恶意促使大模型作恶，主要用到了结构安全机制、技术安全机制两类办法。结构安全机制主要是使用许可证或访问限制，但面对模型开源，这种方法效果被削弱。

这就需要更多的技术策略做补充。而现有的安全过滤、对齐优化等方法又容易被微调或者提示工程绕过。

斯坦福研究人员提出要用任务阻断技术训练大模型，使模型在正常任务中表现良好的同时，阻碍模型适应有害任务。

为防大模型作恶，斯坦福新方法让模型「遗忘」有害任务信息，模型学会「自毁」了

任务阻断的方法就是假设攻击者试图将预训练大模型改造用于有害任务，然后搜索最佳的模型改造方法。

接着通过增加数据成本和计算成本两种方式来增加改造难度。

研究人员在这项研究中着重探究了增加数据成本的方法，也就是降低模型的少样本效果，使模型在有害任务上的少样本表现接近随机初始化模型，这也就意味着要恶意改造就要花费更多数据。以至于攻击者宁愿从头开始训模型，也不愿使用预训练模型。

具体来说，为了阻止预训练模型成功适应有害任务，研究人员提出了一种利用了元学习（Meta-Learned）和对抗学习的MLAC（Meta-Learned Adversarial Censoring）算法来训练自毁模型。

MLAC使用有益任务数据集和有害任务数据集对模型进行元训练（meta-training）：

△MLAC训练程序

该算法在内循环中模拟各种可能的适配攻击，在外循环中更新模型参数以最大化有害任务上的损失函数，也就是更新参数抵抗这些攻击。

通过这种对抗的内外循环，使模型“遗忘”掉有害任务相关的信息，实现自毁效果。

继而学习到在有益任务上表现良好，而在有害任务上难以适配的参数初始化。

△meta-learning过程

整体上，MLAC通过模拟攻击者（adversary）适配过程，找到有害任务的局部优点或鞍点，在有益任务上保持全局最优。

为防大模型作恶，斯坦福新方法让模型「遗忘」有害任务信息，模型学会「自毁」了

正如上图，通过规划预训练模型在参数空间中的位置，可以增加其微调的难度。

放置在点1的大模型可以通过梯度下降轻松调整，以获得有害任务损失（haemful task loss）和期望任务损失（desired task loss）的全局最优解。

另一方面，放置在点2的大模型可以轻松达到期望任务的最优解，但更有可能陷入有害任务的局部最优解。

这样得到的模型初始化，在有益任务上易于适配到全局最优，但在有害任务上陷入局部优点，难以改造。

自毁效果针不戳！

为了测试通过上述方法训练出的“自毁模型”的性能，研究人员做了个实验。

首先研究人员准备了一个人物传记数据集——Bias in Bios。

然后他们将性别识别任务视为有害任务，职业分类任务视为有益任务。在原始数据集基础上，把所有人称替换为“they/their”，增加了性别识别任务的难度。

在未处理的数据集上，随机模型只需要10个例子就可以达到90%以上的性别分类准确率。

然后将模型进行50k steps的MLAC预训练。

在测试时，研究人员用生成的自毁模型，通过严格的超参数搜索运行它，以最大限度地提高有害任务的微调性能。

此外，研究人员还抽出了验证集子集作为攻击者训练集，模拟攻击者仅有有限数据的情况。

但在超参数搜索时，允许攻击者使用完整的验证集。这意味着虽然攻击者只有有限训练数据，但可以在全量数据上探索超参数。

如果在这种情况下，MLAC训练的模型仍难以适配到有害任务，可以更好地证明其自毁效果。

研究人员随即将MLAC与以下方法进行比较:

随机初始化模型
仅在有益任务上微调的BERT
简单对抗训练法

为防大模型作恶，斯坦福新方法让模型「遗忘」有害任务信息，模型学会「自毁」了

△经过微调的有害任务（性别识别）表现。阴影表示在6个随机seed上的95％置信区间。

结果发现，MLAC方法训练出的自毁模型在所有数据量下的有害任务性能均接近随机初始化模型。而简单对抗训练法并没有明显降低有害任务的微调性能。

与简单对抗训练相比，MLAC的元学习机制对产生自毁效果至关重要。

△MLAC算法中内循环步数K的影响，K=0相当于简单的对抗训练

此外，MLAC模型在有益任务上的少样本性能优于BERT微调模型：

△在对所需任务进行微调后，MLAC自毁模型的少样本性能超过了BERT和随机初始化模型。

论文链接：https://arxiv.org/abs/2211.14946

以上是为防大模型作恶，斯坦福新方法让模型「遗忘」有害任务信息，模型学会「自毁」了的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7447

CakePHP 教程

1374

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

Vue.js 中字符串转对象用什么方法？ Apr 07, 2025 pm 09:39 PM

Vue.js 中字符串转对象时，首选 JSON.parse() 适用于标准 JSON 字符串。对于非标准 JSON 字符串，可根据格式采用正则表达式和 reduce 方法或解码 URL 编码字符串后再处理。根据字符串格式选择合适的方法，并注意安全性与编码问题，以避免 bug。

Vue.js 如何将字符串类型的数组转换为对象数组？ Apr 07, 2025 pm 09:36 PM

总结：将 Vue.js 字符串数组转换为对象数组有以下方法：基本方法：使用 map 函数，适合格式规整的数据。高级玩法：使用正则表达式，可处理复杂格式，但需谨慎编写，考虑性能。性能优化：考虑大数据量，可使用异步操作或高效数据处理库。最佳实践：清晰的代码风格，使用有意义的变量名、注释，保持代码简洁。

偏远的高级后端工程师（平台）需要圈子 Apr 08, 2025 pm 12:27 PM

远程高级后端工程师职位空缺公司：Circle地点：远程办公职位类型：全职薪资：$130,000-$140,000美元职位描述参与Circle移动应用和公共API相关功能的研究和开发，涵盖整个软件开发生命周期。主要职责独立完成基于RubyonRails的开发工作，并与React/Redux/Relay前端团队协作。为Web应用构建核心功能和改进，并在整个功能设计过程中与设计师和领导层紧密合作。推动积极的开发流程，并确定迭代速度的优先级。要求6年以上复杂Web应用后端

Vue和Element-UI级联下拉框v-model绑定 Apr 07, 2025 pm 08:06 PM

Vue和Element-UI级联下拉框v-model绑定常见的坑点：v-model绑定的是一个代表级联选择框各级选中值的数组，而不是字符串；selectedOptions初始值必须为空数组，不可为null或undefined；动态加载数据需要使用异步编程技巧，处理好异步中的数据更新；针对庞大数据集，需要考虑使用虚拟滚动、懒加载等性能优化技术。

如何设置Vue Axios的超时时间 Apr 07, 2025 pm 10:03 PM

为了设置 Vue Axios 的超时时间，我们可以创建 Axios 实例并指定超时选项：在全局设置中：Vue.prototype.$axios = axios.create({ timeout: 5000 })；在单个请求中：this.$axios.get('/api/users', { timeout: 10000 })。

Laravel的地理空间：互动图和大量数据的优化 Apr 08, 2025 pm 12:24 PM

利用地理空间技术高效处理700万条记录并创建交互式地图本文探讨如何使用Laravel和MySQL高效处理超过700万条记录，并将其转换为可交互的地图可视化。初始挑战项目需求：利用MySQL数据库中700万条记录，提取有价值的见解。许多人首先考虑编程语言，却忽略了数据库本身：它能否满足需求？是否需要数据迁移或结构调整？MySQL能否承受如此大的数据负载？初步分析：需要确定关键过滤器和属性。经过分析，发现仅少数属性与解决方案相关。我们验证了过滤器的可行性，并设置了一些限制来优化搜索。地图搜索基于城

mysql安装后怎么使用 Apr 08, 2025 am 11:48 AM

文章介绍了MySQL数据库的上手操作。首先，需安装MySQL客户端，如MySQLWorkbench或命令行客户端。1.使用mysql-uroot-p命令连接服务器，并使用root账户密码登录；2.使用CREATEDATABASE创建数据库，USE选择数据库；3.使用CREATETABLE创建表，定义字段及数据类型；4.使用INSERTINTO插入数据，SELECT查询数据，UPDATE更新数据，DELETE删除数据。熟练掌握这些步骤，并学习处理常见问题和优化数据库性能，才能高效使用MySQL。

mysql 无法启动怎么解决 Apr 08, 2025 pm 02:21 PM

MySQL启动失败的原因有多种，可以通过检查错误日志进行诊断。常见原因包括端口冲突（检查端口占用情况并修改配置）、权限问题（检查服务运行用户权限）、配置文件错误（检查参数设置）、数据目录损坏（恢复数据或重建表空间）、InnoDB表空间问题（检查ibdata1文件）、插件加载失败（检查错误日志）。解决问题时应根据错误日志进行分析，找到问题的根源，并养成定期备份数据的习惯，以预防和解决问题。

See all articles

为防大模型作恶，斯坦福新方法让模型「遗忘」有害任务信息，模型学会「自毁」了

先模拟，再毁掉

自毁效果针不戳！

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题