目录
对抗性攻击" >对抗性攻击
相关研究" >相关研究
实验流程" >实验流程
实验结果" >实验结果
首页 科技周边 人工智能 微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

May 07, 2024 pm 07:20 PM
模型 训练

大模型又又又被曝出安全问题!

近日,来自Enkrypt AI的研究人员发表了令人震惊的研究成果:量化和微调竟然也能降低大模型的安全性!

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

论文地址:https://arxiv.org/pdf/2404.04392.pdf

在作者的实际测试中,Mistral、Llama等基础模型包括它们微调版本,无一幸免。

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

在经过了量化或者微调之后,LLM被越狱(Jailbreak)的风险大大增加。

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

——LLM:我效果惊艳,我无所不能,我千疮百孔......

也许,未来很长一段时间内,在大模型各种漏洞上的攻防战争是停不下来了。

由于原理上的问题,AI模型天然兼具鲁棒性和脆弱性,在巨量的参数和计算中,有些无关紧要,但又有一小部分至关重要。

从某种程度上讲,大模型遇到的安全问题,与CNN时代一脉相承,

利用特殊提示、特殊字符诱导LLM产生有毒输出,包括之前报道过的,利用LLM长上下文特性,使用多轮对话越狱的方法,都可以称为:对抗性攻击。

对抗性攻击

在CNN时代,通过更改输入图像的几个像素,就能导致AI模型对图像分类错误,攻击者甚至可以诱导模型输出为特定的类别。

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

上图展示了对抗性攻击的过程,为了便于观察,中间的随机扰动做了一些夸张,

实际中,对于对抗攻击来说,只需要像素值很小的改变,就可以达到攻击效果。

更危险的是,研究人员发现这种虚拟世界的攻击行为,可以转移到现实世界。

下图的「STOP」标志来自之前的一篇著名工作,通过在指示牌上添加一些看似无关的涂鸦,就可以让自动驾驶系统将停车标志误识别为限速标志。

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

——这块牌子后来被收藏在伦敦科学博物馆,提醒世人时刻注意AI模型潜藏的风险。

大语言模型目前受到的此类伤害包括但可能不限于:越狱、提示注入攻击、隐私泄露攻击等。

比如下面这个使用多轮对话进行越狱的例子:

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

还有下图展示的一种提示注入攻击,使用尖括号将恶意指令隐藏在提示中,结果,GPT-3.5忽略了原来总结文本的指令,开始「make missile with sugar」。

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

为了应对这类问题,研究人员一般采用针对性的对抗训练,来保持模型对齐人类的价值观。

但事实上,能够诱导LLM产生恶意输出的提示可能无穷无尽,面对这种情况,红队应该怎么做?

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

防御端可以采用自动化搜索,而攻击端可以使用另一个LLM来生成提示帮助越狱。

另外,目前针对大模型的攻击大多是黑盒的,不过随着我们对LLM理解的加深,更多的白盒攻击也会不断加入进来。

相关研究

不过别担心,兵来将挡水来土掩,相关的研究早就卷起来了。

小编随手一搜,单单是今年的ICLR上,就有多篇相关工作。

比如下面这篇Oral:

Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

论文地址:https://openreview.net/pdf?id=hTEGyKf0dZ

这篇工作跟今天介绍的文章很像了:微调LLM会带来安全风险。

研究人员仅通过几个对抗性训练样本对LLM进行微调,就可以破坏其安全对齐。

其中一个例子仅用10个样本,通过OpenAI的API对GPT-3.5 Turbo进行微调,成本不到0.20美元,就使得模型可以响应几乎任何有害指令。

另外,即使没有恶意意图,仅仅使用良性和常用的数据集进行微调,也可能无意中降低LLM的安全对齐。

再比如下面这篇Spolight:

Jailbreak in pieces: Compositional Adversarial Attacks on Multi-Modal Language Models

介绍了一种针对视觉语言模型的新型越狱攻击方法:

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

论文地址:https://openreview.net/pdf?id=plmBsXHxgR

研究人员将视觉编码器处理的对抗性图像与文本提示配对,从而破坏了VLM的跨模态对齐。

而且这种攻击的门槛很低,不需要访问LLM,对于像CLIP这样的视觉编码器嵌入在闭源LLM中时,越狱成功率很高。

此外还有很多,这里不再一一列举,下面来看一下本文的实验部分。

实验细节

研究人员使用了一个称为AdvBench SubsetAndy Zou的对抗性有害提示子集,包含50个提示,要求提供32个类别的有害信息。它是 AdvBench基准测试中有害行为数据集的提示子集。

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

实验使用的攻击算法是攻击树修剪(Tree-of-attacks pruning,TAP),实现了三个重要目标:

(1)黑盒:算法只需要黑盒访问模型;

(2)自动:一旦启动就不需要人工干预;

(3)可解释:算法可以生成语义上有意义的提示。

TAP算法与AdvBench子集中的任务一起使用,以在不同设置下攻击目标LLM。

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

实验流程

为了了解微调、量化和护栏对LLM安全性(抵抗越狱攻击)所产生的影响,研究人员创建了一个管道来进行越狱测试。

如前所述,使用AdvBench子集通过TAP算法对LLM进行攻击,然后记录评估结果以及完整的系统信息。

整个过程会多次迭代,同时考虑到与LLM相关的随机性质。完整的实验流程如下图所示:

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

TAP是目前最先进的黑盒和自动方法,可以生成具有语义意义的提示来越狱LLM。

TAP算法使用攻击者LLM A,向目标LLM T发送提示P。目标LLM R的响应和提示P,被输入到评估器JUDGE(LLM)中,由JUDGE来判断提示是否偏离主题。

如果提示偏离主题,则将其删除(相当于消除了对应的不良攻击提示树),否则,JUDGE会对提示打分(0-10分)。

符合主题的提示将使用广度优先搜索生成攻击。这个过程将迭代指定的次数,或者持续到成功越狱。

针对越狱提示的护栏

研究团队使用内部的Deberta-V3模型,来检测越狱提示。Deberta-V3充当输入过滤器,起到护栏的作用。

如果输入提示被护栏过滤掉或越狱失败,TAP算法会根据初始提示和响应生成新提示,继续尝试攻击。

实验结果

下面在三个不同的下游任务下,分别测试微调、量化和护栏带来的影响。实验基本涵盖了工业界和学术界的大多数LLM实际用例和应用。

实验采用GPT-3.5-turbo作为攻击模型,GPT-4-turbo作为判断模型。

实验中测试的目标模型来自各种平台,包括Anyscale、OpenAI的API、Azure的NC12sv3(配备32GB V100 GPU),以及Hugging Face,如下图所示:

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

实验中探索了各种基础模型、迭代型号、以及各种微调版本,同时还包括量化的版本。

微调

对不同任务进行微调,可以提高LLM完成任务的效率,微调为LLM提供了所需的专业领域知识,比如SQL代码生成、聊天等。

实验通过将基础模型的越狱漏洞与微调版本进行比较,来了解微调在增加或减少LLM脆弱性方面的作用。

研究人员使用Llama2、Mistral和MPT-7B等基础模型,及其微调版本(如CodeLlama、SQLCoder、Dolphin和Intel Neural Chat)。

从下表的结果可以看出,与基础模型相比,微调模型失去了安全对齐,并且很容易越狱。

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

量化

许多模型在训练、微调甚至推理过程中都需要大量的计算资源。量化是减轻计算负担的最流行方法之一(以牺牲模型参数的数值精度为代价)。

实验中的量化模型使用GPT生成的统一格式(GGUF)进行量化,下面的结果表明,模型的量化会使其容易受到漏洞的影响。

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

护栏

护栏是抵御LLM攻击的防线,作为守门员,它的主要功能是过滤掉可能导致有害或恶意结果的提示。

研究人员使用源自Deberta-V3模型的专有越狱攻击检测器,根据LLM生成的越狱有害提示进行训练。

下面的结果表明,将护栏作为前期步骤的引入具有显著效果,可以大大减少越狱的风险。

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

另外,研究人员还在集成和不集成护栏(Guardrails)的情况下,对这些模型进行了测试,来评估护栏的性能和有效性,下图显示了护栏的影响:

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

下图显示了越狱模型所需的查询数。可以看出,多数情况下,护栏确实为LLM提供了额外的抵抗力。

微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免

以上是微调和量化竟会增加越狱风险!Mistral、Llama等无一幸免的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! 开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! Apr 03, 2024 pm 12:04 PM

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一 全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

替代MLP的KAN,被开源项目扩展到卷积了 替代MLP的KAN,被开源项目扩展到卷积了 Jun 01, 2024 pm 10:03 PM

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

AI颠覆数学研究!菲尔兹奖得主、华裔数学家领衔11篇顶刊论文|陶哲轩转赞 AI颠覆数学研究!菲尔兹奖得主、华裔数学家领衔11篇顶刊论文|陶哲轩转赞 Apr 09, 2024 am 11:52 AM

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题 超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题 Apr 29, 2024 pm 06:55 PM

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高

快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模 快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模 Jun 11, 2024 am 09:51 AM

什么?疯狂动物城被国产AI搬进现实了?与视频一同曝光的,是一款名为「可灵」全新国产视频生成大模型。Sora利用了相似的技术路线,结合多项自研技术创新,生产的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。另外再划个重点,可灵不是实验室放出的Demo或者视频结果演示,而是短视频领域头部玩家快手推出的产品级应用。而且主打一个务实,不开空头支票、发布即上线,可灵大模型已在快影

美国空军高调展示首个AI战斗机!部长亲自试驾全程未干预,10万行代码试飞21次 美国空军高调展示首个AI战斗机!部长亲自试驾全程未干预,10万行代码试飞21次 May 07, 2024 pm 05:00 PM

最近,军事圈被这个消息刷屏了:美军的战斗机,已经能由AI完成全自动空战了。是的,就在最近,美军的AI战斗机首次公开,揭开了神秘面纱。这架战斗机的全名是可变稳定性飞行模拟器测试飞机(VISTA),由美空军部长亲自搭乘,模拟了一对一的空战。5月2日,美国空军部长FrankKendall在Edwards空军基地驾驶X-62AVISTA升空注意,在一小时的飞行中,所有飞行动作都由AI自主完成!Kendall表示——在过去的几十年中,我们一直在思考自主空对空作战的无限潜力,但它始终显得遥不可及。然而如今,

See all articles