目录
什么是 ChatGPT,什么是LLMs?
LLM 会泄露我的信息吗?
我如何安全地向 LLM 提供敏感信息?
LLMs是否让网络罪犯的生活更轻松?
总结
首页 科技周边 人工智能 ChatGPT 和大型语言模型:有什么风险?

ChatGPT 和大型语言模型:有什么风险?

Apr 08, 2023 am 10:41 AM
chatgpt 模型 大型语言

大型语言模型 (LLM) 和 AI 聊天机器人引起了全世界的兴趣,原因是 2022 年底发布的 ChatGPT 及其提供的查询便利性。它现在是有史以来增长最快的消费者应用程序之一,它的受欢迎程度正促使许多竞争对手开发他们自己的服务和模型,或者快速部署他们一直在内部开发的服务和模型。

与任何新兴技术一样,人们总是担心这对安全意味着什么。该博客在近期更广泛地考虑了 ChatGPT 和 LLM 的一些网络安全方面。

什么是 ChatGPT,什么是LLMs?

ChatGPT 是由美国科技初创公司 OpenAI 开发的人工智能聊天机器人。它基于GPT-3,这是一种于 2020 年发布的语言模型,它使用深度学习来生成类似人类的文本,但底层的 LLM 技术已经存在了很长时间。

法学硕士是算法在大量基于文本的数据上进行训练的地方,这些数据通常是从开放的互联网上抓取的,因此涵盖了网页和——取决于法学硕士——其他来源,如科学研究、书籍或社交媒体帖子. 这涵盖了如此大量的数据,以至于不可能在摄取时过滤掉所有令人反感或不准确的内容,因此“有争议的”内容很可能包含在其模型中。

这些算法分析不同单词之间的关系,并将其转化为概率模型。然后可以给算法一个“提示”(例如,通过问它一个问题),它会根据其模型中单词的关系提供答案。

通常,其模型中的数据在训练后是静态的,尽管它可以通过“微调”(对额外数据进行训练)和“提示增强”(提供有关问题的上下文信息)进行改进。提示增强的示例可能是:

Taking into account the below information, how would you describe...

然后将可能大量的文本(或整个文档)复制到提示/问题中。

ChatGPT有效地允许用户向 LLM 提问,就像您在与聊天机器人进行对话时一样。最近的其他 LLM 示例包括Google 的 Bard和Meta 的 LLaMa(用于科学论文)的公告。

法学硕士无疑令人印象深刻,因为它们能够以多种人类和计算机语言生成大量令人信服的内容。然而,它们不是魔法,也不是通用人工智能,并且包含一些严重的缺陷,包括:

  • 他们可能会弄错事情并“产生幻觉”不正确的事实
  • 他们可能有偏见,通常容易上当受骗(例如,在回答主要问题时)
  • 他们需要巨大的计算资源和海量数据来从头开始训练
  • 他们可以被哄骗创造有毒内容并且容易受到“注射攻击”

LLM 会泄露我的信息吗?

一个普遍的担忧是 LLM 可能会从您的提示中“学习”,并将该信息提供给查询相关内容的其他人。这里有一些令人担忧的原因,但不是出于许多人考虑的原因。当前,对 LLM 进行训练,然后查询生成的模型。LLM 不会(在撰写本文时)自动将查询中的信息添加到其模型中以供其他人查询。也就是说,在查询中包含信息不会导致该数据被并入 LLM。

但是,查询将对提供 LLM 的组织可见(对于 ChatGPT,对 OpenAI 也是如此)。这些查询被存储起来,几乎肯定会在某个时候用于开发 LLM 服务或模型。这可能意味着 LLM 提供者(或其合作伙伴/承包商)能够读取查询,并可能以某种方式将它们合并到未来的版本中。因此,在提出敏感问题之前,需要彻底了解使用条款和隐私政策。

一个问题可能是敏感的,因为查询中包含数据,或者因为谁(以及何时)提出问题。后者的例子可能是,如果发现 CEO 曾问过“如何最好地解雇员工?”,或者有人问了暴露健康或人际关系的问题。还要记住使用同一登录名跨多个查询聚合信息。

另一个风险随着越来越多的组织生产 LLM 而增加,它是在线存储的查询可能被黑客攻击、泄露,或者更有可能意外地公开访问。这可能包括潜在的用户身份信息。另一个风险是 LLM 的运营商后来被一个组织收购,该组织采用与用户输入数据时不同的隐私方法。

因此,NCSC 建议:

  • 不要在对公共 LLM 的查询中包含敏感信息
  • 不要向公开的 LLM 提交会导致问题的查询

我如何安全地向 LLM 提供敏感信息?

随着 LLM 的兴起,许多组织可能想知道他们是否可以使用 LLM 来自动化某些业务任务,这可能涉及通过微调或及时扩充来提供敏感信息。虽然不建议将此方法用于公共 LLM,但“私有 LLM”可能由云提供商提供(例如),或者可以完全自行托管:

  • 对于云提供的 LLM,使用条款和隐私政策再次成为关键(因为它们对于公共 LLM),但更有可能符合云服务的现有条款。组织需要了解如何管理用于微调或提示扩充的数据。供应商的研究人员或合作伙伴是否可以使用它?如果是这样,以什么形式?数据是单独共享还是与其他组织汇总共享?提供商的员工在什么情况下可以查看查询?
  • 自托管 LLM可能非常昂贵。但是,经过安全评估,它们可能适合处理组织数据。特别是,组织应参考我们关于保护基础设施和数据供应链的指南。

LLMs是否让网络罪犯的生活更轻松?

已经有一些令人难以置信的演示证明 LLM 如何帮助编写恶意软件。令人担忧的是,LLM 可能会帮助怀有恶意(但技能不足)的人创建他们原本无法部署的工具。在他们目前的状态下,LLMs 看起来令人信服(无论他们是否),并且适合简单的任务而不是复杂的任务。这意味着 LLM 可用于“帮助专家节省时间”,因为专家可以验证 LLM 的输出。

对于更复杂的任务,专家目前更容易从头开始创建恶意软件,而不必花时间纠正 LLM 生成的内容。但是,能够创建功能强大的恶意软件的专家很可能能够诱使 LLM 编写功能强大的恶意软件。“使用 LLM 从头开始创建恶意软件”和“验证 LLM 创建的恶意软件”之间的权衡将随着 LLM 的改进而改变。

也可以询问LLM以就技术问题提出建议。犯罪分子可能会使用 LLM 来帮助进行超出其当前能力的网络攻击,尤其是在攻击者访问网络后。例如,如果攻击者正在努力提升权限或查找数据,他们可能会询问 LLM,并收到与搜索引擎结果不同但具有更多上下文的答案。当前的 LLM 提供了听起来令人信服的答案,但可能只是部分正确,尤其是当该主题变得更加利基时。这些答案可能会帮助犯罪分子进行他们无法以其他方式执行的攻击,或者他们可能会建议采取哪些行动来加快对犯罪分子的侦查。无论哪种方式,攻击者的查询都可能被 LLM 操作员存储和保留。

由于 LLM 擅长按需复制写作风格,因此存在犯罪分子使用 LLM 编写令人信服的网络钓鱼电子邮件(包括多种语言的电子邮件)的风险。这可以帮助具有高技术能力但缺乏语言技能的攻击者,帮助他们使用目标的母语创建令人信服的网络钓鱼电子邮件(或进行社会工程)。

总而言之,在短期内我们可能会看到:

  • 由于 LLM,更有说服力的网络钓鱼电子邮件
  • 攻击者尝试他们以前不熟悉的技术

技能较低的攻击者编写功能强大的恶意软件的风险也很低。

总结

对于LLM来说,这是一个激动人心的时刻,尤其是 ChatGPT 吸引了全世界的想象力。与所有技术发展一样,会有人热衷于使用它并研究它所提供的功能,以及可能永远不会使用它的人。

正如我们在上面概述的那样,毫无疑问,不受限制地使用公共 LLM 存在风险。个人和组织应格外小心他们选择在提示中提交的数据。您应该确保那些想要尝试 LLM 的人能够,但不会将组织数据置于风险之中。

NCSC 意识到与网络安全和 LLM 的采用有关的其他新出现的威胁(和机会),我们当然会在以后的博文中让您了解这些。

David C - 平台研究技术总监Paul J - 数据科学研究技术总监

——编译自英国NCSC

以上是ChatGPT 和大型语言模型:有什么风险?的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
威尔R.E.P.O.有交叉游戏吗?
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

ChatGPT 现在允许免费用户使用 DALL-E 3 生成每日限制的图像 ChatGPT 现在允许免费用户使用 DALL-E 3 生成每日限制的图像 Aug 09, 2024 pm 09:37 PM

DALL-E 3 于 2023 年 9 月正式推出,是比其前身大幅改进的型号。它被认为是迄今为止最好的人工智能图像生成器之一,能够创建具有复杂细节的图像。然而,在推出时,它不包括

全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一 全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

替代MLP的KAN,被开源项目扩展到卷积了 替代MLP的KAN,被开源项目扩展到卷积了 Jun 01, 2024 pm 10:03 PM

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! 特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! May 06, 2024 pm 04:13 PM

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

FisheyeDetNet:首个基于鱼眼相机的目标检测算法 FisheyeDetNet:首个基于鱼眼相机的目标检测算法 Apr 26, 2024 am 11:37 AM

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP

牛津大学最新!Mickey:3D中的2D图像匹配SOTA!(CVPR\'24) 牛津大学最新!Mickey:3D中的2D图像匹配SOTA!(CVPR\'24) Apr 23, 2024 pm 01:20 PM

写在前面项目链接:https://nianticlabs.github.io/mickey/给定两张图片,可以通过建立图片之间的对应关系来估计它们之间的相机姿态。通常,这些对应关系是二维到二维的,而我们估计的姿态在尺度上是不确定的。一些应用,例如随时随地实现即时增强现实,需要尺度度量的姿态估计,因此它们依赖于外部的深度估计器来恢复尺度。本文提出了MicKey,这是一个关键点匹配流程,能够够预测三维相机空间中的度量对应关系。通过学习跨图像的三维坐标匹配,我们能够在没有深度测试的情况下推断出度量相对

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源 单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源 Apr 29, 2024 pm 04:55 PM

FP8和更低的浮点数量化精度,不再是H100的“专利”了!老黄想让大家用INT8/INT4,微软DeepSpeed团队在没有英伟达官方支持的条件下,硬生生在A100上跑起FP6。测试结果表明,新方法TC-FPx在A100上的FP6量化,速度接近甚至偶尔超过INT4,而且拥有比后者更高的精度。在此基础之上,还有端到端的大模型支持,目前已经开源并集成到了DeepSpeed等深度学习推理框架中。这一成果对大模型的加速效果也是立竿见影——在这种框架下用单卡跑Llama,吞吐量比双卡还要高2.65倍。一名

See all articles