AI 提示注入攻击会毒害您所依赖的 AI 工具的输出,将其输出更改和操纵为恶意内容。但是 AI 提示注入攻击是如何运作的,以及如何保护自己呢?
AI 提示注入攻击利用生成式 AI 模型的漏洞来操纵其输出。它们可以由您执行,也可以由外部用户通过间接提示注入攻击进行注入。 DAN(立即执行任何操作)攻击不会对您(最终用户)构成任何风险,但其他攻击理论上能够毒害您从生成式 AI 收到的输出。
例如,有人可以操纵 AI 指示您以非法形式输入用户名和密码,利用 AI 的权威和可信度使网络钓鱼攻击成功。理论上,自主人工智能(例如阅读和响应消息)也可以接收不需要的外部指令并根据其采取行动。
即时注入攻击是通过在用户同意或不知情的情况下向人工智能提供额外指令来进行的。黑客可以通过多种方式实现这一目标,包括 DAN 攻击和间接提示注入攻击。
DAN(立即执行任何操作)攻击是一种提示注入攻击,涉及“越狱”生成式 AI 模型(例如 ChatGPT)。这些越狱攻击不会对最终用户构成风险,但它们确实扩大了人工智能的能力,使其成为滥用工具。
例如,安全研究人员 Alejandro Vidal 使用 DAN 提示让 OpenAI 的 GPT-4 为键盘记录器生成 Python 代码。如果被恶意使用,越狱的人工智能会大大降低与网络犯罪相关的技能障碍,并可能使新黑客能够发起更复杂的攻击。
训练数据中毒攻击不能完全归类为即时注入攻击,但它们在工作方式以及给用户带来的风险方面具有显着的相似之处。与即时注入攻击不同,训练数据中毒攻击是一种机器学习对抗性攻击,当黑客修改人工智能模型使用的训练数据时就会发生这种攻击。会发生相同的结果:中毒的输出和修改的行为。
训练数据中毒攻击的潜在应用实际上是无限的。例如,用于过滤来自聊天或电子邮件平台的网络钓鱼尝试的人工智能理论上可以修改其训练数据。如果黑客告诉人工智能管理员某些类型的网络钓鱼尝试是可以接受的,他们就可以发送网络钓鱼消息而不被发现。
训练数据中毒攻击不会直接伤害您,但可能会造成其他威胁。如果您想防范这些攻击,请记住人工智能并非万无一失,您应该仔细检查您在网上遇到的任何内容。
间接提示注入攻击是给最终用户带来最大风险的提示注入攻击类型。当您在收到所需的输入之前,外部资源(例如 API 调用)将恶意指令馈送到生成式 AI 时,就会发生这些攻击。
一篇题为《利用 arXiv 上的间接提示注入来破坏现实世界 LLM 集成应用程序》的论文 [PDF] 演示了一种理论上的攻击,可以指示 AI 说服用户注册网络钓鱼网站在答案中,使用隐藏文本(人眼看不见,但人工智能模型完全可读)偷偷地注入信息。 GitHub 上记录的同一研究团队的另一次攻击显示,Copilot(以前称为 Bing Chat)的攻击是为了让用户相信它是寻求信用卡信息的实时支持代理。
间接提示注入攻击具有威胁性,因为它们可以操纵您从值得信赖的 AI 模型收到的答案,但这并不是它们构成的唯一威胁。如前所述,它们还可能导致您可能使用的任何自主人工智能以意想不到且可能有害的方式行事。
AI 提示注入攻击是一种威胁,但尚不清楚如何利用这些漏洞。目前还没有任何已知的成功的人工智能提示注入攻击,而且许多已知的尝试都是由研究人员进行的,他们并没有任何真正的伤害意图。然而,许多人工智能研究人员认为人工智能即时注入攻击是安全实施人工智能的最艰巨的挑战之一。
此外,当局并没有忽视人工智能即时注入攻击的威胁。据《华盛顿邮报》报道,2023 年 7 月,联邦贸易委员会对 OpenAI 进行了调查,寻求有关已知发生的即时注入攻击的更多信息。目前还没有任何攻击在实验之外取得成功,但这种情况可能会改变。
黑客不断寻找新的媒介,我们只能猜测黑客未来将如何利用即时注入攻击。您可以通过始终对人工智能进行适当的审查来保护自己。在这一点上,人工智能模型非常有用,但重要的是要记住你拥有人工智能所没有的东西:人类判断。请记住,您应该仔细检查从 Copilot 等工具收到的输出,并享受使用人工智能工具的发展和改进。
以上是什么是 AI 即时注入攻击及其工作原理?的详细内容。更多信息请关注PHP中文网其他相关文章!