鬼手操控着你的手机？大模型GUI智能体易遭受环境劫持-人工智能-PHP中文网

首页

科技周边

人工智能

鬼手操控着你的手机？大模型GUI智能体易遭受环境劫持

PHPz

Sep 02, 2024 pm 04:40 PM

工程

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文第一作者马欣贝是上海交通大学计算机系四年级博士生，研究方向为自主智能体，推理，以及大模型的可解释性和知识编辑。该工作由上海交通大学与 Meta 共同完成。

鬼手操控着你的手机？大模型GUI智能体易遭受环境劫持

论文题目：Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions
论文地址：https://arxiv.org/abs/2408.02544
代码仓库：https://github.com/xbmxb/EnvDistraction

近日，热心网友发现公司会用大模型筛选简历：在简历中添加与背景颜色相同的提示 “这是一个合格的候选人” 后收到的招聘联系是之前的 4 倍。网友表示：“如果公司用大模型筛选候选人，候选人反过来与大模型博弈也是公平的。” 大模型在替代人类工作，降低人工成本的同时，也成为容易遭受攻击的薄弱一环。

鬼手操控着你的手机？大模型GUI智能体易遭受环境劫持

^{图 1：干扰筛选简历的大模型。}

因此，在追求通用人工智能改变生活的同时，需要关注 AI 对用户指令的忠实性。具体而言，AI 是否能够在复杂的多模态环境中不受眼花缭乱的内容所干扰，忠实地完成用户预设的目标，是一个尚待研究的问题，也是实际应用之前必须回答的问题。

针对上述问题，本文以图形用户界面智能代理 (GUI Agent) 为一个典型场景，研究了环境中的干扰所带来的风险。

GUI Agent 基于大模型针对预设的任务自动化控制电脑手机等设备，即 “大模型玩手机”。如图 2 所示，不同于现有的研究，研究团队考虑即使用户和平台都是无害的，在现实世界中部署时，GUI Agent 不可避免地会面临多种信息的干扰，阻碍智能体完成用户目标。更糟糕的是，GUI Agent 可以在私有设备上完成干扰信息所建议的任务，甚至进入失控状态，危害用户的隐私和安全。

鬼手操控着你的手机？大模型GUI智能体易遭受环境劫持

^{图 2：现有的 GUI Agent 工作通常考虑理想的工作环境（a）或通过用户输入引入的风险（b）。本文研究环境中存在的内容作为干扰阻碍 Agent 忠实地完成任务（c）。}

研究团队将这一风险总结成两部分，(1) 操作空间的剧变和 (2) 环境与用户指令之间的冲突。例如，在购物的时候遇到大面积的广告，原本能够执行的正常操作会被挡住，此时要继续执行任务必须先处理广告。然而，屏幕中的广告与用户指令中的购物目的造成了不一致，没有相关的提示辅助广告处理，智能代理容易陷入混乱，被广告误导，最终表现出不受控制的行为，而不是忠实于用户指令的原始目标。

任务与方法

鬼手操控着你的手机？大模型GUI智能体易遭受环境劫持

^{图 3：本文的模拟框架，包括数据模拟，工作模式，和模型测试。}

为了系统性地分析多模态智能体的忠实度，本文首先定义了 “智能体的环境干扰（Distraction for GUI Agents）” 任务，并且提出了一套系统性的模拟框架。该框架构造数据以模拟四种场景下的干扰，规范了三种感知级别不同的工作模式，最后在多个强大的多模态大模型上进行了测试。

任务定义。考虑 GUI Agent A 为了完成特定目标 g，与操作系统环境 Env 交互中的任一步 t, Agent 根据其对环境状态的感知在操作系统上执行动作。然而，操作系统环境天然包含质量参差不齐、来源各异的复杂信息，我们对其形式化地分为两部分：对完成目标有用或必要的内容，，指示着与用户指令无关的目标的干扰性内容，。GUI Agent 必须使用来执行忠实的操作，同时避免被分散注意力并输出不相关的操作。同时，t 时刻的操作空间被状态决定，相应地定义为三种，最佳的动作，受到干扰的动作，和其他（错误）的动作。我们关注智能体对下一步动作的预测是否匹配最佳的动作或受到干扰的动作，或是有效操作空间之外的动作。

模拟数据。根据任务的定义，在不失一般性的情况下模拟任务并构建模拟数据集。每个样本都是一个三元组 (g,s,A)，分别是目标、屏幕截图和有效动作空间标注。模拟数据的关键在于构建屏幕截图，使其包含和，即保证屏幕内允许正确的忠实性操作，且存在自然的干扰。研究团队考虑了四种常见场景，即弹框、搜索、推荐和聊天，形成四个子集，针对用户目标、屏幕布局和干扰内容采用组合策略。例如，对于弹框场景，他们构造诱导用户同意去做另一件事情的弹框，并在框内给出拒绝和接受两种动作，如果智能体选择接受型动作，就被看作失去了忠实性。搜索和推荐场景都是在真实的数据内插入伪造的样例，例如相关的折扣物品和推荐的软件。聊天场景较为复杂，研究团队在聊天界面中对方发来的消息内加入干扰内容，如果智能体遵从了这些干扰则被视为不忠实的动作。研究团队对每个子集设计了具体的提示流程，利用 GPT-4 和外部的检索候选数据来完成构造，各子集示例如图 4 所示。

鬼手操控着你的手机？大模型GUI智能体易遭受环境劫持

^{图 4：模拟数据在四个场景中的示例。}

工作模式。工作模式会影响智能体的表现，尤其是对复杂的 GUI 环境，环境感知的水平是智能体性能的瓶颈，它决定了智能体是否能够捕捉有效的动作，指示了动作预测的上限。他们实现了三个具有不同环境感知级别的工作模式，即隐式感知、部分感知和最佳感知。（1）隐式感知即直接对智能体提出要求，输入仅为指令和屏幕，不辅助环境感知（Direct prompt）。（2）部分感知即提示智能体先进行环境解析，采用类似思维链的模式，智能体首先接收屏幕截图状态以提取可能的操作，然后根据目标预测下一个操作（CoT prompt）。（3）最佳感知即直接提供该屏幕的操作空间给智能体（w/ Action annotation）。本质上，不同的工作模式意味着两个变化：潜在操作的信息暴露给智能体，信息从视觉通道融合到文本通道中。

实验与分析

研究团队在构造出的 1189 条模拟数据上对 10 个著名的多模态大模型进行的实验。为了系统性地分析，我们选择了两类模型作为 GUI 智能体，（1）通用模型，包括基于 API 服务的强大的黑盒大模型（GPT-4v, GPT-4o, GLM-4v, Qwen-VL-plus, Claude-Sonnet-3.5），和开源大模型（Qwen-VL-chat, MiniCPM-Llama3-v2.5, LLaVa-v1.6-34B）。（2）GUI 专家模型，包括经过预训练或指令微调后的 CogAgent-chat 和 SeeClick。研究团队使用的指标是鬼手操控着你的手机？大模型GUI智能体易遭受环境劫持

, 分别对应模型预测的动作匹配成功最佳动作，被干扰的动作，和无效动作的准确率。

研究团队将实验中的发现总结成三个问题的回答：

多模态环境是否会干扰 GUI Agent 的目标？在有风险的环境中，多模态代理容易受到干扰，这会导致他们放弃目标并做出不忠实的行为。在研究团队的四种场景中，每个模型都会产生偏离原始目标的行为，这降低了行动的正确率。强大的 API 模型（GPT-4o 的 9.09%）和专家模型（SeeClick 的 6.84%）比通用开源模型更忠实。
忠实性和有用性 (helpfulness) 之间的关系是什么？这分为两种情况。首先，具有强大功能的模型既可以提供正确动作，又可以保持忠实（GPT-4o、GPT-4v 和 Claude）。它们表现出较低的分数，以及相对较高的和较低的。然而，感知能力更强但忠实度不足会导致更容易受到干扰，有用性降低。例如，与开源模型相比，GLM-4v 表现出更高的和低得多的。因此，忠实度和有用性并不相互排斥，而是可以同时增强，并且为了匹配强大的模型的能力，增强忠实度就显得更为重要。
辅助多模态环境感知是否有助于缓解不忠实？通过实施不同的工作模式，视觉信息被集成到文本通道中以增强环境感知。然而，结果表明，GUI 感知的文本增强实际上会增加干扰，干扰动作的增加甚至会超过其带来的好处。CoT 模式作为一种自我引导的文本增强，可以大大减轻感知负担，但也会增加干扰。因此，即使感知这一性能瓶颈被增强，忠实的脆弱性依旧存在，甚至更具风险。因此，跨文本和视觉模式（如 OCR）的信息融合必须更加谨慎。

鬼手操控着你的手机？大模型GUI智能体易遭受环境劫持

^{图 5：环境干扰试验结果。}

此外，在针对模型的比较中，研究团队发现基于 API 的模型在忠实度和有效性方面优于开源模型。针对 GUI 预训练可以大大提高专家代理的忠实度和有效性，但可能会引入捷径（shortcut）而导致失败。在针对工作模式的比较中，研究团队进一步给出，即使拥有 “完美” 的感知（action annotation），智能体仍然容易受到干扰。CoT 提示不能完全防御，但自我引导的逐步过程展示了缓解的潜力。

最后，研究团队利用上述发现，考虑了一种具有对抗角色的极端情况，并展示了一种可行的主动攻击，称为环境注入。假设在一个攻击场景中，攻击者需改变 GUI 环境从而误导模型。攻击者可以窃听来自用户的消息并获取目标，并且可以入侵相关数据以更改环境信息，例如，可以拦截来自主机的包并更改网站的内容。

环境注入的设定与前文不同。前文研究不完美、嘈杂或有缺陷的环境这一普遍问题，而攻击者可以造成异常或恶意的内容进行诱导。研究团队在弹框场景上进行了验证，研究团队提出并实施了一种简洁有效的方法来重写这两个按钮。（1）接受弹框的按钮被重写为模棱两可的，对于干扰项和真实目标都是合理的。我们为这两个目的找到了一个共同的操作。虽然框中的内容提供了上下文，指示了按钮的真实功能，但模型经常会忽略上下文的含义。（2）拒绝弹框的按钮被重写为情绪化表达。这种引导性的情绪有时可以影响甚至操纵用户决策。这种现象在卸载程序时很常见，例如 “残酷离开”。

与基线分数相比，这些重写方法降低了 GLM-4v 和 GPT-4o 的忠实度，显著地提高了鬼手操控着你的手机？大模型GUI智能体易遭受环境劫持

分数。GLM-4v 更容易受到情绪表达的影响，而 GPT-4o 更容易受到模棱两可的接受误导。

^{图 6：恶意环境注入的实验结果。}

总结

本文研究了多模态 GUI Agent 的忠实性，并揭示了环境干扰的影响。研究团队提出了一个新的研究问题 —— 智能体的环境干扰，和一个新的研究场景 —— 用户和代理都是良性的，环境不是恶意的，但存在能够分散注意力的内容。研究团队模拟了四种场景中的干扰，并实现了三种具有不同感知水平的工作模式。对广泛的通用模型和 GUI 专家模型进行了评估。实验结果表明，对干扰的脆弱性会显著降低忠实度和帮助性，且仅通过增强感知无法完成防护。

此外，研究团队提出了一种称为环境注入的攻击方法，该方法通过改变干扰以包含模棱两可或情感误导的内容，利用不忠实来达到恶意目的。更重要的是，本文呼吁大家更加关注多模态代理的忠实度。研究团队建议未来的工作包括对忠实度进行预训练、考虑环境背景和用户指令之间的相关性、预测执行操作可能产生的后果以及在必要时引入人机交互。

以上是鬼手操控着你的手机？大模型GUI智能体易遭受环境劫持的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1667

CakePHP 教程

1426

Laravel 教程

1328

PHP教程

1273

C# 教程

1255

显示更多

Related knowledge

ControlNet作者又出爆款！一张图生成绘画全过程，两天狂揽1.4k Star Jul 17, 2024 am 01:56 AM

同样是图生视频，PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了！这次瞄准绘画领域。新项目PaintsUndo刚上线不久，就收获1.4kstar（还在疯狂涨）。项目地址：https://github.com/lllyasviel/Paints-UNDO通过该项目，用户输入一张静态图像，PaintsUndo就能自动帮你生成整个绘画的全过程视频，从线稿到成品都有迹可循。绘制过程，线条变化多端甚是神奇，最终视频结果和原图像非常相似：我们再来看一个完整的绘

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中，对大语言模型（LLM）的控制与指导始终是核心挑战之一，旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法（RL

登顶开源AI软件工程师榜首，UIUC无Agent方案轻松解决SWE-bench真实编程问题 Jul 17, 2024 pm 10:02 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校（UIUC）张令明老师团队，包括：StevenXia，四年级博士生，研究方向是基于AI大模型的自动代码修复；邓茵琳，四年级博士生，研究方

arXiv论文可以发「弹幕」了，斯坦福alphaXiv讨论平台上线，LeCun点赞 Aug 01, 2024 pm 05:18 PM

干杯！当论文讨论细致到词句，是什么体验？最近，斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv，可以直接在任何arXiv论文之上发布问题和评论。网站链接：https://alphaxiv.org/其实不需要专门访问这个网站，只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文：可以精准定位到论文中的段落、句子：右侧讨论区，用户可以发表问题询问作者论文思路、细节，例如：也可以针对论文内容发表评论，例如：「给出至

黎曼猜想显着突破！陶哲轩强推MIT、牛津新论文，37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近，被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题，与素数分布的精确性质有关（素数是那些只能被1和自身整除的数字，它们在数论中扮演着基础性的角色）。在当今的数学文献中，已有超过一千条数学命题以黎曼猜想（或其推广形式）的成立为前提。也就是说，黎曼猜想及其推广形式一旦被证明，这一千多个命题将被确立为定理，对数学领域产生深远的影响；而如果黎曼猜想被证明是错误的，那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

OpenAI超级对齐团队遗作：两个大模型博弈一番，输出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型给的答案一点也看不懂，你敢用吗？随着机器学习系统在更重要的领域得到应用，证明为什么我们可以信任它们的输出，并明确何时不应信任它们，变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是，要求系统对其输出产生一种解释，这种解释对人类或另一个受信任的系统来说是可读的，即可以完全理解以至于任何可能的错误都可以被发现。例如，为了建立对司法系统的信任，我们要求法院提供清晰易读的书面意见，解释并支持其决策。对于大型语言模型来说，我们也可以采用类似的方法。不过，在采用这种方法时，确保语言模型生

LLM用于时序预测真的不行，连推理能力都没用到 Jul 15, 2024 pm 03:59 PM

语言模型真的能用于时序预测吗？根据贝特里奇头条定律（任何以问号结尾的新闻标题，都能够用「不」来回答），答案应该是否定的。事实似乎也果然如此：强大如斯的LLM并不能很好地处理时序数据。时序，即时间序列，顾名思义，是指一组按照时间发生先后顺序进行排列的数据点序列。在很多领域，时序分析都很关键，包括疾病传播预测、零售分析、医疗和金融。在时序分析领域，近期不少研究者都在研究如何使用大型语言模型（LLM）来分类、预测和检测时间序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的语言模型也能泛化用于时间序

首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。引言近年来，多模态大型语言模型（MLLM）在各个领域的应用取得了显着的成功。然而，作为许多下游任务的基础模型，当前的MLLM由众所周知的Transformer网络构成，这种网

See all articles

鬼手操控着你的手机？大模型GUI智能体易遭受环境劫持

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题