鬼手操控着你的手机?大模型GUI智能体易遭受环境劫持

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
论文题目:Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions 论文地址:https://arxiv.org/abs/2408.02544 代码仓库:https://github.com/xbmxb/EnvDistraction
任务定义。考虑 GUI Agent A 为了完成特定目标 g,与操作系统环境 Env 交互中的任一步 t, Agent 根据其对环境状态 的感知在操作系统上执行动作
。然而,操作系统环境天然包含质量参差不齐、来源各异的复杂信息,我们对其形式化地分为两部分:对完成目标有用或必要的内容,
,指示着与用户指令无关的目标的干扰性内容,
。GUI Agent 必须使用
来执行忠实的操作,同时避免被
分散注意力并输出不相关的操作。同时,t 时刻的操作空间被状态
决定,相应地定义为三种,最佳的动作
,受到干扰的动作
,和其他(错误)的动作
。我们关注智能体对下一步动作的预测是否匹配最佳的动作或受到干扰的动作,或是有效操作空间之外的动作。
模拟数据。根据任务的定义,在不失一般性的情况下模拟任务并构建模拟数据集。每个样本都是一个三元组 (g,s,A),分别是目标、屏幕截图和有效动作空间标注。模拟数据的关键在于构建屏幕截图,使其包含 和
,即保证屏幕内允许正确的忠实性操作,且存在自然的干扰。研究团队考虑了四种常见场景,即弹框、搜索、推荐和聊天,形成四个子集,针对用户目标、屏幕布局和干扰内容采用组合策略。例如,对于弹框场景,他们构造诱导用户同意去做另一件事情的弹框,并在框内给出拒绝和接受两种动作,如果智能体选择接受型动作,就被看作失去了忠实性。搜索和推荐场景都是在真实的数据内插入伪造的样例,例如相关的折扣物品和推荐的软件。聊天场景较为复杂,研究团队在聊天界面中对方发来的消息内加入干扰内容,如果智能体遵从了这些干扰则被视为不忠实的动作。研究团队对每个子集设计了具体的提示流程,利用 GPT-4 和外部的检索候选数据来完成构造,各子集示例如图 4 所示。
工作模式。工作模式会影响智能体的表现,尤其是对复杂的 GUI 环境,环境感知的水平是智能体性能的瓶颈,它决定了智能体是否能够捕捉有效的动作,指示了动作预测的上限。他们实现了三个具有不同环境感知级别的工作模式,即隐式感知、部分感知和最佳感知。(1)隐式感知即直接对智能体提出要求,输入仅为指令和屏幕,不辅助环境感知 (Direct prompt)。(2)部分感知即提示智能体先进行环境解析,采用类似思维链的模式,智能体首先接收屏幕截图状态以提取可能的操作,然后根据目标预测下一个操作(CoT prompt)。(3)最佳感知即直接提供该屏幕的操作空间给智能体 (w/ Action annotation)。本质上,不同的工作模式意味着两个变化:潜在操作的信息暴露给智能体,信息从视觉通道融合到文本通道中。

多模态环境是否会干扰 GUI Agent 的目标?在有风险的环境中,多模态代理容易受到干扰,这会导致他们放弃目标并做出不忠实的行为。在研究团队的四种场景中,每个模型都会产生偏离原始目标的行为,这降低了行动的正确率。强大的 API 模型(GPT-4o 的 9.09%)和专家模型(SeeClick 的 6.84%)比通用开源模型更忠实。 忠实性和有用性 (helpfulness) 之间的关系是什么?这分为两种情况。首先,具有强大功能的模型既可以提供正确动作,又可以保持忠实(GPT-4o、GPT-4v 和 Claude)。它们表现出较低的 分数,以及相对较高的
和较低的
。然而,感知能力更强但忠实度不足会导致更容易受到干扰,有用性降低。例如,与开源模型相比,GLM-4v 表现出更高的
和低得多的
。因此,忠实度和有用性并不相互排斥,而是可以同时增强,并且为了匹配强大的模型的能力,增强忠实度就显得更为重要。
辅助多模态环境感知是否有助于缓解不忠实?通过实施不同的工作模式,视觉信息被集成到文本通道中以增强环境感知。然而,结果表明,GUI 感知的文本增强实际上会增加干扰,干扰动作的增加甚至会超过其带来的好处。CoT 模式作为一种自我引导的文本增强,可以大大减轻感知负担,但也会增加干扰。因此,即使感知这一性能瓶颈被增强,忠实的脆弱性依旧存在,甚至更具风险。因此,跨文本和视觉模式(如 OCR)的信息融合必须更加谨慎。


以上是鬼手操控着你的手机?大模型GUI智能体易遭受环境劫持的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

同样是图生视频,PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了!这次瞄准绘画领域。新项目PaintsUndo刚上线不久,就收获1.4kstar(还在疯狂涨)。项目地址:https://github.com/lllyasviel/Paints-UNDO通过该项目,用户输入一张静态图像,PaintsUndo就能自动帮你生成整个绘画的全过程视频,从线稿到成品都有迹可循。绘制过程,线条变化多端甚是神奇,最终视频结果和原图像非常相似:我们再来看一个完整的绘

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RL

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校(UIUC)张令明老师团队,包括:StevenXia,四年级博士生,研究方向是基于AI大模型的自动代码修复;邓茵琳,四年级博士生,研究方

干杯!当论文讨论细致到词句,是什么体验?最近,斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv,可以直接在任何arXiv论文之上发布问题和评论。网站链接:https://alphaxiv.org/其实不需要专门访问这个网站,只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文:可以精准定位到论文中的段落、句子:右侧讨论区,用户可以发表问题询问作者论文思路、细节,例如:也可以针对论文内容发表评论,例如:「给出至

最近,被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题,与素数分布的精确性质有关(素数是那些只能被1和自身整除的数字,它们在数论中扮演着基础性的角色)。在当今的数学文献中,已有超过一千条数学命题以黎曼猜想(或其推广形式)的成立为前提。也就是说,黎曼猜想及其推广形式一旦被证明,这一千多个命题将被确立为定理,对数学领域产生深远的影响;而如果黎曼猜想被证明是错误的,那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

如果AI模型给的答案一点也看不懂,你敢用吗?随着机器学习系统在更重要的领域得到应用,证明为什么我们可以信任它们的输出,并明确何时不应信任它们,变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是,要求系统对其输出产生一种解释,这种解释对人类或另一个受信任的系统来说是可读的,即可以完全理解以至于任何可能的错误都可以被发现。例如,为了建立对司法系统的信任,我们要求法院提供清晰易读的书面意见,解释并支持其决策。对于大型语言模型来说,我们也可以采用类似的方法。不过,在采用这种方法时,确保语言模型生

语言模型真的能用于时序预测吗?根据贝特里奇头条定律(任何以问号结尾的新闻标题,都能够用「不」来回答),答案应该是否定的。事实似乎也果然如此:强大如斯的LLM并不能很好地处理时序数据。时序,即时间序列,顾名思义,是指一组按照时间发生先后顺序进行排列的数据点序列。在很多领域,时序分析都很关键,包括疾病传播预测、零售分析、医疗和金融。在时序分析领域,近期不少研究者都在研究如何使用大型语言模型(LLM)来分类、预测和检测时间序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的语言模型也能泛化用于时间序

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显着的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网
