目录
一、动机:解决不同实体的指代解析
二、重构:突破传统文本模态的限制
三、细节:任务定义和数据集
四、结果:最小的模型也取得了5%的性能提升
五、写在最后
参考链接:
首页 科技周边 人工智能 让Siri不再智障!苹果定义新的端侧模型,'大大优于GPT-4,摆脱文本,可视化模拟屏幕信息,最小参数模型相较基线系统仍提升5%

让Siri不再智障!苹果定义新的端侧模型,'大大优于GPT-4,摆脱文本,可视化模拟屏幕信息,最小参数模型相较基线系统仍提升5%

Apr 02, 2024 pm 09:20 PM
人工智能 gpt-4 api调用 排列

撰稿丨诺亚   

出品 | 51CTO技术栈(微信号:blog51cto)       

总被用户吐槽“有点智障”的Siri有救了!

Siri自诞生以来就是智能语音助手领域的代表之一,但很长一段时间里,其表现并不尽人意。然而,苹果的人工智能团队最新发布的研究成果有望极大地改变现状。这些成果令人兴奋,同时也引发了对该领域未来的极大期待。

在相关的研究论文中,苹果的AI专家们描述了一个系统,其中Siri不仅可以识别图像中的内容,还能做更多的事情,变得更加智能、更实用。这个功能模型被称为ReALM,它是基于GPT 4.0的标准,具有比GPT 4.0更优秀的基准能力。这些专家们认为,他们开发的这个模型是用于实现自己研发的一个功能的,它可以让Siri更智能,更实用,更加适用于各种场景。

一、动机:解决不同实体的指代解析

据苹果的研究团队指出:“让对话助手能够理解上下文,包括相关的内容指向,非常关键。能让用户根据他们所看到的屏幕内容进行提问,是确保实现语音操作体验的重要一步。”

打个比方,在人机交互过程中,用户常常会在对话中提及屏幕上的某个元素或内容,例如指示语音助手拨打电话号码、导航至地图上的特定地点、打开特定应用程序或网页等。如果对话助手无法理解用户指令背后的实体指代,就无法准确地执行这些命令。

而且人类对话中普遍存在模糊指代的现象,为了实现自然的人机交互,以及在用户与语音助手进行关于屏幕内容查询时准确理解语境,指代解析能力至关重要。

苹果在论文中提到的名为ReALM(Reference Resolution As Language Modeling)的模型,其优势就在于,它能够同时考虑用户屏幕上的内容和正在进行的任务,利用大语言模型解决不同类型实体(包括对话实体和非对话实体)的指代解析问题。

尽管传统的文本模态不便于处理屏幕上显示的实体,但ReALM系统通过将指代解析转化为语言建模问题,并成功运用LLMs来处理屏幕上非对话实体的指代,极大地推动了这一目标的达成。如此一来,便有望达成高度智能、更加沉浸的用户体验。

二、重构:突破传统文本模态的限制

传统的文本模态不便于处理屏幕上显示的实体,是因为屏幕上的实体通常包含丰富的视觉信息和布局结构,例如图像、图标、按钮及它们之间的相对位置关系等,这些信息在纯粹的文本描述中难以完全表达。

ReALM系统针对这一挑战,创造性地提出了通过解析屏幕上的实体及其位置信息来重建屏幕,并生成一种纯文本表示,这种文本能可视化地反映屏幕内容。

实体部分会被特别标记,以便语言模型了解实体出现在何处及其周围的文本是什么,这样就能模拟“看到”屏幕上的信息,并在理解和解析屏幕上的指代时提供必要的上下文信息。这种方法是首次尝试使用大型语言模型从屏幕内容中编码上下文,克服了传统文本模态难以处理的屏幕实体的问题。

具体来说,ReALM系统为了让大型语言模型能够“理解”并处理屏幕上显示的实体,采用了以下步骤:

首先,借助上层数据检测器提取屏幕文本中的实体,这些实体会带有类型、边界框以及实体周围非实体文本元素的列表。这意味着,对于屏幕上每一个可视化的实体,系统都会捕捉其基本信息和它所处的上下文环境。

然后,ReALM创新地提出了一种算法,通过将实体及其周围对象的边界框中心点按照垂直(从上至下)和水平(从左至右)的顺序排序,并稳定排列。若实体间距离较近,则认为它们在同一行内,并用制表符隔开;若距离超出设定的边距,则将它们置于下一行。这样,通过连续应用上述方法,就可以将屏幕内容按从左到右、从上到下的方式编码成纯文本格式,有效地保留了实体间的相对空间位置关系。

这样一来,原本难以直接被LLM处理的屏幕视觉信息转化成了适合语言模型输入的文本形式,使LLM能够在处理序列到序列的任务时,充分考虑到了屏幕实体的具体位置和上下文,从而实现对屏幕实体的正确识别和指代解析。

这使得ReALM系统不仅在解决对话实体的指代问题上表现出色,而且在处理非对话类实体——即屏幕上的实体时同样表现出了显著的性能提升。

三、细节:任务定义和数据集

简单来,ReALM系统面临的任务是,根据用户想要执行的任务,在给定的实体集合中,找出与当前用户查询相关的实体。

这个任务被构造成一个针对大型语言模型的选择题,期望从用户屏幕展示的实体中选择一个或多个选项作为答案。当然,在某些情况下,答案可能是“都不是”。

事实上,研究论文将任务涉及的实体分为三类:

1. 屏幕实体:是指当前在用户界面上可见的实体。

2. 对话实体:与对话内容相关的实体,可能来自用户的上一轮发言(如用户提到“呼叫妈妈”,则联系人列表中“妈妈”的条目就是相关实体),也可能由虚拟助手在对话中提供(如供用户选择的地点列表)。

3. 背景实体:源于后台进程,不一定直接体现在用户屏幕显示或与虚拟助手互动中的相关实体,例如预设会响起的闹钟或正在后台播放的音乐。

至于用于训练和测试ReALM的数据集,由合成数据和人工标注的数据组成,同样可划分为三类:

其一,对话数据集:包含了与用户与代理交互相关的实体的数据点。这些数据通过让评分员查看含有合成实体列表的截图,并要求他们提供明确指向列表中任意选定实体的查询来收集。

其二,合成数据集:采用模板生成法得到数据,特别是当用户查询和实体类型足以确定指代,无需依赖详细描述时,这种方法特别有用。合成数据集中也可以包含多个实体对应同一查询的情况。

其三,屏幕数据集:主要涵盖了用户屏幕上当前显示的实体的数据,每一条数据都包含用户查询、实体列表以及与该查询对应的正确实体(或实体集合)。每个实体的信息包括实体类型和其他属性,如名称以及其他与实体相关的文本细节(例如,闹钟的标签和时间)。

对于含有屏幕相关上下文的数据点,上下文信息以实体的边界框以及围绕该实体的其他对象列表的形式提供,同时附带这些周边对象的类型、文本内容和位置等属性信息。整个数据集的大小根据类别分为训练集和测试集,并且各具一定规模。

四、结果:最小的模型也取得了5%的性能提升

在基准测试中,苹果公司将自家系统与GPT 3.5和GPT 4.0进行了比较。ReALM模型在解决不同类型的指代解析任务方面表现出卓越的竞争力。

让Siri不再智障!苹果定义新的端侧模型,大大优于GPT-4,摆脱文本,可视化模拟屏幕信息,最小参数模型相较基线系统仍提升5%图片

根据论文所述,即便是ReALM中参数最少的版本,相较于基线系统也实现了超过5%的性能提升。而在更大的模型版本上,ReALM则明显胜过GPT-4。特别是在处理屏幕上显示的实体时,随着模型规模的增加,ReALM在屏幕数据集上的性能提升更为显著。

另外,ReALM模型在全新领域的零样本学习场景上,其性能与GPT-4相当接近。而在处理特定领域的查询时,由于经过用户请求的微调,ReALM模型比GPT-4表现得更加精准。

比如,对于要求调整亮度这样的用户请求,GPT-4仅将该请求关联到设置,而忽略了背景中存在的智能家居设备也是相关实体,而ReALM因为接受了领域特有数据的训练,能够更好地理解并正确解析此类特定领域内的指代问题。

“我们证明了ReaLM超越了以往的方法,并且尽管参数数量远少于当前最先进的LLM——GPT-4,即使在纯粹基于文本领域处理屏幕内引用时,ReaLM也能达到与其相当的表现水平。此外,对于特定领域的用户话语,ReaLM的表现还优于GPT-4,因此,ReaLM可以说是在保证性能不打折扣的同时,适用于开发面向实际应用环境、可在设备本地高效运行的指代解析系统的首选方案。”    

此外,研究人员还表示,在资源有限、需要低延迟响应或者涉及多阶段集成如API调用等实际应用场景中,单一的大型端到端模型往往并不适用。

在这种背景下,模块化设计的ReALM系统更具有优势,允许在不影响整体架构的情况下,轻松替换和升级原有的指代解析模块,同时提供更好的优化潜力和可解释性。

面向未来,研究方向则指向了更为复杂的方法,比如将屏幕区域划分为网格并以文本形式编码空间相对位置,虽然颇具挑战性,但这是一种有前景的探索途径。

五、写在最后

在人工智能领域,苹果虽然一直比较谨慎,但也在默默投入。无论是多模态大模型MM1,还是AI驱动的动画生成工具Keyframer,再到如今的ReALM,苹果的研究团队一直在持续实现着技术突破。

围观谷歌、微软、亚马逊等竞争对手,纷纷在搜索、云服务、办公软件上加码AI,秀了一波又一波肌肉。苹果显然正努力不落人后。随着生成式AI落地成果不断涌现,苹果更是加快了追赶的步伐。早有知情人士透露,在6月举办的全球开发者大会上,苹果将聚焦于人工智能领域,新的人工智能战略极有可能成为iOS 18升级的核心内容。届时,说不定会给诸君带来惊喜。

参考链接:

https://apple.slashdot.org/story/24/04/01/1959205/apple-ai-researchers-boast-useful-on-device-model-that-substantially-outperforms-gpt-4

https://arxiv.org/pdf/2403.20329.pdf

以上是让Siri不再智障!苹果定义新的端侧模型,'大大优于GPT-4,摆脱文本,可视化模拟屏幕信息,最小参数模型相较基线系统仍提升5%的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

Bootstrap图片居中需要用到flexbox吗 Bootstrap图片居中需要用到flexbox吗 Apr 07, 2025 am 09:06 AM

Bootstrap 图片居中方法多样,不一定要用 Flexbox。如果仅需水平居中,text-center 类即可;若需垂直或多元素居中,Flexbox 或 Grid 更合适。Flexbox 兼容性较差且可能增加复杂度,Grid 则更强大且学习成本较高。选择方法时应权衡利弊,并根据需求和偏好选择最适合的方法。

c上标3下标5怎么算 c上标3下标5算法教程 c上标3下标5怎么算 c上标3下标5算法教程 Apr 03, 2025 pm 10:33 PM

C35 的计算本质上是组合数学,代表从 5 个元素中选择 3 个的组合数,其计算公式为 C53 = 5! / (3! * 2!),可通过循环避免直接计算阶乘以提高效率和避免溢出。另外,理解组合的本质和掌握高效的计算方法对于解决概率统计、密码学、算法设计等领域的许多问题至关重要。

十大加密货币交易平台 币圈交易平台app排行前十名推荐 十大加密货币交易平台 币圈交易平台app排行前十名推荐 Mar 17, 2025 pm 06:03 PM

十大加密货币交易平台包括:1. OKX,2. Binance,3. Gate.io,4. Kraken,5. Huobi,6. Coinbase,7. KuCoin,8. Crypto.com,9. Bitfinex,10. Gemini。选择平台时应考虑安全性、流动性、手续费、币种选择、用户界面和客户支持。

十大虚拟币交易平台2025 加密货币交易app排名前十 十大虚拟币交易平台2025 加密货币交易app排名前十 Mar 17, 2025 pm 05:54 PM

十大虚拟币交易平台2025:1. OKX,2. Binance,3. Gate.io,4. Kraken,5. Huobi,6. Coinbase,7. KuCoin,8. Crypto.com,9. Bitfinex,10. Gemini。选择平台时应考虑安全性、流动性、手续费、币种选择、用户界面和客户支持。

安全靠谱的数字货币平台有哪些 安全靠谱的数字货币平台有哪些 Mar 17, 2025 pm 05:42 PM

安全靠谱的数字货币平台:1. OKX,2. Binance,3. Gate.io,4. Kraken,5. Huobi,6. Coinbase,7. KuCoin,8. Crypto.com,9. Bitfinex,10. Gemini。选择平台时应考虑安全性、流动性、手续费、币种选择、用户界面和客户支持。

distinct函数用法 distance函数c  用法教程 distinct函数用法 distance函数c 用法教程 Apr 03, 2025 pm 10:27 PM

std::unique 去除容器中的相邻重复元素,并将它们移到末尾,返回指向第一个重复元素的迭代器。std::distance 计算两个迭代器之间的距离,即它们指向的元素个数。这两个函数对于优化代码和提升效率很有用,但也需要注意一些陷阱,例如:std::unique 只处理相邻的重复元素。std::distance 在处理非随机访问迭代器时效率较低。通过掌握这些特性和最佳实践,你可以充分发挥这两个函数的威力。

网页批注如何实现Y轴位置的自适应布局? 网页批注如何实现Y轴位置的自适应布局? Apr 04, 2025 pm 11:30 PM

网页批注功能的Y轴位置自适应算法本文将探讨如何实现类似Word文档的批注功能,特别是如何处理批注之间的间�...

安全的虚拟币软件app推荐 十大数字货币交易app排行榜2025 安全的虚拟币软件app推荐 十大数字货币交易app排行榜2025 Mar 17, 2025 pm 05:48 PM

安全的虚拟币软件app推荐:1. OKX,2. Binance,3. Gate.io,4. Kraken,5. Huobi,6. Coinbase,7. KuCoin,8. Crypto.com,9. Bitfinex,10. Gemini。选择平台时应考虑安全性、流动性、手续费、币种选择、用户界面和客户支持。

See all articles