首页 科技周边 人工智能 揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化

揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化

Aug 01, 2024 am 03:26 AM
产业

在 2024 年全球开发者大会上,苹果重磅推出了 Apple Intelligence,这是一个全新的个性化智能系统, 可以提供实用的智能服务,覆盖 iPhone、iPad 和 Mac,并深度集成在 iOS 18、iPadOS 18 和 macOS Sequoia 中。

库克曾经表示,Apple Intelligence 是苹果创新的新篇章,将改变用户使用产品的方式。他强调,苹果独特的方法结合了生成式人工智能和用户的个人信息,能提供真正有用的智能服务。此外,Apple Intelligence 能够以完全私密和安全的方式访问信息,帮助用户完成对他们最重要的事情。这是苹果独有的 AI 体验。

如今,距离 Apple Intelligence 官宣一个多月过去了,这项技术终于落地智能设备,相关技术文档也终于放出。

在刚刚过去的一天,拥有 iPhone 15 Pro 或 iPhone 15 Pro Max 的用户可以下载 iOS 18.1 开发测试版,并可以体验 Apple Intelligence 的功能了。

随着这篇长达 47 页技术报告的出炉,我们可以更加深入的了解 Apple Intelligence 背后的秘密武器。

揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化

  • 报告地址:https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

报告详细介绍了其中两款模型 ——AFM-on-device,AFM 代表 Apple Foundation Model,是一个约 30 亿参数的语言模型,以及一个更大的基于服务器的语言模型 AFM-server,可以高效、准确和负责地执行专门的任务(图 1)。

这两个基础模型作为苹果更大的生成模型系列的一部分存在。

揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化

架构及训练

AFM 基础模型是基于 Transformer 架构构建的密集解码器模型,采用如下设计:

  • 共享输入 / 输出嵌入矩阵,以减少用于参数的内存使用。
  • 使用 RMSNorm 进行预归一化以提高训练稳定性。 
  • 查询 / 键归一化以提高训练稳定性。
  • 具有 8 个键值头的分组查询注意力(GQA),以减少 KV 缓存内存占用。 
  • SwiGLU 激活,以提高效率。 
  • RoPE 位置嵌入,基频(base frequency)设置为 500k,以支持长上下文。  

揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化

AFM 预训练过程在开发高性能语言模型,以支持一系列 Apple Intelligence 功能方面发挥着关键作用。研究团队注重效率和数据质量,以获得高质量的端到端用户体验。

在后训练方面,研究团队发现改进通用后训练可以提升 Apple Intelligence 所有功能的性能,因为模型在遵循指令、推理和写作方面会具有更强的能力。

为了确保这些模型功能符合苹果对保护用户隐私的承诺,以及苹果的 Responsible AI 原则,后训练工作包括一系列数据收集和生成、指令调整和对齐创新。后训练过程包含两个阶段:监督微调(SFT)和来自人类反馈的强化学习(RLHF)。研究团队提出了两种新的后训练算法:(1)带有 teacher committee(iTeC)的拒绝采样微调算法,以及(2)一种用于强化学习迭代的 RLHF 算法,带有镜像下降策略优化(mirror descent policy optimization)和留一法优势估计器(leave-one-out advantage estimator)(MDLOO),使得模型质量显著提高。

Apple Intelligence特性

基础模型是为 Apple Intelligence 专门设计的,这是一个支持 iPhone、iPad 和 Mac 的个人智能系统。

苹果发现,针对特定任务的微调,他们可以将小模型的性能提升到一流水平,除此以外,他们还开发了一种基于运行时可交换适配器(runtime-swappable adapters)的架构,使单一基础模型能够专门用于数十个此类任务。图 2 显示了高级概述。

揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化

适配器架构

苹果使用 LoRA 适配器来针对特定任务进行模型微调。对于每项任务,研究者会调整 AFM 自注意力层中的所有线性投影矩阵以及逐点前馈网络中的全连接层。仅通过微调适配器,基础预训练模型的原始参数保持不变,可以保留模型的一般知识,同时定制适配器以支持特定任务。

量化

为了将 AFM 纳入内存预算有限的边缘设备并降低推理成本,需要考虑量化技术。先前的研究发现,与原始的 32/16 位浮点相比,经过 4 位量化的模型损失会很小。

为了在模型容量和推理性能之间实现最佳平衡,苹果开发了最先进的量化方法和利用准确率 - 恢复适配器(accuracy-recovery adapters)的框架。使得模型在每个权重平均小于 4 位的情况下,还能实现近乎无损的量化,并提供灵活的量化方案选择。

方法

经过后训练,模型被压缩和量化,得到平均低于 4 位的权重。量化模型通常表现出中等程度的质量损失。因此,苹果不会将量化后的模型直接用于功能开发,而是附加一组参数高效的 LoRA 适配器以进行质量恢复。

值得注意的是,训练准确率 - 恢复适配器具有样本效率,可以看作是训练基础模型的迷你版本。在适配器的预训练阶段,只需要大约 100 亿个 token(约占基础模型训练的 0.15%)即可完全恢复量化模型的能力。

由于应用程序适配器将从这些准确率 - 恢复适配器微调而来,因此它们不会产生任何额外的内存使用或推理成本。关于适配器大小,苹果发现适配器秩为 16 时提供了模型容量和推理性能之间的最佳权衡。

但是,为了灵活性,苹果提供了一套具有不同秩 {8、16、32} 的准确率 - 恢复适配器供应用程序团队选择。

混合精度量化

AFM 中的每个 transformer 块和每个层都存在残差连接。因此,所有层都具有同等重要性的可能性不大。根据这一直觉,苹果通过推动某些层使用 2 位量化(默认为 4 位)来进一步减少内存使用量。平均而言,AFM-on-device 可以压缩到每个权重仅约 3.5 位 (bpw),而不会造成显著的质量损失。

评估

研究团队使用常见的开源评估工具和基准来评估 AFM 预训练模型。表 2 展示了在 HELM MMLU v1.5.0 上 AFM-on-device 和 AFM-server 的结果。

揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化

这些基准测试表明,AFM 预训练模型具有强大的语言和推理能力,为后训练和特征微调提供了坚实的基础。

揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化

揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化

AFM 与开源模型(Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct)和商业模型(GPT3.5 和 GPT-4)的比较结果如下图3所示。与其他模型相比,AFM 模型更受人类评估人员的青睐。特别是,AFM-on-device 与 Phi-3-mini 相比,尽管模型规模小了 25%,但仍获得了 47.7% 的胜率,甚至优于开源强基线 Gemma-7B 和 Mistral-7B。

揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化

为了衡量模型生成响应遵循提示中指令的能力,研究团队在 IFEval 基准上评估了 AFM-on-device 和 AFM-server,结果如下图 4 所示:

揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化

如图 5 所示,AFM-server 实现了最佳的整体准确率,优于 Gemini-1.5-Pro-Preview-0514 和 GPT-4。

揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化

苹果将 AFM 与一些最出色的模型以及规模较小的开源模型进行了比较。如图 6 所示,与 Gemma-7B 和 Mistral-7B 相比,AFM-on-device 可以实现相当或更好的性能。AFM-server 的性能明显优于 DBRX-Instruct 和 GPT3.5,并且与 GPT4 相当。

揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化

图 7 比较了经过后训练的 AFM 在数学基准上的表现。结果发现,AFM-on-device 的性能明显优于 Mistral-7B 和 Gemma-7B,即使规模不到它们的一半。

揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化

下图为人类评分员评估 AFM-on-device 适配器、Phi-3-mini、Llama-3-8B 和 Gemma-7B 在摘要任务上的质量。图 8 显示 AFM-on-device-adapter 总体上优于其他模型。

揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化

负责任的AI

Apple Intelligence 的开发和设计都注重保护用户隐私。

图 9 总结了人类评分员在不同模型上给出的违规率,越低越好。AFM-on-device 和 AFM-server 都对对抗性提示具有鲁棒性,其违规率明显低于开源和商业模型。

揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化

图 10 表明,与其他模型相比,AFM 模型更受人类评分员的青睐。

揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化

以上是揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

<🎜>:泡泡胶模拟器无穷大 - 如何获取和使用皇家钥匙
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系统,解释
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆树的耳语 - 如何解锁抓钩
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1670
14
CakePHP 教程
1428
52
Laravel 教程
1329
25
PHP教程
1274
29
C# 教程
1256
24
DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者 DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者 Aug 09, 2024 pm 04:01 PM

但可能打不过公园里的老大爷?巴黎奥运会正在如火如荼地进行中,乒乓球项目备受关注。与此同时,机器人打乒乓球也取得了新突破。刚刚,DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址:https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢?大概和人类业余选手不相上下:正手反手都会:对手采用多种打法,该机器人也能招架得住:接不同旋转的发球:不过,比赛激烈程度似乎不如公园老大爷对战。对机器人来说,乒乓球运动

首配机械爪!元萝卜亮相2024世界机器人大会,发布首个走进家庭的国际象棋机器人 首配机械爪!元萝卜亮相2024世界机器人大会,发布首个走进家庭的国际象棋机器人 Aug 21, 2024 pm 07:33 PM

8月21日,2024世界机器人大会在北京隆重召开。商汤科技旗下家用机器人品牌“元萝卜SenseRobot”家族全系产品集体亮相,并最新发布元萝卜AI下棋机器人——国际象棋专业版(以下简称“元萝卜国象机器人”),成为全球首个走进家庭的国际象棋机器人。作为元萝卜的第三款下棋机器人产品,全新的国象机器人在AI和工程机械方面进行了大量专项技术升级和创新,首次在家用机器人上实现了通过机械爪拾取立体棋子,并进行人机对弈、人人对弈、记谱复盘等功能,

Claude也变懒了!网友:学会给自己放假了 Claude也变懒了!网友:学会给自己放假了 Sep 02, 2024 pm 01:56 PM

开学将至,该收心的不止有即将开启新学期的同学,可能还有AI大模型。前段时间,Reddit上挤满了吐槽Claude越来越懒的网友。「它的水平下降了很多,经常停顿,甚至输出也变得很短。在发布的第一周,它可以一次性翻译整整4页文稿,现在连半页都输出不了了!」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一个名为「对Claude彻底失望了的帖子里」,满满地

世界机器人大会上,这家承载「未来养老希望」的国产机器人被包围了 世界机器人大会上,这家承载「未来养老希望」的国产机器人被包围了 Aug 22, 2024 pm 10:35 PM

正在北京举行的世界机器人大会上,人形机器人的展示成为了现场绝对的焦点,在星尘智能的展台上,由于AI机器人助理S1在一个展区上演扬琴、武术、书法三台大戏,能文能武,吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏,让S1展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道,公司创始人来杰解释到,丝滑动作的背后,是硬件侧追求最好力控和最仿人身体指标(速度、负载等),而是在AI侧则采集人的真实动作数据,让机器人遇强则强,快速学习进化。而敏捷

ACL 2024奖项公布:华科大破译甲骨文最佳论文之一、GloVe时间检验奖 ACL 2024奖项公布:华科大破译甲骨文最佳论文之一、GloVe时间检验奖 Aug 15, 2024 pm 04:37 PM

本届ACL大会,投稿者「收获满满」。为期六天的ACL2024正在泰国曼谷举办。ACL是计算语言学和自然语言处理领域的顶级国际会议,由国际计算语言学协会组织,每年举办一次。一直以来,ACL在NLP领域的学术影响力都位列第一,它也是CCF-A类推荐会议。今年的ACL大会已是第62届,接收了400余篇NLP领域的前沿工作。昨天下午,大会公布了最佳论文等奖项。此次,最佳论文奖7篇(两篇未公开)、最佳主题论文奖1篇、杰出论文奖35篇。大会还评出了资源论文奖(ResourceAward)3篇、社会影响力奖(

李飞飞团队提出ReKep,让机器人具备空间智能,还能整合GPT-4o 李飞飞团队提出ReKep,让机器人具备空间智能,还能整合GPT-4o Sep 03, 2024 pm 05:18 PM

视觉与机器人学习的深度融合。当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时,加上最近老上头条的1X人形机器人NEO,你可能会产生一种感觉:我们似乎开始进入机器人时代了。事实上,这些丝滑动作正是先进机器人技术+精妙框架设计+多模态大模型的产物。我们知道,有用的机器人往往需要与环境进行复杂精妙的交互,而环境则可被表示成空间域和时间域上的约束。举个例子,如果要让机器人倒茶,那么机器人首先需要抓住茶壶手柄并使之保持直立,不泼洒出茶水,然后平稳移动,一直到让壶口与杯口对齐,之后以一定角度倾斜茶壶。这

分布式人工智能盛会DAI 2024征稿:Agent Day,强化学习之父Richard Sutton将出席!颜水成、Sergey Levine以及DeepMind科学家将做主旨报告 分布式人工智能盛会DAI 2024征稿:Agent Day,强化学习之父Richard Sutton将出席!颜水成、Sergey Levine以及DeepMind科学家将做主旨报告 Aug 22, 2024 pm 08:02 PM

会议简介随着科技的飞速发展,人工智能已经成为了推动社会进步的重要力量。在这个时代,我们有幸见证并参与到分布式人工智能(DistributedArtificialIntelligence,DAI)的创新与应用中。分布式人工智能是人工智能领域的重要分支,这几年引起了越来越多的关注。基于大型语言模型(LLM)的智能体(Agent)异军突起,通过结合大模型的强大语言理解和生成能力,展现出了在自然语言交互、知识推理、任务规划等方面的巨大潜力。AIAgent正在接棒大语言模型,成为当前AI圈的热点话题。Au

鸿蒙智行享界S9及全场景新品发布会,多款重磅新品齐发 鸿蒙智行享界S9及全场景新品发布会,多款重磅新品齐发 Aug 08, 2024 am 07:02 AM

今天下午,鸿蒙智行正式迎来了新品牌与新车。 8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕升激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为

See all articles