用少于256KB内存实现边缘训练，开销不到PyTorch千分之一-人工智能-PHP中文网

背景

方法与结果

结论

首页

科技周边

人工智能

用少于256KB内存实现边缘训练，开销不到PyTorch千分之一

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 08, 2023 pm 01:11 PM

内存训练

说到神经网络训练，大家的第一印象都是 GPU + 服务器 + 云平台。传统的训练由于其巨大的内存开销，往往是云端进行训练而边缘平台仅负责推理。然而，这样的设计使得 AI 模型很难适应新的数据：毕竟现实世界是一个动态的，变化的，发展的场景，一次训练怎么能覆盖所有场景呢？

为了使得模型能够不断的适应新数据，我们能否在边缘进行训练（on-device training），使设备不断的自我学习？在这项工作中，我们仅用了不到 256KB 内存就实现了设备上的训练，开销不到 PyTorch 的 1/1000，同时在视觉唤醒词任务上 (VWW) 达到了云端训练的准确率。该项技术使得模型能够适应新传感器数据。用户在享受定制的服务的同时而无需将数据上传到云端，从而保护隐私。

网站：https://tinytraining.mit.edu/
论文：https://arxiv.org/abs/2206.15472
Demo: https://www.bilibili.com/video/BV1qv4y1d7MV
代码: https://github.com/mit-han-lab/tiny-training

背景

设备上的训练（On-device Training）允许预训练的模型在部署后适应新环境。通过在移动端进行本地训练和适应，模型可以不断改进其结果并为用户定制模型。例如，微调语言模型让其能从输入历史中学习；调整视觉模型使得智能相机能够不断识别新的物体。通过让训练更接近终端而不是云端，我们能有效在提升模型质量的同时保护用户隐私，尤其是在处理医疗数据、输入历史记录这类隐私信息时。

然而，在小型的 IoT 设备进行训练与云训练有着本质的区别，非常具有挑战性，首先， AIoT 设备（MCU）的 SRAM 大小通常有限（256KB）。这种级别的内存做推理都十分勉强，更不用说训练了。再者，现有的低成本高效转移学习算法，例如只训练最后一层分类器（last FC），只进行学习 bias 项，往往准确率都不尽如人意，无法用于实践，更不用说现有的深度学习框架无法将这些算法的理论数字转化为实测的节省。最后，现代深度训练框架（PyTorch，TensorFlow）通常是为云服务器设计的，即便把 batch-size 设置为 1，训练小模型 (MobileNetV2-w0.35) 也需要大量的内存占用。因此，我们需要协同设计算法和系统，以实现智能终端设备上的训练。

方法与结果

我们发现设备上训练有两个独特的挑战：（1）模型在边缘设备上是量化的。一个真正的量化图（如下图所示）由于低精度的张量和缺乏批量归一化层而难以优化；（2）小型硬件的有限硬件资源（内存和计算）不允许完全反向传播，其内存用量很容易超过微控制器的 SRAM 的限制（一个数量级以上），但如果只更新最后一层，最后的精度又难免差强人意。

为了应对优化的困难，我们提出了 Quantization-Aware Scaling (QAS) 来自动缩放不同位精度的张量的梯度（如下左图所示）。QAS 在不需要额外超参数的同时，可以自动匹配梯度和参数 scale 并稳定训练。在 8 个数据集上，QAS 均可以达到与浮点训练一致的性能（如下右图）。

为了减少反向传播所需要的内存占用，我们提出了 Sparse Update，以跳过不太重要的层和子张的梯度计算。我们开发了一种基于贡献分析的自动方法来寻找最佳更新方案。对比以往的 bias-only, last-k layers update, 我们搜索到的 sparse update 方案拥有 4.5 倍到 7.5 倍的内存节省，在 8 个下游数据集上的平均精度甚至更高。

为了将算法中的理论减少转换为实际数值，我们设计了 Tiny Training Engine（TTE）：它将自动微分的工作转到编译时，并使用 codegen 来减少运行时开销。它还支持 graph pruning 和 reordering，以实现真正的节省与加速。与 Full Update 相比，Sparse Update 有效地减少了 7-9 倍的峰值内存，并且可以通过 reorder 进一步提升至 20-21 倍的总内存节省。相比于 TF-Lite，TTE 里经过优化的内核和 sparse update 使整体训练速度提高了 23-25 倍。

结论

本文中，我们提出了第一个在单片机上实现训练的解决方案（仅用 256KB 内存和 1MB 闪存）。我们的算法系统协同设计（System-Algorithm Co-design）大大减少了训练所需内存（1000 倍 vs PyTorch）和训练耗时（20 倍 vs TF-Lite），并在下游任务上达到较高的准确率。Tiny Training 可以赋能许多有趣的应用，例如手机可以根据用户的邮件 / 输入历史来定制语言模型，智能相机可以不断地识别新的面孔 / 物体，一些无法联网的 AI 场景也能持续学习（例如农业，海洋，工业流水线）。通过我们的工作，小型终端设备不仅可以进行推理，还可以进行训练。在这过程中个人数据永远不会上传到云端，从而没有隐私风险，同时 AI 模型也可以不断自我学习，以适应一个动态变化的世界！

以上是用少于256KB内存实现边缘训练，开销不到PyTorch千分之一的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7338

Java教程

1627

CakePHP 教程

1352

Laravel 教程

1265

PHP教程

1210

显示更多

Related knowledge

大内存优化,电脑升级16g/32g内存速度没什么变化怎么办？ Jun 18, 2024 pm 06:51 PM

对于机械硬盘、或SATA固态硬盘，软件运行速度的提升会有感觉，如果是NVME硬盘，可能感觉不到。一，注册表导入桌面新建一个文本文档，复制粘贴如下内容，另存为1.reg，然后右键合并，并重启电脑。WindowsRegistryEditorVersion5.00[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\SessionManager\MemoryManagement]"DisablePagingExecutive"=d

开源！超越ZoeDepth！ DepthFM：快速且精确的单目深度估计！ Apr 03, 2024 pm 12:04 PM

0.这篇文章干了啥？提出了DepthFM：一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外，DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高，可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题：DepthFM:FastMonocularDepthEstimationwithFlowMatching作者：MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

你好，电动Atlas！波士顿动力机器人复活，180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas，正式进入电动机器人时代！昨天，液压Atlas刚刚「含泪」退出历史舞台，今天波士顿动力就宣布：电动Atlas上岗。看来，在商用人形机器人领域，波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后，短短十几小时内，就已经有一百多万观看。旧人离去，新角色登场，这是历史的必然。毫无疑问，今年是人形机器人的爆发年。网友锐评：机器人的进步，让今年看起来像人类的开幕式动作、自由度远超人类，但这真不是恐怖片？视频一开始，Atlas平静地躺在地上，看起来应该是仰面朝天。接下来，让人惊掉下巴

三星宣布完成 16 层混合键合堆叠工艺技术验证，有望在 HBM4 内存大面积应用 Apr 07, 2024 pm 09:19 PM

报道称，三星电子的高管DaeWooKim表示，在2024年韩国微电子和封装学会年会上，三星电子将完成采用16层混合键合HBM内存技术的验证。据悉，这项技术已通过技术验证。报道还称，此次技术验证将为未来若干年内的内存市场发展奠定基础。DaeWooKim表示，三星电子成功制造了基于混合键合技术的16层堆叠HBM3内存，该内存样品工作正常，未来16层堆叠混合键合技术将用于HBM4内存量产。▲图源TheElec，下同相较现有键合工艺，混合键合无需在DRAM内存层间添加凸块，而是将上下两层直接铜对铜连接，

超级智能体生命力觉醒！可自我更新的AI来了，妈妈再也不用担心数据瓶颈难题 Apr 29, 2024 pm 06:55 PM

哭死啊，全球狂炼大模型，一互联网的数据不够用，根本不够用。训练模型搞得跟《饥饿游戏》似的，全球AI研究者，都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中，这一问题尤为突出。一筹莫展之际，来自人大系的初创团队，用自家的新模型，率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下，两侧都能生成高质量、多模态的新数据，对模型本身进行数据反哺。模型是啥？中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁？智子引擎。由人大高瓴人工智能学院博士生高一钊创立，高

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模 Jun 11, 2024 am 09:51 AM

什么？疯狂动物城被国产AI搬进现实了？与视频一同曝光的，是一款名为「可灵」全新国产视频生成大模型。Sora利用了相似的技术路线，结合多项自研技术创新，生产的视频不仅运动幅度大且合理，还能模拟物理世界特性，具备强大的概念组合能力和想象力。数据上看，可灵支持生成长达2分钟的30fps的超长视频，分辨率高达1080p，且支持多种宽高比。另外再划个重点，可灵不是实验室放出的Demo或者视频结果演示，而是短视频领域头部玩家快手推出的产品级应用。而且主打一个务实，不开空头支票、发布即上线，可灵大模型已在快影

美国空军高调展示首个AI战斗机！部长亲自试驾全程未干预，10万行代码试飞21次 May 07, 2024 pm 05:00 PM

最近，军事圈被这个消息刷屏了：美军的战斗机，已经能由AI完成全自动空战了。是的，就在最近，美军的AI战斗机首次公开，揭开了神秘面纱。这架战斗机的全名是可变稳定性飞行模拟器测试飞机（VISTA），由美空军部长亲自搭乘，模拟了一对一的空战。5月2日，美国空军部长FrankKendall在Edwards空军基地驾驶X-62AVISTA升空注意，在一小时的飞行中，所有飞行动作都由AI自主完成！Kendall表示——在过去的几十年中，我们一直在思考自主空对空作战的无限潜力，但它始终显得遥不可及。然而如今，

消息称三星电子、SK 海力士堆叠式移动内存 2026 年后商业化 Sep 03, 2024 pm 02:15 PM

本站9月3日消息，韩媒etnews当地时间昨日报道称，三星电子和SK海力士的“类HBM式”堆叠结构移动内存产品将在2026年后实现商业化。消息人士表示这两大韩国内存巨头将堆叠式移动内存视为未来重要收入来源，计划将“类HBM内存”扩展到智能手机、平板电脑和笔记本电脑中，为端侧AI提供动力。综合本站此前报道，三星电子的此类产品叫做LPWideI/O内存，SK海力士则将这方面技术称为VFO。两家企业使用了大致相同的技术路线，即将扇出封装和垂直通道结合在一起。三星电子的LPWideI/O内存位宽达512

See all articles

用少于256KB内存实现边缘训练，开销不到PyTorch千分之一

背景

方法与结果

结论

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题