目录
物理深度学习
所提出方法的可扩展性和局限性
首页 科技周边 人工智能 具有生物启发训练方法的物理深度学习:物理硬件的无梯度方法

具有生物启发训练方法的物理深度学习:物理硬件的无梯度方法

Apr 12, 2023 am 09:04 AM
神经网络 训练

对人工智能不断增长的需求推动了对基于物理设备的非常规计算的研究。虽然此类计算设备模仿了大脑启发的模拟信息处理,但学习过程仍然依赖于为数字处理优化的方法,例如反向传播,这不适合物理实现。

在这里,来自日本 NTT 设备技术实验室(NTT Device Technology Labs)和东京大学的研究团队通过扩展一种称为直接反馈对齐(DFA)的受生物学启发的训练算法来展示物理深度学习。与原始算法不同,所提出的方法基于具有替代非线性激活的随机投影。因此,可以在不了解物理系统及其梯度的情况下训练物理神经网络。此外,可以在可扩展的物理硬件上模拟此训练的计算。

研究人员使用称为深储层计算机的光电递归神经网络演示了概念验证。证实了在基准测试中具有竞争性能的加速计算的潜力。研究结果为神经形态计算的训练和加速提供了实用的解决方案。

该研究以「Physical deep learning with biologically inspired training method: gradient-free approach for physical hardware」为题,于 2022 年 12 月 26 日发布在《Nature Communications》上。

物理深度学习

基于人工神经网络 (ANN) 的机器学习在图像处理、语音识别、游戏等方面的破纪录表现成功展示了其卓越的能力。尽管这些算法类似于人脑的工作方式,但它们基本上是使用传统的冯诺依曼计算硬件在软件层面上实现的。然而,这种基于数字计算的人工神经网络面临着能耗和处理速度方面的问题。这些问题促使使用替代物理平台实现人工神经网络。

有趣的是,即使是被动物理动力学也可以用作随机连接的 ANN 中的计算资源。该框架被称为物理储层计算机(RC)或极限学习机(ELM),其易于实现极大地扩展了可实现材料的选择及其应用范围。这种物理实现的神经网络 (PNN) 能够将特定任务的计算负载外包给物理系统。

构建更深层次的物理网络是进一步提高性能的一个有前途的方向,因为它们可以以指数方式扩展网络表达能力。这激发了使用各种物理平台的深度 PNN 的提议。他们的训练基本上依赖于一种称为反向传播(BP)的方法,该方法在基于软件的 ANN 中取得了巨大成功。但是,BP 在以下方面不适用于 PNN。首先,BP 操作的物理实现仍然复杂且不可扩展。其次,BP 需要对整个物理系统有准确的了解。此外,当我们将 BP 应用于 RC 时,这些要求破坏了物理 RC 的独特特性,即我们需要准确地了解和模拟黑盒物理随机网络。

与 PNN 中的 BP 一样,BP 在生物神经网络中的操作难度也被脑科学界指出;BP 在大脑中的合理性一直受到质疑。这些考虑促使开发了生物学上合理的训练算法。

近期一个有前途的方向是直接反馈对齐 (DFA)。在该算法中,采用最终输出层误差信号的固定随机线性变换来代替反向误差信号。因此,这种方法不需要误差信号的逐层传播或权重的知识。此外,据报道,DFA 可扩展到现代大型网络模型。这种以生物学为动机的训练的成功表明,有一种比 BP 更合适的方法来训练 PNN。然而,DFA 仍然需要非线性函数 f(x) 的导数 f'(a) 进行训练,这阻碍了 DFA 方法在物理系统中的应用。因此,DFA 的更大幅度扩展对于 PNN 应用很重要。

DFA 及其对物理深度学习的增强

在此,研究人员通过增强 DFA 算法来演示物理深度学习。在增强 DFA 中,用任意非线性 g(a) 替换标准 DFA 中物理非线性激活 f'(a) 的微分,并表明性能对 g(a) 的选择具有稳健性。由于这种增强,不再需要准确地模拟 f'(a)。由于所提出的方法基于具有任意非线性激活的并行随机投影,可以按照与物理 ELM 或 RC 概念相同的方式在物理系统上执行训练计算。这使得推理和训练的物理加速成为可能。

图片

图:PNN 的概念及其通过 BP 和增强 DFA 进行的训练。(来源:论文)

为了演示概念验证,研究人员构建了一个 FPGA 辅助的光电深度物理 RC 作为工作台。尽管 benchtop 简单易用,仅需软件级更新即可应用于各种物理平台,但实现了可与大型复杂的最先进系统相媲美的性能。

图片

图:具有增强 DFA 训练的光电深度 RC 系统。(来源:论文)

此外,还比较了整个处理时间,包括数字处理的时间,发现了训练过程物理加速的可能性。

图片

图:光电深 RC 系统的性能。(来源:论文)

RC 工作台的处理时间预算细分如下:FPGA 处理(数据传输、内存分配和 DAC/ADC)约为 92%;约 8% 的数字处理用于预处理/后处理。因此,在当前阶段,处理时间主要由 FPGA 和 CPU 上的数字计算决定。这是因为光电工作台仅使用一条非线性延迟线实现了一个储层;这些限制可以通过在未来使用完全并行和全光计算硬件来放宽。可以看出,CPU 和 GPU 上的计算针对节点数显示了 O(N^2) 趋势,而 benchtop 显示了 O(N),这是由于数据传输瓶颈造成的。

对于 BP 和增强 DFA 算法,CPU 之外的物理加速度分别在 N ~5,000 和 ~12,000 处被观察到。然而,就计算速度而言,由于 GPU 的内存限制,尚未直接观察到针对 GPU 的有效性。通过推断 GPU 趋势,可以在 N ~80,000 时观察到超过 GPU 的物理加速。据我们所知,这是对整个训练过程的首次比较,也是首次使用 PNN 进行体能训练加速演示。

为了研究所提方法对其他系统的适用性,使用广泛研究的光子神经网络进行了数值模拟。此外,实验证明的基于延迟的 RC 被证明非常适合各种物理系统。关于物理系统的可扩展性,构建深度网络的主要问题是其固有噪声。通过数值模拟研究了噪声的影响。发现该系统对噪声具有稳健性。

所提出方法的可扩展性和局限性

在这里,考虑了基于 DFA 的方法对更现代模型的可扩展性。实际深度学习最常用的模型之一是深度连接的卷积神经网络 (CNN)。然而,据报道,DFA 算法很难应用于标准 CNN。因此,所提出的方法可能难以以简单的方式应用于卷积 PNN。

考虑到模拟硬件实现,对 SNN 的适用性也是一个重要主题。已经报道了基于 DFA 的训练对 SNN 的适用性,这意味着该研究所提出的增强 DFA 可以使训练更容易。

虽然基于 DFA 的算法有可能扩展到比简单的 MLP 或 RC 更实用的模型,但将基于 DFA 的训练应用于此类网络的有效性仍然未知。在这里,作为这项研究的额外工作,研究了基于 DFA 的训练(DFA 本身和增强的 DFA)对上述模型(MLP-Mixer、Vision transformer (ViT)、ResNet 和 SNN)的可扩展性。研究发现基于 DFA 的训练即使对于探索的实用模型也是有效的。虽然基于 DFA 的训练可达到的准确度基本上低于 BP 训练,但对模型和/或算法进行一些调整可以提高性能。值得注意的是,对于所有探索的实验设置,DFA 和增强 DFA 的准确性都具有可比性,这表明 DFA 本身的进一步改进将直接有助于改进增强 DFA。结果表明,该方法可扩展到未来对 PNN 的实用模型的实现,而不仅仅是简单的 MLP 或 RC 模型。

表 1:增强 DFA 对实际网络模型的适用性。(来源:论文)

图片

物理硬件中的 BP 与 DFA

一般来说,BP 在物理硬件上实现起来非常困难,因为它需要计算图中的所有信息。因此,物理硬件的训练一直是通过计算模拟来完成的,这会产生大量的计算成本。此外,模型与实际系统之间的差异导致精度下降。相反,增强的 DFA 不需要关于物理系统的准确先验知识。因此,在深度 PNN 中,基于 DFA 的方法在准确性方面比基于 BP 的方法更有效。此外,可以使用物理硬件加速计算。

此外,DFA 训练不需要逐层计算的顺序误差传播,这意味着每一层的训练可以并行执行。因此,更优化和并行的 DFA 实现可能会带来更显着的加速。这些独特的特征表明基于 DFA 的方法的有效性,特别是对于基于物理硬件的神经网络。另一方面,增强 DFA 训练的模型的准确性仍然不如 BP 训练的模型。进一步提高基于 DFA 的训练的准确性仍然是未来的工作。

进一步的物理加速

物理实现证实了具有大节点(large-node)数的 RC 循环处理的加速。但是,它的优势仍然有限,需要进一步改进。当前原型的处理时间表示为 FPGA 的数据传输和内存分配。因此,将所有过程集成到 FPGA 中将大大提高性能,但会牺牲实验灵活性。此外,将来,机载光学方法将大大降低传输成本。大规模光集成和片上集成将进一步提升光计算本身的性能。

以上是具有生物启发训练方法的物理深度学习:物理硬件的无梯度方法的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! 开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! Apr 03, 2024 pm 12:04 PM

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

抛弃编码器-解码器架构,用扩散模型做边缘检测效果更好,国防科大提出DiffusionEdge 抛弃编码器-解码器架构,用扩散模型做边缘检测效果更好,国防科大提出DiffusionEdge Feb 07, 2024 pm 10:12 PM

当前的深度边缘检测网络通常采用编码器-解码器架构,其中包含上下采样模块,以更好地提取多层次的特征。然而,这种结构限制了网络输出准确且细致的边缘检测结果。针对这一问题,一篇AAAI2024上的论文给出了新的解决方案。论文题目:DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection作者:叶云帆(国防科技大学),徐凯(国防科技大学),黄雨行(国防科技大学),易任娇(国防科技大学),蔡志平(国防科技大学)论文链接:https://ar

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5 通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5 Feb 07, 2024 pm 10:15 PM

赶在春节前,通义千问大模型(Qwen)的1.5版上线了。今天上午,新版本的消息引发了AI社区关注。新版大模型包括六个型号尺寸:0.5B、1.8B、4B、7B、14B和72B。其中,最强版本的性能超越了GPT3.5和Mistral-Medium。该版本包含Base模型和Chat模型,并提供多语言支持。阿里通义千问团队表示,相关技术也已经上线到了通义千问官网和通义千问App。除此以外,今天Qwen1.5的发布还有如下一些重点:支持32K上下文长度;开放了Base+Chat模型的checkpoint;

YOLO不死!YOLOv9出炉:性能速度SOTA~ YOLO不死!YOLOv9出炉:性能速度SOTA~ Feb 26, 2024 am 11:31 AM

如今的深度学习方法专注于设计最适合的目标函数,以使模型的预测结果与实际情况最接近。同时,必须设计一个合适的架构,以便为预测获取足够的信息。现有方法忽略了一个事实,即当输入数据经过逐层特征提取和空间变换时,大量信息将会丢失。本文将深入探讨数据通过深度网络传输时的重要问题,即信息瓶颈和可逆函数。基于此提出了可编程梯度信息(PGI)的概念,以应对深度网络实现多目标所需的各种变化。PGI可以为目标任务提供完整的输入信息,以计算目标函数,从而获得可靠的梯度信息以更新网络权重。此外设计了一种新的轻量级网络架

你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模 快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模 Jun 11, 2024 am 09:51 AM

什么?疯狂动物城被国产AI搬进现实了?与视频一同曝光的,是一款名为「可灵」全新国产视频生成大模型。Sora利用了相似的技术路线,结合多项自研技术创新,生产的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。另外再划个重点,可灵不是实验室放出的Demo或者视频结果演示,而是短视频领域头部玩家快手推出的产品级应用。而且主打一个务实,不开空头支票、发布即上线,可灵大模型已在快影

超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题 超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题 Apr 29, 2024 pm 06:55 PM

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高

美国空军高调展示首个AI战斗机!部长亲自试驾全程未干预,10万行代码试飞21次 美国空军高调展示首个AI战斗机!部长亲自试驾全程未干预,10万行代码试飞21次 May 07, 2024 pm 05:00 PM

最近,军事圈被这个消息刷屏了:美军的战斗机,已经能由AI完成全自动空战了。是的,就在最近,美军的AI战斗机首次公开,揭开了神秘面纱。这架战斗机的全名是可变稳定性飞行模拟器测试飞机(VISTA),由美空军部长亲自搭乘,模拟了一对一的空战。5月2日,美国空军部长FrankKendall在Edwards空军基地驾驶X-62AVISTA升空注意,在一小时的飞行中,所有飞行动作都由AI自主完成!Kendall表示——在过去的几十年中,我们一直在思考自主空对空作战的无限潜力,但它始终显得遥不可及。然而如今,

See all articles