目录
太长不看版
研究背景
「脑 - 图 - 文」多模态学习
实验结果
讨论与展望
作者简介
首页 科技周边 人工智能 自动化所研发无创多模态学习模型,实现大脑信号解码与语义分析

自动化所研发无创多模态学习模型,实现大脑信号解码与语义分析

May 08, 2023 am 10:40 AM
模型 解码

无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型

  • 论文地址:https://ieeexplore.ieee.org/document/10089190 
  • 代码地址:https://github.com/ChangdeDu/BraVL
  • 数据地址:https://figshare.com/articles/dataset/BraVL/17024591

太长不看版

这项研究首次将大脑、视觉和语言知识相结合,通过多模态学习的方式,实现了从人类脑活动记录中零样本地解码视觉新类别。本文还贡献了三个「脑 - 图 - 文」三模态匹配数据集

实验结果表明了一些有趣的结论和认知洞见:1)从人类脑活动中解码新的视觉类别是可以实现的,并且精度较高;2)使用视觉和语言特征的组合的解码模型比仅使用其中之一的模型表现更好;3)视觉感知可能伴随着语言影响来表示视觉刺激的语义。这些发现不仅对人类视觉系统的理解有所启示,而且也为将来的脑机接口技术提供了新的思路。本研究的代码和数据集均已开源。

研究背景

解码人类视觉神经表征是一个具有重要科学意义的挑战,可以揭示视觉处理机制并促进脑科学与人工智能的发展。然而,目前的神经解码方法难以泛化到训练数据以外的新类别上,主要原因有两个:一是现有方法未充分利用神经数据背后的多模态语义知识,二是现有的可利用的配对(刺激 - 脑响应)训练数据很少。

研究表明,人类对视觉刺激的感知和识别受到视觉特征和人们先前经验的影响。例如当我们看到一个熟悉的物体时,我们的大脑会自然而然地检索与该物体相关的知识。如下图 1 所示,认知神经科学对双重编码理论 [9] 的研究认为,具体概念在大脑中既以视觉方式又以语言方式进行编码,其中语言作为有效的先验经验,有助于塑造由视觉生成的表征。

因此,作者认为想要更好地解码记录到的脑信号,不仅应该使用实际呈现的视觉语义特征,还应该包括与该视觉目标对象相关的更丰富的语言语义特征的组合来进行解码。

无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型

图 1. 人类大脑中的知识双重编码。当我们看到大象的图片时,会自然地在脑海中检索到大象的相关知识(如长长的鼻子、长长的牙齿、大大耳朵等)。此时,大象的概念会在大脑中以视觉和语言的形式进行编码,其中语言作为一种有效的先前经验,有助于塑造由视觉产生的表征。

如下图 2 所示,由于收集各种视觉类别的人脑活动非常昂贵,通常研究者只有非常有限的视觉类别的脑活动。然而,图像和文本数据却非常丰富,它们也可以提供额外的有用信息。本文的方法可以充分利用所有类型的数据(三模态、双模态和单模态)来提高神经解码的泛化能力

无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型

图 2. 图像刺激、引发的大脑活动以及它们相应的文本数据。我们只能为少数类别收集大脑活动数据,但是可以很容易地收集几乎所有类别的图像和 / 或文本数据。因此,对于已知类别,我们假设大脑活动、视觉图像和相应的文本描述都可用于训练,而对于新类别,仅视觉图像和文本描述可用于训练。测试数据是来自新类别的大脑活动数据。

「脑 - 图 - 文」多模态学习

如下图 3A 所示,本文方法的关键在于将每种模态学习到的分布对齐到一个共享的潜在空间中,该空间包含与新类别相关的基本多模态信息。

具体地说,作者提出了一种多模态自编码变分贝叶斯学习框架,其中使用了专家混合相乘模型(Mixture-of-Products-of-Experts,MoPoE),推断出一种潜在编码,以实现所有三种模态的联合生成。为了学习更相关的联合表示,并在脑活动数据有限的情况下提高数据效率,作者还进一步引入了模态内和模态间的互信息正则化项。此外,BraVL 模型可以在各种半监督学习场景下进行训练,以纳入额外的大规模图像类别的视觉和文本特征。

在图 3B 中,作者从新类别的视觉和文本特征的潜在表示中训练 SVM 分类器。需要注意的是,在这一步中编码器 E_v 和 E_t 被冻结,只有 SVM 分类器(灰色模块)会被优化。

在应用中,如图 3C 所示,本文方法的输入仅为新类别脑信号,不需要其他数据,因此可以轻松应用于大多数神经解码场景。SVM 分类器之所以能够从(B)推广到(C),是因为这三种模态的潜在表示已经在 A 中对齐。

无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型

图 3 本文提出的 “脑 - 图 - 文” 三模态联合学习框架,简称 BraVL。

此外,脑信号会因试次(trial)的不同而发生变化,即使是相同的视觉刺激也是如此。为了提高神经解码的稳定性,作者使用了稳定性选择方法来处理 fMRI 数据。所有体素的稳定性分数如下图 4 所示,作者选取稳定性最好的前 15% 体素参与神经解码过程。这种操作可以有效地降低 fMRI 数据的维度,并抑制噪声体素引起的干扰,而不会严重影响脑特征的判别能力。

无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型

图 4. 大脑视觉皮层的体素活动稳定性分数映射图。

现有的神经编解码数据集往往只有图像刺激和脑响应。为了获取视觉概念对应的语言描述,作者采用了一种半自动的维基百科文章抽取方法

具体来说,作者首先创建 ImageNet 类与其对应的维基百科页面的自动匹配,匹配是基于 ImageNet 类和维基百科标题的同义词集单词之间的相似性,以及它们的父类别。如下图 5 所示,遗憾的是,这种匹配偶尔会产生假阳性,因为名称相似的类可能表示非常不同的概念。在构建三模态数据集时,为了确保视觉特征和语言特征之间的高质量匹配,作者手动删除了不匹配的文章。

无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型

图 5. 半自动视觉概念描述获取

实验结果

作者在多个「脑 - 图 - 文」三模态匹配数据集上进行了广泛的零样本神经解码实验,实验结果如下表所示。可以看到,使用视觉和文本特征组合 (V&T) 的模型比单独使用它们中的任何一种的模型表现得要好得多。值得注意的是,基于 V&T 特征的 BraVL 在两个数据集上的平均 top-5 准确率都有显著提高。这些结果表明,尽管呈现给被试的刺激只包含视觉信息,但可以想象,被试会下意识地调用适当的语言表征,从而影响视觉处理。

对于每个视觉概念类别,作者还展示了加入文本特征后的神经解码准确率增益,如下图 6 所示。可以看到,对于大多数测试类,文本特征的加入都有积极的影响,平均 Top-1 解码精度提高了约 6%。

无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型

图 6. 加入文本特征后的神经解码准确率增益

除了神经解码分析,作者还分析了文本特征在体素级神经编码方面的贡献 (基于视觉或文本特征预测相应的脑体素活动),结果如图 7 所示。可见,对于大多数高级视觉皮层 (HVC,如 FFA, LOC 和 IT),在视觉特征的基础上融合文本特征可以提高大脑活动的预测精度,而对于大多数低级视觉皮层 (LVC,如 V1, V2 和 V3),融合文本特征是没有好处的,甚至是有害的。

从认知神经科学的角度来看,我们的结果是合理的,因为一般认为 HVC 负责处理物体的类别信息、运动信息等更高层次的语义信息,而 LVC 负责处理方向、轮廓等底层信息。此外,最近的一项神经科学研究发现,视觉和语言语义表示在人类视觉皮层的边界上对齐 (即「语义对齐假说」)[10],作者的实验结果也支持这一假说

无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型

图 7. 将文本特征贡献投影到视觉皮层

更多实验结果请参见原文。

总体上,本文得出了一些有趣的结论和认知洞见:1)从人类脑活动中解码新的视觉类别是可以实现的,并且精度较高;2)使用视觉和语言特征组合的解码模型比单独使用两者中的任何一种的解码模型的性能要好得多;3)视觉感知可能伴随着语言影响来表示视觉刺激的语义;4) 使用自然语言作为概念描述比使用类名具有更高的神经解码性能;5) 单模态和双模态的额外数据均能显著提高解码精度。

讨论与展望

论文第一作者、中科院自动化所特别研究助理杜长德表示:「此工作证实了从大脑活动、视觉图像和文本描述中提取的特征对于解码神经信号是有效的。然而,提取的视觉特征可能无法准确反映人类视觉处理的所有阶段,更好的特征集将有助于这些任务的完成。例如,可以使用更大的预训练语言模型(如 GPT-3),来提取更具有零样本泛化能力的文本特征。此外,尽管维基百科文章包含丰富的视觉信息,但这些信息很容易被大量的非视觉句子所掩盖。通过视觉句子提取或者使用 ChatGPT 和 GPT-4 等模型收集更准确和丰富的视觉描述可以解决这个问题。最后,与相关研究相比,虽然本研究使用了相对较多的三模态数据,但更大更多样化的数据集会更有益。这些方面我们留待未来的研究。」

论文通讯作者、中科院自动化所何晖光研究员指出:「本文提出的方法有三个潜在的应用:1)作为一种神经语义解码工具,此方法将在新型读取人脑语义信息的神经假肢设备的开发中发挥重要作用。虽然这种应用还不成熟,但本文的方法为其提供了技术基础。2)通过跨模态推断脑活动,本文方法还可以用作神经编码工具,用于研究视觉和语言特征如何在人类大脑皮层上表达,揭示哪些脑区具有多模态属性(即对视觉和语言特征敏感)。3)AI 模型内部表征的神经可解码性可以被视为该模型的类脑水平指标。因此,本文的方法也可以用作类脑特性评估工具,测试哪个模型的(视觉或语言)表征更接近于人类脑活动,从而激励研究人员设计更类脑的计算模型。」

神经信息编解码是脑机接口领域的核心问题,也是探索人脑复杂功能背后的原理从而促进类脑智能发展的有效途径。自动化所神经计算与脑机交互研究团队已在该领域持续深耕多年,做出了一系列研究工作,发表在 TPAMI 2023、TMI2023、TNNLS 2022/2019、TMM 2021、Info. Fusion 2021, AAAI 2020 等。前期工作被 MIT Technology Review 头条报道,并获得 ICME 2019 Best Paper Runner-up Award。 

该研究得到了科技创新 2030—“新一代人工智能” 重大项目、基金委项目、自动化所 2035 项目以及中国人工智能学会 - 华为 MindSpore 学术奖励基金及智能基座等项目的支持。

作者简介

第一作者:杜长德,中科院自动化所特别研究助理,从事脑认知与人工智能方面的研究,在视觉神经信息编解码、多模态神经计算等方面发表论文 40 余篇,包括 TPAMI/TNNLS/AAAI/KDD/ACMMM 等。曾获得 2019 年 IEEE ICME Best Paper Runner-up Award、2021 年 AI 华人新星百强。先后承担科技部、基金委、中科院的多项科研任务,研究成果被 MIT Technology Review 头条报道。

无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型

个人主页:https://changdedu.github.io/ 

通讯作者:何晖光,中科院自动化所研究员,博导,中国科学院大学岗位教授,上海科技大学特聘教授,中科院青促会优秀会员,建国七十周年纪念章获得者。先后承担 7 项国家自然基金(含基金重点和国际合作重点)、2 项 863、国家重点研究计划课题等项目。曾获得国家科技进步二等奖两项(分别排名第二、第三)、北京市科技进步奖两项、教育部科技进步一等奖、中科院首届优秀博士论文奖、北京市科技新星、中科院 “卢嘉锡青年人才奖”、福建省 “闽江学者” 讲座教授。其研究领域为人工智能、脑 - 机接口、医学影像分析等。近五年来,在 IEEE TPAMI/TNNLS、ICML 等期刊和会议上发表文章 80 余篇。他是 IEEEE TCDS、《自动化学报》等期刊编委,CCF 杰出会员,CSIG 杰出会员。

无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型


以上是自动化所研发无创多模态学习模型,实现大脑信号解码与语义分析的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一 全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI颠覆数学研究!菲尔兹奖得主、华裔数学家领衔11篇顶刊论文|陶哲轩转赞 AI颠覆数学研究!菲尔兹奖得主、华裔数学家领衔11篇顶刊论文|陶哲轩转赞 Apr 09, 2024 am 11:52 AM

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

替代MLP的KAN,被开源项目扩展到卷积了 替代MLP的KAN,被开源项目扩展到卷积了 Jun 01, 2024 pm 10:03 PM

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择 谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

时间序列预测+NLP大模型新作:为时序预测自动生成隐式Prompt 时间序列预测+NLP大模型新作:为时序预测自动生成隐式Prompt Mar 18, 2024 am 09:20 AM

今天我想分享一个最新的研究工作,这项研究来自康涅狄格大学,提出了一种将时间序列数据与自然语言处理(NLP)大模型在隐空间上对齐的方法,以提高时间序列预测的效果。这一方法的关键在于利用隐空间提示(prompt)来增强时间序列预测的准确性。论文标题:S2IP-LLM:SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting下载地址:https://arxiv.org/pdf/2403.05798v1.pdf1、问题背景大模型

特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! 特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! May 06, 2024 pm 04:13 PM

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

FisheyeDetNet:首个基于鱼眼相机的目标检测算法 FisheyeDetNet:首个基于鱼眼相机的目标检测算法 Apr 26, 2024 am 11:37 AM

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP

See all articles