目录
论文解析
方法和架构 
首页 科技周边 人工智能 Meta:不用插管!AI看看脑电图就知道你在想啥

Meta:不用插管!AI看看脑电图就知道你在想啥

Apr 09, 2023 pm 02:41 PM
ai meta

每年,全世界有超过 6900 万人饱受创伤性脑损伤的折磨,他们中的许多人无法通过语音、打字或手势进行交流。如果研究人员开发出一种技术,可以通过非侵入性的方式直接从大脑活动解码语言,这些人的生活将会大大改善。 现在,Meta搞了个新研究,就是要解决这个事儿。 

刚刚,Meta AI官方博客发文,介绍了可利用AI从大脑活动中直接解码语音的新技术。

 Meta:不用插管!AI看看脑电图就知道你在想啥 

从一段时间为3秒的大脑活动中,这个AI可以从人们日常使用的 793 个单词的词汇表中解码相应的语音片段,准确率高达 73%。 

以往,从大脑活动中解码语音一直是神经科学家和临床医生的长期目标,但大部分进展依赖于侵入性大脑记录技术,例如立体定向脑电图和皮层电图。 

这些设备可以提供比无创方法更清晰的信号,但需要神经外科干预。 

虽然这项工作的结果表明从大脑活动记录中解码语音是可行的,但使用非侵入性方法解码语音将提供一种更安全、更具可扩展性的解决方案,最终可以使更多人受益。 

然而,这是非常具有挑战性的,因为非侵入式录音是出了名的嘈杂,并且由于各种原因,包括每个人的大脑和传感器放置位置的差异,录音会话和个人之间可能会有很大差异。 Meta通过创建一个经过对比学习训练的深度学习模型来应对这些挑战,然后使用它来最大限度地对齐非侵入性大脑记录和语音。 

Meta:不用插管!AI看看脑电图就知道你在想啥 

为此,Meta使用一个由 FAIR 团队于 2020 年开发的、开源的自我监督学习模型wave2vec 2.0,来识别听有声读物的在志愿者大脑中语音的复杂表示。 Meta主要关注两种非侵入性技术:脑电图和脑磁图(简称 EEG 和 MEG),分别测量由神经元活动引起的电场和磁场的波动。 

在实践中,这两个系统每秒可以使用数百个传感器拍摄大约 1000 个宏观大脑活动的快照。 Meta利用了来自学术机构的四个开源 EEG 和 MEG 数据集,利用了 169 名健康志愿者的 150 多个小时的录音,在这些录音中,是他们正在听有声读物和英语和荷兰语的孤立句子。 

然后,Meta将这些 EEG 和 MEG 记录输入到一个「大脑」模型中,该模型由一个带有残差连接的标准深度卷积网络组成。 

众所周知,EEG 和 MEG 记录在个体之间存在很大差异,因为个体大脑解剖结构、大脑区域神经功能的位置和时间差异以及记录期间传感器的位置。 

在实践中,这意味着分析大脑数据通常需要一个复杂的工程管道,用于重新调整模板大脑上的大脑信号。在以前的研究中,大脑解码器接受了少量录音的训练,以预测一组有限的语音特征,例如词性类别或少量词汇中的单词。 

为了方便研究,Meta设计了一个新的主题嵌入层,它被训练成端到端,将所有的大脑记录排列在一个共同的空间。

Meta:不用插管!AI看看脑电图就知道你在想啥

为了从非侵入性大脑信号中解码语音,Meta训练了一个具有对比学习的模型,以校准语音及其相应的大脑活动 最后,Meta的架构学会了将大脑模型的输出,与呈现给参与者的语音的深度表征相匹配。 

在Meta之前的工作中,我们使用wav2vec 2.0,表明这种语音算法会自动学习生成与大脑一致的语音表示。 

wav2vec 2.0中出现的语音“类脑”表示,使Meta的研究人员自然而然地选择构建自己的解码器,因为它有助于让Meta的研究人员了解,应该从大脑信号中提取哪些表示。 

Meta:不用插管!AI看看脑电图就知道你在想啥

Meta最近展示了 wav2vec 2.0(左)的激活映射到大脑(右)以响应相同的语音。算法的第一层(冷色)的表示映射到早期听觉皮层,而最深层映射到高级大脑区域(例如前额叶和顶叶皮层) 

训练后,Meta的系统执行所谓的零样本分类:给定一个大脑活动片段,它可以从大量新音频片段中确定该人实际听到的是哪个片段。 

算法推断出这个人最有可能听到的词。这是一个令人兴奋的步骤,因为它表明人工智能可以成功地学会在感知语音时解码大脑活动的嘈杂和可变的非侵入性记录。 

下一步是看看研究人员是否可以扩展这个模型,直接从大脑活动中解码语音,而不需要音频剪辑池,即,转向安全和多功能的语音解码器。 研究人员的分析进一步表明,我们算法的几个组成部分,包括使用 wav2vec 2.0 和主题层,对解码性能是有益的。 

此外,Meta的算法随着 EEG 和 MEG 记录的数量而改进。 实际上,这意味着Meta研究人员的方法受益于大量异构数据的提取,并且原则上可以帮助改进小型数据集的解码。 

这很重要,因为在许多情况下,很难让给定的参与者收集大量数据。例如,要求患者在扫描仪上花费数十个小时来检查系统是否适合他们是不切实际的。 相反,算法可以在包括许多个人和条件的大型数据集上进行预训练,然后在数据很少的情况下为新患者的大脑活动提供解码支持。 

Meta的研究令人鼓舞,因为结果表明,经过自我监督训练的人工智能可以成功地从大脑活动的非侵入性记录中解码感知到的语音,尽管这些数据中存在固有的噪声和可变性。 当然,这些结果只是第一步。在这项研究工作中,Meta专注于解码语音感知,但实现患者交流的最终目标需要将这项工作扩展到语音生产。 

这一研究领域甚至可以超越帮助患者,潜在地包括启用与计算机交互的新方式。 

从更大的视野来看,Meta的工作是科学界使用人工智能更好地理解人类大脑的努力的一部分。Meta希望公开分享这项研究,以加快应对未来挑战的进展。

论文解析

Meta:不用插管!AI看看脑电图就知道你在想啥

论文链接:https://arxiv.org/pdf/2208.12266.pdf 

本文提出了一个单一的端到端架构,在大量的个体群中进行对比性学习训练,以预测自然语音的自监督表示。 

我们在四个公共数据集上评估了模型,其中包括169名志愿者在听自然语音时用脑磁图或脑电图(M/EEG)记录的数据。 

这为从非侵入性的大脑活动记录中实时解码自然语言处理提供了一条新的思路。 

方法和架构 

我们首先正式确定了神经解码的通用任务,并激励使用对比性损失进行训练。在介绍用于大脑解码的深度学习架构之前,我们介绍了由预训练的自我监督模块wav2vec 2.0提供的丰富的语音表示。 

我们的目标是在健康志愿者被动地听他们的母语口语句子时,从用无创脑磁图(MEG)或脑电图(EEG)记录的高维大脑信号的时间序列中解码语音。

Meta:不用插管!AI看看脑电图就知道你在想啥 

口语是如何在大脑中表示的在很大程度上是未知的,因此,通常以监督的方式训练解码器,以预测已知与大脑有关的语音的潜在表示。 

从经验上看,我们观察到这种直接回归的方法面临几个挑战:当语音出现时,解码预测似乎被一个不可区分的宽带成分所支配(图2.A-B)。 

这一挑战促使我们做出三个主要贡献:引入对比性损失、预训练好的深层语音表征和专门的大脑解码器。 

1、对比性损失 

首先,我们推断,回归可能是一种无效的损失,因为它偏离了我们的目标:从大脑活动中解码语音。因此,我们用一种对比性损失来代替它,即 "CLIP "损失,它最初被设计用来匹配文本和图像这两种模式中的潜在表征。 

2、预训练的深度语音表征 

其次,Mel频谱是语音的低层次表征,因此不太可能与丰富的皮质表征相匹配。 因此,我们用语音的潜在表征取代了Mel频谱Y,这些表征要么是端到端学习的("Deep Mel "模型),要么是用一个独立的自我监督的语音模型学习的。 在实践中,我们使用wav2vec2-large-xlsr-531,它已经对53种不同语言的56k小时的语音进行了预训练。

 3、专门的「大脑解码器」 

最后,对于大脑模块,我们使用一个深度神经网络fclip,输入原始的M/EEG时间序列X和相应的主题s的单次编码,并输出潜在的大脑表示Z,其采样率与X相同。

 Meta:不用插管!AI看看脑电图就知道你在想啥 

这个架构包括(1)在M/EEG传感器上的空间注意力层,然后由一个针对特定对象的1x1卷积设计,以利用对象间的变异性,其输入是卷积块的堆叠。 

Meta:不用插管!AI看看脑电图就知道你在想啥 

结果显示,wav2vec 2.0 模型可以从3秒的脑电信号中识别出相应的语音片段,在1,594个不同的片段中,准确率高达72.5%,在2,604个脑电记录片段中,准确率高达19.1%,可以对训练集中没有的短语进行解码。 

以上是Meta:不用插管!AI看看脑电图就知道你在想啥的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

Vue.js 中字符串转对象用什么方法? Vue.js 中字符串转对象用什么方法? Apr 07, 2025 pm 09:39 PM

Vue.js 中字符串转对象时,首选 JSON.parse() 适用于标准 JSON 字符串。对于非标准 JSON 字符串,可根据格式采用正则表达式和 reduce 方法或解码 URL 编码字符串后再处理。根据字符串格式选择合适的方法,并注意安全性与编码问题,以避免 bug。

mysql安装后怎么使用 mysql安装后怎么使用 Apr 08, 2025 am 11:48 AM

文章介绍了MySQL数据库的上手操作。首先,需安装MySQL客户端,如MySQLWorkbench或命令行客户端。1.使用mysql-uroot-p命令连接服务器,并使用root账户密码登录;2.使用CREATEDATABASE创建数据库,USE选择数据库;3.使用CREATETABLE创建表,定义字段及数据类型;4.使用INSERTINTO插入数据,SELECT查询数据,UPDATE更新数据,DELETE删除数据。熟练掌握这些步骤,并学习处理常见问题和优化数据库性能,才能高效使用MySQL。

Laravel的地理空间:互动图和大量数据的优化 Laravel的地理空间:互动图和大量数据的优化 Apr 08, 2025 pm 12:24 PM

利用地理空间技术高效处理700万条记录并创建交互式地图本文探讨如何使用Laravel和MySQL高效处理超过700万条记录,并将其转换为可交互的地图可视化。初始挑战项目需求:利用MySQL数据库中700万条记录,提取有价值的见解。许多人首先考虑编程语言,却忽略了数据库本身:它能否满足需求?是否需要数据迁移或结构调整?MySQL能否承受如此大的数据负载?初步分析:需要确定关键过滤器和属性。经过分析,发现仅少数属性与解决方案相关。我们验证了过滤器的可行性,并设置了一些限制来优化搜索。地图搜索基于城

mysql 无法启动怎么解决 mysql 无法启动怎么解决 Apr 08, 2025 pm 02:21 PM

MySQL启动失败的原因有多种,可以通过检查错误日志进行诊断。常见原因包括端口冲突(检查端口占用情况并修改配置)、权限问题(检查服务运行用户权限)、配置文件错误(检查参数设置)、数据目录损坏(恢复数据或重建表空间)、InnoDB表空间问题(检查ibdata1文件)、插件加载失败(检查错误日志)。解决问题时应根据错误日志进行分析,找到问题的根源,并养成定期备份数据的习惯,以预防和解决问题。

Vue.js 如何将字符串类型的数组转换为对象数组? Vue.js 如何将字符串类型的数组转换为对象数组? Apr 07, 2025 pm 09:36 PM

总结:将 Vue.js 字符串数组转换为对象数组有以下方法:基本方法:使用 map 函数,适合格式规整的数据。高级玩法:使用正则表达式,可处理复杂格式,但需谨慎编写,考虑性能。性能优化:考虑大数据量,可使用异步操作或高效数据处理库。最佳实践:清晰的代码风格,使用有意义的变量名、注释,保持代码简洁。

如何设置Vue Axios的超时时间 如何设置Vue Axios的超时时间 Apr 07, 2025 pm 10:03 PM

为了设置 Vue Axios 的超时时间,我们可以创建 Axios 实例并指定超时选项:在全局设置中:Vue.prototype.$axios = axios.create({ timeout: 5000 });在单个请求中:this.$axios.get('/api/users', { timeout: 10000 })。

mysql安装后怎么优化数据库性能 mysql安装后怎么优化数据库性能 Apr 08, 2025 am 11:36 AM

MySQL性能优化需从安装配置、索引及查询优化、监控与调优三个方面入手。1.安装后需根据服务器配置调整my.cnf文件,例如innodb_buffer_pool_size参数,并关闭query_cache_size;2.创建合适的索引,避免索引过多,并优化查询语句,例如使用EXPLAIN命令分析执行计划;3.利用MySQL自带监控工具(SHOWPROCESSLIST,SHOWSTATUS)监控数据库运行状况,定期备份和整理数据库。通过这些步骤,持续优化,才能提升MySQL数据库性能。

偏远的高级后端工程师(平台)需要圈子 偏远的高级后端工程师(平台)需要圈子 Apr 08, 2025 pm 12:27 PM

远程高级后端工程师职位空缺公司:Circle地点:远程办公职位类型:全职薪资:$130,000-$140,000美元职位描述参与Circle移动应用和公共API相关功能的研究和开发,涵盖整个软件开发生命周期。主要职责独立完成基于RubyonRails的开发工作,并与React/Redux/Relay前端团队协作。为Web应用构建核心功能和改进,并在整个功能设计过程中与设计师和领导层紧密合作。推动积极的开发流程,并确定迭代速度的优先级。要求6年以上复杂Web应用后端

See all articles