未来十年,AI 语音识别将朝着这五个方向发展
作者 | Migüel Jetté
编译 | bluemin
编辑 | 陈彩娴
在过去的两年中,自动语音识别(Automatic Speech Recognition, ASR)在商用上取得了重要的发展,其中一个衡量指标就是:多个完全基于神经网络的企业级 ASR 模型成功上市,如 Alexa、Rev、AssemblyAI、ASAPP等。2016年,微软研究院发表了一篇文章,宣布他们的模型在已有25年历史的“Switchboard”数据集上,达到了人类水平(通过单词错误率来衡量)。ASR 的准确性仍在不断提高,在更多的数据集和用例中逐渐达到人类水平。
图源:Awni Hannun 的博文 “Speech Recognition is not Solved”
随着 ASR 技术的识别准确度大幅提升,同时应用场景越来越丰富,我们相信:现在还不是 ASR 商用的巅峰,该领域的研究与市场应用还有待发掘。我们预计未来十年 AI 语音的相关研究和商业系统将重点攻克以下五个领域 :
1.多语言ASR模型
“在未来十年,我们将在生产环境中部署真正的多语言模型,使开发人员能够构建任何人都能理解任意语言的应用程序,从而真正向全世界释放语音识别的力量。”
图源:Alexis Conneau 等人在 2020 年发表的“Unsupervised cross-lingual representation learning for speech recognition”论文
如今的商用 ASR 模型主要使用英语数据集进行训练,因此对英语输入具有更高的准确性。由于数据可用性和市场需求,学术界和工业界对英语的长期关注度更高。法语、西班牙语、葡萄牙语和德语等商业流行语言的识别准确度虽然也较为合理,但显然存在一个训练数据有限且ASR输出质量相对较低的语言长尾。
此外,大多数商业系统都是基于单一语言,这无法适用于许多社会特有的多语言场景。多语言可以采用背靠背语言的形式,例如双语国家的媒体节目。亚马逊最近推出了一款集成语言识别(LID)和ASR的产品,在处理这一问题上取得了长足进步。相比之下,跨语言(也称为语码转换)是个人使用的一种语言系统,该系统可以将两种语言的单词和语法结合在同一个句子中。这是一个学术界继续取得有趣进展的领域。
正如自然语言处理领域采用多语言方法一样,我们将会看到ASR在未来十年也会效仿。随着我们学习如何利用新兴的端到端技术,我们将会训练可以在多种语言之间进行迁移学习的大规模多语言模型。Meta的XLS-R就是一个很好的例子:在一个演示中,体验者可以说21种语言中的任何一种,而不需要指定某种语言,模型最终都会翻译成英语。通过理解和应用语言之间的相似性,这些更智能的ASR系统将为低资源语言和混合语言用例提供高质量的ASR可用性,并将实现商业级别的应用。
2.丰富的标准化输出对象
“在未来十年,我们相信商业 ASR 系统将输出更丰富的转录对象,其中包含的内容将不止简单的单词。此外,我们预计,这种更丰富的输出将得到W3C等标准组织的认可,以便所有API都将返回类似构造的输出。这将进一步释放世界上每个人的语音应用潜力。
”尽管国家标准技术研究院(NIST)在探索“丰富转录”方面有着悠久传统,但在将其纳入ASR输出的标准化和可扩展格式方面仍是浅尝辄止。丰富转录的概念最初涉及大写、标点和日记化,但在某种程度上扩展到说话人角色和一系列非语言性言语事件。预期的创新包括转录来自不同说话者、不同情绪和其他副语言特征的重叠语音,以及一系列非语言甚至非人类的语音场景和事件,还可以转录基于文本或语言多样性的信息。Tanaka等人描绘了一个用户可能希望在不同丰富程度的转录选项中进行选择的场景,显然,我们预测的附加信息的数量和性质是可指定的,这取决于下游应用。
传统的ASR系统能够在识别口语单词的过程中生成多个假设的网格,这些已被证明在人工辅助转录、口语对话系统和信息检索中大有裨益。在丰富的输出格式中包含n-best信息将鼓励更多用户使用ASR系统,从而改善用户体验。虽然目前不存在用于构建或存储语音解码过程中当前生成或可能生成的附加信息的标准,但CallMiner的开放语音转录标准(OVTS)朝这个方向迈出了坚实的一步,使企业易于探索和选择多个ASR供应商。
我们预测,在未来,ASR系统将以标准格式产生更丰富的输出,从而支持更强大的下游应用程序。例如,ASR系统可能会输出全部可能网格,并且应用程序可以在编辑转录内容时使用这些附加数据进行智能自动转录。类似地,包括附加元数据(如检测到的区域方言、口音、环境噪声或情绪)的ASR转录可以实现更强大的搜索应用。
3.面向所有人的大规模 ASR
“在这十年中,大规模的 ASR(即私有化、可负担、可靠和快速)将成为每个人日常生活的一部分。这些系统将能够搜索视频,索引我们参与的所有媒体内容,并使世界各地的听力受损消费者能够访问每个视频。ASR将是对每一个音频和视频都实现可访问和可操作的关键。”
我们可能都在大量使用音视频软件:播客、社交媒体流、在线视频、实时群聊、Zoom会议等等。然而相关的内容实际上很少被转录。如今,内容转录已经成为ASR API的最大市场之一,并将在未来十年呈指数级增长,特别是考虑到它们准确性和经济性。话虽如此,ASR转录目前仅用于特定应用程序(广播视频、某些会议和播客等)。因此,许多人无法访问此媒体内容,并且在广播或活动结束后很难找到相关信息。
在未来,这种情况将会改变。正如Matt Thompson在2010年预测的那样,在某种程度上,ASR价格廉价并被广泛普及,以至于我们将体验到他所谓的“演讲性”。我们预计,未来几乎所有音频和视频内容都将被转录,并且可立即访问、可存储、可大规模搜索。但ASR的发展不会到此停滞,我们还希望这些内容具有可操作性。我们希望消费或参与的每个音视频会提供额外的上下文,例如从播客或会议中自动生成的见解,或视频中关键时刻的自动总结等等,我们希望NLP系统可以将上述处理日常化。
4.人机协同
“到本世纪末,我们将拥有不断发展的ASR系统,它就像一个活的有机体,在人类的帮助或自我监督下不断学习。这些系统将从现实世界中的不同渠道学习, 以实时而非异步的方式理解新单词和语言变体,自我调试并自动监控不同的用法。”
随着ASR成为主流并涵盖越来越多的用例,人机协同将发挥关键作用。ASR模型的训练很好地体现了这一点。如今,开源数据集和预训练模型降低了ASR供应商的准入门槛。然而,训练过程仍然相当简单:收集数据、注释数据、训练模型、评估结果、改进模型。但这是一个缓慢的过程,并且在许多情况下,由于调整困难或数据不足而容易出错。Garnerin等人观察到,元数据缺失和跨语料库表示的不一致性使得在ASR性能方面难以保证同等的准确性,这也是Reid和Walker在开发元数据标准时试图解决的问题。
在未来,人类将通过智能手段高效地监督ASR训练,在加速机器学习方面发挥日益重要的作用。人在回路方法将人工审查员置于机器学习/反馈循环中,可以对模型结果进行持续审查和调整。这会使机器学习更快、更高效,从而产生更高质量的输出。今年早些时候,我们讨论了ASR的改进如何使Rev的人工转录员(称为“Revvers”)能够对ASR草案进行后期编辑,从而提高工作效率。Revver的转录可以直接输入到改进的ASR模型中,形成良性循环。
对于ASR,人类语言专家仍然不可或缺的一个领域是反向文本规范化(ITN),他们将识别的字符串(如“five dollars”)转换为预期的书面形式(如“$5”)。Pusateri等人提出了一种使用“手工语法和统计模型”的混合方法,Zhang等人继续沿用这些思路,用人工制作的FST约束RNN。
5.负责任的 ASR
“与所有人工智能系统一样,未来的ASR系统将坚持更严格的人工智能伦理原则,以便系统平等对待所有人,可解释性程度更高、对其决策负责、并尊重用户及其数据的隐私。”
未来的ASR系统将遵循人工智能伦理的四项原则:公平性、可解释性、尊重隐私和问责制。
公平性:无论说话者的背景、社会经济地位或其他特征如何,公平的ASR系统都能识别语音。值得注意的是,构建这样的系统需要识别并减少我们的模型和训练数据中的偏差。幸运的是,政府、非政府组织和企业已经着手创建识别和减轻偏见的基础设施。
可解释性:ASR系统将不再是“黑盒”:它们将根据要求对数据收集与分析、模型性能与输出过程进行解释。这种附加的透明度要求可以对模型训练和性能进行更好的人为监督。与Gerlings等人一样,我们从一系列利益相关者(包括研究人员、开发人员、客户,以及Rev案例中的转录学家)的角度来看待可解释性。研究人员可能想知道输出错误文本的原因,以便缓解问题;而转录学家可能需要一些证据来证明ASR为什么会这么认为,以帮助他们评估其有效性,特别是在嘈杂的情况下,ASR可能比人“听”得更好。Weitz等人在音频关键词识别的背景下,为终端用户实现可解释性采取了重要的初步措施。Laguarta和Subirana已将临床医生指导的解释纳入用于阿尔茨海默症检测的语音生物标记系统。
尊重隐私:根据各种美国和国际法律,“语音”被视为“个人数据”,因此,语音记录的收集和处理受到严格的个人隐私保护。在Rev,我们已经提供了数据安全和控制功能,未来的ASR系统将进一步尊重用户数据的隐私和模型的隐私。在许多情况下,这很可能涉及将ASR模型推向边缘(在设备或浏览器上)。语音隐私挑战正在推动这一领域的研究,许多司法管辖区,如欧盟,已经开展立法工作。隐私保护机器学习领域有望引起大家对技术这一关键方面的重视,使其能够被公众广泛接受和信任。
问责制:我们将对ASR系统进行监控,以确保其遵守前三项原则。反过来需要投入资源和基础设施,以设计和开发必要的监测系统,并针对调查结果采取措施。部署ASR系统的公司将对其技术的使用负责,并为遵守ASR伦理原则做出具体努力。值得一提的是,作为ASR系统的设计者、维护者和消费者,人类将负责实施和执行这些原则——这是人机协同的又一个示例。
参考链接:https://thegradient.pub/the-future-of-speech-recognition/https://awni.github.io/speech-recognition/
以上是未来十年,AI 语音识别将朝着这五个方向发展的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

StableDiffusion3的论文终于来了!这个模型于两周前发布,采用了与Sora相同的DiT(DiffusionTransformer)架构,一经发布就引起了不小的轰动。与之前版本相比,StableDiffusion3生成的图质量有了显着提升,现在支持多主题提示,并且文字书写效果也得到了改善,不再出现乱码情况。 StabilityAI指出,StableDiffusion3是一个系列模型,其参数量从800M到8B不等。这一参数范围意味着该模型可以在许多便携设备上直接运行,从而显着降低了使用AI

一先导与重点文章主要介绍自动驾驶技术中几种常用的坐标系统,以及他们之间如何完成关联和转换,最终构建出统一的环境模型。这里重点理解自车到相机刚体转换(外参),相机到图像转换(内参),图像到像素有单位转换。3d向2d转换会有相应的畸变,平移等。重点:自车坐标系相机机体坐标系需要被重写的是:平面坐标系像素坐标系难点:要考虑图像畸变,去畸变和加畸变都是在像平面上去补偿二简介视觉系统一共有四个坐标系:像素平面坐标系(u,v)、图像坐标系(x,y)、相机坐标系()和世界坐标系()。每种坐标系之间均存在联系,

轨迹预测在自动驾驶中承担着重要的角色,自动驾驶轨迹预测是指通过分析车辆行驶过程中的各种数据,预测车辆未来的行驶轨迹。作为自动驾驶的核心模块,轨迹预测的质量对于下游的规划控制至关重要。轨迹预测任务技术栈丰富,需要熟悉自动驾驶动/静态感知、高精地图、车道线、神经网络架构(CNN&GNN&Transformer)技能等,入门难度很大!很多粉丝期望能够尽快上手轨迹预测,少踩坑,今天就为大家盘点下轨迹预测常见的一些问题和入门学习方法!入门相关知识1.预习的论文有没有切入顺序?A:先看survey,p

这篇论文探讨了在自动驾驶中,从不同视角(如透视图和鸟瞰图)准确检测物体的问题,特别是如何有效地从透视图(PV)到鸟瞰图(BEV)空间转换特征,这一转换是通过视觉转换(VT)模块实施的。现有的方法大致分为两种策略:2D到3D和3D到2D转换。2D到3D的方法通过预测深度概率来提升密集的2D特征,但深度预测的固有不确定性,尤其是在远处区域,可能会引入不准确性。而3D到2D的方法通常使用3D查询来采样2D特征,并通过Transformer学习3D和2D特征之间对应关系的注意力权重,这增加了计算和部署的

随着互联网的快速发展,自媒体行业成为了越来越多人的关注焦点。在这个行业中,有些领域因其广阔的市场前景和盈利能力而备受瞩目。本文将为您揭示自媒体最赚钱的五大领域,同时探讨2024年抖音的扶持方向,帮助您更好地把握自媒体发展机遇。一、自媒体最赚钱的五大领域是什么?随着在线教育的兴起,教育培训领域变得越来越受欢迎。人们愿意为获取知识和技能进行投资,这不仅包括学术课程,还包括技能培训和职场提升等方面。自媒体创作者可以通过创作高质量的教育内容来吸引学员付费学习,从而实现盈利。这种趋势显示出人们对于终身学习

笔者的一些个人思考在自动驾驶领域,随着BEV-based子任务/端到端方案的发展,高质量的多视图训练数据和相应的仿真场景构建愈发重要。针对当下任务的痛点,“高质量”可以解耦成三个方面:不同维度上的长尾场景:如障碍物数据中近距离的车辆以及切车过程中精准的朝向角,以及车道线数据中不同曲率的弯道或较难采集的匝道/汇入/合流等场景。这些往往靠大量的数据采集和复杂的数据挖掘策略,成本高昂。3D真值-图像的高度一致:当下的BEV数据获取往往受到传感器安装/标定,高精地图以及重建算法本身的误差影响。这导致了我

突然发现了一篇19年的论文GSLAM:AGeneralSLAMFrameworkandBenchmark开源代码:https://github.com/zdzhaoyong/GSLAM直接上全文,感受这项工作的质量吧~1摘要SLAM技术最近取得了许多成功,并吸引了高科技公司的关注。然而,如何同一现有或新兴算法的界面,一级有效地进行关于速度、稳健性和可移植性的基准测试仍然是问题。本文,提出了一个名为GSLAM的新型SLAM平台,它不仅提供评估功能,还为研究人员提供了快速开发自己的SLAM系统的有用

请留意,这个方块人正在紧锁眉头,思考着面前几位“不速之客”的身份。原来她陷入了危险境地,意识到这一点后,她迅速展开脑力搜索,寻找解决问题的策略。最终,她决定先逃离现场,然后尽快寻求帮助,并立即采取行动。与此同时,对面的人也在进行着与她相同的思考……在《我的世界》中出现了这样一个场景,所有的角色都由人工智能控制。他们每个人都有着独特的身份设定,比如之前提到的女孩就是一个年仅17岁但聪明勇敢的快递员。他们拥有记忆和思考能力,在这个以《我的世界》为背景的小镇中像人类一样生活。驱动他们的,是一款全新的、
