Meta用《圣经》训练超多语言模型:识别1107种、辨认4017种语言
在《圣经》中有一个巴别塔的故事,说是人类联合起来计划兴建一座高塔,希望能通往天堂,但神扰乱了人类的语言,计划也就因此失败。到了今天,AI 技术有望拆除人类语言之间的藩篱,帮助人类造出文明的巴别塔。
近日,Meta 的一项研究向这个方面迈出了重要一步,他们将新提出的方法称为 Massively Multilingual Speech(超多语言语音 / MMS),其以《圣经》作为训练数据的一部分,得到了以下成果:
- 在 1107 种语言上用 wave2vec 2.0 训练得到了一个有 10 亿参数的多语言语音识别模型,相比于 OpenAI 的 Whisper 模型,其错误率降低了 50% 以上。
- 单个音频合成模型就支持这 1107 种语言的文本转语音(TTS)。
- 开发了一个能够辨别 4017 种语言的语言辨识分类器。
对于很多罕见语言的数据稀少问题,Meta 是如何解决的呢?他们采用的方法很有意思,即采用宗教的语料库,因为像是《圣经》这样的语料具有最「对齐的」语音数据。尽管这个数据集偏向宗教内容并且主要是男性声音,但其论文表明这个模型在其它领域以及使用女声时也表现优良。这是基础模型的涌现行为,着实让人惊叹。而更让人惊叹的是,Meta 将新开发的模型(语音识别、TTS 和语言辨识)都免费发布出来了!
- 模型下载:https://github.com/facebookresearch/fairseq/tree/main/examples/mms
- 论文地址:https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/
新提出的方法
为了打造出一个能识别千言万语的语音模型,首要的挑战是收集各种语言的音频数据,因为现目前已有的最大语音数据集也只有至多 100 种语言。为了克服这个问题,Meta 的研究者使用了宗教文本,比如《圣经》,这些文本已被翻译成了许多不同语言,并且那些译本都已被广泛研究过。这些译本都有人们用不同语言阅读的录音,并且这些音频也是公开可用的。使用这些音频,研究者创建了一个数据集,其中包含人们用 1100 种语言阅读《新约》的音频,其中每种语言的平均音频长度为 32 小时。
然后他们又纳入了基督教的其它许多读物的无标注录音,从而将可用语言数量增加到了 4000 以上。尽管这个数据集领域单一,并且大都是男声,但分析结果表明 Meta 新开发的模型在女声上表现也同样优良,并且该模型也不会格外偏向于产生更宗教式的语言。研究者在博客中表示,这主要是得益于他们使用的 Connectionist Temporal Classification(连接主义时间分类)方法,相比于大型语言模型(LLM)或序列到序列语音识别模型,这种方法要远远更为受限。
潜在的性别偏见情况分析。在 FLEURS 基准上,这个在超多语言语音(MMS)数据集上训练的自动语音识别模型在男声和女声上的错误率是差不多的。
为了提升数据质量,使之能被机器学习算法使用,他们还采用了一些预处理方法。首先,他们在现有的 100 多种语言的数据上训练了一个对齐模型,然后再搭配使用了一个高效的强制对齐算法,该算法可处理 20 分钟以上的超长录音。之后,经过多轮对齐过程,最终再执行一步交叉验证过滤,基于模型准确度移除可能未对齐的数据。为了方便其他研究者创建新的语音数据集,Meta 将该对齐算法添加到了 PyTorch 并放出了该对齐模型。
要训练出普遍可用的监督式语音识别模型,每种语言仅有 32 小时的数据可不够。因此,他们的模型是基于 wav2vec 2.0 开发的,这是他们之前在自监督语音表征学习上的研究成果,能极大减少训练所需的有标注数据量。具体来说,研究者使用 1400 多种语言的大约 50 万小时语音数据训练了一个自监督模型 —— 这个语言数量已经超过之前任何研究的五倍以上了。然后,基于具体的语音任务(比如多语言语音识别或语言辨识),研究者再对所得模型进行微调。
结果
研究者在一些已有基准上评估了新开发的模型。
其多语言语音识别模型的训练使用了含 10 亿参数的 wav2vec 2.0 模型,训练数据集包含 1100 多种语言。随着语言数量增加,模型性能确实会下降,但下降幅度非常小:当语言数量从 61 种增加到 1107 种时,字符错误率仅上升了 0.4%,但语言覆盖范围却增加了 18 倍以上。
在 61 种 FLEURS 语言的基准测试上,随语言数量增长的字符错误率变化情况,错误率越高,模型越差。
通过对比 OpenAI 的 Whisper 模型,研究者发现他们的模型的词错误率仅有 Whisper 的一半,而同时新模型支持的语言数量还多 11 倍。这个结果足以表明新方法的卓越能力。
在可直接比较的 54 种 FLEURS 语言的基准测试上,OpenAI Whisper 与 MMS 的词错误率对比。
接下来,使用之前已有的数据集(如 FLEURS 和 CommonVoice)和新数据集,Meta 的研究者还训练了一个语言辨识(LID)模型,并在 FLEURS LID 任务上进行了评估。结果表明,新模型不仅表现很棒,而且支持的语言数量也增加了 40 倍。
之前的研究在 VoxLingua-107 基准上也仅支持 100 多种语言,而 MMS 支持超过 4000 种语言。
另外 Meta 还构建了一个支持 1100 种语言的文本转语音系统。当前文本转语音模型的训练数据通常是来自单个说话人的语音语料。MMS 数据的一个局限性是许多语言都只有少量说话人,甚至往往只有一个说话人。但是,在构建文本转语音系统时,这却成了一个优势,于是 Meta 就顺便造了一个支持 1100 多种语言的 TTS 系统。研究者表示,这些系统生成的语音质量其实相当好,下面给出了几个例子。
约鲁巴语、伊洛科语和迈蒂利语的 MMS 文本转语音模型演示。
尽管如此,研究者表示 AI 技术都仍不完美,MMS 也是如此。举个例子,MMS 在语音转文本时可能错误转录选定的词或短语。这可能导致输出结果中出现冒犯性和 / 或不准确的语言。研究者强调了与 AI 社区合作共同进行负责任开发的重要性。
用单个模型支持千言万语的价值
世界上有许多语言濒临灭绝,而当前的语音识别和语音生成技术的局限性只会进一步加速这一趋势。研究者在博客中设想:也许技术能鼓励人们留存自己的语言,因为有了好的技术后,他们完全可以使用自己喜欢的语言来获取信息和使用技术。
他们相信 MMS 项目是朝这个方向迈出的重要一步。他们还表示这个项目还将继续开发,未来还将支持更多语言,甚至还会解决方言和口音的难题。
以上是Meta用《圣经》训练超多语言模型:识别1107种、辨认4017种语言的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

写在前面项目链接:https://nianticlabs.github.io/mickey/给定两张图片,可以通过建立图片之间的对应关系来估计它们之间的相机姿态。通常,这些对应关系是二维到二维的,而我们估计的姿态在尺度上是不确定的。一些应用,例如随时随地实现即时增强现实,需要尺度度量的姿态估计,因此它们依赖于外部的深度估计器来恢复尺度。本文提出了MicKey,这是一个关键点匹配流程,能够够预测三维相机空间中的度量对应关系。通过学习跨图像的三维坐标匹配,我们能够在没有深度测试的情况下推断出度量相对
