目录
Jeff Dean亲自官宣:让AI支持1000种语言
微调自监督学习
首页 科技周边 人工智能 再胜OpenAI!谷歌发布20亿参数通用模型,100多种语言自动识别翻译

再胜OpenAI!谷歌发布20亿参数通用模型,100多种语言自动识别翻译

Apr 25, 2023 pm 12:04 PM
谷歌 模型

上周,OpenAI发布的ChatGPT API和Whisper API,刚刚引动了一场开发者的狂欢。

3月6日,谷歌就推出了一款对标的模型——USM。不仅可以支持100多种语言,而且参数量也达到了20个亿。

当然了,模型依然没有对外开放,「这很谷歌」!

再胜OpenAI!谷歌发布20亿参数通用模型,100多种语言自动识别翻译

简单来说,USM模型在涵盖1200万小时语音、280亿个句子和300种不同语言的无标注数据集中进行了预训练,并在较小的标注训练集中进行了微调。

谷歌的研究人员表示,虽然用于微调的标注训练集仅有Whisper的1/7,但USM却有着与其相当甚至更好的性能,并且还能够有效地适应新的语言和数据。

再胜OpenAI!谷歌发布20亿参数通用模型,100多种语言自动识别翻译

论文地址:https://arxiv.org/abs/2303.01037

结果显示,USM不仅在多语种自动语音识别和语音-文本翻译任务评测中实现了SOTA,而且还可以实际用在YouTube的字幕生成上。

目前,支持自动检测和翻译的语种包括,主流的英语、汉语,以及阿萨姆语这类的小语种。

最重要的是,还能用于谷歌在去年IO大会展示的未来AR眼镜的实时翻译。

再胜OpenAI!谷歌发布20亿参数通用模型,100多种语言自动识别翻译

Jeff Dean亲自官宣:让AI支持1000种语言

当微软和谷歌就谁家拥有更好的AI聊天机器人争论不休时,要知道,大型语言模型的用途可不仅于此。

去年11月,谷歌最先宣布了新项目「开发一种支持全球1000种最常用语言的人工智能语言模型」。

再胜OpenAI!谷歌发布20亿参数通用模型,100多种语言自动识别翻译

同年,Meta也发布了一个名为「No Language Left Behind」模型,并称可以翻译200多种语言,旨在打造「通用翻译器」。

而最新模型的发布,谷歌将其描述为通向目标的「关键一步」。

在打造语言模型上,可谓群雄逐鹿。

据传言,谷歌计划在今年的年度 I/O 大会上展示20多款由人工智能驱动的产品。

当前,自动语音识别面临许多挑战:

  • 传统的监督学习方法缺乏可扩展性

在传统的方法中,音频数据需要费时又费钱的手动标记,或者从有预先存在的转录的来源中收集,而对于缺乏广泛代表性的语言来说,这很难找到。

  • 扩大语言覆盖面和质量的同时,模型必须以高效的计算方式进行改进

这就要求算法能够使用来自不同来源的大量数据,在不需要完全重新训练的情况下实现模型的更新,并且能够推广到新的语言和使用案例。

微调自监督学习

据论文介绍,USM的训练采用了三种数据库:未配对的音频数据集、未配对的文本数据集、配对的ASR语料库。

  • 未配对的音频数据集

包括YT-NTL-U(超1200万小时YouTube无标签音频数据)和Pub-U(超429,000小时的51种语言的演讲内容)

  • 未配对的文本数据集

Web-NTL(超1140种不同语言的280亿个句子)

  • 配对的ASR语料库

YT-SUP +和 Pub-S语料库(超10,000小时的音频内容和匹配文本)

再胜OpenAI!谷歌发布20亿参数通用模型,100多种语言自动识别翻译

USM使用标准的编码器-解码器结构,其中解码器可以是CTC、RNN-T或LAS。

对于编码器,USM使用了Conformor,或卷积增强Transformer。

训练过程共分为三个阶段。

在初始阶段,使用BEST-RQ(基于BERT的随机投影量化器的语音预训练)进行无监督的预训练。目标是为了优化RQ。

在下一阶段,进一步训练语音表征学习模型。

使用MOST(多目标监督预训练)来整合来自其他文本数据的信息。

该模型引入了一个额外的编码器模块,以文本作为输入,并引入了额外的层来组合语音编码器和文本编码器的输出,并在未标记的语音、标记的语音和文本数据上联合训练模型。

最后一步便是,对ASR(自动语音识别)和AST(自动语音翻译)任务进行微调,经过预训练的USM模型只需少量监督数据就可以取得很好的性能。

再胜OpenAI!谷歌发布20亿参数通用模型,100多种语言自动识别翻译

USM整体训练流程

USM的性能如何,谷歌对其在YouTube字幕、下游ASR任务的推广、以及自动语音翻译上进行了测试。

YouTube多语言字幕上的表现

受监督的YouTube数据包括73种语言,每种语言的数据时长平均不到3000个小时。尽管监督数据有限,但模型在73种语言中实现了平均不到30%的单词错误率(WER),这比美国内部最先进的模型相比还要低。

此外,谷歌与超40万小时标注数据训练出的Whisper模型 (big-v2) 进行了比较。

在Whisper能解码的18种语言中,其解码错误率低于40%,而USM平均错误率仅为32.7%。

再胜OpenAI!谷歌发布20亿参数通用模型,100多种语言自动识别翻译

对下游ASR任务的推广

在公开的数据集上,与Whisper相比,USM在CORAAL(非裔美国人的方言英语)、SpeechStew(英文-美国)和FLEURS(102种语言)上显示出更低的WER,不论是否有域内训练数据。

两种模型在FLEURS上的差异尤为明显。

再胜OpenAI!谷歌发布20亿参数通用模型,100多种语言自动识别翻译

在AST任务上的表现

在CoVoST数据集上对USM进行微调。

将数据集中的语言按资源可用性分为高、中、低三类,在每一类上计算BLEU分数(越高越好),USM在每一类中的表现的优于Whisper。

研究发现,BEST-RQ预训练是将语音表征学习扩展到大数据集的一种有效方法。

当与MOST中的文本注入相结合时,它提高了下游语音任务的质量,在FLEURS和CoVoST 2基准上实现了最好的性能。

通过训练轻量级剩余适配器模块,MOST表示能够快速适应新的域。而这些剩余适配器模块只增加2%的参数。

再胜OpenAI!谷歌发布20亿参数通用模型,100多种语言自动识别翻译

谷歌称,目前,USM支持100多种语言,到未来将扩展到1000多种语言。有了这项技术,或许对于每个人来讲走到世界各地稳妥了。

甚至,未来实时翻译谷歌AR眼镜产品将会吸引众多粉丝。

不过,现在这项技术的应用还是有很长的一段路要走。

毕竟在面向世界的IO大会演讲中,谷歌还把阿拉伯文写反了,引来众多网友围观。

再胜OpenAI!谷歌发布20亿参数通用模型,100多种语言自动识别翻译

以上是再胜OpenAI!谷歌发布20亿参数通用模型,100多种语言自动识别翻译的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

芝麻开门交易所网页注册链接 gate交易app注册网址最新 芝麻开门交易所网页注册链接 gate交易app注册网址最新 Feb 28, 2025 am 11:06 AM

本文详细介绍了芝麻开门交易所(Gate.io)网页版和Gate交易App的注册流程。 无论是网页注册还是App注册,都需要访问官方网站或应用商店下载正版App,然后填写用户名、密码、邮箱和手机号等信息,并完成邮箱或手机验证。

Bybit交易所链接为什么不能直接下载安装? Bybit交易所链接为什么不能直接下载安装? Feb 21, 2025 pm 10:57 PM

为什么Bybit交易所链接无法直接下载安装?Bybit是一个加密货币交易所,为用户提供交易服务。该交易所的移动应用程序不能直接通过AppStore或GooglePlay下载,原因如下:1.应用商店政策限制苹果公司和谷歌公司对应用商店中允许的应用程序类型有严格的要求。加密货币交易所应用程序通常不符合这些要求,因为它们涉及金融服务,需要遵循特定的法规和安全标准。2.法律法规合规在许多国家/地区,与加密货币交易相关的活动都受到监管或限制。为了遵守这些规定,Bybit应用程序只能通过官方网站或其他授权渠

芝麻开门交易所网页版登入口 最新版gateio官网入口 芝麻开门交易所网页版登入口 最新版gateio官网入口 Mar 04, 2025 pm 11:48 PM

详细介绍芝麻开门交易所网页版登入口操作,含登录步骤、找回密码流程,还针对登录失败、无法打开页面、收不到验证码等常见问题提供解决方法,助你顺利登录平台。

芝麻开门交易平台下载手机版 gateio交易平台下载地址 芝麻开门交易平台下载手机版 gateio交易平台下载地址 Feb 28, 2025 am 10:51 AM

选择正规渠道下载App,保障您的账户安全至关重要。

加密数字资产交易APP推荐top10(2025全球排名) 加密数字资产交易APP推荐top10(2025全球排名) Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台,涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋,例如币安以其全球最大的交易量和丰富的功能着称,而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。 希望本文能帮助您找到最适合自

币安binance官网最新版登录入口 币安binance官网最新版登录入口 Feb 21, 2025 pm 05:42 PM

访问币安官方网站最新版登录入口,只需遵循这些简单步骤。前往官方网址,点击右上角的“登录”按钮。选择您现有的登录方式,如果是新用户,请“注册”。输入您的注册手机号或邮箱和密码,并完成身份验证(例如手机验证码或谷歌身份验证器)。成功验证后,即可访问币安官方网站的最新版登录入口。

Bitget交易平台官方App下载安装地址 Bitget交易平台官方App下载安装地址 Feb 25, 2025 pm 02:42 PM

本指南提供了 Bitget 交易所官方 App 的详细下载和安装步骤,适用于安卓和 iOS 系统。指南整合了来自多个权威来源的信息,包括官网、App Store 和 Google Play,并强调了下载和账户管理过程中的注意事项。用户可以从官方渠道下载 App,包括应用商店、官网 APK 下载和官网跳转,并完成注册、身份验证和安全设置。此外,指南还涵盖了常见问题和注意事项,例如

2025年Bitget最新下载地址:获取官方App的步骤 2025年Bitget最新下载地址:获取官方App的步骤 Feb 25, 2025 pm 02:54 PM

本指南提供了 Bitget 交易所官方 App 的详细下载和安装步骤,适用于安卓和 iOS 系统。指南整合了来自多个权威来源的信息,包括官网、App Store 和 Google Play,并强调了下载和账户管理过程中的注意事项。用户可以从官方渠道下载 App,包括应用商店、官网 APK 下载和官网跳转,并完成注册、身份验证和安全设置。此外,指南还涵盖了常见问题和注意事项,例如

See all articles