目录
AudioPaLM
实验部分
首页 科技周边 人工智能 谷歌AudioPaLM实现「文本+音频」双模态解决,说听两用大模型

谷歌AudioPaLM实现「文本+音频」双模态解决,说听两用大模型

Jun 30, 2023 pm 01:49 PM
谷歌 模型

大型语言模型以其强大的性能及通用性,带动了一批多模态的大模型开发,如音频、视频等。

语言模型的底层架构大多是基于Transformer,且以解码器为主,所以无需过多调整模型架构即可适应其他序列模态。

最近,谷歌发布了一个统一的语音-文本模型AudioPaLM,将文本和音频的token合并为一个多模态联合词汇表,再结合不同任务描述标记,可以实现在任意语音和文本的混合任务上训练decoder-only模型,包括语音识别(ASR)、文本到语音合成、自动语音翻译(AST)和语音到语音翻译(S2ST)等,将传统上由异质模型解决的任务统一到一个架构和训练流程中。

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型图片

论文链接:https://arxiv.org/pdf/2306.12925.pdf

示例链接:https://google-research.github.io/seanet/audiopalm/examples/

此外,由于AudioPaLM的底层架构是一个大型的Transformer模型,可以用对文本进行预训练的大型语言模型的权重来初始化,可以从PaLM等模型的语言学知识中受益。

从实现效果来看,AudioPaLM在AST和S2ST基准上取得了最先进的结果,并且在ASR基准上的性能也和其他模型不相上下。

通过利用AudioLM的音频提示,AudioPaLM模型能够对新的说话人语音迁移来执行S2ST,在语音质量和语音保存方面超过了现有的方法。

AudioPaLM模型也具有zero-shot的能力,可以对训练中未见过的语音输入/目标语言组合执行AST任务。

AudioPaLM

研究人员使用一个decoder-only Transformer模型对文本和语音的token进行建模,其中文本和音频在输入到模型之间已经进行分词,所以输入只是一个整数序列,在输出端再进行反分词(detokenized)操作返回给用户。

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型图片

音频embedding及分词

将音频的原始波形转换为token的过程中,包括从现有的语音表征模型中抽取为嵌入(embedding),并将嵌入离散为一组有限的音频token

之前的工作中从w2v-BERT模型中提取嵌入,并通过k-means将其量化,而这篇论文中,研究人员试验了三种方案:

w2v-BERT:使用在多语言数据上训练的w2v-BERT模型,而非纯英语;并且在进行k-means聚类之前没有进行归一化处理,否则会导致在多语言环境中性能下降。然后以25Hz的速率生成token,词表大小为1024

USM-v1:使用性能更强的、20亿参数的通用语音模型(USM)编码器执行类似的操作,并从中间层提取嵌入;

USM-v2:用辅助ASR损失来训练,并进一步微调以支持多语言。

修改text-only解码器

在Transfomrer解码器结构中,除了输入和最后的softmax输出层外,都不涉及到建模token的数量,并且在PaLM架构中,输入和输出矩阵的权重变量时共享的,即互为转置。

所以只需要将嵌入矩阵的大小从(t × m)扩展到(t+a)×m即可把一个纯文本模型变成一个既能模拟文本又能模拟音频的模型,其中t是文本词表的大小,a是音频词表的大小,m是嵌入维度。

为了利用预训练的文本模型,研究人员通过在嵌入矩阵中添加新的行来改变现有模型的checkpoint。

具体的实现为,前t个token对应于SentencePiece文本标记,后面a个token代表音频标记,虽然文本嵌入式复用的预训练权重,但音频嵌入是全新初始化的,必须进行训练。

实验结果显示,与从头重新训练相比,基于文本预训练模型对语音和文本的多模态任务性能提升非常有利。

音频token解码为原生音频

为了从音频token中合成音频波形,研究人员试验了两种不同的方法:

1. 类似AudioLM模型的自回归解码

2. 类似SoundStorm模型的非自回归解码

这两种方法都需要先生成SoundStream token,再用卷积解码器将其转换为音频波形。

研究人员在Multilingual LibriSpeech上进行训练,语音条件为3秒长的语音样本,同时表示为音频token 和SoundStream token

通过提供部分原始输入语音作为语音条件,模型能够在将说话人的语音翻译成不同语言时保留原始说话人的语音,当原始音频短于3秒时,通过重复播放来填充空白时间。

训练任务

使用到的训练数据集均为speech-text数据:

1. 音频Audio:源语言的语音(speech)

2. 转录Transcript:音频数据中语音的转录

3. 翻译音频Translated Audio:音频中语音的口语翻译

4. 翻译转录Translated Transcript:音频中语音的书面翻译

组件任务包括:

1. ASR(自动语音识别):转录音频以获得转录文本

2. AST(自动语音翻译):翻译音频以获得翻译后的转录文本

3. S2ST(语音到语音翻译):翻译音频以获得翻译后的音频

4. TTS(文本到语音):读出转录的内容,以获得音频。

5. MT(文本到文本的机器翻译):翻译转录以获得翻译后的转录文本

一个数据集可能会用于多个任务,所以研究人员选择向模型发出信号,告诉模型应该对给定的输入执行哪项任务,具体方法为:在输入前加上一个标签,指定任务和输入语言的英文名称,输出语言也可以选择。

例如,想要模型对法语语料进行ASR时,分词后的音频输入前面要加上标签[ASR French];要在英语中执行TTS任务,文本前面需要加上[TTS English];要执行从英语到法语的S2ST任务,分词后的英语音频会在前面加上[S2ST English French]

训练混合

研究人员使用SeqIO库对训练数据进行混合,对较大的数据集进行权重降低。

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型图片

实验部分

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型图片

AudioPaLM在AST和S2ST任务上超过了其他基线模型,在ASR上性能虽然不是最优,但效果也非常好。

除了评估语音内容的翻译质量外,研究人员还评估了AudioPaLM生成的语言是否质量足够高,并且在翻译成不同语言时能否保留说话人的声音。

客观指标

使用类似于无参考MOS估计器,给定一个音频样本,在1到5的范围内提供一个感知音频质量估计。

为了测量跨语言的语音迁移质量,研究人员使用的现成的说话人验证模型,并计算源(用SoundStream编码/解码)和翻译语音的嵌入之间的余弦相似度;还衡量了从源音频到目标音频的声学特性(录音条件、背景噪音)。

主观评估

研究人员进行了两项独立研究来评估生成的语音质量和语音相似度,两项研究中都使用相同的样本集合。

由于语料的质量参差不齐,有些含有响亮的重叠语音(例如,背景中播放的电视节目或歌曲)或极强的噪音(例如,衣服与麦克风摩擦),类似的失真效果使得人类评分员的工作变得复杂,因此研究人员决定通过只选择MOS估计值至少为3.0的输入进行预过滤。

评分以5级量表提供,从1(质量差或完全不同的声音)到5(质量好,相同的声音)。

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型图片

从结果中可以观察到AudioPaLM在客观和主观测量中,在音频质量和语音相似度方面都明显优于基线Translatotron 2系统,并且AudioPaLM比CVSS-T中的真实合成录音具有更高的质量和更好的语音相似度,在大多数指标上有比较大提升。

研究人员还对比了高资源组和低资源组(法语、德语、西班牙语和加泰罗尼亚语与其他语言)的系统,发现这些组之间的指标没有明显差异。

以上是谷歌AudioPaLM实现「文本+音频」双模态解决,说听两用大模型的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

芝麻开门交易所网页注册链接 gate交易app注册网址最新 芝麻开门交易所网页注册链接 gate交易app注册网址最新 Feb 28, 2025 am 11:06 AM

本文详细介绍了芝麻开门交易所(Gate.io)网页版和Gate交易App的注册流程。 无论是网页注册还是App注册,都需要访问官方网站或应用商店下载正版App,然后填写用户名、密码、邮箱和手机号等信息,并完成邮箱或手机验证。

Bybit交易所链接为什么不能直接下载安装? Bybit交易所链接为什么不能直接下载安装? Feb 21, 2025 pm 10:57 PM

为什么Bybit交易所链接无法直接下载安装?Bybit是一个加密货币交易所,为用户提供交易服务。该交易所的移动应用程序不能直接通过AppStore或GooglePlay下载,原因如下:1.应用商店政策限制苹果公司和谷歌公司对应用商店中允许的应用程序类型有严格的要求。加密货币交易所应用程序通常不符合这些要求,因为它们涉及金融服务,需要遵循特定的法规和安全标准。2.法律法规合规在许多国家/地区,与加密货币交易相关的活动都受到监管或限制。为了遵守这些规定,Bybit应用程序只能通过官方网站或其他授权渠

芝麻开门交易所网页版登入口 最新版gateio官网入口 芝麻开门交易所网页版登入口 最新版gateio官网入口 Mar 04, 2025 pm 11:48 PM

详细介绍芝麻开门交易所网页版登入口操作,含登录步骤、找回密码流程,还针对登录失败、无法打开页面、收不到验证码等常见问题提供解决方法,助你顺利登录平台。

芝麻开门交易平台下载手机版 gateio交易平台下载地址 芝麻开门交易平台下载手机版 gateio交易平台下载地址 Feb 28, 2025 am 10:51 AM

选择正规渠道下载App,保障您的账户安全至关重要。

加密数字资产交易APP推荐top10(2025全球排名) 加密数字资产交易APP推荐top10(2025全球排名) Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台,涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋,例如币安以其全球最大的交易量和丰富的功能着称,而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。 希望本文能帮助您找到最适合自

币安binance官网最新版登录入口 币安binance官网最新版登录入口 Feb 21, 2025 pm 05:42 PM

访问币安官方网站最新版登录入口,只需遵循这些简单步骤。前往官方网址,点击右上角的“登录”按钮。选择您现有的登录方式,如果是新用户,请“注册”。输入您的注册手机号或邮箱和密码,并完成身份验证(例如手机验证码或谷歌身份验证器)。成功验证后,即可访问币安官方网站的最新版登录入口。

Bitget交易平台官方App下载安装地址 Bitget交易平台官方App下载安装地址 Feb 25, 2025 pm 02:42 PM

本指南提供了 Bitget 交易所官方 App 的详细下载和安装步骤,适用于安卓和 iOS 系统。指南整合了来自多个权威来源的信息,包括官网、App Store 和 Google Play,并强调了下载和账户管理过程中的注意事项。用户可以从官方渠道下载 App,包括应用商店、官网 APK 下载和官网跳转,并完成注册、身份验证和安全设置。此外,指南还涵盖了常见问题和注意事项,例如

2025年Bitget最新下载地址:获取官方App的步骤 2025年Bitget最新下载地址:获取官方App的步骤 Feb 25, 2025 pm 02:54 PM

本指南提供了 Bitget 交易所官方 App 的详细下载和安装步骤,适用于安卓和 iOS 系统。指南整合了来自多个权威来源的信息,包括官网、App Store 和 Google Play,并强调了下载和账户管理过程中的注意事项。用户可以从官方渠道下载 App,包括应用商店、官网 APK 下载和官网跳转,并完成注册、身份验证和安全设置。此外,指南还涵盖了常见问题和注意事项,例如

See all articles