Prompt解锁语音语言模型生成能力，SpeechGen实现语音翻译、修补多项任务-人工智能-PHP中文网

引言与动机

实验

不足与未来方向

结论

首页

科技周边

人工智能

Prompt解锁语音语言模型生成能力，SpeechGen实现语音翻译、修补多项任务

王林

Jun 14, 2023 pm 08:25 PM

框架语音

Prompt解锁语音语言模型生成能力，SpeechGen实现语音翻译、修补多项任务

论文链接：https://arxiv.org/pdf/2306.02207.pdf
Demo 页面：https://ga642381.github.io/SpeechPrompt/speechgen.html
Code: https://github.com/ga642381/SpeechGen

引言与动机

大型语言模型（LLMs）在人工智能生成内容（AIGC）方面引起了相当大的关注，特别是随着 ChatGPT 的出现。

然而，如何用大型语言模型处理连续语音仍然是一个未解决的挑战，这一挑战阻碍了大型语言模型在语音生成方面的应用。因为语音信号包含丰富的信息，如说话者和情感，超越了纯文本数据，基于语音的语言模型 (speech language model (speech LM)) 不断涌现。

虽然与基于文本的语言模型相比，语音语言模型仍处于早期阶段，但由于语音数据中蕴含着比文本更丰富的信息，它们具备巨大的潜力，令人充满期待。

研究人员正积极探索提示 (prompt) 范式的潜力，以发挥预训练语言模型的能力。这种提示通过微调少量参数，引导预训练语言模型做特定的下游任务。这种技术因其高效和有效而在 NLP 领域备受青睐。在语音处理领域，SpeechPrompt 展示出了在参数效率方面的显著改进，并在各种语音分类任务中取得了竞争性的表现。

然而，提示能否帮助语音语言模型完成生成任务仍是未解之谜。在本文中，我们提出一个创新的统一框架：SpeechGen，旨在激发语音语言模型进行生成任务的潜力。如下图所示，将一段语音、一个特定的提示 (prompt) 喂给 speech LM 作为输入，speech LM 就能做特定的任务。比如将红色的 prompt 当作输入，speech LM 就能做 speech translation 的任务。

Prompt解锁语音语言模型生成能力，SpeechGen实现语音翻译、修补多项任务

我们提出的框架具有以下优点：

1. 无文本 (Textless)：我们的框架以及其所依赖的语音语言模型独立于文字数据，拥有无可估量的价值。毕竟，获取标记文本与语音配对的过程耗时繁琐，而且在某些语言中甚至无法找到合适的文本。无需文字的特性使得我们的强大语音生成能力得以覆盖各种语言需求，让全人类受益匪浅。

2. 多功能性 (Versatility)：我们开发的框架通用性极高，能应用于各种各样的语音生成任务。论文中实验使用语音翻译、语音修复、语音连续当作例子。

3. 简易性 (Easy to follow)：我们提出的框架为各类语音生成任务提供了通用解决方案，让设计下游模型和损失函数变得轻而易举。

4. 可迁移性 (Transferability)：我们的框架不仅容易适应未来更先进的语音语言模型，还蕴藏着巨大的潜力，让效率和效果得到进一步提升。尤其令人振奋的是，随着先进语音语言模型即将问世，我们的框架将迎来更为强大的发展。

5. 经济性 (Affordability)：我们的框架经过精心的设计，只需训练少量参数，而不是整个庞大的语言模型。这极大地减轻了计算负担，并允许在 GTX 2080 GPU 上执行训练过程。大学的实验室也能负担得起这样的运算开销。

SpeechGen介绍

Prompt解锁语音语言模型生成能力，SpeechGen实现语音翻译、修补多项任务

我们的研究方法在于构建一个全新的框架 SpeechGen，该框架主要利用语音语言模型（Spoken Language Models, SLMs）进行各种下游语音生成任务的微调。在训练过程中，SLMs 的参数保持不变，我们的方法侧重于学习任务特定的提示（Prompt）向量。SLMs 通过同时对提示向量和输入单元进行条件设置，有效地生成特定语音生成任务所需的输出。然后，这些离散单元输出被输入到基于单元的语音合成器中，生成对应的波形。

我们的 SpeechGen 框架由三个元素组成：语音编码器、SLM 和语音解码器（Speech Decoder）。

首先，语音编码器将波形作为输入，并将其转换为由有限词汇表导出的单位序列。为了缩短序列长度，会移除重复的连续单位以生成压缩的单位序列。然后，SLM 作为单位序列的语言模型，通过预测前一单位和单位序列的后续单位来优化可能性。我们对 SLM 进行提示调整，以引导其根据任务生成适当的单位。最后，SLM 生成的标记由语音解码器处理，将其转换回波形。在我们的提示调整策略中，提示向量会在输入序列的开始处插入，这将引导 SLMs 在生成过程中的方向。具体插入的提示数量，则取决于 SLMs 的架构。在序列到序列的模型中，编码器输入和解码器输入都会加入提示，但在只有编码器或只有解码器的架构中，只会在输入序列前面添加一个提示。

在序列到序列的 SLMs（如 mBART）中，我们采用了自我监督学习模型（如 HuBERT）来处理输入和目标语音。这样做可以为输入生成离散单元，并为目标生成对应的离散单元。我们在编码器和解码器输入的前面都添加了提示向量，以构造输入序列。此外，我们还通过替换注意力机制中的关键值对，以进一步增强提示的指导能力。

在模型训练中，我们以交叉熵损失作为所有生成任务的目标函数，通过比较模型的预测结果和目标离散单元标签来计算损失。在这个过程中，提示向量是模型中唯一需要训练的参数，而 SLMs 的参数在训练过程中保持不变，这确保了模型行为的一致性。我们通过插入提示向量，引导 SLMs 从输入中提取任务特定信息，并提高产生符合特定语音生成任务的输出的可能性。这种方法允许我们微调并调整 SLMs 的行为，而无需修改其基础参数。

总的来说，我们的研究方法基于一种全新的框架 SpeechGen，通过训练提示向量，引导模型的生成过程，并使其能有效地产生符合特定语音生成任务的输出。

实验

我们的框架可以用于任意的 speech LM 及各类生成任务，具有很好的潜力。在我们的实验中，由于 VALL-E 和 AudioLM 不是开源的，我们选择使用 Unit mBART 作为 speech LM 进行案例研究。我们用语音翻译 (speech translation)、语音修复 (speech inpainting)、语音连续 (speech continuation) 当作例子，来展示我们框架的能力。这三个任务的示意图如下图所示。所有的任务都是语音输入，语音输出，无需文本帮助。

Prompt解锁语音语言模型生成能力，SpeechGen实现语音翻译、修补多项任务

语音翻译

我们在训练语音翻译 (speech translation) 时，用的是西班牙文转英文的任务。我们给模型输入西班牙语的语音，希望模型产生英文的语音，整个过程无需文本帮助。以下是几个语音翻译的例子，我们会展示正确答案 (ground truth) 与模型的预测 (model prediction)。这些演示示例表明模型的预测捕捉到了正确答案的核心含义。

Prompt解锁语音语言模型生成能力，SpeechGen实现语音翻译、修补多项任务

语音修补

在我们进行语音修补 (speech inpainting) 的实验中，我们特别选取超过 2.5 秒的音频片段作为后续处理的目标语音，并通过随机选择过程挑选出一段时长介于 0.8 至 1.2 秒的语音片段。然后我们对选出的片段进行掩码，模拟语音修补任务中缺失或受损的部分。我们使用词错误率 (WER) 和字符错误率 (CER) 作为评估受损片段修复程度的指标。

对 SpeechGen 生成的输出与受损语音进行比较分析，我们的模型可以显著重建口语词汇，将 WER 从 41.68% 降低到 28.61%，将 CER 从 25.10% 降低到 10.75%，如下表所示。这意味着我们提出的方法能够显著提高语音重建的能力，最终促进语音输出的准确性和可理解性。

Prompt解锁语音语言模型生成能力，SpeechGen实现语音翻译、修补多项任务

下图是一个展示样例，上面的子图是受损的语音，下面的子图是 SpeechGen 产生的语音，可以看到，SpeechGen 很好地修复了受损的语音。

Prompt解锁语音语言模型生成能力，SpeechGen实现语音翻译、修补多项任务

语音连续

我们将通过 LJSpeech 展示语音连续任务的实际应用。在训练提示（prompt）期间，我们的策略是让模型只看到片段的 seed segment，这个 seed segment 占据了语音总长度的部分比例，我们将其称为条件比率（condition ratio, r)，并让模型继续生成后续的语音。

以下是一些实例，黑色的文字代表种子片段（seed segment），红色的文字则是 SpeechGen 生成的句子（这里的文字首先经过语音识别得到结果。在训练和推理过程中，模型完全进行的是语音到语音的任务，且完全不接收任何文字信息）。不同的条件比率使 SpeechGen 能够生成不同长度的语句以实现连贯性，并完成一句完整的话。从质量角度看，生成的句子与种子片段在语法上基本一致，并且语义相关。虽然，生成的语音仍然无法完美地传达一个完整的意思。我们预期这个问题将在未来更强大的语音模型中得到解决。

不足与未来方向

语音语言模型和语音生成正处于蓬勃发展的阶段，而我们的框架则提供了一种巧妙地利用强大语言模型进行语音生成的可能性。然而，这个框架仍有一些尚待完善之处，也有许多值得我们深入研究的问题。

1. 与基于文本的语言模型相比，语音语言模型目前还处于发展的初级阶段。虽然我们提出的提示框架能激发语音语言模型做语音生成任务，但并不能达到卓越的性能。不过，随着语音语言模型的不断进步，比如从 GSLM 到 Unit mBART 的大转身，提示的表现有了明显的提升。特别是以前对 GSLM 具有挑战性的任务，现在在 Unit mBART 下表现出更好的性能。我们预计未来会出现更多先进的语音语言模型崭露头角。

2. 超越内容信息：当前的语音语言模型并不能完全捕捉到说话者和情感信息，这给当前的语音提示框架在有效处理这些信息方面带来了挑战。为了克服这个限制，我们引入即插即用模块，专门为框架注入说话者和情感信息。展望未来，我们预计未来的语音语言模型将整合和利用这些内容之外的信息，以提高性能并更好地处理语音生成任务中的说话者和情感相关方面。

3. 提示生成的可能性：对于提示生成，我们有着灵活多变的选择，可以集成各种类型的指示，包括文本和图像指示。想象一下，我们可以训练一个神经网络，让它用图像或文本作为输入，而不是像本文中那样使用训练好的 embedding 当作提示。这个训练好的网络将成为提示生成器，为框架增添了多样性。这样的方式会让提示生成变得更加有趣、更加丰富多彩。

结论

本文我们探索了使用提示来解锁语音语言模型在各种生成任务中的性能。我们提出了一个名为 SpeechGen 的统一框架，该框架仅有约 10M 的可训练参数。我们所提出的框架具有几大特性，包括无需文本、多功能性、高效性、可转移性和可负担性。为了展示 SpeechGen 框架的能力，我们以 Unit mBART 为案例进行研究，并在三个不同的语音生成任务上进行实验：语音翻译、语音修复和语音延续。

当这篇论文提交到 arXiv 时，Google 提出了一种更先进的语音语言模型 ——SPECTRON，它为我们展示了语音语言模型在建模说话人和情感等信息的可能性。这无疑是一个令人兴奋的消息，随着先进语音语言模型的不断提出，我们的统一框架具有巨大的潜力。

以上是Prompt解锁语音语言模型生成能力，SpeechGen实现语音翻译、修补多项任务的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7526

CakePHP 教程

1378

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

如何评估Java框架商业支持的性价比 Jun 05, 2024 pm 05:25 PM

评估Java框架商业支持的性价比涉及以下步骤：确定所需的保障级别和服务水平协议(SLA)保证。研究支持团队的经验和专业知识。考虑附加服务，如升级、故障排除和性能优化。权衡商业支持成本与风险缓解和提高效率。

PHP 框架的学习曲线与其他语言框架相比如何？ Jun 06, 2024 pm 12:41 PM

PHP框架的学习曲线取决于语言熟练度、框架复杂性、文档质量和社区支持。与Python框架相比，PHP框架的学习曲线更高，而与Ruby框架相比，则较低。与Java框架相比，PHP框架的学习曲线中等，但入门时间较短。

PHP 框架的轻量级选项如何影响应用程序性能？ Jun 06, 2024 am 10:53 AM

轻量级PHP框架通过小体积和低资源消耗提升应用程序性能。其特点包括：体积小，启动快，内存占用低提升响应速度和吞吐量，降低资源消耗实战案例：SlimFramework创建RESTAPI，仅500KB，高响应性、高吞吐量

Java框架的性能比较 Jun 04, 2024 pm 03:56 PM

根据基准测试，对于小型、高性能应用程序，Quarkus（快速启动、低内存）或Micronaut（TechEmpower优异）是理想选择。SpringBoot适用于大型、全栈应用程序，但启动时间和内存占用稍慢。

golang框架文档最佳实践 Jun 04, 2024 pm 05:00 PM

编写清晰全面的文档对于Golang框架至关重要。最佳实践包括：遵循既定文档风格，例如Google的Go编码风格指南。使用清晰的组织结构，包括标题、子标题和列表，并提供导航。提供全面准确的信息，包括入门指南、API参考和概念。使用代码示例说明概念和使用方法。保持文档更新，跟踪更改并记录新功能。提供支持和社区资源，例如GitHub问题和论坛。创建实际案例，如API文档。

如何为不同的应用场景选择最佳的golang框架 Jun 05, 2024 pm 04:05 PM

根据应用场景选择最佳Go框架：考虑应用类型、语言特性、性能需求、生态系统。常见Go框架：Gin（Web应用）、Echo（Web服务）、Fiber（高吞吐量）、gorm（ORM）、fasthttp（速度）。实战案例：构建RESTAPI（Fiber），与数据库交互（gorm）。选择框架：性能关键选fasthttp，灵活Web应用选Gin/Echo，数据库交互选gorm。

golang框架开发实战详解：问题答疑 Jun 06, 2024 am 10:57 AM

在Go框架开发中，常见的挑战及其解决方案是：错误处理：利用errors包进行管理，并使用中间件集中处理错误。身份验证和授权：集成第三方库并创建自定义中间件来检查凭据。并发处理：利用goroutine、互斥锁和通道来控制资源访问。单元测试：使用gotest包，模拟和存根进行隔离，并使用代码覆盖率工具确保充分性。部署和监控：使用Docker容器打包部署，设置数据备份，通过日志记录和监控工具跟踪性能和错误。