多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题-人工智能-PHP中文网

首页

科技周边

人工智能

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

王林

Sep 18, 2023 am 11:09 AM

理论

日前，火山语音团队多篇论文入选Interspeech 2023，内容涵盖短视频语音识别、跨语言音色与风格以及口语流利度评估等多个应用方向的创新突破。Interspeech作为国际语音通信协会ISCA组织的语音研究领域的顶级会议之一，也被称为全球最大的综合性语音信号处理盛会，受到全球语言领域人士的广泛关注。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

Interspeech2023活动现场

基于随机语句串联的数据增强改进短视频语音识别（Random Utterance Concatenation Based Data Augmentation for Improving Short-video Speech Recognition）

一般来说，端到端自动语音识别（ASR）框架的限制之一，就是如果训练和测试语句的长度不匹配，其性能可能会受到影响。在该论文中，火山语音团队提出了一种基于即时随机语句串联（RUC）的数据增强方法作为前端数据增强，以减轻短视频ASR任务中训练和测试语句长度不匹配的问题。

具体来说，团队发现以下观察结果对创新实践起到了主要作用：通常情况下，短视频自发语音的训练语句比人工转录的语句要短得多（平均约3秒），而从语音活动检测前端生成的测试语句要长得多（平均约10秒）。因此，这种不匹配可能会导致性能不佳

火山语音团队表示，为了进行实证，我们使用了来自15种语言的多类ASR模型。这些语言的数据集范围从1,000小时到30,000小时不等。在模型微调阶段，我们还即时加入了采样多条数据后并拼接的数据。相比于没有增强过的数据，这种方法在所有语言上平均达到了5.72%的相对词错误率降低

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

测试集上长句的 WER 通过 RUC 训练过后显著下降（蓝色 vs. 红色）

根据实验观察，RUC方法明显改善了长句的识别能力，而短句的性能没有下降。进一步分析发现，所提出的数据增强方法可以减少ASR模型对长度归一化变化的敏感性，这可能意味着ASR模型在多样环境下更具鲁棒性。综上所述，RUC数据增强方法虽然操作简单，但效果显著

基于语音和韵律自监督方法的流利度打分(Phonetic and Prosody-aware Self-supervised Learning Approach for Non-native Fluency Scoring)

评价二语学习者语言能力的重要维度之一是口语的流利程度。流利的发音主要表现在说话时没有太多停顿、犹豫或自我纠正等异常现象，而是能够轻松、正常地发出语音。相比母语者，大多数二语学习者通常会说得较慢，并且会更频繁地停顿。为了评估口语流利度，火山语音团队提出了一种基于语音和韵律相关的自监督建模方法

具体来说，在预训练阶段，需要对模型的输入序列特征(声学特征、音素id、音素时长)进行掩码，将掩码后的特征送入模型，利用上下文相关的编码器根据时序信息来还原掩码部分的音素id和音素时长信息，从而模型具有更强大的语音和韵律表征能力。该方案将序列建模框架中原始时长、音素和声学信息这三种特征进行掩码重构，让机器自动去学习上下文的语音和时长表征，更好用于流利度打分。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

这种基于语音和韵律的自监督学习方法超过了领域内其他方法，在内部测试集上机器预测结果和人类专家打分之间相关性达到了0.833，与专家和专家之间的相关性 0.831持平。在开源数据集上，机器预测结果和人类专家打分之间相关性达到了0.835，性能超越过去在该任务上提出的一些自监督方法。应用场景方面，该方法可被应用于有流利度自动评估的需求场景中，例如口语考试以及各种在线口语练习等。

解耦非母语语音在发音评估中的贡献(Disentangling the Contribution of Non-native Speech in Automated Pronunciation Assessment)

非母语发音评估的一个基本思想就是量化学习者发音与母语者发音的偏差，因此早期用于发音评测的声学模型通常仅仅使用目的语的数据进行训练，但最近的一些研究开始将非母语语音数据纳入模型训练。将非母语语音纳入二语ASR 与非母语评估或发音错误检测中的目的存在根本区别：前者的目标是尽可能使模型适应非母语数据以达到最优 ASR 性能；后者则需要平衡两个看似相悖的需求，即在非母语语音的较高识别精度以及对非母语发音的发音水平实现客观的评估。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

火山语音团队旨在从两个不同的角度，即对齐精度和评估表现，研究非母语语音在发音评估中的贡献。为此，他们设计了不同的数据组合和训练声学模型时的文本转录形式，如上图所示

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

上述两个表格分别展现了不同组合的声学模型在对齐精度和评估中的性能。实验结果表明，在声学模型训练期间仅使用带有人工标注的音素序列的非母语数据，可以实现非母语语音的对齐以及发音评估的最高准确度。具体来说，在训练中将一半母语数据和一半非母语数据（人工标注的音素序列）混合可能会稍差，但可以媲美仅使用非母语数据与人工标注的音素序列。

此外，在对母语数据进行发音评估时，上述混合情况表现更出色。在资源有限的情况下，与仅使用母语数据进行声学模型训练相比，无论使用哪种文本转录类型，添加10小时的非母语数据都能显著提高对齐准确性和评估性能。这项研究对于语音评估领域的数据应用具有重要的指导意义

在端到端语音识别通过非尖峰的CTC优化帧分类器解决时间戳问题（Improving Frame-level Classifier for Word Timings with Non-peaky CTC in End-to-End Automatic Speech Recognition)

自动语音识别（ASR）领域的端到端系统已经展示出与混合系统相媲美的性能。作为ASR的附带产物，时间戳在许多应用中都是至关重要的，特别在字幕生成和计算辅助发音训练等场景，本论文旨在优化端到端系统中的帧级分类器来获取时间戳。对此团队引入使用CTC(connectionist temporal classification)损失来训练帧级分类器，并且引入标签先验的信息使得CTC的尖峰现象有所缓解，还将梅尔滤波器与ASR编码器的输出相结合，作为输入特征。

在内部的中文实验上，该方法在单词时间戳200ms准确性上达到了95.68%/94.18%，而传统混合系统仅为93.0%/90.22%。此外，相对于之前的端到端方法，团队在内部的7种语言上取得了4.80%/8.02%的绝对性能提升。通过逐帧的知识蒸馏方法，还进一步提高了单词定时的准确性，尽管此实验仅针对LibriSpeech进行。

这项研究结果表明，端到端语音识别系统中的时间戳性能可以通过引入标签先验和融合不同级别的特征进行有效优化。在内部中文实验上，该方法相较于混合系统和之前的端到端方法，都取得了显著的改进；此外对于多种语言，方法也展现出了明显的优势；通过知识蒸馏方法的应用进一步提高了单词定时的准确性。这些结果不仅对字幕生成和发音训练等应用具有重要意义，还为自动语音识别技术的发展提供了有益的探索方向。

基于语种区分声学边界学习的中英混语音识别（Language-specific Acoustic Boundary Learning for Mandarin-English Code-switching Speech Recognition ）

重写后的内容：众所周知，代码切换（CS）的主要目标是促进不同语言或技术领域之间的有效交流。CS需要在一个句子中交替使用两种或多种语言，然而，合并来自多种语言的单词或短语可能会导致语音识别的错误和混淆，这使得代码切换语音识别（CSSR）成为一项更具挑战性的任务

通常的端到端ASR模型由编码器、解码器和对齐机制组成。现有的端到端CSASR模型大多只关注于优化编码器和解码器结构，很少讨论是否需要对对齐机制进行语种相关的设计。大部分已有的工作都是针对中英混合场景使用普通话字符和英语子词的混合作为建模单元。普通话字符通常表示普通话中的单个音节，并且具有清晰的声学边界；而英文子词是在不参考任何声学知识的情况下获得的，因此它们的声学边界可能是模糊的。为了在CSASR系统中获得普通话和英语的良好声学边界（对齐），进行语种相关的声学边界学习是非常必要的。因此，我们在CIF模型的基础上进行了改进，提出了一种语种区分的声学边界学习方法，用于CSASR任务。模型架构的详细信息请见下图

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

该模型由六个组件组成，分别是编码器、语种区分的权重估计器(LSWE)、CIF模块、自回归(AR)解码器、非自回归(NAR)解码器和语种变化检测(LCD)模块。编码器和自回归解码器以及CIF的计算过程与原始的CIF-based的ASR方法无异，语种区分的权重估计器负责完成语种独立的声学边界的建模，非自回归(NAR)解码器和语种变化检测(LCD)模块都是设计来辅助模型的训练，在解码阶段不再保留

实验结果显示，该方法在开源中英混数据集SEAME的两个测试集多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题和上获得了新的SOTA效果，分别是16.29%和22.81%的MER。为了进一步验证该方法在更大数据量中的效果，团队在9000小时的内部数据集上进行了实验，最终也是获得了相对7.9%的MER收益。据了解，本论文也是第一篇在CSASR任务中进行语种区分的声学边界学习的工作内容。

USTR：基于统一的表征和纯文本进行 ASR 领域适应（Text-only Domain Adaptation using Unified Speech-Text Representation in Transducer）

众所周知，领域迁移一直是ASR中十分重要的任务，但在目标领域获取成对的语音数据非常耗时且成本很高，因此其中很多工作都是利用目标领域相关文本数据来提升识别效果。传统方法中，TTS 会增加训练的周期和相关数据的存储成本，ILME和Shallow fusion等方法会增加推理时的复杂度。

基于该任务，团队在 RNN-T的基础上，将Encoder拆分成Audio Encoder和Shared Encoder，同时引入Text Encoder用于学习和语音信号类似的表征；语音和文本的表征则通过Shared Encoder，使用RNN-T loss进行训练，被称为 USTR（Unified Speech-Text Representation）。“对于Text Encoder这部分，我们探究了不同类型的表征形式，包括Character序列，Phone序列和Sub-word 序列，最终结果表明Phone序列的效果最好。对于训练方式，本文探究了基于给定RNN-T模型的Multi-step训练方式和完全随机初始化的Single-step训练方式。”

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

具体来说，团队使用LibriSpeech数据集作为Source domain，并利用 SPGISpeech 的标注文本作为纯文本进行领域迁移实验。实验结果表明，该方法在目标领域的效果提升可以和 TTS 基本持平；Single-step训练效果更高，效果和 Multi-step基本持平；同时还发现USTR方法可以和ILME这种外挂语言模型的方法进一步结合，即便LM使用的是相同的文本训练语料。最终，在目标领域测试集上，不结合外部语言模型，本方法相对基线 WER 23.55% -> 13.25%，相对下降 43.7%。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

基于知识蒸馏的高效内部语言模型估计方法 (Knowledge Distillation Approach for Efficient Internal Language Model Estimation)

尽管内部语言模型估计（ILME）已经证明其在端到端ASR语言模型融合中的有效性，但是与传统的Shallow fusion相比，ILME额外引入了内部语言模型的计算，增加了推理成本。为了估计内部语言模型，需要基于ASR解码器上做一次额外的前向计算，或者基于密度比率（Density Ratio）方法，用ASR训练集文本训练一个独立的语言模型（DR-LM），作为内部语言模型的近似。基于ASR解码器的ILME方法，由于直接利用ASR参数进行估计，通常可以取得优于密度比率方法的性能，但其计算量取决于ASR解码器的参数量；密度比率方法的优势则在于可以通过控制DR-LM的大小实现高效的内部语言模型估计。

为此火山语音团队提出在密度比率方法的框架下，用基于ASR解码器的ILME方法作为教师，蒸馏学习DR-LM，从而在保持ILME性能的同时，大幅降低ILME的计算成本。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

实验结果显示，这种方法可以减少95%的内部语言模型参数，并且在性能上与基于ASR解码器的ILME方法相当。当采用性能更好的ILME方法作为教师时，相应的学生模型也能够取得更好的效果。与计算量相当的传统密度比率方法相比，在高资源场景下，这种方法的性能稍优，在低资源跨领域迁移场景下，CER收益可达8%，并且对于融合权重更加鲁棒

GenerTTS：跨语言语音合成中音色和风格与发音解耦和泛化（GenerTTS: Pronunciation Disentanglement for Timbre and Style Generalization in Cross-Lingual Text-to-Speech）

跨语言音色和风格可泛化的语音合成（TTS）旨在合成具有特定参考音色或风格的语音，该音色或风格并未在目标语言中进行过训练。它面临着这样的挑战，例如音色和发音之间难以分离，因为通常很难获取特定说话人的多语言语音数据；风格和发音混合在一起，因为语音风格包含语言无关和语言相关两部分。

为了应对这些挑战，火山语音团队提出了GenerTTS。他们仔细设计了基于HuBERT的信息瓶颈，以解除音色和发音/风格之间的联系。同时，他们还通过最小化风格和语言之间的互信息来消除风格中的语言特定信息

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

实验证明，GenerTTS在风格相似性和发音准确性方面优于基准系统，并实现了跨语言音色和风格的可泛化性。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

一直以来，火山语音团队面向字节跳动内部各业务线，提供优质的语音AI技术能力以及全栈语音产品解决方案，并通过火山引擎对外提供服务。自 2017 年成立以来，团队专注研发行业领先的 AI 智能语音技术，不断探索AI 与业务场景的高效结合，以实现更大的用户价值。

以上是多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7569

CakePHP 教程

1386

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

107

显示更多

Related knowledge

$突破传统缺陷检测的界限，\'Defect Spectrum\'首次实现超高精度丰富语义的工业缺陷检测。$ 突破传统缺陷检测的界限，\'Defect Spectrum\'首次实现超高精度丰富语义的工业缺陷检测。 Jul 26, 2024 pm 05:38 PM

在现代制造业中，精准的缺陷检测不仅是保证产品质量的关键，更是提升生产效率的核心。然而，现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性，导致模型无法识别具体的缺陷类别或位置。为了解决这一难题，由香港科技大学广州和思谋科技组成的顶尖研究团队，创新性地开发出了“DefectSpectrum”数据集，为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示，相比其他工业数据集，“DefectSpectrum”数据集提供了最多的缺陷标注（5438张缺陷样本），最细致的缺陷分类（125种缺陷类别

英伟达对话模型ChatQA进化到2.0版本，上下文长度提到128K Jul 26, 2024 am 08:40 AM

开放LLM社区正是百花齐放、竞相争鸣的时代，你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等许多表现优良的模型。但是，相比于以GPT-4-Turbo为代表的专有大模型，开放模型在很多领域依然还有明显差距。在通用模型之外，也有一些专精关键领域的开放模型已被开发出来，比如用于编程和数学的DeepSeek-Coder-V2、用于视觉-语言任务的InternVL

数百万晶体数据训练，解决晶体学相位问题，深度学习方法PhAI登Science Aug 08, 2024 pm 09:22 PM

编辑|KX时至今日，晶体学所测定的结构细节和精度，从简单的金属到大型膜蛋白，是任何其他方法都无法比拟的。然而，最大的挑战——所谓的相位问题，仍然是从实验确定的振幅中检索相位信息。丹麦哥本哈根大学研究人员，开发了一种解决晶体相问题的深度学习方法PhAI，利用数百万人工晶体结构及其相应的合成衍射数据训练的深度学习神经网络，可以生成准确的电子密度图。研究表明，这种基于深度学习的从头算结构解决方案方法，可以以仅2埃的分辨率解决相位问题，该分辨率仅相当于原子分辨率可用数据的10%到20%，而传统的从头算方

谷歌AI拿下IMO奥数银牌，数学推理模型AlphaProof面世，强化学习 is so back Jul 26, 2024 pm 02:40 PM

对于AI来说，奥数不再是问题了。本周四，谷歌DeepMind的人工智能完成了一项壮举：用AI做出了今年国际数学奥林匹克竞赛IMO的真题，并且距拿金牌仅一步之遥。上周刚刚结束的IMO竞赛共有六道赛题，涉及代数、组合学、几何和数论。谷歌提出的混合AI系统做对了四道，获得28分，达到了银牌水平。本月初，UCLA终身教授陶哲轩刚刚宣传了百万美元奖金的AI数学奥林匹克竞赛（AIMO进步奖），没想到7月还没过，AI的做题水平就进步到了这种水平。IMO上同步做题，做对了最难题IMO是历史最悠久、规模最大、最负

Nature观点，人工智能在医学中的测试一片混乱，应该怎么做？ Aug 22, 2024 pm 04:37 PM

编辑|ScienceAI基于有限的临床数据，数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具，以及如何最好地进行测试。DevinSingh在急诊室目睹了一名儿科患者因长时间等待救治而心脏骤停，这促使他探索AI在缩短等待时间中的应用。Singh利用了SickKids急诊室的分诊数据，与同事们建立了一系列AI模型，用于提供潜在诊断和推荐测试。一项研究表明，这些模型可以加快22.3%的就诊速度，将每位需要进行医学检查的患者的结果处理速度加快近3小时。然而，人工智能算法在研究中的成功只是验证此

为大模型提供全新科学复杂问答基准与测评体系，UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架 Jul 25, 2024 am 06:42 AM

编辑|ScienceAI问答（QA）数据集在推动自然语言处理（NLP）研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型，也可以有效评估大语言模型（LLM）的能力，尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集，涵盖了医学、化学、生物等领域，但这些数据集仍存在一些不足。其一，数据形式较为单一，大多数为多项选择题（multiple-choicequestions），它们易于进行评估，但限制了模型的答案选择范围，无法充分测试模型的科学问题解答能力。相比之下，开放式问答

PRO | 为什么基于 MoE 的大模型更值得关注？ Aug 07, 2024 pm 07:08 PM

2023年，几乎AI的每个领域都在以前所未有的速度进化，同时，AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下，Transformer作为AI大模型主流架构的局面是否会撼动？为何探索基于MoE（专家混合）架构的大模型成为业内新趋势？大型视觉模型（LVM）能否成为通用视觉的新突破？...我们从过去的半年发布的2023年本站PRO会员通讯中，挑选了10份针对以上领域技术趋势、产业变革进行深入剖析的专题解读，助您在新的一年里为大展宏图做好准备。本篇解读来自2023年Week50

SOTA性能，厦大多模态蛋白质-配体亲和力预测AI方法，首次结合分子表面信息 Jul 17, 2024 pm 06:37 PM

编辑|KX在药物研发领域，准确有效地预测蛋白质与配体的结合亲和力对于药物筛选和优化至关重要。然而，目前的研究没有考虑到分子表面信息在蛋白质-配体相互作用中的重要作用。基于此，来自厦门大学的研究人员提出了一种新颖的多模态特征提取（MFE）框架，该框架首次结合了蛋白质表面、3D结构和序列的信息，并使用交叉注意机制进行不同模态之间的特征对齐。实验结果表明，该方法在预测蛋白质-配体结合亲和力方面取得了最先进的性能。此外，消融研究证明了该框架内蛋白质表面信息和多模态特征对齐的有效性和必要性。相关研究以「S

See all articles

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题