L'équipe d'algorithmes intelligents multimédia de Xiaohongshu et l'Université chinoise de Hong Kong ont proposé conjointement pour la première fois le schéma de synthèse vocale haute performance MSMC-TTS basé sur une représentation vocale compacte multi-livres de codes en plusieurs étapes. L'analyseur de caractéristiques basé sur un auto-encodeur variationnel quantifié vectoriel (VQ-VAE) utilise plusieurs livres de codes pour coder les caractéristiques acoustiques par étapes afin de former un ensemble de séquences latentes avec différentes résolutions temporelles. Ces séquences latentes peuvent être prédites à partir du texte par un prédicteur à plusieurs étapes et converties en audio cible par un vocodeur neuronal. Par rapport au système de base Fastspeech basé sur Mel-Spectrogram, cette solution présente des améliorations significatives en termes de qualité sonore et de naturel. Ce travail a maintenant été résumé dans l'article « A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS » et a été accepté par la conférence du domaine vocal INTERSPEECH 2022.
La synthèse vocale (TTS) est une technologie qui convertit le texte en parole. Elle est largement utilisée dans le doublage vidéo, la création de contenu audio et vidéo, l'interaction homme-machine intelligente et d'autres produits. La technologie de modélisation acoustique back-end des systèmes de synthèse vocale traditionnels comprend généralement trois parties : un extracteur de caractéristiques, un modèle acoustique et un vocodeur. TTS effectue généralement une modélisation acoustique sur les caractéristiques acoustiques obtenues sur la base du traitement du signal (comme le spectrogramme de Mel). Cependant, limitée par la capacité d'ajustement du modèle, il existe une certaine différence de distribution entre les caractéristiques acoustiques prédites et les données réelles. il est difficile pour un vocodeur formé sur des données réelles de générer un son de haute qualité à partir de fonctionnalités prédites.
Diagramme du cadre du système TTS
En réponse à ce problème, la communauté universitaire a utilisé des structures de modèles plus complexes et des algorithmes génératifs plus nouveaux pour réduire les erreurs de prédiction et les différences de distribution. Ce travail adopte une approche différente, prenant la représentation compacte de la parole comme point de départ pour considérer le problème. Pour la synthèse vocale, 1) une bonne compacité des caractéristiques acoustiques peut garantir des résultats de prédiction de modèle plus précis et une génération de forme d'onde plus robuste 2) une bonne exhaustivité des caractéristiques acoustiques peut garantir une meilleure reconstruction des signaux vocaux ; Sur la base de ces deux considérations, cet article propose d'utiliser un auto-encodeur variationnel de quantification vectorielle (VQ-VAE) pour extraire une meilleure représentation compacte à partir des données cibles.
VQ-VAE comprend un encodeur et un décodeur. Le codeur traite la séquence de caractéristiques acoustiques d'entrée en une séquence latente et la quantifie à l'aide du livre de codes correspondant. Le décodeur restaure la séquence quantifiée à la séquence de caractéristiques acoustiques d'origine. Cette séquence quantifiée a une meilleure compacité (moins de nombre de paramètres caractéristiques) qu'une représentation discrétisée. Plus le degré de quantification est élevé, c'est-à-dire plus la capacité du livre de codes est petite, plus les caractéristiques sont compactes. Mais cela entraîne également une compression des informations, ce qui aggrave l’exhaustivité des fonctionnalités. Afin de garantir une exhaustivité suffisante, davantage de mots de passe sont généralement utilisés. Cependant, à mesure que la capacité du livre de codes augmente, la quantité de données requises pour la mise à jour du livre de codes et le nombre de temps de formation augmenteront de façon exponentielle, ce qui rend difficile pour VQ-VAE d'améliorer efficacement l'exhaustivité de la représentation en augmentant le livre de codes. Pour résoudre ce problème, cet article propose la méthode de quantification vectorielle multi-têtes (MHVQ).
Diagramme de structure du modèle VQ-VAE
MHVQ divise un seul livre de codes en plusieurs sous-livres de codes en fonction de la direction des dimensions des fonctionnalités. Lors de la quantification, chaque vecteur d'entrée est également découpé en plusieurs sous-vecteurs, quantifiés respectivement avec les sous-livres de codes correspondants, et enfin épissé en un vecteur de sortie. De cette manière, nous pouvons améliorer plus efficacement l'utilisation du livre de codes et la capacité de représentation sans augmenter la quantité de paramètres du livre de codes. Par exemple, pour réduire le taux de compression d'un facteur 1, les mots de code doivent être augmentés jusqu'au carré du numéro du livre de codes d'origine. Après avoir utilisé MHVQ, le même taux de compression peut être obtenu en divisant simplement le livre de codes en deux parties. Par conséquent, cette méthode peut réguler plus efficacement l’exhaustivité des représentations quantitatives.
exemple d'image MHVQ
De plus, lors de la quantification de la séquence vocale, divers types d'informations contenues dans les caractéristiques vocales sont perdues à des degrés divers. Ces informations sont différentes en termes de granularité temporelle, comme le timbre à gros grain, le style de prononciation, etc., et la tonalité à grain fin, les détails de prononciation, etc. La surcompression des informations à n'importe quelle échelle de temps peut entraîner un certain degré de dégradation de la qualité de la parole. Pour pallier ce problème, ce travail propose une méthode de modélisation de la parole à plusieurs échelles de temps. Comme le montre la figure, la séquence de caractéristiques acoustiques est codée par étapes à différentes échelles de temps via plusieurs encodeurs, puis quantifiée couche par couche via le décodeur, décodée pour obtenir plusieurs séquences quantifiées avec différentes résolutions temporelles. La représentation composée de ce type d'ensemble de séquences est la représentation multi-étapes multi-codebook proposée dans ce travail.
Diagramme d'exemple de modélisation multi-étapes
En vue de la caractérisation multi-étapes multi-codebooks MSMCR, cet article propose un système TTS correspondant, à savoir le système MSMC-TTS . Le système comprend trois parties : analyse, synthèse et prédiction. Lors de la formation système, le système entraîne d’abord le module d’analyse. L'audio de l'ensemble de formation est converti en fonctionnalités acoustiques de haute complétude (telles que les fonctionnalités Mel-Spectrogram utilisées dans ce travail) après traitement du signal. Ces caractéristiques acoustiques sont utilisées pour entraîner l'analyseur de caractéristiques basé sur MSMC-VQ-VAE. À la fin de la formation, elles sont converties en MSMCR correspondant, puis le modèle acoustique et le vocodeur neuronal sont entraînés. Pendant le décodage, le système utilise un modèle acoustique pour prédire le MSMCR à partir du texte, puis utilise un vocodeur neuronal pour produire l'audio cible.
Diagramme du cadre du système MSMC-TTS
Ce travail propose également un prédicteur multi-étapes pour adapter la modélisation MSMCR. Ce modèle est implémenté sur la base de FastSpeech, mais diffère du côté du décodeur. Le modèle code d'abord le texte et suréchantillonne le texte en fonction des informations de durée prédites. La séquence est ensuite sous-échantillonnée à chaque résolution temporelle correspondant à MSMCR. Ces séquences seront décodées et quantifiées étape par étape de la basse résolution à la haute résolution par différents décodeurs. Dans le même temps, la séquence quantifiée à basse résolution est envoyée au décodeur de l'étage suivant pour faciliter la prédiction. Enfin, le MSMCR prédit est introduit dans le vocodeur neuronal pour générer l'audio cible.
Diagramme de structure du prédicteur à plusieurs étapes
Lors de la formation et de l'inférence du prédicteur à plusieurs étapes, ce travail choisit de prédire directement la représentation cible dans un espace continu. Cette méthode permet de mieux prendre en compte la relation de distance entre les vecteurs et les mots de code dans un espace linéaire continu. En plus de la fonction de perte MSE couramment utilisée pour la modélisation TTS, le critère d'entraînement utilise également une « perte triplet » pour éloigner le vecteur de prédiction des mots de code non cibles et le rapprocher du mot de code cible. En combinant les deux termes de la fonction de perte, le modèle est capable de mieux prédire le mot de code cible.
Ce travail a été mené sur l'ensemble de données public monolocuteur anglais Nancy (Blizzard Challenge 2011). Nous avons organisé un test de score d'opinion subjectif (MOS) pour évaluer l'effet de synthèse MSMC-TTS. Les résultats expérimentaux montrent que lorsque l'enregistrement original est de 4,50 points, le score MSMC-TTS est de 4,41 points et le système de base Mel-FS (FastSpeech basé sur Mel-Spectrogram) est de 3,62 points. Nous avons réglé le vocodeur du système de base pour qu'il corresponde aux caractéristiques de sortie Mel-FS, et le résultat était de 3,69 points. Ce résultat de comparaison prouve l'amélioration significative du système TTS proposé par la méthode proposée dans cet article.
De plus, nous avons discuté plus en détail de l'impact de la complexité de la modélisation sur les performances de TTS. Le nombre de paramètres du modèle diminue de façon exponentielle de M1 à M3 et l'effet de synthèse Mel-FS chute à 1,86 points. En revanche, pour MSMC-TTS, la réduction du nombre de paramètres n’a pas eu d’impact significatif sur la qualité de la synthèse. Lorsque la taille du paramètre du modèle acoustique est de 3,12 Mo, le MOS peut toujours conserver 4,47 points. Cela démontre non seulement les exigences de faible complexité de la modélisation MSMC-TTS basée sur des fonctionnalités compactes, mais démontre également le potentiel de cette méthode à être appliquée aux systèmes TTS légers.
Enfin, nous avons effectué une comparaison MSMC-TTS basée sur différents MSMCR pour explorer l'impact du MHVQ et de la modélisation multi-étapes sur le TTS. Parmi eux, le système V1 utilise une représentation de livre de codes unique en une seule étape, le système V2 utilise une quantification vectorielle à 4 têtes basée sur V1 et le système V3 utilise une modélisation en deux étapes basée sur V2. Premièrement, la représentation utilisée par le système V1 a le taux de compression des caractéristiques le plus élevé, mais présente la plus faible exhaustivité dans les expériences de synthèse d'analyse et la pire qualité de synthèse dans les expériences TTS. Après que MHVQ ait amélioré l'exhaustivité, le système V2 a également été considérablement amélioré en termes d'effet TTS. Bien que la représentation multi-étapes utilisée par la V3 n'ait pas montré d'autres améliorations en termes d'exhaustivité, elle a montré les meilleurs résultats sur TTS, avec des améliorations significatives à la fois du naturel rythmique et de la qualité audio. Cela montre en outre que la modélisation à plusieurs étapes et la conservation des informations à plusieurs échelles revêtent une grande importance dans MSMC-TTS.
Ce travail propose une nouvelle méthode de modélisation TTS (MSMC-TTS) haute performance dans la perspective de l'étude de la représentation compacte de la parole. Le système extrait des représentations multi-livres de codes en plusieurs étapes à partir de l'audio à la place des caractéristiques acoustiques traditionnelles. Le texte d'entrée peut être converti en cette représentation vocale composée de multiples séquences avec différentes résolutions temporelles par un prédicteur à plusieurs étages et converti en un signal vocal cible par un vocodeur neuronal. Les résultats expérimentaux montrent que, comparé au système FastSpeech traditionnel basé sur Mel-Spectrogram, ce système présente une meilleure qualité de synthèse et des exigences moindres en matière de complexité de modélisation.
Guo Haohan : stagiaire de l'équipe d'algorithmes intelligents multimédia de Xiaohongshu. Il est diplômé de la Northwestern Polytechnical University avec un baccalauréat et a étudié dans le laboratoire ASLP sous la direction du professeur Xie Lei. Actuellement, il étudie pour son doctorat au laboratoire HCCL de l'Université chinoise de Hong Kong, sous la direction du professeur Meng Meiling. Jusqu'à présent, en tant que premier auteur, six articles ont été publiés lors des conférences internationales ICASSP, INTERSPEECH et SLT.
Xie Fenglong : responsable de la technologie vocale de l'équipe d'algorithmes intelligents multimédia de Xiaohongshu. Il a publié plus de dix articles dans des conférences et des revues vocales telles que ICASSP, INTERSPEECH et SPEECHCOM. Il a longtemps été critique pour de grandes conférences vocales telles que ICASSP et INTERSPEECH. Son principal domaine de recherche est le traitement et la modélisation des signaux vocaux.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!