Le premier modèle TTS à grande échelle prenant en charge la langue mixte du mandarin et des dialectes : le henanais, le shanghaïen et le cantonais peuvent être parlés en douceur.-IA-php.cn

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. E-mail de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Depuis l'émergence du GPT-4o en 2024, les entreprises du secteur ont investi d'énormes ressources dans la recherche et le développement de grands modèles TTS. Ces derniers mois, de grands modèles chinois de synthèse vocale ont vu le jour, comme les chattts, seedtts, cosyvoice, etc.

Bien que le modèle actuel de synthèse vocale à grande échelle soit presque impossible à distinguer des personnes réelles en chinois mandarin, face aux dialectes complexes de la Chine, les modèles TTS à grande échelle ont rarement été impliqués dans la formation d'une synthèse vocale unifiée de divers chinois. dialectes. Les grands modèles sont une tâche très difficile.

Points douloureux de l'industrie et goulots d'étranglement techniques

Actuellement, la technologie de synthèse vocale grand modèle a fait des progrès significatifs dans le domaine du mandarin, mais son développement dans le domaine des dialectes est très lent. La Chine compte des dizaines de dialectes majeurs, chacun avec des caractéristiques phonétiques et des structures grammaticales uniques, ce qui rend extrêmement complexe la formation d'un grand modèle TTS couvrant divers dialectes.

La plupart des grands modèles TTS existants se concentrent sur le mandarin et ne peuvent pas répondre aux divers besoins de synthèse vocale. De plus, la rareté des corpus dialectaux et le manque de données d’annotation de haute qualité augmentent encore la difficulté technique.

Innovation technologique et percée du Giant Network AI Lab

Afin de résoudre les problèmes ci-dessus, les experts en algorithmes et les linguistes de l'équipe Giant Network AI Lab ont travaillé ensemble pour construire un système complet basé sur le Système de dialectes chinois. 20 dialectes, plus de 200 000 heures d'ensembles de données en mandarin et en dialectes. Grâce à cet énorme ensemble de données, nous avons formé le premier modèle TTS à grande échelle prenant en charge plusieurs dialectes mandarin - Bailing-TTS. Bailing-TTS peut non seulement générer un discours en mandarin de haute qualité, mais également générer une variété de discours dialectaux, notamment le henanais, le shanghaïen, le cantonais, etc.

Le premier modèle TTS à grande échelle prenant en charge la langue mixte du mandarin et des dialectes : le henanais, le shanghaïen et le cantonais peuvent être parlés en douceur.

ArXiv : https://arxiv.org/pdf/2408.00284
Page d'accueil : https://giantailab.github.io/bailingtts_tech_report/index.html
Titre du papier : Bailing- TTS : Synthèse vocale dialectale chinoise vers une représentation spontanée semblable à celle de l'humain
Rivière Bian coule vers l'est Printemps infini, le palais de la famille Sui est devenu poussière. Les piétons ne devraient pas monter sur le long talus pour regarder ; le vent souffle et les fleurs craignent de tuer des gens.

Générer la voix 1 :

Texte 2 :

J'ai aussi de nombreux passe-temps. C'est agréable d'écouter l'opéra du Henan, et l'accent est très excitant à écouter. . Quand je n'ai rien à faire, je peux sortir me promener et admirer les magnifiques paysages du Henan. Heureusement, je peux préparer des choses amusantes, comme des nouilles braisées et de la soupe épicée. Ne me dites pas, ce n'est pas grave si je les prépare moi-même.

Voix générée 2 :

Laissez-moi écouter l'effet du clonage à échantillon zéro en mandarin :

Invite 1 : Jeune homme

Généré 1 : Cette question, hmm , D'un autre point de vue, est-ce aussi une bonne chose pour nous ?

Invite 2 : Garçon-Homme

Invite 2 : Hé, demain c'est encore le week-end, allons regarder un film ensemble.

Invite 3 : Femme âgée

Génération 3 : En parlant de notre passé, ah, je n'ai pas pu le terminer en trois jours et trois nuits.

Invite 4 : Tout-petit-Femme

Génération 4 : Oh, c'est de ça que tu parles. J'ai ramassé ça quand je suis allé à la plage.

Nous avons adopté un certain nombre de technologies innovantes pour atteindre cet objectif :

1 Spécifications unifiées des jetons de dialecte : Nous avons unifié les spécifications des jetons de divers dialectes et unifié les jetons du mandarin et de divers dialectes. Il y a un chevauchement partiel pour fournir des compétences de base en prononciation en utilisant le mandarin. Cela nous permet de réaliser une synthèse vocale dialectale de haute qualité dans des conditions de données limitées.

2. Technologie d'alignement de jetons raffinée : Nous proposons une technologie d'alignement raffinée par jeton basée sur une pré-formation multimodale à grande échelle.

3. Architecture experte mixte hiérarchique : Nous concevons une architecture experte hybride hiérarchique pour l'apprentissage de représentations unifiées pour plusieurs dialectes chinois et de représentations spécifiques pour chaque dialecte.

4. Stratégie d'amélioration de l'apprentissage par renforcement hiérarchique : Nous proposons une stratégie d'apprentissage par renforcement hiérarchique pour améliorer davantage la capacité d'expression dialectale du modèle TTS en combinant des stratégies de formation de base et des stratégies de formation avancées.

Détails de mise en œuvre

Le premier modèle TTS à grande échelle prenant en charge la langue mixte du mandarin et des dialectes : le henanais, le shanghaïen et le cantonais peuvent être parlés en douceur.

^{Figure 1 Architecture globale de Bailing-TTS}

1. Alignement des jetons ined basé sur une pré-formation multimodale à grande échelle

Afin d'obtenir un alignement raffiné du texte et jetons vocaux, nous proposons un cadre d'apprentissage pré-formation multi-étapes et multimodal.

Dans la première étape, nous utilisons une stratégie d'échantillonnage non supervisé pour effectuer une formation approximative sur un ensemble de données à grande échelle. Dans la deuxième étape, nous adoptons une stratégie d'échantillonnage raffinée pour effectuer une formation fine sur des ensembles de données dialectales de haute qualité. Cette méthode peut capturer efficacement la corrélation fine entre le texte et la parole et favoriser l’alignement des deux modalités.

2. Basé sur la structure de réseau d'experts mixtes hiérarchiques Transformer

Afin de former un modèle TTS unifié adapté à plusieurs dialectes chinois, nous avons conçu une structure de réseau d'experts mixtes hiérarchique et multi-étapes. -Jetons de dialecte Stratégies d'apprentissage.

Tout d'abord, nous proposons une architecture experte hybride spécialement conçue pour apprendre des représentations unifiées pour plusieurs dialectes chinois et des représentations spécifiques pour chaque dialecte. Ensuite, nous injectons des jetons de dialecte dans différents niveaux du modèle TTS via un mécanisme de fusion basé sur l'attention croisée pour améliorer les capacités d'expression multi-dialectes du modèle.

3. Stratégie d'amélioration de l'apprentissage par renforcement hiérarchique

Nous proposons une stratégie d'apprentissage par renforcement hiérarchique pour améliorer davantage le modèle TTS en combinant une formation stratégique de base et des stratégies de formation avancées. La stratégie de formation de base soutient l'exploration d'expressions vocales dialectales de haute qualité, et la stratégie de formation avancée renforce les caractéristiques vocales de différents dialectes sur cette base, permettant ainsi d'obtenir une synthèse vocale de haute qualité dans plusieurs dialectes.

Le premier modèle TTS à grande échelle prenant en charge la langue mixte du mandarin et des dialectes : le henanais, le shanghaïen et le cantonais peuvent être parlés en douceur.

Bailing-TTS a atteint un niveau plus proche des personnes réelles en termes de robustesse et de qualité de génération et le naturel en mandarin et dans plusieurs dialectes. Dans le tableau 1, résultats des tests de Bailing-TTS dans les appels généraux et dialectes chinois

Dans l'évaluation du scénario d'application actuel, Baling-TTS a obtenu de bons résultats. Dans le tableau 2, résultats du test Bailing-TTS du résultat du test du locuteur des appels généraux, dialectes et dialectes chinois, le grand modèle TTS multi-dialecte a été appliqué dans de nombreux scénarios pratiques. Par exemple, le doublage de PNJ dans les jeux, le doublage de dialectes dans la création vidéo, etc. Grâce à cette technologie, les contenus de jeux et de vidéos peuvent se rapprocher de la culture régionale, améliorant ainsi le sentiment d’immersion et d’expérience des utilisateurs.

Le premier modèle TTS à grande échelle prenant en charge la langue mixte du mandarin et des dialectes : le henanais, le shanghaïen et le cantonais peuvent être parlés en douceur.

À l'avenir, avec le développement ultérieur de grands modèles d'interaction vocale de bout en bout, cette technologie montrera un plus grand potentiel dans des domaines tels que la protection de la culture dialectale et l'interaction dialectale des PNJ avec l'IA du jeu. Dans le scénario de protection des dialectes, en prenant en charge l'interaction vocale dans plusieurs dialectes, la prochaine génération peut facilement apprendre, hériter et protéger les dialectes chinois, permettant ainsi à la culture dialectale chinoise d'avoir une longue histoire. Dans la scène du jeu, des PNJ intelligents capables de parler des dialectes et d'interagir avec la voix amélioreront encore l'expressivité du contenu du jeu.

Giant Network AI Lab continuera de s'engager à promouvoir l'innovation et l'application de cette technologie, offrant aux utilisateurs une expérience d'interaction vocale plus intelligente et plus pratique.

Présentation de l'équipe

Le premier modèle TTS à grande échelle prenant en charge la langue mixte du mandarin et des dialectes : le henanais, le shanghaïen et le cantonais peuvent être parlés en douceur.

Giant AI Laboratory was established in 2022. It is an artificial intelligence technology application and research institution affiliated to Giant Network. Committed to the field of AIGC content (image/text/audio/video/3D model, etc.) generation, realizing comprehensive intelligent content production and creation, and promoting game play innovation. At present, the laboratory has built a full-link AI industrial production pipeline within Giant. At the same time, it has completed the registration of the first large vertical model (GiantGPT) in the gaming industry and is the first to be put into commercial application.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!