Das erste groß angelegte TTS-Modell, das das gemischte Sprechen von Mandarin und Dialekten unterstützt: Henanese, Shanghainesisch und Kantonesisch können reibungslos gesprochen werden-KI-php.cn

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. E-mail de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Depuis l'émergence du GPT-4o en 2024, les entreprises du secteur ont investi d'énormes ressources dans la recherche et le développement de grands modèles TTS. Ces derniers mois, de grands modèles chinois de synthèse vocale ont vu le jour, comme les chattts, seedtts, cosyvoice, etc.

Bien que le modèle actuel de synthèse vocale à grande échelle soit presque impossible à distinguer des personnes réelles en chinois mandarin, face aux dialectes complexes de la Chine, les modèles TTS à grande échelle ont rarement été impliqués dans la formation d'une synthèse vocale unifiée de divers chinois. dialectes. Les grands modèles sont une tâche très difficile.

Points douloureux de l'industrie et goulots d'étranglement techniques

Actuellement, la technologie de synthèse vocale grand modèle a fait des progrès significatifs dans le domaine du mandarin, mais son développement dans le domaine des dialectes est très lent. La Chine compte des dizaines de dialectes majeurs, chacun avec des caractéristiques phonétiques et des structures grammaticales uniques, ce qui rend extrêmement complexe la formation d'un grand modèle TTS couvrant divers dialectes.

La plupart des grands modèles TTS existants se concentrent sur le mandarin et ne peuvent pas répondre aux divers besoins de synthèse vocale. De plus, la rareté des corpus dialectaux et le manque de données d’annotation de haute qualité augmentent encore la difficulté technique.

Innovation technologique et percée du Giant Network AI Lab

Afin de résoudre les problèmes ci-dessus, les experts en algorithmes et les linguistes de l'équipe Giant Network AI Lab ont travaillé ensemble pour construire un système complet basé sur le Système de dialectes chinois. 20 dialectes, plus de 200 000 heures d'ensembles de données en mandarin et en dialectes. Grâce à cet énorme ensemble de données, nous avons formé le premier modèle TTS à grande échelle prenant en charge plusieurs dialectes mandarin - Bailing-TTS. Bailing-TTS peut non seulement générer un discours en mandarin de haute qualité, mais également générer une variété de discours dialectaux, notamment le henanais, le shanghaïen, le cantonais, etc.

Das erste groß angelegte TTS-Modell, das das gemischte Sprechen von Mandarin und Dialekten unterstützt: Henanese, Shanghainesisch und Kantonesisch können reibungslos gesprochen werden

ArXiv : https://arxiv.org/pdf/2408.00284
Page d'accueil : https://giantailab.github.io/bailingtts_tech_report/index.html
Titre du papier : Bailing- TTS : Synthèse vocale dialectale chinoise vers une représentation spontanée semblable à celle de l'humain
Flux Bianshui vers l'est Printemps infini, le palais de la famille Sui est devenu poussière. Les piétons ne devraient pas monter sur le long talus pour regarder ; le vent souffle et les fleurs craignent de tuer des gens.

Générer la voix 1 :

Texte 2 :

J'ai aussi de nombreux passe-temps. C'est agréable d'écouter l'opéra du Henan, et l'accent est très excitant à écouter. . Quand je n'ai rien à faire, je peux sortir me promener et admirer les magnifiques paysages du Henan. Heureusement, je peux préparer des choses amusantes, comme des nouilles braisées et de la soupe épicée. Ne me dites pas, ce n'est pas grave si je les prépare moi-même.

Voix générée 2 :

Laissez-moi écouter l'effet du clonage à échantillon zéro en mandarin :

Invite 1 : Jeune homme

Généré 1 : Cette question, hmm , D'un autre point de vue, est-ce aussi une bonne chose pour nous ?

Invite 2 : Garçon-Homme

Invite 2 : Hé, demain c'est encore le week-end, allons regarder un film ensemble.

Invite 3 : Femme âgée

Génération 3 : En parlant de notre passé, ah, je n'ai pas pu le terminer en trois jours et trois nuits.

Invite 4 : Tout-petit-Femme

Génération 4 : Oh, c'est de ça que tu parles. J'ai ramassé ça quand je suis allé à la plage.

Nous avons adopté un certain nombre de technologies innovantes pour atteindre cet objectif :

1 Spécifications unifiées des jetons de dialecte : Nous avons unifié les spécifications des jetons de divers dialectes et unifié les jetons du mandarin et de divers dialectes. Il y a un chevauchement partiel pour fournir des compétences de base en prononciation en utilisant le mandarin. Cela nous permet de réaliser une synthèse vocale dialectale de haute qualité dans des conditions de données limitées.

2. Technologie d'alignement de jetons raffinée : Nous proposons une technologie d'alignement raffinée par jeton basée sur une pré-formation multimodale à grande échelle.

3. Architecture experte mixte hiérarchique : Nous concevons une architecture experte hybride hiérarchique pour l'apprentissage de représentations unifiées pour plusieurs dialectes chinois et de représentations spécifiques pour chaque dialecte.

4. Stratégie d'amélioration de l'apprentissage par renforcement hiérarchique : Nous proposons une stratégie d'apprentissage par renforcement hiérarchique pour améliorer davantage la capacité d'expression dialectale du modèle TTS en combinant des stratégies de formation de base et des stratégies de formation avancées.

Détails de mise en œuvre

Das erste groß angelegte TTS-Modell, das das gemischte Sprechen von Mandarin und Dialekten unterstützt: Henanese, Shanghainesisch und Kantonesisch können reibungslos gesprochen werden

^{Abbildung 1 Gesamtarchitektur von Bailing-TTS.}

1. Verfeinerte Token-Ausrichtung basierend auf groß angelegtem multimodalem Vortraining

Um eine verfeinerte Ausrichtung von Text und zu erreichen Sprachtoken: Wir schlagen ein mehrstufiges, multimodales Lernrahmenwerk vor dem Training vor.

In der ersten Phase verwenden wir eine unbeaufsichtigte Stichprobenstrategie, um ein grobes Training an einem großen Datensatz durchzuführen. In der zweiten Phase wenden wir eine verfeinerte Stichprobenstrategie an, um ein feinkörniges Training für hochwertige Dialektdatensätze durchzuführen. Diese Methode kann die feinkörnige Korrelation zwischen Text und Sprache effektiv erfassen und die Ausrichtung der beiden Modalitäten fördern.

2. Basierend auf der hierarchischen gemischten Expertennetzwerkstruktur

Um ein einheitliches TTS-Modell zu trainieren, das für mehrere chinesische Dialekte geeignet ist, haben wir eine hierarchische gemischte Expertennetzwerkstruktur und eine mehrstufige Mehrstufenstruktur entworfen -Dialekt-Tokens Lernstrategien.

Zuerst schlagen wir eine speziell entwickelte hybride Expertenarchitektur zum Erlernen einheitlicher Darstellungen für mehrere chinesische Dialekte und spezifischer Darstellungen für jeden Dialekt vor. Anschließend injizieren wir Dialekt-Tokens über einen auf Kreuzaufmerksamkeit basierenden Fusionsmechanismus in verschiedene Ebenen des TTS-Modells, um die Multidialekt-Ausdrucksfähigkeiten des Modells zu verbessern.

3. Hierarchische Strategie zur Verstärkung des Lernens

Wir schlagen eine hierarchische Strategie zur Verstärkung des Lernens vor, um das TTS-Modell durch die Kombination von grundlegendem Strategietraining und fortgeschrittenen Trainingsstrategien weiter zu verbessern. Die Basistrainingsstrategie unterstützt die Erforschung qualitativ hochwertiger Dialekt-Sprachausdrücke, und die Fortgeschrittenen-Trainingsstrategie stärkt auf dieser Grundlage die Spracheigenschaften verschiedener Dialekte und erreicht so eine qualitativ hochwertige Sprachsynthese in mehreren Dialekten.

Das erste groß angelegte TTS-Modell, das das gemischte Sprechen von Mandarin und Dialekten unterstützt: Henanese, Shanghainesisch und Kantonesisch können reibungslos gesprochen werden

^{Qualität und Natürlichkeit in Mandarin und mehreren Dialekten. In Tabelle 1 sind die Testergebnisse von Bailing-TTS in chinesischen allgemeinen Rufen und Dialekten aufgeführt.}

Bei der tatsächlichen Bewertung des Anwendungsszenarios hat Baling-TTS gute Ergebnisse erzielt. In Tabelle 2 sind die Testergebnisse des Bailing-TTS-Tests für Sprecher allgemeiner chinesischer Rufe, Dialekte und Dialekte aufgeführt. Das Multi-Dialekt-TTS-Großmodell wurde in vielen praktischen Szenarien angewendet. Zum Beispiel das Synchronisieren von NPCs in Spielen, das Synchronisieren von Dialekten bei der Videoerstellung usw. Durch diese Technologie können Spiel- und Videoinhalte näher an der regionalen Kultur sein und das Eintauchen und Erleben der Benutzer verbessern.

In Zukunft wird diese Technologie mit der Weiterentwicklung großer End-to-End-Sprachinteraktionsmodelle ein größeres Potenzial in Bereichen wie dem Schutz der Dialektkultur und der Spiel-KI-NPC-Dialektinteraktion zeigen. Im Dialektschutzszenario kann die nächste Generation durch die Unterstützung der Sprachinteraktion in mehreren Dialekten problemlos chinesische Dialekte erlernen, erben und schützen, wodurch die chinesische Dialektkultur eine lange Geschichte haben kann. In der Spielszene werden intelligente NPCs, die Dialekte sprechen und mit der Stimme interagieren können, die Ausdruckskraft von Spielinhalten weiter steigern.

Das erste groß angelegte TTS-Modell, das das gemischte Sprechen von Mandarin und Dialekten unterstützt: Henanese, Shanghainesisch und Kantonesisch können reibungslos gesprochen werden

Giant Network AI Lab wird sich weiterhin dafür einsetzen, die Innovation und Anwendung dieser Technologie zu fördern und Benutzern ein intelligenteres und bequemeres Sprachinteraktionserlebnis zu bieten. Teamvorstellung

Giant AI Laboratory a été créé en 2022. Il s'agit d'une institution d'application et de recherche technologique en intelligence artificielle affiliée à Giant Network. Engagé dans le domaine de la génération de contenu AIGC (image/texte/audio/vidéo/modèle 3D, etc.), réalisant une production et une création de contenu intelligent complet et promouvant l'innovation en matière de jeu. À l'heure actuelle, le laboratoire a construit un pipeline de production industrielle d'IA à liaison complète au sein de Giant. Parallèlement, il a finalisé l'enregistrement du premier grand modèle vertical (GiantGPT) dans l'industrie du jeu et est le premier à être commercialisé. application.

Das obige ist der detaillierte Inhalt vonDas erste groß angelegte TTS-Modell, das das gemischte Sprechen von Mandarin und Dialekten unterstützt: Henanese, Shanghainesisch und Kantonesisch können reibungslos gesprochen werden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!