Das Xiaohongshu Multimedia Intelligent Algorithm Team und die Chinese University of Hong Kong haben erstmals gemeinsam das Hochleistungs-Sprachsyntheseschema MSMC-TTS vorgeschlagen, das auf einer mehrstufigen kompakten Sprachdarstellung mit mehreren Codebüchern basiert. Der auf dem vektorquantisierten Variations-Autoencoder (VQ-VAE) basierende Merkmalsanalysator verwendet mehrere Codebücher, um akustische Merkmale stufenweise zu kodieren, um einen Satz latenter Sequenzen mit unterschiedlichen zeitlichen Auflösungen zu bilden. Diese latenten Sequenzen können von einem mehrstufigen Prädiktor aus Text vorhergesagt und von einem neuronalen Vocoder in Zielaudio umgewandelt werden. Im Vergleich zum Mel-Spectrogram-basierten Fastspeech-Basissystem weist diese Lösung erhebliche Verbesserungen in der Klangqualität und Natürlichkeit auf. Diese Arbeit wurde nun in dem Papier „A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS“ zusammengefasst und von der Sprachdomänenkonferenz INTERSPEECH 2022 angenommen.
Text-to-Speech (TTS) ist eine Technologie, die Text in Sprache umwandelt. Sie wird häufig bei der Videosynchronisierung, der Erstellung von Audio- und Videoinhalten, der intelligenten Mensch-Computer-Interaktion und anderen Produkten eingesetzt. Die Back-End-Akustikmodellierungstechnologie gängiger Sprachsynthesesysteme umfasst normalerweise drei Teile: Merkmalsextraktor, Akustikmodell und Vocoder. TTS führt normalerweise eine akustische Modellierung anhand der Signalverarbeitung durch (z. B. Mel Spectrogram). Aufgrund der Anpassungsfähigkeit des Modells besteht jedoch ein gewisser Unterschied in der Verteilung zwischen den vorhergesagten akustischen Merkmalen und den tatsächlichen Daten macht es für Vocoder, die auf echten Daten trainiert wurden, schwierig, aus vorhergesagten Merkmalen hochwertiges Audio zu generieren.
TTS-Systemrahmendiagramm
Als Reaktion auf dieses Problem hat die akademische Gemeinschaft komplexere Modellstrukturen und neuartigere generative Algorithmen verwendet, um Vorhersagefehler und Verteilungsunterschiede zu reduzieren. Diese Arbeit verfolgt einen anderen Ansatz und nimmt die kompakte Sprachdarstellung als Ausgangspunkt für die Betrachtung des Problems. Bei der Sprachsynthese kann 1) eine gute Kompaktheit der akustischen Merkmale genauere Modellvorhersageergebnisse und eine robustere Wellenformerzeugung gewährleisten; 2) eine gute Vollständigkeit der akustischen Merkmale kann eine bessere Rekonstruktion von Sprachsignalen gewährleisten. Basierend auf diesen beiden Überlegungen schlägt dieses Papier die Verwendung eines Vektorquantisierungs-Variations-Autoencoders (VQ-VAE) vor, um eine bessere kompakte Darstellung aus den Zieldaten zu gewinnen.
VQ-VAE enthält Encoder und Decoder. Der Encoder verarbeitet die eingegebene akustische Merkmalssequenz in eine latente Sequenz und quantisiert sie mithilfe des entsprechenden Codebuchs. Der Decoder stellt die quantisierte Sequenz auf die ursprüngliche akustische Merkmalssequenz wieder her. Diese quantisierte Folge weist eine bessere Kompaktheit (weniger Anzahl charakteristischer Parameter) als eine diskretisierte Darstellung auf. Je höher der Quantisierungsgrad, also je kleiner die Codebuchkapazität, desto höher ist die Kompaktheit der Merkmale. Dies führt aber auch zu einer Informationskomprimierung und verschlechtert die Funktionsvollständigkeit. Um eine ausreichende Vollständigkeit zu gewährleisten, werden in der Regel mehr Codewörter verwendet. Mit zunehmender Codebuchkapazität nehmen jedoch die für die Codebuchaktualisierung erforderliche Datenmenge und die Anzahl der Trainingszeiten exponentiell zu, was es für VQ-VAE schwierig macht, die Darstellungsvollständigkeit durch Vergrößerung des Codebuchs effektiv zu verbessern. Um dieses Problem anzugehen, wird in diesem Artikel die Methode der Mehrkopf-Vektorquantisierung (MHVQ) vorgeschlagen.
VQ-VAE-Modellstrukturdiagramm
MHVQ unterteilt ein einzelnes Codebuch entsprechend der Merkmalsdimensionsrichtung in mehrere Untercodebücher. Während der Quantisierung wird jeder Eingabevektor gleichmäßig in mehrere Untervektoren zerlegt, mit entsprechenden Untercodebüchern quantisiert und schließlich in einen Ausgangsvektor gespleißt. Auf diese Weise können wir die Nutzung des Codebuchs und die Darstellungskapazität effektiver verbessern, ohne die Anzahl der Codebuchparameter zu erhöhen. Um beispielsweise die Komprimierungsrate um den Faktor 1 zu reduzieren, müssen die Codewörter auf das Quadrat der ursprünglichen Codebuchnummer erhöht werden. Nach der Verwendung von MHVQ kann die gleiche Komprimierungsrate erreicht werden, indem das Codebuch einfach in zwei Teile geteilt wird. Daher kann diese Methode die Vollständigkeit quantitativer Darstellungen effektiver regulieren.
MHVQ-Beispielbild
Außerdem gehen bei der Quantisierung der Sprachsequenz verschiedene Arten von Informationen, die in den Sprachmerkmalen enthalten sind, in unterschiedlichem Maße verloren. Diese Informationen unterscheiden sich in der zeitlichen Granularität, z. B. grobkörniges Timbre, Aussprachestil usw., und feinkörnige Tonhöhe, Aussprachedetails usw. Eine übermäßige Komprimierung von Informationen auf einer beliebigen Zeitskala kann zu einer gewissen Verschlechterung der Sprachqualität führen. Um dieses Problem zu lindern, schlägt diese Arbeit eine Sprachmodellierungsmethode mit mehreren Zeitskalen vor. Wie in der Abbildung gezeigt, wird die akustische Merkmalssequenz durch mehrere Encoder schrittweise auf unterschiedliche Zeitskalen codiert und dann Schicht für Schicht durch den Decoder quantisiert, wodurch mehrere quantisierte Sequenzen mit unterschiedlichen Zeitauflösungen decodiert werden. Die aus dieser Art von Sequenzsatz zusammengesetzte Darstellung ist die in dieser Arbeit vorgeschlagene mehrstufige Multi-Codebuch-Darstellung.
Beispieldiagramm für mehrstufige Modellierung
Diese Arbeit schlägt ein neues Hochleistungs-TTS (MSMC-TTS) aus der Perspektive des Studiums der kompakten Sprachdarstellung vor. Modellierungsmethode. Das System extrahiert mehrstufige Multi-Codebuch-Darstellungen aus Audio anstelle herkömmlicher akustischer Merkmale. Eingabetext kann von einem mehrstufigen Prädiktor in diese Sprachdarstellung umgewandelt werden, die aus mehreren Sequenzen mit unterschiedlichen zeitlichen Auflösungen besteht, und von einem neuronalen Vocoder in ein Zielsprachsignal umgewandelt werden. Experimentelle Ergebnisse zeigen, dass dieses System im Vergleich zum Mainstream-FastSpeech-System, das auf Mel-Spektrogramm basiert, eine bessere Synthesequalität und geringere Anforderungen an die Modellierungskomplexität aufweist.
Guo Haohan: Praktikant im Multimedia Intelligent Algorithm Team von Xiaohongshu. Er schloss sein Studium an der Northwestern Polytechnical University mit einem Bachelor ab und studierte im ASLP-Labor bei Professor Xie Lei. Derzeit promoviert er im HCCL-Labor der Chinesischen Universität Hongkong bei Professor Meng Meiling. Bisher wurden als Erstautor sechs Artikel auf den internationalen Redekonferenzen ICASSP, INTERSPEECH und SLT veröffentlicht.
Xie Fenglong: Leiter der Sprachtechnologie des Xiaohongshu Multimedia Intelligent Algorithm Team. Er hat mehr als zehn Artikel in Vortragskonferenzen und Fachzeitschriften wie ICASSP, INTERSPEECH und SPEECHCOM veröffentlicht. Er ist seit langem als Gutachter für große Vortragskonferenzen wie ICASSP und INTERSPEECH tätig.
Das obige ist der detaillierte Inhalt vonSo bauen Sie leistungsstarke Sprachsynthesesysteme mit kompakten Sprachdarstellungen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!