Wav2vec 2.0 [1], HuBERT [2] und WavLM [3] sowie andere Sprachvortrainingsmodelle wurden durch selbstüberwachtes Lernen an Zehntausenden Stunden unbeschrifteter Sprachdaten (wie Libri-light) erheblich verbessert. Die Leistung von Sprach-Downstream-Aufgaben wie der automatischen Spracherkennung (ASR), Text-to-Speech (TTS) und Sprachkonversation (VC) wurde verbessert. Allerdings gibt es für diese Modelle keine öffentlichen chinesischen Versionen, was ihre Anwendung in chinesischen Sprachforschungsszenarien erschwert.
WenetSpeech [4] ist ein Multi-Domain-Sprachdatensatz von mehr als 10.000 Stunden, der gemeinsam von der Audio, Speech and Language Processing Research Group der NPU (ASLP@NPU), Mobvoi und Hillshell veröffentlicht wurde. Um die Lücke in den chinesischen Sprachvortrainingsmodellen zu schließen, haben wir die chinesischen Versionen von Wav2vec 2.0 und HuBERT-Modellen als Open Source bereitgestellt, die auf 10.000 Stunden WenetSpeech-Datentraining basieren.
Um die Leistung des vorab trainierten Modells zu überprüfen, haben wir es anhand der ASR-Aufgabe überprüft. Experimentelle Ergebnisse zeigen, dass bei der ASR-Aufgabe mit 100 Stunden überwachter Daten die vom Pre-Training-Modell erlernte Sprachdarstellung im Vergleich zu den herkömmlichen akustischen FBank-Funktionen eine deutliche Leistungsverbesserung aufweist. Sie kann sogar mit nur 100 Stunden überwachter Daten erhalten werden und 1000 Stunden Aufsicht.
Modelllink: https://github.com/TencentGameMate/chinese_speech_pretrain
Abbildung 1: Wav2ve c 2.0-Modellstruktur (Baevski et al . , 2020)
Wav2vec 2.0 [1] ist ein unbeaufsichtigtes Sprachvortrainingsmodell, das 2020 von Meta veröffentlicht wurde. Seine Kernidee besteht darin, durch Vektorquantisierung (VQ) ein selbst erstelltes überwachtes Trainingsziel zu erstellen, die Eingabe in großen Mengen zu maskieren und dann die kontrastive Lernverlustfunktion für das Training zu verwenden. Die Modellstruktur ist in Abbildung 1 oben dargestellt. Der auf dem Convolutational Neural Network (CNN) basierende Feature-Extraktor codiert das Original-Audio in eine Folge von Frame-Features und wandelt jedes Frame-Feature über das VQ-Modul in ein diskretes Feature Q um als selbstüberwachtes Ziel verwendet. Gleichzeitig wird die Rahmenmerkmalssequenz einer Maskierungsoperation unterzogen und tritt dann in das Transformer-Modell [5] ein, um die Kontextdarstellung C zu erhalten. Schließlich wird der Abstand zwischen der Kontextdarstellung der Maskenposition und dem entsprechenden diskreten Merkmal q durch Vergleich der Lernverlustfunktion, also des positiven Probenpaars, verkürzt. Im Originalpapier verwendet das Wav2vec 2.0 BASE-Modell eine 12-schichtige Transformer-Struktur und wird mit 1.000 Stunden LibriSpeech-Daten trainiert. Das LARGE-Modell verwendet eine 24-schichtige Transformer-Struktur und wird mit 60.000 Stunden Libri-Light-Daten trainiert. In Bezug auf die Trainingszeit verwendet das BASE-Modell 64 V100-Grafikkarten für das Training für 1,6 Tage und das LARGE-Modell verwendet 128 V100-Grafikkarten für das Training für 5 Tage. In der nachgelagerten ASR-Auswertung erreichte das System selbst bei Verwendung von nur 10 Minuten überwachter Daten immer noch ein Word Error Rate (WER)-Ergebnis von 4,8. „HuBERT-Modell“ ähnelt Wav2ve c 2.0, der Unterschied liegt in der Trainingsmethode. Wav2vec 2.0 diskretisiert Sprachmerkmale als selbstüberwachtes Ziel während des Trainings, während HuBERT das Trainingsziel durch Durchführen von K-Means-Clustering für MFCC-Merkmale oder HuBERT-Merkmale erhält. Das HuBERT-Modell verwendet eine iterative Trainingsmethode. Die erste Iteration des BASE-Modells führt ein Clustering für die MFCC-Features durch. Die zweiten Iteration führt ein Clustering für die in der ersten Iteration erhaltenen Features der mittleren Ebene durch Die zweite Iteration des BASE-Modells extrahiert Features für die Clusterbildung. Den experimentellen Ergebnissen des Originalpapiers nach zu urteilen, ist das HuBERT-Modell besser als Wav2vec 2.0, insbesondere wenn die nachgelagerten Aufgaben nur sehr wenige überwachte Trainingsdaten haben, z. B. 1 Stunde oder 10 Minuten.
Experimentelle KonfigurationWir verwenden 10.000 Stunden chinesische Daten aus dem WenetSpeech [4] train_l-Set als unbeaufsichtigte Vortrainingsdaten. Die Daten stammen hauptsächlich aus YouTube und Podcasts und umfassen verschiedene Arten von Aufnahmeszenen, Hintergrundgeräuschen, Sprechstilen usw. Zu den Bereichen gehören hauptsächlich Hörbücher, Erzählungen, Dokumentationen, Fernsehserien, Interviews, Nachrichten, Lesungen, Reden, Varietés und andere. usw. 10 Hauptszene. Wir haben Wav2vec 2.0- und HuBERT-Modelle basierend auf dem Fairseq-Toolkit [6] trainiert und dabei der Modellkonfiguration von [1, 2] gefolgt. Jedes vorab trainierte Modellmodell enthält zwei Größen: BASE und LARGE. Für das BASE-Modell verwenden wir 8 A100-Grafikkarten, die Gradientenakkumulation beträgt 8 und simulieren 64 Grafikkarten für das Training. Für das LARGE-Modell verwenden wir 16 A100-Grafikkarten, die Gradientenakkumulation beträgt 8 und simulieren 128 Grafikkarten für das Training.
Überprüfung der Downstream-SpracherkennungsaufgabeUm die Wirkung des vorab trainierten Modells auf die Downstream-ASR-Aufgabe zu überprüfen, folgen wir der experimentellen Konfiguration des Conformer-Modells [10] im ESPnet-Toolkit [7,8,9]. Das heißt, das vorab trainierte Modell wird als verwendet. Der Merkmalsextraktor führt eine gewichtete Summierung der Darstellungen der verborgenen Ebene des eingegebenen Sprachextraktions-Vortrainingsmodells durch, und die resultierende Sprachdarstellung ersetzt die herkömmlichen FBank-Merkmale als Eingabe des Konformes ASR-Modell.
Wir verwendeten den Aishell 178-Stunden-Trainingssatz als überwachte Daten für das Training und verglichen die Wörter mit FBank-Funktionen, Wav2vec 2.0 BASE/LARGE-Modellfunktionen bzw. HuBERT BASE/LARGE-Modellfunktionen. Ergebnisse der Zeichenfehlerrate (CER). Gleichzeitig verglichen wir zusätzlich die Auswirkung auf den Aishell-Testsatz, wenn wir den WenetSpeech train_l-Satz mit 10.000 Stunden chinesischen Daten für das Training verwendeten. Die Trainingsdaten nutzen variable Geschwindigkeit (0,9-, 1,0-, 1,1-fach) und die SpecAugment-Datenerweiterungstechnologie, die Dekodierungsmethode ist die Strahlsuche und für die Neubewertung wird ein Transformer-basiertes Sprachmodell verwendet.
Tabelle 1: Ergebnisse der Wortfehlerrate (CER%) verschiedener Modelle im Aishell-Testsatz
Wie aus den Ergebnissen in Tabelle 1 ersichtlich ist, durch Kombination von Zehntausenden Stunden unüberwachter Daten Das trainierte Pre-Training-Modell und die nachgelagerten ASR-Aufgabeneffekte wurden erheblich verbessert. Insbesondere bei Verwendung des HuBERT LARGE-Modells wurde eine relative Verbesserung der CER um etwa 30 % im Testsatz erzielt und damit die besten Ergebnisse in der Branche bei 178 Stunden überwachter Trainingsdaten erzielt.
Wir haben den WenetSpeech train_s-Satz 100 Stunden chinesischer Daten als überwachte Daten für das Training verwendet und die Verwendung von FBank-Funktionen, Wav2vec 2.0 BASE/LARGE-Modellfunktionen und HuBERT BASE/LARGE verglichen Ergebnisse der Zeichenfehlerrate (CER). Gleichzeitig verglichen wir zusätzlich die Modellergebnisse mit dem WenetSpeech train_m-Set für 1.000 Stunden und dem train_l-Set für 10.000 Stunden chinesischer Daten-FBank-Funktionen. Die Trainingsdaten verwenden keine Datenerweiterungstechnologie mit variabler Geschwindigkeit oder SpecAugment, die Dekodierungsmethode ist die Strahlsuche und es wird keine Neubewertung des Sprachmodells verwendet.
Tabelle 2: Ergebnisse der Wortfehlerrate (CER%) verschiedener Modelle im WenetSpeech-Testsatz
Wie aus den Ergebnissen in Tabelle 2 ersichtlich ist, durch Kombination von Zehntausenden Stunden unüberwachter Daten Mit dem trainierten vorab trainierten Modell werden die Downstream-ASR-Ergebnisse erheblich verbessert. Insbesondere bei Verwendung von HuBERT LARGE als Sprachdarstellungsextraktor schneidet das mit 100 Stunden überwachten Daten trainierte ASR-Modell besser ab als das mit 1000 Stunden FBank-Funktionen trainierte Modell und kommt sogar dem mit 10.000 Stunden Daten trainierten Modell nahe.
Für weitere experimentelle Ergebnisse zu Voice-Downstream-Aufgaben folgen Sie bitte dem GitHub-Link (https://github.com/TencentGameMate/chinese_speech_pretrain). Jeder ist herzlich willkommen, das von uns bereitgestellte chinesische Sprachvortrainingsmodell für Forschungsarbeiten zu nutzen und die Anwendung des Sprachvortrainingsmodells in chinesischen und verwandten Szenarien zu untersuchen.
Das obige ist der detaillierte Inhalt vonSie können das vorab trainierte Modell für die chinesische Sprache nicht finden? Die chinesische Version Wav2vec 2.0 und HuBERT kommen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!