


Sie können das vorab trainierte Modell für die chinesische Sprache nicht finden? Die chinesische Version Wav2vec 2.0 und HuBERT kommen
Wav2vec 2.0 [1], HuBERT [2] und WavLM [3] sowie andere Sprachvortrainingsmodelle wurden durch selbstüberwachtes Lernen an Zehntausenden Stunden unbeschrifteter Sprachdaten (wie Libri-light) erheblich verbessert. Die Leistung von Sprach-Downstream-Aufgaben wie der automatischen Spracherkennung (ASR), Text-to-Speech (TTS) und Sprachkonversation (VC) wurde verbessert. Allerdings gibt es für diese Modelle keine öffentlichen chinesischen Versionen, was ihre Anwendung in chinesischen Sprachforschungsszenarien erschwert.
WenetSpeech [4] ist ein Multi-Domain-Sprachdatensatz von mehr als 10.000 Stunden, der gemeinsam von der Audio, Speech and Language Processing Research Group der NPU (ASLP@NPU), Mobvoi und Hillshell veröffentlicht wurde. Um die Lücke in den chinesischen Sprachvortrainingsmodellen zu schließen, haben wir die chinesischen Versionen von Wav2vec 2.0 und HuBERT-Modellen als Open Source bereitgestellt, die auf 10.000 Stunden WenetSpeech-Datentraining basieren.
Um die Leistung des vorab trainierten Modells zu überprüfen, haben wir es anhand der ASR-Aufgabe überprüft. Experimentelle Ergebnisse zeigen, dass bei der ASR-Aufgabe mit 100 Stunden überwachter Daten die vom Pre-Training-Modell erlernte Sprachdarstellung im Vergleich zu den herkömmlichen akustischen FBank-Funktionen eine deutliche Leistungsverbesserung aufweist. Sie kann sogar mit nur 100 Stunden überwachter Daten erhalten werden und 1000 Stunden Aufsicht.
Modelllink: https://github.com/TencentGameMate/chinese_speech_pretrain
Modelleinführung
Wav2vec 2.0-Modell
Abbildung 1: Wav2ve c 2.0-Modellstruktur (Baevski et al . , 2020)
Wav2vec 2.0 [1] ist ein unbeaufsichtigtes Sprachvortrainingsmodell, das 2020 von Meta veröffentlicht wurde. Seine Kernidee besteht darin, durch Vektorquantisierung (VQ) ein selbst erstelltes überwachtes Trainingsziel zu erstellen, die Eingabe in großen Mengen zu maskieren und dann die kontrastive Lernverlustfunktion für das Training zu verwenden. Die Modellstruktur ist in Abbildung 1 oben dargestellt. Der auf dem Convolutational Neural Network (CNN) basierende Feature-Extraktor codiert das Original-Audio in eine Folge von Frame-Features und wandelt jedes Frame-Feature über das VQ-Modul in ein diskretes Feature Q um als selbstüberwachtes Ziel verwendet. Gleichzeitig wird die Rahmenmerkmalssequenz einer Maskierungsoperation unterzogen und tritt dann in das Transformer-Modell [5] ein, um die Kontextdarstellung C zu erhalten. Schließlich wird der Abstand zwischen der Kontextdarstellung der Maskenposition und dem entsprechenden diskreten Merkmal q durch Vergleich der Lernverlustfunktion, also des positiven Probenpaars, verkürzt. Im Originalpapier verwendet das Wav2vec 2.0 BASE-Modell eine 12-schichtige Transformer-Struktur und wird mit 1.000 Stunden LibriSpeech-Daten trainiert. Das LARGE-Modell verwendet eine 24-schichtige Transformer-Struktur und wird mit 60.000 Stunden Libri-Light-Daten trainiert. In Bezug auf die Trainingszeit verwendet das BASE-Modell 64 V100-Grafikkarten für das Training für 1,6 Tage und das LARGE-Modell verwendet 128 V100-Grafikkarten für das Training für 5 Tage. In der nachgelagerten ASR-Auswertung erreichte das System selbst bei Verwendung von nur 10 Minuten überwachter Daten immer noch ein Word Error Rate (WER)-Ergebnis von 4,8. „HuBERT-Modell“ ähnelt Wav2ve c 2.0, der Unterschied liegt in der Trainingsmethode. Wav2vec 2.0 diskretisiert Sprachmerkmale als selbstüberwachtes Ziel während des Trainings, während HuBERT das Trainingsziel durch Durchführen von K-Means-Clustering für MFCC-Merkmale oder HuBERT-Merkmale erhält. Das HuBERT-Modell verwendet eine iterative Trainingsmethode. Die erste Iteration des BASE-Modells führt ein Clustering für die MFCC-Features durch. Die zweiten Iteration führt ein Clustering für die in der ersten Iteration erhaltenen Features der mittleren Ebene durch Die zweite Iteration des BASE-Modells extrahiert Features für die Clusterbildung. Den experimentellen Ergebnissen des Originalpapiers nach zu urteilen, ist das HuBERT-Modell besser als Wav2vec 2.0, insbesondere wenn die nachgelagerten Aufgaben nur sehr wenige überwachte Trainingsdaten haben, z. B. 1 Stunde oder 10 Minuten.
Chinesisches Vortrainingsmodell
Experimentelle KonfigurationWir verwenden 10.000 Stunden chinesische Daten aus dem WenetSpeech [4] train_l-Set als unbeaufsichtigte Vortrainingsdaten. Die Daten stammen hauptsächlich aus YouTube und Podcasts und umfassen verschiedene Arten von Aufnahmeszenen, Hintergrundgeräuschen, Sprechstilen usw. Zu den Bereichen gehören hauptsächlich Hörbücher, Erzählungen, Dokumentationen, Fernsehserien, Interviews, Nachrichten, Lesungen, Reden, Varietés und andere. usw. 10 Hauptszene. Wir haben Wav2vec 2.0- und HuBERT-Modelle basierend auf dem Fairseq-Toolkit [6] trainiert und dabei der Modellkonfiguration von [1, 2] gefolgt. Jedes vorab trainierte Modellmodell enthält zwei Größen: BASE und LARGE. Für das BASE-Modell verwenden wir 8 A100-Grafikkarten, die Gradientenakkumulation beträgt 8 und simulieren 64 Grafikkarten für das Training. Für das LARGE-Modell verwenden wir 16 A100-Grafikkarten, die Gradientenakkumulation beträgt 8 und simulieren 128 Grafikkarten für das Training.
Überprüfung der Downstream-SpracherkennungsaufgabeUm die Wirkung des vorab trainierten Modells auf die Downstream-ASR-Aufgabe zu überprüfen, folgen wir der experimentellen Konfiguration des Conformer-Modells [10] im ESPnet-Toolkit [7,8,9]. Das heißt, das vorab trainierte Modell wird als verwendet. Der Merkmalsextraktor führt eine gewichtete Summierung der Darstellungen der verborgenen Ebene des eingegebenen Sprachextraktions-Vortrainingsmodells durch, und die resultierende Sprachdarstellung ersetzt die herkömmlichen FBank-Merkmale als Eingabe des Konformes ASR-Modell.
- Aishell-Datensatz
Wir verwendeten den Aishell 178-Stunden-Trainingssatz als überwachte Daten für das Training und verglichen die Wörter mit FBank-Funktionen, Wav2vec 2.0 BASE/LARGE-Modellfunktionen bzw. HuBERT BASE/LARGE-Modellfunktionen. Ergebnisse der Zeichenfehlerrate (CER). Gleichzeitig verglichen wir zusätzlich die Auswirkung auf den Aishell-Testsatz, wenn wir den WenetSpeech train_l-Satz mit 10.000 Stunden chinesischen Daten für das Training verwendeten. Die Trainingsdaten nutzen variable Geschwindigkeit (0,9-, 1,0-, 1,1-fach) und die SpecAugment-Datenerweiterungstechnologie, die Dekodierungsmethode ist die Strahlsuche und für die Neubewertung wird ein Transformer-basiertes Sprachmodell verwendet.
Tabelle 1: Ergebnisse der Wortfehlerrate (CER%) verschiedener Modelle im Aishell-Testsatz
Wie aus den Ergebnissen in Tabelle 1 ersichtlich ist, durch Kombination von Zehntausenden Stunden unüberwachter Daten Das trainierte Pre-Training-Modell und die nachgelagerten ASR-Aufgabeneffekte wurden erheblich verbessert. Insbesondere bei Verwendung des HuBERT LARGE-Modells wurde eine relative Verbesserung der CER um etwa 30 % im Testsatz erzielt und damit die besten Ergebnisse in der Branche bei 178 Stunden überwachter Trainingsdaten erzielt.
- WenetSpeech-Datensatz
Wir haben den WenetSpeech train_s-Satz 100 Stunden chinesischer Daten als überwachte Daten für das Training verwendet und die Verwendung von FBank-Funktionen, Wav2vec 2.0 BASE/LARGE-Modellfunktionen und HuBERT BASE/LARGE verglichen Ergebnisse der Zeichenfehlerrate (CER). Gleichzeitig verglichen wir zusätzlich die Modellergebnisse mit dem WenetSpeech train_m-Set für 1.000 Stunden und dem train_l-Set für 10.000 Stunden chinesischer Daten-FBank-Funktionen. Die Trainingsdaten verwenden keine Datenerweiterungstechnologie mit variabler Geschwindigkeit oder SpecAugment, die Dekodierungsmethode ist die Strahlsuche und es wird keine Neubewertung des Sprachmodells verwendet.
Tabelle 2: Ergebnisse der Wortfehlerrate (CER%) verschiedener Modelle im WenetSpeech-Testsatz
Wie aus den Ergebnissen in Tabelle 2 ersichtlich ist, durch Kombination von Zehntausenden Stunden unüberwachter Daten Mit dem trainierten vorab trainierten Modell werden die Downstream-ASR-Ergebnisse erheblich verbessert. Insbesondere bei Verwendung von HuBERT LARGE als Sprachdarstellungsextraktor schneidet das mit 100 Stunden überwachten Daten trainierte ASR-Modell besser ab als das mit 1000 Stunden FBank-Funktionen trainierte Modell und kommt sogar dem mit 10.000 Stunden Daten trainierten Modell nahe.
Für weitere experimentelle Ergebnisse zu Voice-Downstream-Aufgaben folgen Sie bitte dem GitHub-Link (https://github.com/TencentGameMate/chinese_speech_pretrain). Jeder ist herzlich willkommen, das von uns bereitgestellte chinesische Sprachvortrainingsmodell für Forschungsarbeiten zu nutzen und die Anwendung des Sprachvortrainingsmodells in chinesischen und verwandten Szenarien zu untersuchen.
Das obige ist der detaillierte Inhalt vonSie können das vorab trainierte Modell für die chinesische Sprache nicht finden? Die chinesische Version Wav2vec 2.0 und HuBERT kommen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Bei der Konvertierung von Zeichenfolgen in Objekte in Vue.js wird JSON.Parse () für Standard -JSON -Zeichenfolgen bevorzugt. Bei nicht standardmäßigen JSON-Zeichenfolgen kann die Zeichenfolge durch Verwendung regelmäßiger Ausdrücke verarbeitet und Methoden gemäß dem Format oder dekodierten URL-kodiert reduziert werden. Wählen Sie die entsprechende Methode gemäß dem String -Format aus und achten Sie auf Sicherheits- und Codierungsprobleme, um Fehler zu vermeiden.

Vue- und Element-UI-kaskadierte Dropdown-Boxen V-Model-Bindung gemeinsame Grubenpunkte: V-Model bindet ein Array, das die ausgewählten Werte auf jeder Ebene des kaskadierten Auswahlfelds darstellt, nicht auf einer Zeichenfolge; Der Anfangswert von ausgewählten Optionen muss ein leeres Array sein, nicht null oder undefiniert. Die dynamische Belastung von Daten erfordert die Verwendung asynchroner Programmierkenntnisse, um Datenaktualisierungen asynchron zu verarbeiten. Für riesige Datensätze sollten Leistungsoptimierungstechniken wie virtuelles Scrollen und fauler Laden in Betracht gezogen werden.

Um die Zeitüberschreitung für Vue Axios festzulegen, können wir eine Axios -Instanz erstellen und die Zeitleitungsoption angeben: in globalen Einstellungen: vue.Prototyp. $ Axios = axios.create ({Timeout: 5000}); In einer einzigen Anfrage: this. $ axios.get ('/api/user', {timeout: 10000}).

Verarbeiten Sie 7 Millionen Aufzeichnungen effizient und erstellen Sie interaktive Karten mit Geospatial -Technologie. In diesem Artikel wird untersucht, wie über 7 Millionen Datensätze mithilfe von Laravel und MySQL effizient verarbeitet und in interaktive Kartenvisualisierungen umgewandelt werden können. Erstes Herausforderungsprojektanforderungen: Mit 7 Millionen Datensätzen in der MySQL -Datenbank wertvolle Erkenntnisse extrahieren. Viele Menschen erwägen zunächst Programmiersprachen, aber ignorieren die Datenbank selbst: Kann sie den Anforderungen erfüllen? Ist Datenmigration oder strukturelle Anpassung erforderlich? Kann MySQL einer so großen Datenbelastung standhalten? Voranalyse: Schlüsselfilter und Eigenschaften müssen identifiziert werden. Nach der Analyse wurde festgestellt, dass nur wenige Attribute mit der Lösung zusammenhängen. Wir haben die Machbarkeit des Filters überprüft und einige Einschränkungen festgelegt, um die Suche zu optimieren. Kartensuche basierend auf der Stadt

Zusammenfassung: Es gibt die folgenden Methoden zum Umwandeln von VUE.JS -String -Arrays in Objektarrays: Grundlegende Methode: Verwenden Sie die Kartenfunktion, um regelmäßige formatierte Daten zu entsprechen. Erweitertes Gameplay: Die Verwendung regulärer Ausdrücke kann komplexe Formate ausführen, müssen jedoch sorgfältig geschrieben und berücksichtigt werden. Leistungsoptimierung: In Betracht ziehen die große Datenmenge, asynchrone Operationen oder effiziente Datenverarbeitungsbibliotheken können verwendet werden. Best Practice: Clear Code -Stil, verwenden Sie sinnvolle variable Namen und Kommentare, um den Code präzise zu halten.

Der Artikel führt den Betrieb der MySQL -Datenbank vor. Zunächst müssen Sie einen MySQL -Client wie MySQLworkBench oder Befehlszeilen -Client installieren. 1. Verwenden Sie den Befehl mySQL-uroot-P, um eine Verbindung zum Server herzustellen und sich mit dem Stammkonto-Passwort anzumelden. 2. Verwenden Sie die Erstellung von Createdatabase, um eine Datenbank zu erstellen, und verwenden Sie eine Datenbank aus. 3.. Verwenden Sie CreateTable, um eine Tabelle zu erstellen, Felder und Datentypen zu definieren. 4. Verwenden Sie InsertInto, um Daten einzulegen, Daten abzufragen, Daten nach Aktualisierung zu aktualisieren und Daten nach Löschen zu löschen. Nur indem Sie diese Schritte beherrschen, lernen, mit gemeinsamen Problemen umzugehen und die Datenbankleistung zu optimieren, können Sie MySQL effizient verwenden.

Remote Senior Backend Engineer Job Vacant Company: Circle Standort: Remote-Büro-Jobtyp: Vollzeitgehalt: 130.000 bis 140.000 US-Dollar Stellenbeschreibung Nehmen Sie an der Forschung und Entwicklung von Mobilfunkanwendungen und öffentlichen API-bezogenen Funktionen, die den gesamten Lebenszyklus der Softwareentwicklung abdecken. Die Hauptaufgaben erledigen die Entwicklungsarbeit unabhängig von RubyonRails und arbeiten mit dem Front-End-Team von React/Redux/Relay zusammen. Erstellen Sie die Kernfunktionalität und -verbesserungen für Webanwendungen und arbeiten Sie eng mit Designer und Führung während des gesamten funktionalen Designprozesses zusammen. Fördern Sie positive Entwicklungsprozesse und priorisieren Sie die Iterationsgeschwindigkeit. Erfordert mehr als 6 Jahre komplexes Backend für Webanwendungen

Es gibt viele Gründe, warum MySQL Startup fehlschlägt und durch Überprüfung des Fehlerprotokolls diagnostiziert werden kann. Zu den allgemeinen Ursachen gehören Portkonflikte (prüfen Portbelegung und Änderung der Konfiguration), Berechtigungsprobleme (Überprüfen Sie den Dienst Ausführen von Benutzerberechtigungen), Konfigurationsdateifehler (Überprüfung der Parametereinstellungen), Datenverzeichniskorruption (Wiederherstellung von Daten oder Wiederaufbautabellenraum), InnoDB-Tabellenraumprobleme (prüfen IBDATA1-Dateien), Plug-in-Ladeversagen (Überprüfen Sie Fehlerprotokolle). Wenn Sie Probleme lösen, sollten Sie sie anhand des Fehlerprotokolls analysieren, die Hauptursache des Problems finden und die Gewohnheit entwickeln, Daten regelmäßig zu unterstützen, um Probleme zu verhindern und zu lösen.
