Inhaltsverzeichnis
Heiße Kommentare von Internetnutzern
Heim Technologie-Peripheriegeräte KI Wie erstaunlich ist das einfache Sprachkonvertierungsmodell, das den sprachübergreifenden Austausch menschlicher Stimmen und Hundegebell unterstützt und nur die nächsten Nachbarn verwendet?

Wie erstaunlich ist das einfache Sprachkonvertierungsmodell, das den sprachübergreifenden Austausch menschlicher Stimmen und Hundegebell unterstützt und nur die nächsten Nachbarn verwendet?

Jul 04, 2023 pm 05:57 PM
ai 语音

Die Stimmenwelt, an der KI teilnimmt, ist wirklich magisch. Sie kann nicht nur die Stimme einer Person in die einer anderen Person verwandeln, sondern auch Stimmen mit Tieren austauschen.

Wir wissen, dass das Ziel der Sprachkonvertierung darin besteht, die Quellstimme in die Zielstimme umzuwandeln und dabei den Inhalt unverändert zu lassen. Neuere Any-to-Any-Sprachkonvertierungsmethoden verbessern die Natürlichkeit und Sprecherähnlichkeit, allerdings auf Kosten einer deutlich erhöhten Komplexität. Dies bedeutet, dass Training und Inferenz teurer werden, wodurch es schwieriger wird, Verbesserungen zu bewerten und zu etablieren.

Die Frage ist, erfordert eine qualitativ hochwertige Sprachkonvertierung Komplexität? In einem aktuellen Artikel der Universität Stellenbosch in Südafrika untersuchten mehrere Forscher dieses Problem.

Wie erstaunlich ist das einfache Sprachkonvertierungsmodell, das den sprachübergreifenden Austausch menschlicher Stimmen und Hundegebell unterstützt und nur die nächsten Nachbarn verwendet?

  • Papieradresse: https://arxiv.org/pdf/2305.18975.pdf
  • GitHub-Adresse: https://bshall.github.io/knn-vc/

Die Höhepunkte der Forschung sind: Sie führten K-Nearest Neighbor Speech Conversion (kNN-VC) ein, eine einfache und leistungsstarke Methode zur Sprachkonvertierung von beliebiger Sprache . Anstatt ein explizites Transformationsmodell zu trainieren, wird einfach die K-Nearest-Neighbor-Regression verwendet.

Konkret verwendeten die Forscher zunächst ein selbstüberwachtes Sprachdarstellungsmodell, um die Merkmalssequenz der Quelläußerung und der Referenzäußerung zu extrahieren, und wandelten dann jeden Frame der Quelldarstellung in den Zielsprecher um, indem sie ihn durch den nächstgelegenen ersetzten Nachbar in der Referenz und verwenden Sie schließlich einen neuronalen Vocoder, um die konvertierten Merkmale zu synthetisieren und die konvertierte Sprache zu erhalten.

Den Ergebnissen nach zu urteilen, erreicht KNN-VC trotz seiner Einfachheit eine vergleichbare oder sogar verbesserte Verständlichkeit und Sprecherähnlichkeit sowohl bei subjektiven als auch objektiven Bewertungen im Vergleich zu mehreren grundlegenden Sprachkonvertierungssystemen.

Lassen Sie uns die Wirkung der KNN-VC-Sprachkonvertierung schätzen. Zunächst wird KNN-VC auf die Konvertierung menschlicher Stimmen auf Quell- und Zielsprecher angewendet, die im LibriSpeech-Datensatz nicht zu finden sind.

... -VC unterstützt auch die sprachübergreifende Sprachkonvertierung. Zum Beispiel Spanisch nach Deutsch, Deutsch nach Japanisch, Chinesisch nach Spanisch. ? Erstaunlicherweise kann KNN-VC auch menschliche Stimmen austauschen und Hundegebell.

Quelle Hundegebell00:09

Quelle menschliche Stimme00:05

Synthetische Stimme. 400:08

S synthetische Stimme 5 00:05

Sehen wir uns an, wie KNN-VC läuft und im Vergleich zu anderen Jixian-Methoden abschneidet.

Methodenübersicht und experimentelle Ergebnisse

Das Architekturdiagramm von kNN-VC ist unten dargestellt und folgt der Encoder-Konverter-Vocoder-Struktur. Zuerst extrahiert der Encoder selbstüberwachte Darstellungen der Quell- und Referenzsprache, dann ordnet der Konverter jeden Quellrahmen seinem nächsten Nachbarn in der Referenz zu und schließlich generiert der Vocoder Audiowellenformen basierend auf den konvertierten Merkmalen.

Der Encoder verwendet WavLM, der Konverter verwendet die K-Nächste-Nachbarn-Regression und der Vocoder verwendet HiFiGAN. Die einzige Komponente, die trainiert werden muss, ist der Vocoder.

Für den WavLM-Encoder verwendete der Forscher nur das vorab trainierte WavLM-Large-Modell und führte im Artikel kein Training dafür durch. Für das kNN-Transformationsmodell ist kNN nichtparametrisch und erfordert kein Training. Für den HiFiGAN-Vocoder wurde das ursprüngliche Repo des HiFiGAN-Autors zum Vocodieren der WavLM-Funktionen verwendet und war damit der einzige Teil, der geschult werden musste.

BilderIn dem Experiment verglichen die Forscher zunächst KNN-VC mit anderen Basismethoden und verwendeten die größten verfügbaren Zieldaten (etwa 8 Minuten Audio pro Sprecher), um das Sprachkonvertierungssystem zu testen.

Für KNN-VC verwendet der Forscher alle Zieldaten als Matching-Set. Bei der Basismethode ermitteln sie den Durchschnitt der Sprechereinbettungen für jede Zieläußerung.

Tabelle 1 unten zeigt die Ergebnisse für Verständlichkeit, Natürlichkeit und Sprecherähnlichkeit für jedes Modell. Wie man sehen kann, erreicht kNN-VC eine ähnliche Natürlichkeit und Klarheit wie das beste Basis-FreeVC, jedoch mit deutlich verbesserter Sprecherähnlichkeit. Dies bestätigt auch die Aussage dieses Artikels: Eine hochwertige Sprachkonvertierung erfordert keine erhöhte Komplexität.

Wie erstaunlich ist das einfache Sprachkonvertierungsmodell, das den sprachübergreifenden Austausch menschlicher Stimmen und Hundegebell unterstützt und nur die nächsten Nachbarn verwendet?

Darüber hinaus wollten die Forscher verstehen, wie viel Verbesserung durch HiFi-GAN erzielt wurde, das auf vorab abgeglichenen Daten trainiert wurde, und wie stark sich die Datengröße des Ziellautsprechers auf die Verständlichkeit und die Ähnlichkeit der Sprecher auswirkte.

Abbildung 2 unten zeigt die Beziehung zwischen WER (kleiner ist besser) und EER (höher ist besser) für zwei HiFi-GAN-Varianten bei unterschiedlichen Ziellautsprechergrößen.

Wie erstaunlich ist das einfache Sprachkonvertierungsmodell, das den sprachübergreifenden Austausch menschlicher Stimmen und Hundegebell unterstützt und nur die nächsten Nachbarn verwendet?Bilder

Heiße Kommentare von Internetnutzern

Für diese neue Sprachkonvertierungsmethode kNN-VC, die „nur nächste Nachbarn verwendet“, denken einige Leute, dass in dem Artikel ein vorab trainiertes Sprachmodell verwendet wird , daher wird „nur“ verwendet. Nicht ganz korrekt. Aber es ist unbestreitbar, dass kNN-VC immer noch einfacher ist als andere Modelle.

Die Ergebnisse belegen auch, dass kNN-VC im Vergleich zu sehr komplexen Any-to-Any-Sprachkonvertierungsmethoden genauso effektiv, wenn nicht sogar die beste ist.

Wie erstaunlich ist das einfache Sprachkonvertierungsmodell, das den sprachübergreifenden Austausch menschlicher Stimmen und Hundegebell unterstützt und nur die nächsten Nachbarn verwendet?Bilder

Einige Leute sagten auch, dass das Beispiel der Verwechslung von menschlicher Stimme und Hundegebell sehr interessant sei.

Wie erstaunlich ist das einfache Sprachkonvertierungsmodell, das den sprachübergreifenden Austausch menschlicher Stimmen und Hundegebell unterstützt und nur die nächsten Nachbarn verwendet?Bilder

Das obige ist der detaillierte Inhalt vonWie erstaunlich ist das einfache Sprachkonvertierungsmodell, das den sprachübergreifenden Austausch menschlicher Stimmen und Hundegebell unterstützt und nur die nächsten Nachbarn verwendet?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Wie man MySQL löst, kann nicht gestartet werden Wie man MySQL löst, kann nicht gestartet werden Apr 08, 2025 pm 02:21 PM

Es gibt viele Gründe, warum MySQL Startup fehlschlägt und durch Überprüfung des Fehlerprotokolls diagnostiziert werden kann. Zu den allgemeinen Ursachen gehören Portkonflikte (prüfen Portbelegung und Änderung der Konfiguration), Berechtigungsprobleme (Überprüfen Sie den Dienst Ausführen von Benutzerberechtigungen), Konfigurationsdateifehler (Überprüfung der Parametereinstellungen), Datenverzeichniskorruption (Wiederherstellung von Daten oder Wiederaufbautabellenraum), InnoDB-Tabellenraumprobleme (prüfen IBDATA1-Dateien), Plug-in-Ladeversagen (Überprüfen Sie Fehlerprotokolle). Wenn Sie Probleme lösen, sollten Sie sie anhand des Fehlerprotokolls analysieren, die Hauptursache des Problems finden und die Gewohnheit entwickeln, Daten regelmäßig zu unterstützen, um Probleme zu verhindern und zu lösen.

Verstehen von Säureeigenschaften: Die Säulen einer zuverlässigen Datenbank Verstehen von Säureeigenschaften: Die Säulen einer zuverlässigen Datenbank Apr 08, 2025 pm 06:33 PM

Detaillierte Erläuterung von Datenbanksäureattributen Säureattribute sind eine Reihe von Regeln, um die Zuverlässigkeit und Konsistenz von Datenbanktransaktionen sicherzustellen. Sie definieren, wie Datenbanksysteme Transaktionen umgehen, und sorgen dafür, dass die Datenintegrität und -genauigkeit auch im Falle von Systemabstürzen, Leistungsunterbrechungen oder mehreren Benutzern gleichzeitiger Zugriff. Säureattributübersicht Atomizität: Eine Transaktion wird als unteilbare Einheit angesehen. Jeder Teil schlägt fehl, die gesamte Transaktion wird zurückgerollt und die Datenbank behält keine Änderungen bei. Wenn beispielsweise eine Banküberweisung von einem Konto abgezogen wird, jedoch nicht auf ein anderes erhöht wird, wird der gesamte Betrieb widerrufen. begintransaktion; updateAccountsSetBalance = Balance-100WH

Kann MySQL JSON zurückgeben? Kann MySQL JSON zurückgeben? Apr 08, 2025 pm 03:09 PM

MySQL kann JSON -Daten zurückgeben. Die JSON_EXTRACT -Funktion extrahiert Feldwerte. Über komplexe Abfragen sollten Sie die Where -Klausel verwenden, um JSON -Daten zu filtern, aber auf die Leistungsauswirkungen achten. Die Unterstützung von MySQL für JSON nimmt ständig zu, und es wird empfohlen, auf die neuesten Versionen und Funktionen zu achten.

Master SQL Limit -Klausel: Steuern Sie die Anzahl der Zeilen in einer Abfrage Master SQL Limit -Klausel: Steuern Sie die Anzahl der Zeilen in einer Abfrage Apr 08, 2025 pm 07:00 PM

SQllimit -Klausel: Steuern Sie die Anzahl der Zeilen in Abfrageergebnissen. Die Grenzklausel in SQL wird verwendet, um die Anzahl der von der Abfrage zurückgegebenen Zeilen zu begrenzen. Dies ist sehr nützlich, wenn große Datensätze, paginierte Anzeigen und Testdaten verarbeitet werden und die Abfrageeffizienz effektiv verbessern können. Grundlegende Syntax der Syntax: SelectColumn1, Spalte2, ... Fromtable_Namelimitnumber_of_rows; number_of_rows: Geben Sie die Anzahl der zurückgegebenen Zeilen an. Syntax mit Offset: SelectColumn1, Spalte2, ... Fromtable_NamelimitOffset, Number_of_rows; Offset: Skip überspringen

Wie optimieren Sie die MySQL-Leistung für Hochlastanwendungen? Wie optimieren Sie die MySQL-Leistung für Hochlastanwendungen? Apr 08, 2025 pm 06:03 PM

Die MySQL-Datenbankleistung Optimierungshandbuch In ressourcenintensiven Anwendungen spielt die MySQL-Datenbank eine entscheidende Rolle und ist für die Verwaltung massiver Transaktionen verantwortlich. Mit der Erweiterung der Anwendung werden jedoch die Datenbankleistung Engpässe häufig zu einer Einschränkung. In diesem Artikel werden eine Reihe effektiver Strategien zur Leistungsoptimierung von MySQL -Leistung untersucht, um sicherzustellen, dass Ihre Anwendung unter hohen Lasten effizient und reaktionsschnell bleibt. Wir werden tatsächliche Fälle kombinieren, um eingehende Schlüsseltechnologien wie Indexierung, Abfrageoptimierung, Datenbankdesign und Caching zu erklären. 1. Das Design der Datenbankarchitektur und die optimierte Datenbankarchitektur sind der Eckpfeiler der MySQL -Leistungsoptimierung. Hier sind einige Kernprinzipien: Die Auswahl des richtigen Datentyps und die Auswahl des kleinsten Datentyps, der den Anforderungen entspricht, kann nicht nur Speicherplatz speichern, sondern auch die Datenverarbeitungsgeschwindigkeit verbessern.

Überwachen Sie MySQL und Mariadb -Tröpfchen mit Prometheus Mysql Exporteur Überwachen Sie MySQL und Mariadb -Tröpfchen mit Prometheus Mysql Exporteur Apr 08, 2025 pm 02:42 PM

Eine effektive Überwachung von MySQL- und MariADB -Datenbanken ist entscheidend für die Aufrechterhaltung einer optimalen Leistung, die Identifizierung potenzieller Engpässe und die Gewährleistung der Zuverlässigkeit des Gesamtsystems. Prometheus MySQL Exporteur ist ein leistungsstarkes Tool, das detaillierte Einblicke in Datenbankmetriken bietet, die für die proaktive Verwaltung und Fehlerbehebung von entscheidender Bedeutung sind.

Der Hauptschlüssel von MySQL kann null sein Der Hauptschlüssel von MySQL kann null sein Apr 08, 2025 pm 03:03 PM

Der MySQL -Primärschlüssel kann nicht leer sein, da der Primärschlüssel ein Schlüsselattribut ist, das jede Zeile in der Datenbank eindeutig identifiziert. Wenn der Primärschlüssel leer sein kann, kann der Datensatz nicht eindeutig identifiziert werden, was zu Datenverwirrung führt. Wenn Sie selbstsinkrementelle Ganzzahlsspalten oder UUIDs als Primärschlüssel verwenden, sollten Sie Faktoren wie Effizienz und Raumbelegung berücksichtigen und eine geeignete Lösung auswählen.

Navicat -Methode zum Anzeigen von MongoDB -Datenbankkennwort Navicat -Methode zum Anzeigen von MongoDB -Datenbankkennwort Apr 08, 2025 pm 09:39 PM

Es ist unmöglich, das MongoDB -Passwort direkt über Navicat anzuzeigen, da es als Hash -Werte gespeichert ist. So rufen Sie verlorene Passwörter ab: 1. Passwörter zurücksetzen; 2. Überprüfen Sie die Konfigurationsdateien (können Hash -Werte enthalten). 3. Überprüfen Sie Codes (May Hardcode -Passwörter).

See all articles