Entmystifizierung einiger der KI-basierten Techniken zur Sprachverbesserung, die bei Echtzeitanrufen verwendet werden-KI-php.cn

Nachdem Echtzeit-Audio- und Videokommunikation RTC zu einer unverzichtbaren Infrastruktur im Leben und Arbeiten der Menschen geworden ist, entwickeln sich auch die verschiedenen beteiligten Technologien ständig weiter, um komplexe Probleme mit mehreren Szenen wie Audioszenen zu bewältigen um Benutzern in Szenarien mit mehreren Geräten, mehreren Personen und mehreren Geräuschen ein klares und echtes Hörerlebnis zu bieten.

Als führende internationale Konferenz im Bereich der Sprachsignalverarbeitungsforschung repräsentiert die ICASSP (International Conference on Acoustics, Speech and Signal Processing) seit jeher die modernste Forschungsrichtung im Bereich der Akustik. ICASSP 2023 hat eine Reihe von Artikeln zu Audiosignal-Sprachverbesserungsalgorithmen aufgenommen, darunter „Volcano Engine“ und „RTC“. sprecherspezifische Sprachverbesserung, Echounterdrückung, Mehrkanal-Sprachverbesserung, Thema zur Reparatur der Klangqualität . In diesem Artikel werden die wichtigsten Szenenprobleme und technischen Lösungen vorgestellt, die in diesen vier Artikeln gelöst werden, und die Denkweise und Praxis des RTC-Audioteams von Volcano Engine in den Bereichen Sprachrauschunterdrückung, Echounterdrückung und Beseitigung von Interferenzen mit menschlicher Stimme vorgestellt. „Lautsprecherspezifische Verbesserung basierend auf einem wiederkehrenden neuronalen Netzwerk mit Bandsegmentierung“Papieradresse:

https://www.php.cn/link/73740ea85c4ec25f00f9acbd859f861d

Sprecherspezifisch in Echtzeit Stimme Es gibt viele Probleme, die im Rahmen der Verbesserungsmission angegangen werden müssen. Erstens erhöht die Erfassung der gesamten Frequenzbandbreite des Schalls die Verarbeitungsschwierigkeit des Modells. Zweitens ist es für Modelle in Echtzeitszenarien im Vergleich zu Nicht-Echtzeitszenarien schwieriger, den Zielsprecher zu lokalisieren. Wie die Informationsinteraktion zwischen dem Sprechereinbettungsvektor und dem Sprachverbesserungsmodell verbessert werden kann, ist in Echtzeit eine Schwierigkeit. Zeitverarbeitung. Inspiriert von der menschlichen Höraufmerksamkeit schlägt Volcano Engine ein Speaker Attentive Module (SAM) vor, das Sprecherinformationen einführt und diese mit einer Fusion aus einem einkanaligen Sprachverbesserungsmodell und einem wiederkehrenden neuronalen Netzwerk mit Bandsegmentierung (Band-Split Recurrent Neural Network, BSRNN) kombiniert. Erstellen Sie ein spezifisches System zur Verbesserung der menschlichen Sprache als Nachbearbeitungsmodul des Echounterdrückungsmodells und optimieren Sie die Kaskade der beiden Modelle.

Modell-Framework-StrukturBand-Split Recurrent Neural Network (BSRNN)

Band-Split-RNN (BSRNN) ist ein SOTA-Modell zur Vollband-Sprachverbesserung und Musiktrennung. Seine Struktur ist wie in der Abbildung dargestellt oben anzeigen. BSRNN besteht aus drei Modulen, nämlich dem Band-Split-Modul, dem Band- und Sequenzmodellierungsmodul und dem Band-Merge-Modul. Das Frequenzbandsegmentierungsmodul unterteilt das Spektrum zunächst in K Frequenzbänder. Nachdem die Merkmale jedes Frequenzbands stapelweise normalisiert (BN) sind, werden sie durch K vollständig verbundene Schichten (FC) auf die gleiche Merkmalsdimension C komprimiert. Anschließend werden die Merkmale aller Frequenzbänder zu einem dreidimensionalen Tensor verkettet und vom Modul zur Modellierung der Frequenzbandsequenz weiterverarbeitet, das mithilfe von GRU abwechselnd die Zeit- und Frequenzbanddimensionen des Merkmalstensors modelliert. Die verarbeiteten Merkmale werden schließlich durch das Frequenzband-Zusammenführungsmodul geleitet, um die endgültige Spektrumsmaskierungsfunktion als Ausgabe zu erhalten. Die verbesserte Sprache kann durch Multiplikation der Spektrumsmaske und des Eingabespektrums erhalten werden. Um ein sprecherspezifisches Sprachverbesserungsmodell zu erstellen, fügen wir nach dem Modellierungsmodul jeder Frequenzbandsequenz ein Sprecheraufmerksamkeitsmodul hinzu.

Speaker Attentive Module (SAM)

解密实时通话中基于 AI 的一些语音增强技术 Die Struktur des Speaker Attentive Module ist in der Abbildung oben dargestellt. Die Kernidee besteht darin, den Sprechereinbettungsvektor

als Attraktor des Zwischenmerkmals des Sprachverbesserungsmodells zu verwenden und die Korrelation

zwischen ihm und dem Zwischenmerkmal zu allen Zeiten und Frequenzbändern zu berechnen, die als „ Aufmerksamkeitswert. Dieser Aufmerksamkeitswert wird verwendet, um die Zwischenmerkmale

zu skalieren und zu regulieren. Die spezifische Formel lautet wie folgt: 解密实时通话中基于 AI 的一些语音增强技术

Transformieren Sie zunächst e und h durch vollständige Verbindung und Faltung in k und q:

k und q werden multipliziert, um den Aufmerksamkeitswert zu erhalten:

Schließlich den Aufmerksamkeitswert ist bestanden Maßstab Originalmerkmale:

解密实时通话中基于 AI 的一些语音增强技术

Modelltrainingsdaten

In Bezug auf die Modelltrainingsdaten haben wir die Daten des 5. DNS-Sprecherspezifischen Sprachverbesserungs-Tracks und die hochwertigen Sprachdaten von DiDispeech verwendet. Durch Datenbereinigung haben wir klare Sprachdaten von etwa 3500 Sprechern erhalten. Im Hinblick auf die Datenbereinigung haben wir das vorab trainierte Modell verwendet, das auf der Sprechererkennung von ECAPA-TDNN [1] basiert, um die verbleibende störende Sprechersprache in den Sprachdaten zu entfernen, und wir haben auch das vorab trainierte Modell verwendet, das den ersten Platz gewonnen hat 4. DNS-Herausforderung zur Entfernung von Restrauschen aus Sprachdaten. In der Trainingsphase haben wir mehr als 100.000 4s-Sprachdaten generiert, diesen Audios Nachhall hinzugefügt, um verschiedene Kanäle zu simulieren, und sie nach dem Zufallsprinzip mit Rauschen und Interferenzgesang gemischt, um sie in eine Art von Rauschen, zwei Arten von Rauschen, Rauschen und Interferenzen, zu versetzen Sprache Es gibt 4 Interferenzszenarien: menschliche und nur störende Sprecher. Gleichzeitig werden die Pegel der verrauschten Sprache und der Zielsprache zufällig skaliert, um Eingaben unterschiedlicher Größe zu simulieren.

„Technische Lösung zur Fusion spezifischer Lautsprecherextraktion und Echounterdrückung“

Papieradresse:

https://www.php.cn/link/7c7077ca5231fd6ad758b9d49a2a1eeb

Antworten Tonabbruch ist immer möglich extern durchgeführt Ein äußerst komplexes und entscheidendes Thema im Szenario. Um qualitativ hochwertige, saubere Sprachsignale im Nahbereich zu extrahieren, schlägt Volcano Engine ein leichtes Echounterdrückungssystem vor, das Signalverarbeitung und Deep-Learning-Technologie kombiniert. Basierend auf der personalisierten Tiefengeräuschunterdrückung (pDNS) haben wir außerdem ein personalisiertes akustisches Echounterdrückungssystem (pAEC) aufgebaut, das ein Vorverarbeitungsmodul basierend auf digitaler Signalverarbeitung und ein Vorverarbeitungsmodul basierend auf einem zweistufigen Tiefenmodell umfasst neuronales Netzwerk und ein sprecherspezifisches Sprachextraktionsmodul basierend auf BSRNN und SAM.

解密实时通话中基于 AI 的一些语音增强技术

Gesamtrahmen der sprecherspezifischen Echounterdrückung

Vorverarbeitungsmodul basierend auf digitaler Signalverarbeitung, linearer Echounterdrückung

Das Vorverarbeitungsmodul besteht hauptsächlich aus zwei Teilen: Zeitverzögerungskompensation (TDC) und lineare Echounterdrückung (LAEC), dieses Modul wird für Subband-Features durchgeführt. 🔜 und verwendet dann die Abstimmungsmethode, um die endgültige Zeitverzögerung zu bestimmen.

Lineare Echounterdrückung 解密实时通话中基于 AI 的一些语音增强技术

LAEC ist eine auf NLMS basierende Subband-Filtermethode. Sie besteht aus zwei Filtern: Vorfilter (Vorfilter) und Nachfilter (Nachfilter). Parameter werden adaptiv aktualisiert, und der Vorfilter ist die Sicherung des stabilen Nachfilters. Basierend auf dem Vergleich der von Vorfilter und Nachfilter abgegebenen Restenergie wird schließlich entschieden, welches Fehlersignal verwendet werden soll.

LAEC-Verarbeitungsflussdiagramm

Zweistufiges Modell basierend auf mehrstufigem Convolutional-Cyclic Convolutional Neural Network (CRN)

Wir empfehlen, die pAEC-Aufgabe zu entkoppeln und in „Echounterdrückung“ aufzuteilen. und „spezifische Sprecherextraktions“-Aufgaben, um den Modellierungsdruck zu reduzieren. Daher besteht das Nachverarbeitungsnetzwerk hauptsächlich aus zwei neuronalen Netzwerkmodulen: einem leichten CRN-basierten Modul zur vorläufigen Echokompensation und Rauschunterdrückung und einem pDNS-basierten Nachverarbeitungsmodul zur besseren Rekonstruktion von Sprachsignalen im Nahbereich.

Phase 1: CRN-basiertes Lightweight-Modul 解密实时通话中基于 AI 的一些语音增强技术

Das CRN-basierte Lightweight-Modul besteht aus einem Bandkomprimierungsmodul, einem Encoder, zwei Dual-Path-GRUs, einem Decoder und einem Bandzerlegungsmodul. Gleichzeitig haben wir auch ein VAD-Modul (Voice Activity Detection) für das Multitasking-Lernen eingeführt, das dabei hilft, die Wahrnehmung von Nahsprache zu verbessern. CRN verwendet die Kompressionsamplitude als Eingabe und gibt eine vorläufige komplexe Idealverhältnismaske (cIRM) und die Nahfeld-VAD-Wahrscheinlichkeit des Zielsignals aus.

Zweite Stufe: Nachbearbeitungsmodul basierend auf pDNSDas pDNS-Modul umfasst in dieser Stufe das Bandsegmentierungs-Rekurrenten-Neuronale-Netzwerk BSRNN und das oben eingeführte Sprecher-Aufmerksamkeitsmechanismus-Modul SAM. Das Kaskadenmodul ist in Reihe mit dem CRN auf leichter Ebene verbunden Modul. Da unser pDNS-System bei der Aufgabe der Sprachverbesserung charakteristischer Sprecher eine relativ hervorragende Leistung erzielt hat, verwenden wir einen vorab trainierten pDNS-Modellparameter als Initialisierungsparameter der zweiten Stufe des Modells, um die Ausgabe der vorherigen Stufe weiter zu verarbeiten.

Kaskadensystem-Trainingsoptimierungs-Verlustfunktion

Wir verbessern das zweistufige Modell durch Kaskadenoptimierung, sodass es in der ersten Stufe die Nahsprache und in der zweiten Stufe die Nahsprache eines bestimmten Sprechers vorhersagen kann. Wir integrieren außerdem eine Sprachaktivitätserkennungsstrafe für die Nähe zum Sprecher, um die Fähigkeit des Modells zu verbessern, Sprache aus nächster Nähe zu erkennen. Die spezifische Verlustfunktion ist wie folgt definiert:

解密实时通话中基于 AI 的一些语音增强技术

wobei

jeweils den STFT-Merkmalen entspricht, die in der ersten und zweiten Stufe des Modells vorhergesagt wurden, bzw. die STFT-Merkmale der Nahsprache und die STFT-Merkmale der Nahsprache darstellt Sprechersprache,

repräsentiert jeweils Modellvorhersagen und Ziel-VAD-Zustände.

Modelltrainingsdaten

Um das Echounterdrückungssystem in die Lage zu versetzen, das Echo von Multi-Geräte-, Multi-Reverberation- und Multi-Noise-Collection-Szenen zu verarbeiten, haben wir über 2000 Stunden Trainingsdaten durch die Mischung von Echo und klarer Sprache erhalten. wobei die Echodaten AEC Challenge 2023-Remote-Single-Speech-Daten verwenden, Clean Speech von DNS Challenge 2023 und LibriSpeech stammt und der RIR-Satz, der zur Simulation des Nachhalls am nahen Ende verwendet wird, von DNS Challenge stammt. Da das Echo in den Single-Talk-Daten der AEC Challenge 2023 eine kleine Menge an Rauschdaten enthält, kann die direkte Verwendung dieser Daten als Echo leicht zu Sprachverzerrungen am nahen Ende führen Aber eine effektive Datenbereinigungsstrategie mit Vorverarbeitung. Ein trainiertes AEC-Modell verarbeitet Remote-Einzelkanaldaten, identifiziert Daten mit höherer Restenergie als Rauschdaten und wiederholt den unten gezeigten Bereinigungsprozess.

解密实时通话中基于 AI 的一些语音增强技术

Cascading Optimization Scheme System Effect

Ein solches Sprachverbesserungssystem, das auf verschmolzener Echounterdrückung und spezifischer Sprecherextraktion basiert, wurde im ICASSP 2023 AEC Challenge-Blindtestsatz [2] anhand subjektiver und objektiver Indikatoren verifiziert. Vorteile – erzielte einen subjektiven Meinungswert von 4,44 (Subjektiv-MOS) und eine Spracherkennungsgenauigkeitsrate von 82,2 % (WAcc).

解密实时通话中基于 AI 的一些语音增强技术

„Mehrkanalige Sprachverbesserung basierend auf dem Fourier-Faltungsaufmerksamkeitsmechanismus“

Papieradresse:

https://www.php.cn/link/373cb8cd58 5f1309b31c56e2d5a83

Die auf Deep Learning basierende Strahlgewichtsschätzung ist derzeit eine der gängigsten Methoden zur Lösung von Mehrkanal-Sprachverbesserungsaufgaben, d. h. das Filtern von Mehrkanalsignalen durch Lösen von Strahlgewichten über das Netzwerk, um reine Sprache zu erhalten. Bei der Schätzung von Strahlgewichten spielen Spektrumsinformationen und räumliche Informationen eine ähnliche Rolle wie das Prinzip der Lösung der räumlichen Kovarianzmatrix im herkömmlichen Strahlformungsalgorithmus. Allerdings sind viele vorhandene neuronale Strahlformer nicht in der Lage, die Strahlgewichte optimal abzuschätzen. Um dieser Herausforderung zu begegnen, schlägt Volcano Engine einen Fourier Convolutional Attention Encoder (FCAE) vor, der ein globales Empfangsfeld auf der Frequenzmerkmalsachse bereitstellen und die Kontextmerkmale der Frequenzachse der Extraktion verbessern kann. Gleichzeitig haben wir auch eine FCAE-basierte CRED-Struktur (Convolutional Recurrent Encoder-Decoder) vorgeschlagen, um spektrale Kontextmerkmale und räumliche Informationen aus Eingabemerkmalen zu erfassen.

Modellrahmenstruktur

Netzwerk zur Strahlgewichtsschätzung

解密实时通话中基于 AI 的一些语音增强技术

Dieses Netzwerk verwendet das Strukturparadigma des Embedding and Beamforming Network (EaBNet), um das Netzwerk in zwei Teile zu unterteilen: das Einbettungsmodul und das Strahlmodul wird verwendet, um den Einbettungsvektor zu extrahieren, der spektrale und räumliche Informationen aggregiert, und sendet den Einbettungsvektor an den Strahlteil, um das Strahlgewicht abzuleiten. Hier wird eine CRED-Struktur verwendet, um den Einbettungstensor zu lernen. Nachdem das Mehrkanal-Eingangssignal durch STFT transformiert wurde, wird es an eine CRED-Struktur gesendet, um den Einbettungstensor zu extrahieren und enthält unterscheidbare Sprache und Merkmale von Geräuschen. Der Einbettungstensor wird durch die LayerNorm2d-Struktur geleitet, dann durch zwei gestapelte LSTM-Netzwerke und schließlich werden die Strahlgewichte durch eine lineare Schicht abgeleitet. Wir wenden das Strahlgewicht auf die Eigenschaften des Mehrkanal-Eingangsspektrums an, führen Filter- und Summationsoperationen durch und erhalten schließlich das reine Sprachspektrum. Nach der ISTFT-Transformation kann die Zielwellenform im Zeitbereich erhalten werden.

CRED-Struktur

解密实时通话中基于 AI 的一些语音增强技术

Die von uns verwendete CRED-Struktur ist im Bild oben dargestellt. Unter ihnen ist FCAE der Fourier-Faltungsaufmerksamkeitsencoder und FCAD ist der zu FCAE symmetrische Decoder. Das Schleifenmodul verwendet das Deep Feedward Sequential Memory Network (DFSMN), um die zeitliche Abhängigkeit der Sequenz zu modellieren, ohne das Modell zu beeinflussen Leistung; Der Sprungverbindungsteil verwendet serielle Kanalaufmerksamkeitsmodule (Channel Attention) und räumliche Aufmerksamkeitsmodule (Spatial Attention), um kanalübergreifende räumliche Informationen weiter zu extrahieren und tiefe Schichten zu verbinden. Merkmale und flache Merkmale erleichtern die Übertragung von Informationen im Netzwerk.

FCAE-Struktur

解密实时通话中基于 AI 的一些语音增强技术

Die Struktur des Fourier Convolutional Attention Encoder (FCAE) ist in der Abbildung oben dargestellt. Inspiriert durch den Fourier-Faltungsoperator [3] macht sich dieses Modul die Tatsache zunutze, dass die Aktualisierung der diskreten Fourier-Transformation an jedem Punkt in der Transformationsdomäne einen globalen Einfluss auf das Signal in der ursprünglichen Domäne hat, und führt eine Anpassung durch. Frequenzanalyse der Frequenzachsenmerkmale Durch dimensionale FFT-Transformation kann das globale Empfangsfeld auf der Frequenzachse ermittelt werden, wodurch die Extraktion von Kontextmerkmalen auf der Frequenzachse verbessert wird. Darüber hinaus haben wir ein räumliches Aufmerksamkeitsmodul und ein Kanalaufmerksamkeitsmodul eingeführt, um die Faltungsausdrucksfähigkeit weiter zu verbessern, nützliche spektral-räumliche gemeinsame Informationen zu extrahieren und das Erlernen unterscheidbarer Merkmale von reiner Sprache und Rauschen durch das Netzwerk zu verbessern. Im Hinblick auf die Endleistung erzielte das Netzwerk eine hervorragende Mehrkanal-Sprachverbesserung mit nur 0,74 Millionen Parametern.

Modelltrainingsdaten

In Bezug auf den Datensatz haben wir den Open-Source-Datensatz des Wettbewerbs ConferencingSpeech 2021 verwendet. Die reinen Sprachdaten umfassen AISHELL-1, AISHELL-3, VCTK und LibriSpeech (train-clean-360). , und wählte die Signal-Rausch-Daten unter ihnen aus. Daten mit einem Verhältnis von mehr als 15 dB werden verwendet, um mehrkanalige gemischte Sprache zu erzeugen, und der Rauschdatensatz verwendet MUSAN und AudioSet. Um gleichzeitig reale Nachhallszenarien in mehreren Räumen zu simulieren, wurden die Open-Source-Daten mit mehr als 5.000 Raumimpulsantworten gefaltet, indem Änderungen der Raumgröße, Nachhallzeit, Schallquellen, Geräuschquellenstandorte usw. simuliert wurden Schließlich wurden mehr als 60.000 Antworten auf Multi-Channel-Trainingsbeispiele generiert.

„System zur Wiederherstellung der Klangqualität basierend auf einem zweistufigen neuronalen Netzwerkmodell“

Papieradresse:

https://www.php.cn/link/e614f646836aaed9f89ce58e837e2310

Vulkan Der Motor ist Es werden immer noch Reparaturen an der Klangqualität durchgeführt. Es wurden mehrere Versuche unternommen, die Sprache bestimmter Sprecher zu verbessern, Echos zu eliminieren und Mehrkanal-Audio zu verbessern. Im Prozess der Echtzeitkommunikation beeinträchtigen verschiedene Formen der Verzerrung die Qualität des Sprachsignals, was zu einer Verschlechterung der Klarheit und Verständlichkeit des Sprachsignals führt. Volcano Engine schlägt ein zweistufiges Modell vor, das eine abgestufte Divide-and-Conquer-Strategie verwendet, um verschiedene Verzerrungen zu reparieren, die sich auf die Sprachqualität auswirken.

Modellrahmenstruktur

Das Bild unten zeigt die Gesamtrahmenzusammensetzung des zweistufigen Modells. Das Modell der ersten Stufe repariert hauptsächlich die fehlenden Teile des Spektrums und das Modell der zweiten Stufe unterdrückt hauptsächlich Rauschen und Nachhall und Artefakte, die durch den Film der ersten Stufe erzeugt werden können.

解密实时通话中基于 AI 的一些语音增强技术

Modell der ersten Stufe: Reparierendes Netz

Das Gesamtmodell übernimmt die Architektur des Deep Complex Convolution Recurrent Network (DCCRN) [4], die drei Teile umfasst: Encoder, Timing-Modellierungsmodul und Decoder. Inspiriert von der Bildreparatur führen wir die komplexwertige Gate-Faltung und die komplexwertige transponierte Gate-Faltung ein, um die komplexwertige Faltung und die komplexwertige transponierte Faltung in Encoder und Decoder zu ersetzen. Um die Natürlichkeit des Audio-Reparaturteils weiter zu verbessern, haben wir den Multi-Period-Diskriminator und den Multi-Scale-Diskriminator für das Hilfstraining eingeführt.

Modell der zweiten Stufe: Denoising Net

Die gesamte S-DCCRN-Architektur wird verwendet, einschließlich des Encoders, zweier leichter DCCRN-Submodule und des Decoders. Die beiden leichten DCCRN-Submodule führen jeweils eine Subband- und eine Full-Scale-Verarbeitung durch . Mit Modellierung. Um die Fähigkeit des Modells zur Zeitbereichsmodellierung zu verbessern, haben wir das LSTM im DCCRN-Untermodul durch das Squeezed Temporal Convolutional Module (STCM) ersetzt.

Modell-Trainingsdaten

Das saubere Audio, das Rauschen und der Nachhall, die für das Training zur Wiederherstellung der Klangqualität verwendet werden, stammen alle aus dem DNS-Wettbewerbsdatensatz 2023, in dem die Gesamtdauer des sauberen Audios 750 Stunden und die Gesamtdauer des Rauschens 750 Stunden beträgt 170 Stunden. Während der Datenerweiterung des ersten Stufenmodells verwendeten wir Vollband-Audio zur Faltung mit zufällig generierten Filtern, mit einer Fensterlänge von 20 ms, um die Audio-Abtastpunkte zufällig auf Null zu setzen und das Audio nach dem Zufallsprinzip herunterzuskalieren, um einen Spektrumsverlust zu simulieren Andererseits werden die Audioamplitudenfrequenz und die Audiosammelpunkte mit zufälligen Skalen multipliziert. In der zweiten Stufe der Datenerweiterung verwenden wir die bereits in der ersten Stufe generierten Daten, um verschiedene Arten von Raumimpulsen zu falten mit unterschiedlichem Nachhall.

Audioverarbeitungseffekt

Bei der ICASSP 2023 AEC Challenge gewann das Volcano Engine RTC-Audioteam die Meisterschaftin zwei Tracks: Universal Echo Cancellation (Nicht personalisierte AEC) und Specific Speaker Echo Cancellation (Personalisierte AEC) und gewann den Dual-Talk-Echounterdrückung, Dual-Talk-Near-End-Sprachschutz, Near-End-Single-Talk-Hintergrundgeräuschunterdrückung, umfassende subjektive Audioqualitätsbewertung und endgültige Spracherkennungsgenauigkeit

sind deutlich besser als andere teilnehmende Teams und haben die internationale Ebene erreicht führende Ebene.

Werfen wir einen Blick auf die Verarbeitungseffekte der Sprachverbesserung von Volcano Engine RTC in verschiedenen Szenarien nach den oben genannten technischen Lösungen.

Echounterdrückung in verschiedenen Signal-Rausch-Echo-Verhältnis-Szenarien

Die folgenden zwei Beispiele zeigen die vergleichenden Auswirkungen des Echounterdrückungsalgorithmus vor und nach der Verarbeitung in verschiedenen Signal-zu-Echo-Energieverhältnis-Szenarien.

解密实时通话中基于 AI 的一些语音增强技术

Szenen mit mittlerem Signal-Echo-Verhältnis

Szenen mit extrem niedrigem Signal-Echo-Verhältnis sind derzeit die größte Herausforderung für die Echounterdrückung Entfernen Sie effektiv hochenergetische Echos, maximieren Sie aber gleichzeitig den Erhalt schwacher Zielsprache. Die Stimme (Echo) des Nicht-Zielsprechers überschattet fast vollständig die Stimme des Zielsprechers (weiblich), was die Identifizierung erschwert.

解密实时通话中基于 AI 的一些语音增强技术

Szene mit extrem niedrigem Signal-Echo-Verhältnis

Lautsprecherextraktion in Szenarien, in denen unterschiedliche Hintergründe den Sprecher stören

Die folgenden beiden Beispiele demonstrieren jeweils die Leistung einer bestimmten Lautsprecherextraktion Algorithmen in Rauschen und Hintergrund. Vergleichende Effekte vor und nach der Behandlung in menschlichen Interferenzszenen.

Im folgenden Beispiel weist der bestimmte Lautsprecher sowohl türklingelartige Geräuschstörungen als auch Hintergrundgeräuschstörungen auf. Durch die alleinige Verwendung der KI-Rauschunterdrückung kann nur das Türklingelgeräusch entfernt werden, sodass die Stimme des bestimmten Lautsprechers eliminiert werden muss.

解密实时通话中基于 AI 的一些语音增强技术

Der Zielsprecher und die im Hintergrund störenden Stimmen und Geräusche

Wenn die Stimmabdruckmerkmale des Zielsprechers und die im Hintergrund störende Stimme sehr nahe beieinander liegen, wird zu diesem Zeitpunkt der spezifische Sprecher extrahiert Die Herausforderung des Algorithmus ist größer und er kann die Robustheit des spezifischen Sprecherextraktionsalgorithmus testen. Im folgenden Beispiel sind der Zielsprecher und die störende Hintergrundstimme zwei ähnliche Frauenstimmen.

解密实时通话中基于 AI 的一些语音增强技术

Mischung von weiblicher Zielstimme und weiblicher Interferenzstimme

Zusammenfassung und Ausblick

Das Obige stellt das Volcano Engine RTC-Audioteam vor, das auf Deep Learning in der lautsprecherspezifischen Geräuschreduzierung und dem Echo basiert Unterdrückung und Mehrkanalsprache Obwohl einige Lösungen und Effekte in Richtung Verbesserung erzielt wurden, stehen zukünftige Szenarien immer noch in vielerlei Hinsicht vor Herausforderungen, z. B. wie die Reduzierung von Sprachgeräuschen an Geräuschszenen angepasst werden kann und wie Reparaturen mehrerer Arten durchgeführt werden können Audiosignale in einem breiteren Bereich der Klangqualitätsreparatur und die Durchführung verschiedener Arten von Reparaturen an Audiosignalen in einem breiteren Bereich. Diese Herausforderungen werden auch im Mittelpunkt unserer weiteren Forschungsrichtungen stehen. 🎜

Das obige ist der detaillierte Inhalt vonEntmystifizierung einiger der KI-basierten Techniken zur Sprachverbesserung, die bei Echtzeitanrufen verwendet werden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7467

CakePHP-Tutorial

1376

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Laravels Geospatial: Optimierung interaktiver Karten und großen Datenmengen Apr 08, 2025 pm 12:24 PM

Verarbeiten Sie 7 Millionen Aufzeichnungen effizient und erstellen Sie interaktive Karten mit Geospatial -Technologie. In diesem Artikel wird untersucht, wie über 7 Millionen Datensätze mithilfe von Laravel und MySQL effizient verarbeitet und in interaktive Kartenvisualisierungen umgewandelt werden können. Erstes Herausforderungsprojektanforderungen: Mit 7 Millionen Datensätzen in der MySQL -Datenbank wertvolle Erkenntnisse extrahieren. Viele Menschen erwägen zunächst Programmiersprachen, aber ignorieren die Datenbank selbst: Kann sie den Anforderungen erfüllen? Ist Datenmigration oder strukturelle Anpassung erforderlich? Kann MySQL einer so großen Datenbelastung standhalten? Voranalyse: Schlüsselfilter und Eigenschaften müssen identifiziert werden. Nach der Analyse wurde festgestellt, dass nur wenige Attribute mit der Lösung zusammenhängen. Wir haben die Machbarkeit des Filters überprüft und einige Einschränkungen festgelegt, um die Suche zu optimieren. Kartensuche basierend auf der Stadt

Wie man MySQL löst, kann nicht gestartet werden Apr 08, 2025 pm 02:21 PM

Es gibt viele Gründe, warum MySQL Startup fehlschlägt und durch Überprüfung des Fehlerprotokolls diagnostiziert werden kann. Zu den allgemeinen Ursachen gehören Portkonflikte (prüfen Portbelegung und Änderung der Konfiguration), Berechtigungsprobleme (Überprüfen Sie den Dienst Ausführen von Benutzerberechtigungen), Konfigurationsdateifehler (Überprüfung der Parametereinstellungen), Datenverzeichniskorruption (Wiederherstellung von Daten oder Wiederaufbautabellenraum), InnoDB-Tabellenraumprobleme (prüfen IBDATA1-Dateien), Plug-in-Ladeversagen (Überprüfen Sie Fehlerprotokolle). Wenn Sie Probleme lösen, sollten Sie sie anhand des Fehlerprotokolls analysieren, die Hauptursache des Problems finden und die Gewohnheit entwickeln, Daten regelmäßig zu unterstützen, um Probleme zu verhindern und zu lösen.

So verwenden Sie MySQL nach der Installation Apr 08, 2025 am 11:48 AM

Der Artikel führt den Betrieb der MySQL -Datenbank vor. Zunächst müssen Sie einen MySQL -Client wie MySQLworkBench oder Befehlszeilen -Client installieren. 1. Verwenden Sie den Befehl mySQL-uroot-P, um eine Verbindung zum Server herzustellen und sich mit dem Stammkonto-Passwort anzumelden. 2. Verwenden Sie die Erstellung von Createdatabase, um eine Datenbank zu erstellen, und verwenden Sie eine Datenbank aus. 3.. Verwenden Sie CreateTable, um eine Tabelle zu erstellen, Felder und Datentypen zu definieren. 4. Verwenden Sie InsertInto, um Daten einzulegen, Daten abzufragen, Daten nach Aktualisierung zu aktualisieren und Daten nach Löschen zu löschen. Nur indem Sie diese Schritte beherrschen, lernen, mit gemeinsamen Problemen umzugehen und die Datenbankleistung zu optimieren, können Sie MySQL effizient verwenden.

Remote Senior Backend Engineers (Plattformen) benötigen Kreise Apr 08, 2025 pm 12:27 PM

Remote Senior Backend Engineer Job Vacant Company: Circle Standort: Remote-Büro-Jobtyp: Vollzeitgehalt: 130.000 bis 140.000 US-Dollar Stellenbeschreibung Nehmen Sie an der Forschung und Entwicklung von Mobilfunkanwendungen und öffentlichen API-bezogenen Funktionen, die den gesamten Lebenszyklus der Softwareentwicklung abdecken. Die Hauptaufgaben erledigen die Entwicklungsarbeit unabhängig von RubyonRails und arbeiten mit dem Front-End-Team von React/Redux/Relay zusammen. Erstellen Sie die Kernfunktionalität und -verbesserungen für Webanwendungen und arbeiten Sie eng mit Designer und Führung während des gesamten funktionalen Designprozesses zusammen. Fördern Sie positive Entwicklungsprozesse und priorisieren Sie die Iterationsgeschwindigkeit. Erfordert mehr als 6 Jahre komplexes Backend für Webanwendungen

Kann MySQL JSON zurückgeben? Apr 08, 2025 pm 03:09 PM

MySQL kann JSON -Daten zurückgeben. Die JSON_EXTRACT -Funktion extrahiert Feldwerte. Über komplexe Abfragen sollten Sie die Where -Klausel verwenden, um JSON -Daten zu filtern, aber auf die Leistungsauswirkungen achten. Die Unterstützung von MySQL für JSON nimmt ständig zu, und es wird empfohlen, auf die neuesten Versionen und Funktionen zu achten.

Verstehen von Säureeigenschaften: Die Säulen einer zuverlässigen Datenbank Apr 08, 2025 pm 06:33 PM

Detaillierte Erläuterung von Datenbanksäureattributen Säureattribute sind eine Reihe von Regeln, um die Zuverlässigkeit und Konsistenz von Datenbanktransaktionen sicherzustellen. Sie definieren, wie Datenbanksysteme Transaktionen umgehen, und sorgen dafür, dass die Datenintegrität und -genauigkeit auch im Falle von Systemabstürzen, Leistungsunterbrechungen oder mehreren Benutzern gleichzeitiger Zugriff. Säureattributübersicht Atomizität: Eine Transaktion wird als unteilbare Einheit angesehen. Jeder Teil schlägt fehl, die gesamte Transaktion wird zurückgerollt und die Datenbank behält keine Änderungen bei. Wenn beispielsweise eine Banküberweisung von einem Konto abgezogen wird, jedoch nicht auf ein anderes erhöht wird, wird der gesamte Betrieb widerrufen. begintransaktion; updateAccountsSetBalance = Balance-100WH

MySQL kann nach dem Herunterladen nicht installiert werden Apr 08, 2025 am 11:24 AM

Die Hauptgründe für den Fehler bei MySQL -Installationsfehlern sind: 1. Erlaubnisprobleme, Sie müssen als Administrator ausgeführt oder den Sudo -Befehl verwenden. 2. Die Abhängigkeiten fehlen, und Sie müssen relevante Entwicklungspakete installieren. 3. Portkonflikte müssen Sie das Programm schließen, das Port 3306 einnimmt, oder die Konfigurationsdatei ändern. 4. Das Installationspaket ist beschädigt. Sie müssen die Integrität herunterladen und überprüfen. 5. Die Umgebungsvariable ist falsch konfiguriert und die Umgebungsvariablen müssen korrekt entsprechend dem Betriebssystem konfiguriert werden. Lösen Sie diese Probleme und überprüfen Sie jeden Schritt sorgfältig, um MySQL erfolgreich zu installieren.

Der Hauptschlüssel von MySQL kann null sein Apr 08, 2025 pm 03:03 PM

Der MySQL -Primärschlüssel kann nicht leer sein, da der Primärschlüssel ein Schlüsselattribut ist, das jede Zeile in der Datenbank eindeutig identifiziert. Wenn der Primärschlüssel leer sein kann, kann der Datensatz nicht eindeutig identifiziert werden, was zu Datenverwirrung führt. Wenn Sie selbstsinkrementelle Ganzzahlsspalten oder UUIDs als Primärschlüssel verwenden, sollten Sie Faktoren wie Effizienz und Raumbelegung berücksichtigen und eine geeignete Lösung auswählen.

See all articles