


Google Recorder implementiert die automatische Sprecheranmerkung und seine Funktionalität sowie iOS-Sprachnotizen werden noch einmal erweitert
Google hat 2019 für seine Pixel-Handys die Aufnahmesoftware Recorder unter Android-System auf den Markt gebracht, die mit Sprachnotizen unter iOS kompatibel ist und die Aufnahme, Verwaltung und Bearbeitung von Audiodateien unterstützt. Seitdem hat Google Recorder sukzessive um zahlreiche auf maschinellem Lernen basierende Funktionen erweitert, darunter Spracherkennung, Erkennung von Audioereignissen, automatische Titelgenerierung und intelligentes Browsing.
Wenn die Aufnahmedatei jedoch lang ist und mehrere Lautsprecher enthält, werden sich einige Recorder-Benutzer bei der Verwendung unwohl fühlen. Denn der durch Spracherkennung gewonnene Text allein kann nicht bestimmen, wer den jeweiligen Satz gesagt hat. Auf der diesjährigen Made By Google-Konferenz kündigte Google die automatische Sprecheranmerkungsfunktion der Recorder-App an. Diese Funktion fügt in Echtzeit anonyme Sprecher-Tags (z. B. „Sprecher 1“ oder „Sprecher 2“) zum spracherkannten Text hinzu. Diese Funktion wird die Lesbarkeit und Praktikabilität aufgezeichneter Texte erheblich verbessern. Die Technologie hinter dieser Funktion wird als Sprecherdiagnose bezeichnet. Google stellte erstmals auf der ICASSP-Konferenz 2022 sein Voiceprint-Segmentierungs- und Clustering-System namens Turn-to-Diarize vor.
Linkes Bild: Der Aufnahmetext mit ausgeschalteter Sprecheranmerkung. Rechts: Der Aufnahmetext mit aktivierter Sprecheranmerkung.
Systemarchitektur
Das Turn-to-Diarize-System von Google enthält mehrere hochoptimierte Modelle und Algorithmen Echtzeit-Stimmabdrucksegmentierung und Clustering-Verarbeitung stundenlanger Audiodaten auf Mobilgeräten mit sehr wenigen Rechenressourcen. Das System besteht im Wesentlichen aus drei Komponenten: einem Sprecherwechselerkennungsmodell zur Erkennung des Sprecheridentitätswechsels, einem Stimmabdruck-Encodermodell zum Extrahieren der Stimmmerkmale jedes Sprechers und einem mehrstufigen System, das den Sprecheranmerkungsalgorithmus effizient vervollständigen kann. Alle Komponenten laufen vollständig auf dem Gerät des Benutzers und sind nicht auf eine Serververbindung angewiesen.
Turn-to-Diarize Architekturdiagramm des Systems.
Lautsprecherkonvertierungserkennung
Die erste Komponente des Systems ist ein Transformer Transducer (T-T)-Lautsprecherschalter Erkennungsmodell. Das Modell ist in der Lage, die akustische Feature-Sequenz in eine Textsequenz umzuwandeln, die das Sonderzeichen enthält. Das Sonderzeichen weist auf ein Sprecherwechselereignis hin. In früheren von Google veröffentlichten Artikeln wurden Sonderzeichen wie oder verwendet, um die Identität eines bestimmten Sprechers darzustellen. Da das -Zeichen im neuesten System nicht auf bestimmte Identitäten beschränkt ist, ist seine Anwendung auch weiter verbreitet.
Bei den meisten Anwendungen wird die Ausgabe des Stimmabdruck-Segmentierungs- und Clustering-Systems im Allgemeinen nicht direkt dem Benutzer präsentiert, sondern mit der Ausgabe des Spracherkennungsmodells kombiniert. Da das Spracherkennungsmodell während des Trainingsprozesses für die Wortfehlerrate optimiert wurde, ist das Sprecherwechselerkennungsmodell toleranter gegenüber der Wortfehlerrate, achtet jedoch stärker auf die Genauigkeit der Sonderzeichen . Auf dieser Grundlage schlug Google eine neue zeichenbasierte Verlustfunktion vor, die eine genaue Erkennung von Sprecherwechselereignissen mit nur einem kleineren Modell ermöglicht.
Voiceprint-Funktionen extrahieren
Wenn das Audiosignal nach Sprecherkonvertierungsereignissen segmentiert wird, verwendet das System das Voiceprint-Encoder-Modell für ein Sprechersegment extrahiert einen Einbettungscode, der Stimmabdruckinformationen enthält, also einen D-Vektor. In früheren von Google veröffentlichten Artikeln wurden Sprachabdruck-Einbettungscodes im Allgemeinen aus Audiodaten fester Länge extrahiert. Im Gegensatz dazu bietet dieses neue System viele Verbesserungen. Erstens vermeidet das neue System das Extrahieren von Sprachabdruck-Einbettungscodes aus Segmenten, die mehrere Sprecherinformationen enthalten, wodurch die Gesamtqualität der Einbettungscodes verbessert wird. Zweitens ist das Sprachfragment, das jedem Stimmabdruck-Einbettungscode entspricht, relativ lang, sodass es mehr Stimmabdruckinformationen enthält, die dem Sprecher entsprechen. Schließlich ist die endgültige Voiceprint-Einbettungscodesequenz, die mit dieser Methode erhalten wird, kürzer, wodurch der nachfolgende Clustering-Algorithmus weniger rechenintensiv wird.
Mehrstufiges Clustering
Der letzte Schritt der Sprachabdrucksegmentierung und -clusterung besteht darin, die in den vorherigen Schritten erhaltenen Sprachabdruck-Einbettungscodesequenzen zu gruppieren. Da die Aufzeichnungen, die Benutzer mit der Recorder-App erstellen, zwischen wenigen Sekunden und bis zu 18 Stunden liegen können, besteht eine zentrale Herausforderung für Clustering-Algorithmen darin, Sprachabdruck-Einbettungssequenzen unterschiedlicher Länge verarbeiten zu können.
Dazu kombiniert Googles mehrstufige Clustering-Strategie geschickt die jeweiligen Vorteile mehrerer unterschiedlicher Clustering-Algorithmen. Für kürzere Sequenzen verwendet die Strategie Aggregate Hierarchical Clustering (AHC). Für Sequenzen mittlerer Länge verwendet diese Methode spektrales Clustering und nutzt die Maximum-Marge-Methode der Eigenwerte, um die Anzahl der Sprecher genau abzuschätzen. Bei längeren Sequenzen verwendet diese Methode zunächst aggregiertes hierarchisches Clustering zur Vorverarbeitung der Sequenz und ruft dann spektrales Clustering auf, wodurch der Rechenaufwand des Clustering-Schritts reduziert wird. Während des gesamten Streaming-Verarbeitungsprozesses kann durch dynamisches Zwischenspeichern und Wiederverwenden der vorherigen Clustering-Ergebnisse die Obergrenze der zeitlichen und räumlichen Komplexität jedes Aufrufs des Clustering-Algorithmus auf eine Konstante festgelegt werden.
Die mehrstufige Clustering-Strategie ist eine wichtige Optimierung für geräteseitige Anwendungen. Denn auf Geräteseite sind Ressourcen wie CPU, Speicher und Akku meist knapp. Diese Strategie kann auch nach mehrstündiger Audioverarbeitung im Energiesparmodus noch funktionieren. Die Obergrenze der konstanten Komplexität dieser Strategie kann in der Regel je nach Gerätemodell angepasst werden, um ein Gleichgewicht zwischen Genauigkeit und Leistung zu erreichen.
Schematische Darstellung der mehrstufigen Clustering-Strategie.
Echtzeitkorrektur und Benutzeranmerkung
Weil Turn-to-Diarize in Echtzeit erfolgt Je mehr Audio das Modell verarbeitet, desto genauer werden die vorhergesagten Lautsprecherbezeichnungen. Zu diesem Zweck korrigiert die Recorder-Anwendung während des Aufnahmevorgangs des Benutzers kontinuierlich die zuvor vorhergesagten Sprecherbezeichnungen, um sicherzustellen, dass die Sprecherbezeichnungen, die der Benutzer auf dem aktuellen Bildschirm sieht, immer genauere Bezeichnungen sind.
Gleichzeitig ermöglicht die Benutzeroberfläche der Recorder-Anwendung Benutzern auch, das Lautsprecher-Tag in jeder Aufnahme umzubenennen, beispielsweise „Lautsprecher 2“ in „ Autohändler“ und erleichtert so das Lesen und Merken für Benutzer.
Recorder ermöglicht Benutzern das Umbenennen von Sprecher-Tags und verbessert so die Zugänglichkeit und Lesbarkeit.
Future Work
Google hat den selbst entwickelten Chip Google Tensor auf den neuesten Pixel-Handys eingeführt. Das aktuelle Voiceprint-Segmentierungs- und Clustering-System läuft hauptsächlich auf dem CPU-Modul von Google Tensor. In Zukunft plant Google, das Voiceprint-Segmentierungs- und Clustering-System auf dem TPU-Modul von Google Tensor auszuführen, um den Energieverbrauch weiter zu senken. Darüber hinaus hofft Google, diese Funktion mithilfe mehrsprachiger Stimmabdruck-Encoder und Spracherkennungsmodelle neben Englisch auch auf andere Sprachen auszuweiten.
Das obige ist der detaillierte Inhalt vonGoogle Recorder implementiert die automatische Sprecheranmerkung und seine Funktionalität sowie iOS-Sprachnotizen werden noch einmal erweitert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Deepseek ist ein leistungsstarkes Informations -Abruf -Tool. .

Deepseek ist eine proprietäre Suchmaschine, die nur schneller und genauer in einer bestimmten Datenbank oder einem bestimmten System sucht. Bei der Verwendung wird den Benutzern empfohlen, das Dokument zu lesen, verschiedene Suchstrategien auszuprobieren, Hilfe und Feedback zur Benutzererfahrung zu suchen, um die Vorteile optimal zu nutzen.

In diesem Artikel wird der Registrierungsprozess der Webversion Sesam Open Exchange (GATE.IO) und die Gate Trading App im Detail vorgestellt. Unabhängig davon, ob es sich um eine Webregistrierung oder eine App -Registrierung handelt, müssen Sie die offizielle Website oder den offiziellen App Store besuchen, um die Genuine App herunterzuladen, und dann den Benutzernamen, das Kennwort, die E -Mail, die Mobiltelefonnummer und die anderen Informationen eingeben und eine E -Mail- oder Mobiltelefonüberprüfung abschließen.

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Bitbit ist eine Kryptowährungsbörse, die den Benutzern Handelsdienste anbietet. Die mobilen Apps der Exchange können aus den folgenden Gründen nicht direkt über AppStore oder Googleplay heruntergeladen werden: 1. App Store -Richtlinie beschränkt Apple und Google daran, strenge Anforderungen an die im App Store zulässigen Anwendungsarten zu haben. Kryptowährungsanträge erfüllen diese Anforderungen häufig nicht, da sie Finanzdienstleistungen einbeziehen und spezifische Vorschriften und Sicherheitsstandards erfordern. 2. Die Einhaltung von Gesetzen und Vorschriften In vielen Ländern werden Aktivitäten im Zusammenhang mit Kryptowährungstransaktionen reguliert oder eingeschränkt. Um diese Vorschriften einzuhalten, kann die Bitbit -Anwendung nur über offizielle Websites oder andere autorisierte Kanäle verwendet werden

Es ist wichtig, einen formalen Kanal auszuwählen, um die App herunterzuladen und die Sicherheit Ihres Kontos zu gewährleisten.

Eine detaillierte Einführung in den Anmeldungsbetrieb der Sesame Open Exchange -Webversion, einschließlich Anmeldeschritte und Kennwortwiederherstellungsprozess.

Befolgen Sie diese einfachen Schritte, um auf die neueste Version des Binance -Website -Login -Portals zuzugreifen. Gehen Sie zur offiziellen Website und klicken Sie in der oberen rechten Ecke auf die Schaltfläche "Anmeldung". Wählen Sie Ihre vorhandene Anmeldemethode. Geben Sie Ihre registrierte Handynummer oder E -Mail und Kennwort ein und vervollständigen Sie die Authentifizierung (z. B. Mobilfifizierungscode oder Google Authenticator). Nach einer erfolgreichen Überprüfung können Sie auf das neueste Version des offiziellen Website -Login -Portals von Binance zugreifen.

Dieser Artikel empfiehlt die Top Ten Ten Cryptocurrency -Handelsplattformen, die es wert sind, auf Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, BYDFI und Xbit -dezentrale Börsen geachtet zu werden. Diese Plattformen haben ihre eigenen Vorteile in Bezug auf Transaktionswährungsmenge, Transaktionstyp, Sicherheit, Konformität und Besonderheiten. Die Auswahl einer geeigneten Plattform erfordert eine umfassende Überlegung, die auf eigener Handelserfahrung, Risikotoleranz und Investitionspräferenzen basiert. Ich hoffe, dieser Artikel hilft Ihnen dabei, den besten Anzug für sich selbst zu finden
