Google Recorder implementiert die automatische Sprecheranmerkung und seine Funktionalität sowie iOS-Sprachnotizen werden noch einmal erweitert-KI-php.cn

Inhaltsverzeichnis

Systemarchitektur

Lautsprecherkonvertierungserkennung

Voiceprint-Funktionen extrahieren

Mehrstufiges Clustering

Echtzeitkorrektur und Benutzeranmerkung

Future Work

Heim

Technologie-Peripheriegeräte

Google Recorder implementiert die automatische Sprecheranmerkung und seine Funktionalität sowie iOS-Sprachnotizen werden noch einmal erweitert

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 10, 2023 pm 07:31 PM

人工智能谷歌

Google hat 2019 für seine Pixel-Handys die Aufnahmesoftware Recorder unter Android-System auf den Markt gebracht, die mit Sprachnotizen unter iOS kompatibel ist und die Aufnahme, Verwaltung und Bearbeitung von Audiodateien unterstützt. Seitdem hat Google Recorder sukzessive um zahlreiche auf maschinellem Lernen basierende Funktionen erweitert, darunter Spracherkennung, Erkennung von Audioereignissen, automatische Titelgenerierung und intelligentes Browsing.

Wenn die Aufnahmedatei jedoch lang ist und mehrere Lautsprecher enthält, werden sich einige Recorder-Benutzer bei der Verwendung unwohl fühlen. Denn der durch Spracherkennung gewonnene Text allein kann nicht bestimmen, wer den jeweiligen Satz gesagt hat. Auf der diesjährigen Made By Google-Konferenz kündigte Google die automatische Sprecheranmerkungsfunktion der Recorder-App an. Diese Funktion fügt in Echtzeit anonyme Sprecher-Tags (z. B. „Sprecher 1“ oder „Sprecher 2“) zum spracherkannten Text hinzu. Diese Funktion wird die Lesbarkeit und Praktikabilität aufgezeichneter Texte erheblich verbessern. Die Technologie hinter dieser Funktion wird als Sprecherdiagnose bezeichnet. Google stellte erstmals auf der ICASSP-Konferenz 2022 sein Voiceprint-Segmentierungs- und Clustering-System namens Turn-to-Diarize vor.

Google Recorder implementiert die automatische Sprecheranmerkung und seine Funktionalität sowie iOS-Sprachnotizen werden noch einmal erweitert

Linkes Bild: Der Aufnahmetext mit ausgeschalteter Sprecheranmerkung. Rechts: Der Aufnahmetext mit aktivierter Sprecheranmerkung.

Systemarchitektur

Das Turn-to-Diarize-System von Google enthält mehrere hochoptimierte Modelle und Algorithmen Echtzeit-Stimmabdrucksegmentierung und Clustering-Verarbeitung stundenlanger Audiodaten auf Mobilgeräten mit sehr wenigen Rechenressourcen. Das System besteht im Wesentlichen aus drei Komponenten: einem Sprecherwechselerkennungsmodell zur Erkennung des Sprecheridentitätswechsels, einem Stimmabdruck-Encodermodell zum Extrahieren der Stimmmerkmale jedes Sprechers und einem mehrstufigen System, das den Sprecheranmerkungsalgorithmus effizient vervollständigen kann. Alle Komponenten laufen vollständig auf dem Gerät des Benutzers und sind nicht auf eine Serververbindung angewiesen.

Google Recorder implementiert die automatische Sprecheranmerkung und seine Funktionalität sowie iOS-Sprachnotizen werden noch einmal erweitert

Turn-to-Diarize Architekturdiagramm des Systems.

Lautsprecherkonvertierungserkennung

Die erste Komponente des Systems ist ein Transformer Transducer (T-T)-Lautsprecherschalter Erkennungsmodell. Das Modell ist in der Lage, die akustische Feature-Sequenz in eine Textsequenz umzuwandeln, die das Sonderzeichen enthält. Das Sonderzeichen weist auf ein Sprecherwechselereignis hin. In früheren von Google veröffentlichten Artikeln wurden Sonderzeichen wie oder verwendet, um die Identität eines bestimmten Sprechers darzustellen. Da das -Zeichen im neuesten System nicht auf bestimmte Identitäten beschränkt ist, ist seine Anwendung auch weiter verbreitet.

Bei den meisten Anwendungen wird die Ausgabe des Stimmabdruck-Segmentierungs- und Clustering-Systems im Allgemeinen nicht direkt dem Benutzer präsentiert, sondern mit der Ausgabe des Spracherkennungsmodells kombiniert. Da das Spracherkennungsmodell während des Trainingsprozesses für die Wortfehlerrate optimiert wurde, ist das Sprecherwechselerkennungsmodell toleranter gegenüber der Wortfehlerrate, achtet jedoch stärker auf die Genauigkeit der Sonderzeichen . Auf dieser Grundlage schlug Google eine neue zeichenbasierte Verlustfunktion vor, die eine genaue Erkennung von Sprecherwechselereignissen mit nur einem kleineren Modell ermöglicht.

Voiceprint-Funktionen extrahieren

Wenn das Audiosignal nach Sprecherkonvertierungsereignissen segmentiert wird, verwendet das System das Voiceprint-Encoder-Modell für ein Sprechersegment extrahiert einen Einbettungscode, der Stimmabdruckinformationen enthält, also einen D-Vektor. In früheren von Google veröffentlichten Artikeln wurden Sprachabdruck-Einbettungscodes im Allgemeinen aus Audiodaten fester Länge extrahiert. Im Gegensatz dazu bietet dieses neue System viele Verbesserungen. Erstens vermeidet das neue System das Extrahieren von Sprachabdruck-Einbettungscodes aus Segmenten, die mehrere Sprecherinformationen enthalten, wodurch die Gesamtqualität der Einbettungscodes verbessert wird. Zweitens ist das Sprachfragment, das jedem Stimmabdruck-Einbettungscode entspricht, relativ lang, sodass es mehr Stimmabdruckinformationen enthält, die dem Sprecher entsprechen. Schließlich ist die endgültige Voiceprint-Einbettungscodesequenz, die mit dieser Methode erhalten wird, kürzer, wodurch der nachfolgende Clustering-Algorithmus weniger rechenintensiv wird.

Mehrstufiges Clustering

Der letzte Schritt der Sprachabdrucksegmentierung und -clusterung besteht darin, die in den vorherigen Schritten erhaltenen Sprachabdruck-Einbettungscodesequenzen zu gruppieren. Da die Aufzeichnungen, die Benutzer mit der Recorder-App erstellen, zwischen wenigen Sekunden und bis zu 18 Stunden liegen können, besteht eine zentrale Herausforderung für Clustering-Algorithmen darin, Sprachabdruck-Einbettungssequenzen unterschiedlicher Länge verarbeiten zu können.

Dazu kombiniert Googles mehrstufige Clustering-Strategie geschickt die jeweiligen Vorteile mehrerer unterschiedlicher Clustering-Algorithmen. Für kürzere Sequenzen verwendet die Strategie Aggregate Hierarchical Clustering (AHC). Für Sequenzen mittlerer Länge verwendet diese Methode spektrales Clustering und nutzt die Maximum-Marge-Methode der Eigenwerte, um die Anzahl der Sprecher genau abzuschätzen. Bei längeren Sequenzen verwendet diese Methode zunächst aggregiertes hierarchisches Clustering zur Vorverarbeitung der Sequenz und ruft dann spektrales Clustering auf, wodurch der Rechenaufwand des Clustering-Schritts reduziert wird. Während des gesamten Streaming-Verarbeitungsprozesses kann durch dynamisches Zwischenspeichern und Wiederverwenden der vorherigen Clustering-Ergebnisse die Obergrenze der zeitlichen und räumlichen Komplexität jedes Aufrufs des Clustering-Algorithmus auf eine Konstante festgelegt werden.

Die mehrstufige Clustering-Strategie ist eine wichtige Optimierung für geräteseitige Anwendungen. Denn auf Geräteseite sind Ressourcen wie CPU, Speicher und Akku meist knapp. Diese Strategie kann auch nach mehrstündiger Audioverarbeitung im Energiesparmodus noch funktionieren. Die Obergrenze der konstanten Komplexität dieser Strategie kann in der Regel je nach Gerätemodell angepasst werden, um ein Gleichgewicht zwischen Genauigkeit und Leistung zu erreichen.

Google Recorder implementiert die automatische Sprecheranmerkung und seine Funktionalität sowie iOS-Sprachnotizen werden noch einmal erweitert

Schematische Darstellung der mehrstufigen Clustering-Strategie.

Echtzeitkorrektur und Benutzeranmerkung

Weil Turn-to-Diarize in Echtzeit erfolgt Je mehr Audio das Modell verarbeitet, desto genauer werden die vorhergesagten Lautsprecherbezeichnungen. Zu diesem Zweck korrigiert die Recorder-Anwendung während des Aufnahmevorgangs des Benutzers kontinuierlich die zuvor vorhergesagten Sprecherbezeichnungen, um sicherzustellen, dass die Sprecherbezeichnungen, die der Benutzer auf dem aktuellen Bildschirm sieht, immer genauere Bezeichnungen sind.

Gleichzeitig ermöglicht die Benutzeroberfläche der Recorder-Anwendung Benutzern auch, das Lautsprecher-Tag in jeder Aufnahme umzubenennen, beispielsweise „Lautsprecher 2“ in „ Autohändler“ und erleichtert so das Lesen und Merken für Benutzer.

Google Recorder implementiert die automatische Sprecheranmerkung und seine Funktionalität sowie iOS-Sprachnotizen werden noch einmal erweitert

Recorder ermöglicht Benutzern das Umbenennen von Sprecher-Tags und verbessert so die Zugänglichkeit und Lesbarkeit.

Future Work

Google hat den selbst entwickelten Chip Google Tensor auf den neuesten Pixel-Handys eingeführt. Das aktuelle Voiceprint-Segmentierungs- und Clustering-System läuft hauptsächlich auf dem CPU-Modul von Google Tensor. In Zukunft plant Google, das Voiceprint-Segmentierungs- und Clustering-System auf dem TPU-Modul von Google Tensor auszuführen, um den Energieverbrauch weiter zu senken. Darüber hinaus hofft Google, diese Funktion mithilfe mehrsprachiger Stimmabdruck-Encoder und Spracherkennungsmodelle neben Englisch auch auf andere Sprachen auszuweiten.

Das obige ist der detaillierte Inhalt vonGoogle Recorder implementiert die automatische Sprecheranmerkung und seine Funktionalität sowie iOS-Sprachnotizen werden noch einmal erweitert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Chat -Befehle und wie man sie benutzt

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7526

CakePHP-Tutorial

1378

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Wie man Deepseek kommentiert Feb 19, 2025 pm 05:42 PM

Deepseek ist ein leistungsstarkes Informations -Abruf -Tool. .

So suchen Sie Deepseek Feb 19, 2025 pm 05:39 PM

Deepseek ist eine proprietäre Suchmaschine, die nur schneller und genauer in einer bestimmten Datenbank oder einem bestimmten System sucht. Bei der Verwendung wird den Benutzern empfohlen, das Dokument zu lesen, verschiedene Suchstrategien auszuprobieren, Hilfe und Feedback zur Benutzererfahrung zu suchen, um die Vorteile optimal zu nutzen.

Sesame Open Door Exchange -Webseite Registrierung Link Gate Trading App Registrierung Website Neueste Feb 28, 2025 am 11:06 AM

In diesem Artikel wird der Registrierungsprozess der Webversion Sesam Open Exchange (GATE.IO) und die Gate Trading App im Detail vorgestellt. Unabhängig davon, ob es sich um eine Webregistrierung oder eine App -Registrierung handelt, müssen Sie die offizielle Website oder den offiziellen App Store besuchen, um die Genuine App herunterzuladen, und dann den Benutzernamen, das Kennwort, die E -Mail, die Mobiltelefonnummer und die anderen Informationen eingeben und eine E -Mail- oder Mobiltelefonüberprüfung abschließen.

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Feb 21, 2025 pm 10:57 PM

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Bitbit ist eine Kryptowährungsbörse, die den Benutzern Handelsdienste anbietet. Die mobilen Apps der Exchange können aus den folgenden Gründen nicht direkt über AppStore oder Googleplay heruntergeladen werden: 1. App Store -Richtlinie beschränkt Apple und Google daran, strenge Anforderungen an die im App Store zulässigen Anwendungsarten zu haben. Kryptowährungsanträge erfüllen diese Anforderungen häufig nicht, da sie Finanzdienstleistungen einbeziehen und spezifische Vorschriften und Sicherheitsstandards erfordern. 2. Die Einhaltung von Gesetzen und Vorschriften In vielen Ländern werden Aktivitäten im Zusammenhang mit Kryptowährungstransaktionen reguliert oder eingeschränkt. Um diese Vorschriften einzuhalten, kann die Bitbit -Anwendung nur über offizielle Websites oder andere autorisierte Kanäle verwendet werden

Sesame Open Door Trading Platform Download Mobile Version Gateio Trading Platform Download -Adresse Feb 28, 2025 am 10:51 AM

Es ist wichtig, einen formalen Kanal auszuwählen, um die App herunterzuladen und die Sicherheit Ihres Kontos zu gewährleisten.

Sesam Open Door Exchange Webseite Login Neueste Version Gateio Offizieller Website Eingang Mar 04, 2025 pm 11:48 PM

Eine detaillierte Einführung in den Anmeldungsbetrieb der Sesame Open Exchange -Webversion, einschließlich Anmeldeschritte und Kennwortwiederherstellungsprozess.

Binance Binance Offizielle Website Neueste Version Anmeldeportal Feb 21, 2025 pm 05:42 PM

Befolgen Sie diese einfachen Schritte, um auf die neueste Version des Binance -Website -Login -Portals zuzugreifen. Gehen Sie zur offiziellen Website und klicken Sie in der oberen rechten Ecke auf die Schaltfläche "Anmeldung". Wählen Sie Ihre vorhandene Anmeldemethode. Geben Sie Ihre registrierte Handynummer oder E -Mail und Kennwort ein und vervollständigen Sie die Authentifizierung (z. B. Mobilfifizierungscode oder Google Authenticator). Nach einer erfolgreichen Überprüfung können Sie auf das neueste Version des offiziellen Website -Login -Portals von Binance zugreifen.

Top 10 für Crypto Digital Asset Trading App (2025 Global Ranking) empfohlen Mar 18, 2025 pm 12:15 PM

Dieser Artikel empfiehlt die Top Ten Ten Cryptocurrency -Handelsplattformen, die es wert sind, auf Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, BYDFI und Xbit -dezentrale Börsen geachtet zu werden. Diese Plattformen haben ihre eigenen Vorteile in Bezug auf Transaktionswährungsmenge, Transaktionstyp, Sicherheit, Konformität und Besonderheiten. Die Auswahl einer geeigneten Plattform erfordert eine umfassende Überlegung, die auf eigener Handelserfahrung, Risikotoleranz und Investitionspräferenzen basiert. Ich hoffe, dieser Artikel hilft Ihnen dabei, den besten Anzug für sich selbst zu finden

See all articles