Google Recorder implémente l'annotation automatique du locuteur et ses fonctionnalités et mémos vocaux iOS sont encore une fois étendus-IA-php.cn

Table des matières

Architecture du système

Détection de transformation de haut-parleur

Extraire les fonctionnalités d'empreinte vocale

Regroupement en plusieurs étapes

Correction en temps réel et annotation de l'utilisateur

Future of Work

Maison

Périphériques technologiques

Google Recorder implémente l'annotation automatique du locuteur et ses fonctionnalités et mémos vocaux iOS sont encore une fois étendus

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 10, 2023 pm 07:31 PM

人工智能谷歌

En 2019, Google a lancé le logiciel d'enregistrement Recorder sous système Android pour ses téléphones mobiles Pixel, compatible avec les mémos vocaux sous iOS et prenant en charge l'enregistrement, la gestion et l'édition de fichiers audio. Depuis lors, Google a successivement ajouté un grand nombre de fonctionnalités basées sur l'apprentissage automatique à Recorder, notamment la reconnaissance vocale, la détection d'événements audio, la génération automatique de titres et la navigation intelligente.

Cependant, lorsque le fichier d'enregistrement est long et contient plusieurs haut-parleurs, certains utilisateurs de Recorder se sentiront gênés lors de l'utilisation. Parce que le texte obtenu grâce à la reconnaissance vocale ne peut à lui seul déterminer qui a prononcé chaque phrase. Lors de la conférence Made By Google de cette année, Google a annoncé la fonctionnalité d'annotation automatique des locuteurs de l'application Recorder. Cette fonctionnalité ajoutera des balises de locuteur anonymes (telles que « Speaker 1 » ou « Speaker 2 ») au texte reconnu vocalement en temps réel. Cette fonctionnalité améliorera grandement la lisibilité et la praticité des textes enregistrés. La technologie derrière cette fonctionnalité s’appelle la diarisation des haut-parleurs. Google a présenté pour la première fois son système de segmentation et de clustering d'empreintes vocales appelé Turn-to-Diarize lors de la conférence ICASSP 2022.

Google Recorder implémente lannotation automatique du locuteur et ses fonctionnalités et mémos vocaux iOS sont encore une fois étendus

Image de gauche : enregistrement de texte avec l'annotation du locuteur désactivée. À droite : le texte enregistré avec l'annotation du locuteur activée.

Architecture du système

Le système Turn-to-Diarize de Google contient plusieurs modèles et algorithmes hautement optimisés, qui permettent un traitement audio de plusieurs heures sur des appareils mobiles avec très peu de ressources informatiques. Effectuez une segmentation des empreintes vocales et un traitement de clustering en temps réel. . Le système se compose principalement de trois composants : un modèle de détection de changement de locuteur pour détecter le changement d'identité du locuteur, un modèle d'encodeur d'empreinte vocale pour extraire les caractéristiques vocales de chaque locuteur et un système à plusieurs étages qui peut compléter efficacement l'algorithme de clustering des locuteurs. Tous les composants fonctionnent entièrement sur l'appareil de l'utilisateur et ne dépendent d'aucune connexion au serveur.

Google Recorder implémente lannotation automatique du locuteur et ses fonctionnalités et mémos vocaux iOS sont encore une fois étendus

Schéma d'architecture du système Turn-to-Diarize.

Détection de transformation de haut-parleur

Le premier composant du système est un modèle de détection de transformation de haut-parleur basé sur un transducteur de transformateur (T-T). Ce modèle est capable de convertir la séquence de fonctionnalités acoustiques en une séquence de texte contenant le caractère spécial . Le caractère spécial indique un événement de transition de locuteur. Les articles précédents publiés par Google utilisaient des caractères spéciaux tels que ou pour indiquer l'identité d'un locuteur spécifique. Dans le dernier système, puisque le caractère ne se limite pas à des identités spécifiques, son application est également plus répandue.

Pour la plupart des applications, la sortie du système de segmentation et de regroupement d'empreintes vocales n'est généralement pas présentée directement à l'utilisateur, mais est combinée avec la sortie du modèle de reconnaissance vocale. Étant donné que le modèle de reconnaissance vocale a été optimisé pour le taux d'erreur sur les mots pendant le processus de formation, le modèle de détection de changement de locuteur est plus tolérant au taux d'erreur sur les mots, mais accorde plus d'attention à la précision du caractère spécial . Sur cette base, Google a proposé une nouvelle fonction de perte basée sur les caractères, qui permet une détection précise des événements de changement de haut-parleur avec seulement un modèle plus petit .

Extraire les fonctionnalités d'empreinte vocale

Une fois le signal audio segmenté en fonction des événements de conversion du locuteur, le système extrait le code d'intégration contenant les informations d'empreinte vocale pour chaque segment de locuteur via le modèle d'encodeur d'empreinte vocale, c'est-à-dire le vecteur d. Dans des articles précédents publiés par Google, les codes d’intégration d’empreintes vocales étaient généralement extraits d’audio de longueur fixe. En revanche, ce nouveau système présente de nombreuses améliorations. Premièrement, le nouveau système évite d'extraire les codes d'intégration d'empreinte vocale de segments contenant des informations sur plusieurs locuteurs, améliorant ainsi la qualité globale des codes d'intégration. Deuxièmement, le fragment de parole correspondant à chaque code d'intégration d'empreinte vocale est relativement long, il contient donc plus d'informations d'empreinte vocale correspondant au locuteur. Enfin, la séquence finale de code d'intégration d'empreinte vocale obtenue par cette méthode est plus courte, ce qui rend l'algorithme de regroupement ultérieur moins coûteux en termes de calcul.

Regroupement en plusieurs étapes

La dernière étape de la segmentation et du clustering des empreintes vocales consiste à regrouper les séquences de codes d'intégration d'empreintes vocales obtenues au cours des étapes précédentes. Étant donné que les enregistrements générés par les utilisateurs à l'aide de l'application Recorder peuvent durer de quelques secondes à 18 heures, un défi majeur pour les algorithmes de clustering est de pouvoir gérer des séquences d'intégration d'empreintes vocales de différentes longueurs.

À cette fin, la stratégie de clustering en plusieurs étapes de Google combine intelligemment les avantages de plusieurs algorithmes de clustering différents. Pour les séquences plus courtes, la stratégie utilise le clustering hiérarchique agrégé (AHC). Pour les séquences de longueur moyenne, cette méthode utilise le regroupement spectral et utilise la méthode de marge maximale des valeurs propres pour estimer avec précision le nombre de locuteurs. Pour les séquences plus longues, cette méthode utilise d'abord le clustering hiérarchique agrégé pour prétraiter la séquence, puis appelle le clustering spectral, réduisant ainsi le coût de calcul de l'étape de clustering. Pendant tout le processus de traitement de streaming, en mettant en cache dynamiquement et en réutilisant les résultats de clustering précédents, la limite supérieure de la complexité temporelle et de la complexité spatiale de chaque appel d'algorithme de clustering peut être définie sur une constante.

La stratégie de clustering en plusieurs étapes est une optimisation clé pour les applications côté appareil. Parce que du côté des appareils, les ressources telles que le processeur, la mémoire et la batterie sont généralement rares. Cette stratégie peut toujours fonctionner dans un état de faible consommation même après plusieurs heures de traitement audio. La limite supérieure de la complexité constante de cette stratégie peut généralement être ajustée en fonction du modèle d'appareil spécifique pour atteindre un équilibre entre précision et performances.

Google Recorder implémente lannotation automatique du locuteur et ses fonctionnalités et mémos vocaux iOS sont encore une fois étendus

Diagramme schématique de la stratégie de clustering en plusieurs étapes.

Correction en temps réel et annotation de l'utilisateur

Étant donné que Turn-to-Diarize est un système de traitement de streaming en temps réel, lorsque le modèle traite plus d'audio, ses étiquettes de haut-parleur prédites deviendront également plus précises. À cette fin, l'application Recorder corrigera en permanence les étiquettes de locuteurs précédemment prédites pendant le processus d'enregistrement de l'utilisateur pour garantir que les étiquettes de locuteur que l'utilisateur voit sur l'écran actuel sont toujours des étiquettes plus précises.

Dans le même temps, l'interface utilisateur de l'application Recorder permet également aux utilisateurs de renommer l'étiquette du haut-parleur dans chaque enregistrement, par exemple, renommer « Speaker 2 » en « Car Dealer », ce qui facilite la lecture et la lecture par les utilisateurs. mémoire.

Google Recorder implémente lannotation automatique du locuteur et ses fonctionnalités et mémos vocaux iOS sont encore une fois étendus

Recorder permet aux utilisateurs de renommer les balises des locuteurs pour améliorer la lisibilité.

Future of Work

Google a lancé sa puce Google Tensor auto-développée sur les derniers téléphones Pixel. Le système actuel de segmentation et de clustering d'empreintes vocales fonctionne principalement sur le module CPU de Google Tensor. À l'avenir, Google prévoit d'exécuter le système de segmentation et de clustering d'empreintes vocales sur le module TPU de Google Tensor afin de réduire davantage la consommation d'énergie. De plus, Google espère également étendre cette fonctionnalité à d'autres langues en plus de l'anglais à l'aide d'encodeurs d'empreintes vocales multilingues et de modèles de reconnaissance vocale.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7517

Tutoriel CakePHP

1378

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Comment commenter Deepseek Feb 19, 2025 pm 05:42 PM

Deepseek est un puissant outil de récupération d'informations. .

Comment rechercher Deepseek Feb 19, 2025 pm 05:39 PM

Deepseek est un moteur de recherche propriétaire qui ne recherche que dans une base de données ou un système spécifique, plus rapide et plus précis. Lorsque vous l'utilisez, il est conseillé aux utilisateurs de lire le document, d'essayer différentes stratégies de recherche, de demander de l'aide et des commentaires sur l'expérience utilisateur afin de tirer le meilleur parti de leurs avantages.

Sesame Open Door Exchange Page d'enregistrement de page Enregistrement Gate Trading App The Registration Site Web Feb 28, 2025 am 11:06 AM

Cet article présente le processus d'enregistrement de la version Web de Sesame Open Exchange (GATE.IO) et l'application Gate Trading en détail. Qu'il s'agisse de l'enregistrement Web ou de l'enregistrement de l'application, vous devez visiter le site Web officiel ou l'App Store pour télécharger l'application authentique, puis remplir le nom d'utilisateur, le mot de passe, l'e-mail, le numéro de téléphone mobile et d'autres informations et terminer la vérification des e-mails ou du téléphone mobile.

Pourquoi le lien d'échange de Bybit ne peut-il pas être téléchargé directement et installé? Feb 21, 2025 pm 10:57 PM

Pourquoi le lien d'échange de Bybit ne peut-il pas être téléchargé directement et installé? Bybit est un échange de crypto-monnaie qui fournit des services de trading aux utilisateurs. Les applications mobiles de l'échange ne peuvent pas être téléchargées directement via AppStore ou GooglePlay pour les raisons suivantes: 1. La politique de l'App Store empêche Apple et Google d'avoir des exigences strictes sur les types d'applications autorisées dans l'App Store. Les demandes d'échange de crypto-monnaie ne répondent souvent pas à ces exigences car elles impliquent des services financiers et nécessitent des réglementations et des normes de sécurité spécifiques. 2. Conformité des lois et réglementations Dans de nombreux pays, les activités liées aux transactions de crypto-monnaie sont réglementées ou restreintes. Pour se conformer à ces réglementations, l'application ByBit ne peut être utilisée que via des sites Web officiels ou d'autres canaux autorisés

Sesame Open Door Trading Platform Download Version mobile Gateio Trading Plateforme de téléchargement Adresse de téléchargement Feb 28, 2025 am 10:51 AM

Il est crucial de choisir un canal formel pour télécharger l'application et d'assurer la sécurité de votre compte.

Sesame Open Door Exchange Page Web Login Dernière version GATEIO Entrée du site officiel Mar 04, 2025 pm 11:48 PM

Une introduction détaillée à l'opération de connexion de la version Web Sesame Open Exchange, y compris les étapes de connexion et le processus de récupération de mot de passe.

Binance Binance Site officiel Dernière version Portail de connexion Feb 21, 2025 pm 05:42 PM

Pour accéder à la dernière version du portail de connexion du site Web de Binance, suivez simplement ces étapes simples. Accédez au site officiel et cliquez sur le bouton "Connectez-vous" dans le coin supérieur droit. Sélectionnez votre méthode de connexion existante. Entrez votre numéro de mobile ou votre mot de passe enregistré et votre mot de passe et complétez l'authentification (telles que le code de vérification mobile ou Google Authenticator). Après une vérification réussie, vous pouvez accéder à la dernière version du portail de connexion du site Web officiel de Binance.

Top 10 recommandé pour l'application de trading d'actifs numériques crypto (2025 Global Ranking) Mar 18, 2025 pm 12:15 PM

Cet article recommande les dix principales plates-formes de trading de crypto-monnaie qui méritent d'être prêtées, notamment Binance, Okx, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, Bydfi et Xbit décentralisées. Ces plateformes ont leurs propres avantages en termes de quantité de devises de transaction, de type de transaction, de sécurité, de conformité et de fonctionnalités spéciales. Le choix d'une plate-forme appropriée nécessite une considération complète en fonction de votre propre expérience de trading, de votre tolérance au risque et de vos préférences d'investissement. J'espère que cet article vous aide à trouver le meilleur costume pour vous-même

See all articles