Aujourd'hui je vais vous présenter quelques connaissances sur la reconnaissance vocale, j'espère que cela vous sera utile !
La parole fait référence aux sons que les humains émettent à travers les organes vocaux, qui ont une certaine signification et sont utilisés pour la communication.
Stockage de la parole dans l'ordinateur : il est stocké sous forme de fichiers de forme d'onde. Les changements dans la voix sont reflétés à travers la forme d'onde, de sorte que des informations sur les paramètres tels que l'intensité sonore et la longueur du son peuvent être obtenues.
Paramètres de la plage vocale : spectre de Fourier, fréquence Mel au coefficient spectral, principalement utilisé pour extraire la différence de contenu vocal et de timbre afin d'identifier davantage les informations vocales.
La reconnaissance vocale est simplement le processus de conversion automatique du contenu vocal en texte.
Domaines impliqués : acoustique, intelligence artificielle, traitement du signal numérique, psychologie, etc.
Entrée pour la reconnaissance vocale : une séquence pour lire un fichier son.
Sortie de la reconnaissance vocale : Le résultat de la sortie est une séquence de texte.
La reconnaissance vocale nécessite quatre parties : l'extraction de caractéristiques, le modèle acoustique, le modèle vocal, le décodage vocal et l'algorithme de recherche.
Extraction de fonctionnalités : Extraire le signal à analyser du signal d'origine. Cette étape comprend principalement des opérations de prétraitement telles que la standardisation de l'amplitude de la parole, la correction de la réponse en fréquence, le cadrage, le fenêtrage et la détection des points de début et de fin. , fournissant les vecteurs de caractéristiques requis pour le modèle acoustique.
Modèle acoustique : S'appuyer sur le modèle acoustique pour analyser les paramètres de la parole (fréquence des formants de la parole, amplitude, etc.) et analyser les paramètres de prédiction linéaire de la parole.
Modèle linguistique : sur la base de théories linguistiques pertinentes, calculez la probabilité d'éventuelles séquences de phrases d'extraits sonores.
Décodage vocal et algorithme de recherche : Trouvez le chemin le plus approprié en fonction de l'espace de recherche construit par le modèle acoustique + dictionnaire de prononciation + modèle vocal. Le texte est finalement affiché une fois le décodage terminé.
Un système de reconnaissance vocale complet comprend : le prétraitement, l'extraction de caractéristiques, l'entraînement du modèle acoustique, l'entraînement du modèle linguistique et le décodeur vocal.
4.1 Prétraitement
Traitez le signal sonore original d'entrée, filtrez le bruit de fond, les informations non importantes, et recherchez également le début et Fin du signal vocal, cadrer la voix, améliorer la partie haute fréquence du signal et d'autres opérations.
4.2 Extraction de caractéristiques
La méthode d'extraction de caractéristiques la plus couramment utilisée est le coefficient spectral de Melton (MFCC), car elle présente une bonne résistance au bruit. et robustesse.
4.3 Entraînement du modèle acoustique
Les paramètres du modèle acoustique sont entraînés en fonction des paramètres caractéristiques de la bibliothèque vocale Xuanlian, afin qu'ils puissent être combinés avec le modèle acoustique lors de la reconnaissance Le modèle est apparié pour obtenir les résultats correspondants. À l’heure actuelle, les systèmes de reconnaissance vocale traditionnels utilisent généralement le HMM pour la modélisation de modèles acoustiques.
4.4 La formation du modèle de langage
est utilisée pour prédire quelle séquence de mots est la plus susceptible d'être correcte.
4.5 Décodeur vocal
Le décodeur est le processus de reconnaissance dans la technologie de reconnaissance vocale. Selon le signal vocal d'entrée, il est ensuite formé. Le modèle acoustique HMM, le modèle linguistique et le dictionnaire de prononciation sont utilisés pour établir un espace de recherche, et le chemin le plus approprié est trouvé en fonction de l'algorithme de recherche. Afin de trouver la suite de mots la plus adaptée.
5. Scénarios d'utilisation de la reconnaissance vocale
La reconnaissance vocale est largement utilisée dans la vie quotidienne et est principalement divisée en applications fermées et ouvertes.
Application fermée : désigne principalement l'application de consignes de contrôle spécifiques.
Par exemple, il existe des maisons intelligentes courantes, telles que le contrôle des interrupteurs d'éclairage, le réglage de la température des interrupteurs du chauffe-eau, l'allumage des climatiseurs, etc. via des commandes vocales, ce qui enrichit grandement notre vie quotidienne #🎜🎜 ; #
Applications ouvertes : Le type ouvert fournit principalement des services de reconnaissance vocale par les fabricants, qui sont généralement déployés dans des cloud publics ou privés pour fournir les SDK correspondants, permettant aux clients qui utilisent les services d'appeler des services de reconnaissance vocale. Les scénarios courants incluent les méthodes de saisie, la sortie en temps réel des sous-titres de la conférence, la configuration des sous-titres de montage vidéo, etc.Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!