Comment développer la reconnaissance vocale
La compréhension approfondie du langage naturel grâce à l'utilisation de la technologie d'apprentissage en profondeur a toujours été au centre de l'attention des gens. Vous n'avez pas besoin de le rechercher pour écouter de la musique, vous n'avez pas besoin d'utiliser vos mains pour allumer les lumières et le climatiseur peut comprendre votre voix... Ces scènes sont montrées dans de nombreuses œuvres cinématographiques et télévisuelles. , et ils représentent également le concept de « vie intelligente » dans l'esprit de nombreuses personnes. Sur cette base, avec la montée en puissance du développement de l'intelligence artificielle, le traitement du langage naturel est devenu un champ de bataille pour les grandes entreprises et les instituts de recherche scientifique.
À l'heure actuelle, le secteur de l'interaction vocale a rassemblé des géants de l'Internet, des sociétés de matériel bien connues, des plateformes de commerce électronique, des fabricants d'appareils électroménagers traditionnels et diverses startups d'intelligence artificielle, en particulier les produits d'interaction vocale représentés par des haut-parleurs intelligents ces dernières années. Sa popularité au pays et à l'étranger a grandement stimulé l'application et le développement de la technologie d'interaction vocale.
Des applications ont été mises en œuvre dans de nombreux domaines
Ces derniers temps, le matériel de maison intelligente le plus populaire est sans aucun doute le haut-parleur Xiaomi AI. Une fois ce produit lancé, il a eu de grandes répercussions sur le marché. Il a été qualifié par beaucoup de « l'enceinte avec la meilleure expérience interactive », de « la personne responsable dans l'industrie des enceintes intelligentes », « actuellement du matériel intelligent le plus populaire ». médias... De l'avis de l'éditeur, les haut-parleurs Xiaomi AI sont excellents, oui, mais pas au point de se vanter. À en juger par l'expérience d'utilisation spécifique des personnes autour de moi, ses capacités de reconnaissance vocale ne sont pas particulièrement remarquables et ne sont pas très différentes des produits similaires grand public actuellement sur le marché. Son plus grand avantage réside dans la chaîne écologique. Grâce aux haut-parleurs Xiaomi AI, il peut contrôler les lampes de bureau Xiaomi, les robots de balayage Xiaomi, les ventilateurs de sol Xiaomi et d'autres équipements de mobilier de soutien. Il ne fait aucun doute que cela rapprochera les gens d’une vie intelligente.
Dans le domaine de l'automobile et des appareils mobiles intelligents, les fonctions d'interaction vocale sont devenues très populaires. Lorsqu'ils conduisent, les gens n'ont souvent pas de temps à perdre et ne devraient pas utiliser leurs mains pour faire fonctionner leur téléphone portable. À l'heure actuelle, la voix dans la voiture est devenue une nécessité et une fonctionnalité standard de l'Internet des véhicules. À l’ère du battage médiatique intense autour de l’interconnexion intelligente et de la conduite sans conducteur, les nouvelles voitures qui ne disposent pas de technologies noires comme la reconnaissance vocale semblent trop gênées pour les utiliser. Le système SYNC de Ford, un système de communication et de divertissement multimédia embarqué spécialement équipé pour les téléphones mobiles et les lecteurs multimédias numériques, est actuellement un exemple réussi d'utilisation de la technologie d'interaction vocale dans les systèmes embarqués et a été largement utilisé dans plusieurs séries de véhicules Ford. . Après que le géant de l'Internet Apple a lancé l'application d'assistant vocal intelligent Siri sur son iPhone 4S, Google a également lancé le service de recherche vocale intelligente et de questions et réponses GoogleNow dans son système d'exploitation pour smartphone Android. Microsoft a également appliqué la technologie vocale à Windows Phone, et Samsung a également lancé. Bixby en temps voulu.
Dans le domaine financier. La technologie de reconnaissance vocale a également sa place. Récemment, la China Construction Bank a ouvert une succursale de services automatisés dans le district de Huangpu, à Shanghai, où des robots servent les clients. Le robot est équipé d'un logiciel de reconnaissance faciale, qui peut répondre à la plupart des questions des clients et résoudre la plupart des besoins commerciaux des banques ordinaires. Il est également équipé de services d'assistance manuelle et d'autres services professionnels pour répondre aux besoins personnalisés. Les clients sont reçus par des robots qui utilisent des fonctions de reconnaissance vocale pour communiquer avec les gens et répondre aux questions des clients. Ils peuvent également effectuer la plupart des tâches que les services sociaux peuvent effectuer, notamment ouvrir des comptes, transférer de l’argent et investir.
De plus, dans le nouveau domaine de la vente au détail, l'application de la technologie vocale intelligente est également en constante expansion. Par exemple, le 18 décembre 2017, iFlytek et Red Star Macalline ont annoncé un plan de coopération stratégique. À l'avenir, le robot de guide d'achat intelligent « Meimei » développé par iFlytek sera lancé dans les magasins Red Star Macalline à l'échelle nationale.
En plus de l'interaction vocale, la synthèse vocale est également un sujet brûlant dans la technologie actuelle de reconnaissance vocale. Au début, cette fonction était la préférée des journalistes. L'utilisation de cette fonction pour organiser des manuscrits d'interviews et de discours peut grandement améliorer l'efficacité du travail. De nos jours, cette fonction est acceptée par les gens ordinaires et peut être utilisée par les personnes âgées et les jeunes. souffrant de paresse et de cancer. Cette fonction remplace la frappe.
Aujourd'hui, l'afflux de capitaux, le soutien politique et l'expansion répétée du marché ont rendu la technologie vocale de plus en plus mature, et le marché mondial de la voix a également inauguré une période de développement dorée pour la mise en œuvre d'applications. Selon les statistiques pertinentes, la taille de l'industrie de la voix intelligente en 2016 était proche de la barre des 6 milliards de yuans et dépassera les 10 milliards de yuans en 2017, soit une augmentation d'environ 69 % d'une année sur l'autre.
L'état actuel de la technologie n'est pas satisfaisant
Contrairement à la prolifération de la reconnaissance vocale dans de nombreux domaines, le développement de la technologie de reconnaissance vocale est assez lent. Dans cette situation, la technologie de reconnaissance vocale a rencontré de nombreuses difficultés dans les applications pratiques. des questions ont été soulevées.
De nombreuses entreprises affirment désormais que leur taux de reconnaissance vocale a atteint 97 %, voire 98 %, mais dans les applications réelles, les résultats ne sont pas satisfaisants. Pour donner un exemple plus convaincant, le système chinois de reconnaissance vocale développé par l'IBMT.JWatson Research Institute s'est classé premier dans le concours parrainé par la DARPA aux États-Unis pendant trois années consécutives. Lorsque le système a reconnu le programme « News Network » de CCTV. le taux d'erreur était inférieur à 5 %, mais lors de l'identification d'autres contenus, l'écart est très grand. Dans les applications pratiques, le taux de reconnaissance est principalement affecté par les facteurs suivants :
Pour la reconnaissance vocale chinoise, le dialecte ou l'accent réduira le taux de reconnaissance.
Un bruit fort dans les lieux publics a un grand impact sur l'effet de reconnaissance. Même dans un environnement de laboratoire, taper sur le clavier et déplacer le microphone deviendra un bruit de fond.
En interrompant les questions, si les gens font une pause en parlant, la machine ne pourra pas bien se connecter au contexte pour rendre le sens fluide.
Ici, il y a aussi la question du « langage oral ». Cela implique à la fois la compréhension du langage naturel et l’acoustique. L'objectif ultime de la technologie de reconnaissance vocale est de permettre aux utilisateurs d'avoir une « conversation homme-machine » aussi naturelle qu'une « conversation interhumaine ». Cependant, une fois que l'utilisateur effectue une saisie vocale en parlant à un humain, la grammaire de la langue parlée n'est pas standardisée et l'ordre anormal des mots entraînera des difficultés d'analyse et de compréhension sémantiques.
Itération technique de la reconnaissance vocale
Auparavant, certaines personnes ont souligné que des problèmes tels que l'accent et le nouveau vocabulaire peuvent être résolus grâce à la collecte de données dans des applications pratiques de la technologie de reconnaissance vocale. À mesure que la quantité de données augmente, ce problème peut être résolu.
D'autres problèmes tels que « l'interruption » nécessitent divers modèles d'apprentissage profond, tels que DNN, CNN, BLSTM (réseau neuronal bidirectionnel à mémoire à long et à court terme), etc., ainsi que de nouveaux algorithmes pour les résoudre progressivement.
L'utilisation de la technologie nécessite souvent un processus itératif. Elle doit d'abord être en ligne, puis collecter des données sur la scène pour évaluer, optimiser le modèle et améliorer l'expérience utilisateur. Il faut plusieurs itérations pour obtenir les meilleurs résultats. D'autres technologies d'IA sont similaires. Aujourd’hui, de nombreux utilisateurs de la technologie de l’IA idéalisent facilement les capacités de la technologie et estiment qu’ils devraient voir des résultats immédiats dès leur introduction. Lorsque vous voyez que les résultats réels ne sont pas satisfaisants, vous ressentirez un grand écart, une déception et vous abandonnerez. Il est vrai que la technologie vocale intelligente a atteint le niveau d'application GF, mais lorsqu'elle sera réellement mise en œuvre, nous devons pleinement comprendre les difficultés qui peuvent être rencontrées et être mentalement préparés à une bataille prolongée.
Résumé
On peut prédire qu'au cours des cinq à dix dernières années, l'application des systèmes de reconnaissance vocale sera plus répandue. Une variété de produits de systèmes de reconnaissance vocale apparaîtront sur le marché. Les gens adapteront également leurs modèles de parole pour s’adapter à une variété de systèmes de reconnaissance. Il n'est pas possible de construire un système de reconnaissance vocale comparable à celui des humains à court terme. La construction d'un tel système reste un grand défi pour l'humanité. Nous ne pouvons qu'avancer étape par étape vers l'amélioration des systèmes de reconnaissance vocale. Il est difficile de prédire quand un système de reconnaissance vocale aussi complet que celui d’un humain pourra être construit. Tout comme dans les années 1960, qui aurait pu prédire que la technologie VLSI actuelle aurait un tel impact sur notre société ?
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

<p>Le dernier système d'exploitation de Microsoft, Windows 11, offre également des options de reconnaissance vocale similaires à celles de Windows 10. </p><p>Il convient de noter que vous pouvez utiliser la reconnaissance vocale hors ligne ou via une connexion Internet. La reconnaissance vocale vous permet d'utiliser votre voix pour contrôler certaines applications et également de dicter du texte dans des documents Word. </p><p>Le service de reconnaissance vocale de Microsoft ne vous offre pas un ensemble complet de fonctionnalités. Les utilisateurs intéressés peuvent consulter certaines de nos meilleures applications de reconnaissance vocale

Comment implémentons-nous certaines fonctions de sous-titres générés par la voix sur cette plateforme ? Lorsque nous réalisons des vidéos, afin d'avoir plus de qualité, ou lors de la narration de certaines histoires, nous devons ajouter nos sous-titres, afin que chacun puisse mieux comprendre les informations de certaines. des vidéos ci-dessus. Cela joue également un rôle dans l'expression, mais de nombreux utilisateurs ne sont pas très familiers avec la reconnaissance vocale automatique et la génération de sous-titres. Peu importe où ils se trouvent, nous pouvons facilement vous permettre de faire de meilleurs choix dans divers aspects, si vous l'aimez aussi, vous devez le faire. ne le manquez pas. Nous devons lentement comprendre certaines compétences fonctionnelles, etc., alors dépêchez-vous et jetez un œil avec l'éditeur, ne le manquez pas.

Comme Windows 10, les ordinateurs Windows 11 disposent d'une fonctionnalité de synthèse vocale. Également connue sous le nom de TTS, la synthèse vocale vous permet d'écrire avec votre propre voix. Lorsque vous parlez dans le microphone, l'ordinateur utilise une combinaison de reconnaissance de texte et de synthèse vocale pour écrire du texte à l'écran. C'est un excellent outil si vous avez des difficultés à lire ou à écrire, car vous pouvez effectuer un flux de conscience tout en parlant. Vous pouvez surmonter le blocage de l'écrivain avec cet outil pratique. TTS peut également vous aider si vous souhaitez générer un script de voix off pour une vidéo, vérifier la prononciation de certains mots ou entendre du texte à haute voix via Microsoft Narrator. De plus, le logiciel est efficace pour ajouter une ponctuation appropriée, vous pouvez donc également apprendre une bonne grammaire. voix

Comment utiliser WebSocket et JavaScript pour mettre en œuvre un système de reconnaissance vocale en ligne Introduction : Avec le développement continu de la technologie, la technologie de reconnaissance vocale est devenue une partie importante du domaine de l'intelligence artificielle. Le système de reconnaissance vocale en ligne basé sur WebSocket et JavaScript présente les caractéristiques d'une faible latence, d'un temps réel et d'une multiplateforme, et est devenu une solution largement utilisée. Cet article explique comment utiliser WebSocket et JavaScript pour implémenter un système de reconnaissance vocale en ligne.

1. Entrez dans le panneau de configuration, recherchez l'option [Reconnaissance vocale] et activez-la. 2. Lorsque la page de reconnaissance vocale apparaît, sélectionnez [Options vocales avancées]. 3. Enfin, décochez [Exécuter la reconnaissance vocale au démarrage] dans la colonne Paramètres utilisateur de la fenêtre Propriétés vocales.

Les problèmes de qualité audio dans la reconnaissance vocale nécessitent des exemples de codes spécifiques. Ces dernières années, avec le développement rapide de la technologie de l'intelligence artificielle, la reconnaissance vocale (Automatic Speech Recognition, appelée ASR) a été largement utilisée et étudiée. Cependant, dans les applications pratiques, nous sommes souvent confrontés à des problèmes de qualité audio, qui affectent directement la précision et les performances de l'algorithme ASR. Cet article se concentrera sur les problèmes de qualité audio dans la reconnaissance vocale et donnera des exemples de code spécifiques. qualité audio pour la parole vocale

Bonjour à tous, je m'appelle Kite. Il y a deux ans, le besoin de convertir des fichiers audio et vidéo en contenu texte était difficile à réaliser, mais il peut désormais être facilement résolu en quelques minutes seulement. On dit que pour obtenir des données de formation, certaines entreprises ont entièrement exploré des vidéos sur des plateformes vidéo courtes telles que Douyin et Kuaishou, puis ont extrait l'audio des vidéos et les ont converties sous forme de texte pour les utiliser comme corpus de formation pour les modèles Big Data. . Si vous devez convertir un fichier vidéo ou audio en texte, vous pouvez essayer cette solution open source disponible aujourd'hui. Par exemple, vous pouvez rechercher des moments précis où apparaissent des dialogues dans des programmes de cinéma et de télévision. Sans plus attendre, entrons dans le vif du sujet. Whisper est le Whisper open source d'OpenAI. Bien sûr, il est écrit en Python et ne nécessite que quelques packages d'installation simples.

La reconnaissance vocale est un domaine de l'intelligence artificielle qui permet aux ordinateurs de comprendre la parole humaine et de la convertir en texte. La technologie est utilisée dans des appareils comme Alexa et diverses applications de chatbot. La chose la plus courante que nous faisons est la transcription vocale, qui peut être convertie en transcriptions ou sous-titres. Les développements récents de modèles de pointe tels que wav2vec2, Conformer et Hubert ont considérablement fait progresser le domaine de la reconnaissance vocale. Ces modèles utilisent des techniques qui apprennent à partir de l’audio brut sans avoir besoin de données étiquetées par l’homme, ce qui leur permet d’utiliser efficacement de grands ensembles de données de parole non étiquetée. Ils ont également été étendus pour utiliser jusqu'à 1 000 000 d'heures de données de formation, bien plus que celles utilisées dans les ensembles de données de supervision académique.
