Guide du développeur de l'API Web Speech : qu'est-ce que c'est et comment ça marche-IA-php.cn

Web Speech API est une technologie Web qui permet aux utilisateurs d'incorporer des données vocales dans des applications. Il peut convertir la parole en texte et vice versa via le navigateur.

L'API Web Speech a été introduite par la communauté W3C en 2012. Dix ans plus tard, cette API est toujours en développement en raison d'une compatibilité limitée avec les navigateurs.

L'API prend en charge à la fois les fragments d'entrée à court terme, tels qu'une commande verbale, et les entrées continues à long terme. Ses capacités de dictée étendues le rendent idéal pour l'intégration avec les applications Applause, tandis que la saisie courte est idéale pour la traduction.

La reconnaissance vocale a eu un impact énorme sur l'accessibilité. Les utilisateurs handicapés peuvent utiliser la voix pour naviguer plus facilement sur le Web. Par conséquent, cette API pourrait être la clé pour rendre le Web plus convivial et plus efficace.

Les fonctionnalités de synthèse vocale et de parole-texte sont gérées par deux interfaces : la synthèse vocale et la reconnaissance vocale.

1. Reconnaissance vocale

Dans l'interface de reconnaissance vocale, l'utilisateur parle dans le microphone, puis le service de reconnaissance vocale vérifie ce qu'il dit en fonction de sa propre grammaire.

API protège la vie privée de l'utilisateur en demandant d'abord l'autorisation d'accéder à la voix de l'utilisateur via le microphone. Si la page utilisant l'API utilise le protocole HTTPS, l'autorisation n'est demandée qu'une seule fois. Sinon, l'API le demandera dans chaque cas.

L'appareil de l'utilisateur peut déjà inclure un système de reconnaissance vocale, tel que Siri pour les voix iOS ou Android. Lors de l'utilisation de l'interface de reconnaissance vocale, le système par défaut sera utilisé. Une fois la parole reconnue, elle est convertie et renvoyée sous forme de chaîne de texte.

En reconnaissance vocale "one-shot", la reconnaissance se termine dès que l'utilisateur arrête de parler. Ceci est utile pour les commandes courtes, telles que la recherche sur le Web d'un site Web de test d'applications ou le passage d'un appel téléphonique. En reconnaissance « continue », l'utilisateur doit terminer manuellement la reconnaissance à l'aide du bouton « Stop ».

Actuellement, la reconnaissance vocale de l'API Web Speech n'est officiellement prise en charge que par deux navigateurs : Chrome pour ordinateur de bureau et Android. Chrome doit utiliser l'interface de préfixe.

Cependant, l'API Web Speech est encore au stade expérimental et les spécifications sont susceptibles de changer. Vous pouvez vérifier si le navigateur actuel prend en charge cette API en recherchant l'objet webkitSpeechRecognition.

2. Propriétés de la reconnaissance vocale

Apprenons une nouvelle fonction : la reconnaissance vocale ().

var recognizer = new speechRecognition();

Copier après la connexion

Vérifiez maintenant les rappels pour certains événements :

(1) onStart : onStart est déclenché lorsque le système de reconnaissance vocale commence à écouter et à reconnaître la parole. Un message peut être affiché pour informer l'utilisateur que l'appareil est à l'écoute.

(2) onEnd : onEnd génère un événement qui sera déclenché à chaque fois que l'utilisateur mettra fin à la reconnaissance vocale.

(3) onError : Cet événement est déclenché à l'aide de l'interface SpeechRecognitionError chaque fois qu'une erreur de reconnaissance vocale se produit.

(4) onResult : Cet événement est déclenché lorsque l'objet de reconnaissance vocale obtient le résultat. Il renvoie les résultats intermédiaires et les résultats finaux. onResult doit utiliser l'interface SpeechRecognitionEvent. L'objet

SpeechRecognitionEvent contient les données suivantes :

(1) results[i] : Un tableau d'objets de résultat de reconnaissance vocale, chaque élément représente un mot reconnu.

(2) resultindex : indice de reconnaissance actuel.

(3) résultats[i][j] : Identifiez le j-ème mot alternatif du mot ; le premier mot qui apparaît est le mot le plus probable.

(4) results[i].isFinal : Une valeur booléenne indiquant si le résultat est temporaire ou définitif.

(5) résultats[i][j].transcript : Représentation textuelle du mot.

(6) results[i][j].confidence : La probabilité que le résultat soit correct (la plage de valeurs est de 0 à 1).

Alors, quelles propriétés faut-il configurer sur l'objet de reconnaissance vocale ? Jetez un oeil ci-dessous.

(1) Continu vs One-Shot

L'utilisateur détermine si l'objet de reconnaissance vocale doit l'écouter jusqu'à ce qu'il soit éteint, ou s'il n'en a besoin que pour reconnaître une courte phrase. Son paramètre par défaut est "false".

Supposons que la prise de notes soit effectuée à l'aide de cette technologie pour s'intégrer aux modèles de suivi des stocks. Il faut pouvoir parler pendant de longues périodes avec suffisamment de temps pour faire une pause sans renvoyer l'application en veille. continu peut être défini sur true comme ceci :

speechRecognition.continuous = true;

Copier après la connexion

(2) Langue

Guide du développeur de lAPI Web Speech : quest-ce que cest et comment ça marche

Quelle langue souhaitez-vous que l'objet reconnaisse Si le navigateur est défini sur l'anglais par défaut, il sélectionnera automatiquement l'anglais ? . Cependant, les indicatifs régionaux peuvent également être utilisés.

De plus, l'utilisateur peut être autorisé à sélectionner la langue dans le menu :

speechRecognition.lang = document.querySelector("#select_dialect").value;

Copier après la connexion

(3) Résultats intermédiaires

Les résultats intermédiaires font référence à des résultats qui ne sont pas encore terminés ou définitifs. En définissant cette propriété sur true, vous pouvez faire en sorte que l'objet affiche des résultats temporaires en guise de retour à l'utilisateur :

speechRecognition.interimResults = true；

Copier après la connexion

(4) Démarrer et arrêter

Si vous avez configuré l'objet de reconnaissance vocale sur "continu", vous devez définissez start et l'attribut onClick du bouton d'arrêt comme ceci :

JavaScript

1 document.querySelector("#start").onclick = () => {
2
3 speechRecognition.start();
4
5 };
6
7 document.querySelector("#stop").onclick = () => {
8
9 speechRecognition.stop();
10
11 };

Copier après la connexion

这将允许用户控制使用的浏览器何时开始“监听”，何时停止。

因此，在深入了解了语音识别界面、方法和属性之后。现在探索Web Speech API的另一面。

三、语音合成

语音合成也被称为文本到语音(TTS)。语音合成是指从应用程序中获取文本，将其转换成语音，然后从设备的扬声器中播放。

可以使用语音合成做任何事情，从驾驶指南到为在线课程朗读课堂笔记，再到视觉障碍用户的屏幕阅读。

在浏览器支持方面，从Gecko42+版本开始，Web Speech API的语音合成可以在Firefox桌面和移动端使用。但是，必须首先启用权限。Firefox OS2.5+默认支持语音合成；不需要权限。Chrome和Android 33+也支持语音合成。

那么，如何让浏览器说话呢?语音合成的主要控制器界面是SpeechSynthesis，但需要一些相关的界面，例如用于输出的声音。大多数操作系统都有默认的语音合成系统。

简单地说，用户需要首先创建一个SpeechSynthesisUtterance界面的实例。其界面包含服务将读取的文本，以及语言、音量、音高和速率等信息。指定这些之后，将实例放入一个队列中，该队列告诉浏览器应该说什么以及什么时候说。

将需要说话的文本指定给其“文本”属性，如下所示：

newUtterance.text =

Copier après la connexion

除非使用.lang属性另有指定，否则语言将默认为应用程序或浏览器的语言。

在网站加载后，语音更改事件可以被触发。要改变浏览器的默认语音，可以使用语音合成中的getvoices()方法。这将显示所有可用的语音。

声音的种类取决于操作系统。谷歌和MacOSx一样有自己的默认声音集。最后，用户使用Array.find()方法选择喜欢的声音。

根据需要定制SpeechSynthesisUtterance。可以启动、停止和暂停队列，或更改通话速度（“速率”）。

四、Web Speech API的优点和缺点

什么时候应该使用Web Speech API？这种技术使用起来很有趣，但仍在发展中。尽管如此，还是有很多潜在的用例。集成API可以帮助实现IT基础设施的现代化，而用户可以了解Web Speech API哪些方面已经成熟可以改进。

1.提高生产力

对着麦克风说话比打字更快捷、更有效。在当今快节奏的工作生活中，人们可能需要能够在旅途中访问网页。

它还可以很好地减少管理工作量。语音到文本技术的改进有可能显著减少数据输入任务的时间。语音到文本技术可以集成到音频视频会议中，以加快会议的记录速度。

2.可访问性

如上所述，语音到文本（STT）和文本语音（TTS）对于有残疾或支持需求的用户来说都是很好的工具。此外，由于任何原因而在写作或拼写方面有困难的用户可以通过语音识别更好地表达自己。

这样，语音识别技术就可以成为互联网上一个很好的均衡器。鼓励在办公室使用这些工具也能促进工作场所的可访问性。

3.翻译

Web Speech API可以成为一种强大的语言翻译工具，因为它同时支持语音到文本（STT）和文本语音（TTS）。目前，并不是每一种语言都可用。这是Web Speech API尚未充分发挥其潜力的一个领域。

4.离线功能

一个缺点是API必须要有互联网连接才能正常工作。此时，浏览器将输入发送到它的服务器，然后服务器返回结果。这限制了Web Speech API可以使用的环境。

5.精确度

在提高语音识别器的准确性方面已经取得了令人难以置信的进展。用户可能偶尔还会遇到一些困难，例如技术术语和其他专业词汇或者方言。然而，到2022年，语音识别软件的精确度已经达到了人类的水平。

五、结语

虽然Web Speech API还处于实验阶段，但它可以成为网站或应用程序的一个惊人的补充。从科技公司到市场营销商，所有的工作场所都可以使用这个API来提高效率。只需几行简单的JavaScript代码，就可以打开一个全新的可访问性世界。

语音识别可以使用户更容易更有效地浏览网页，人们期待看到这项技术快速成长和发展!

原文链接：https://dzone.com/articles/the-developers-guide-to-web-speech-api-what-is-it

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7489

Tutoriel CakePHP

1377

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Comment reconnaître automatiquement la parole et générer des sous-titres dans un extrait de film Introduction à la méthode de génération automatique de sous-titres. Mar 14, 2024 pm 08:10 PM

Comment implémentons-nous certaines fonctions de sous-titres générés par la voix sur cette plateforme ? Lorsque nous réalisons des vidéos, afin d'avoir plus de qualité, ou lors de la narration de certaines histoires, nous devons ajouter nos sous-titres, afin que chacun puisse mieux comprendre les informations de certaines. des vidéos ci-dessus. Cela joue également un rôle dans l'expression, mais de nombreux utilisateurs ne sont pas très familiers avec la reconnaissance vocale automatique et la génération de sous-titres. Peu importe où ils se trouvent, nous pouvons facilement vous permettre de faire de meilleurs choix dans divers aspects, si vous l'aimez aussi, vous devez le faire. ne le manquez pas. Nous devons lentement comprendre certaines compétences fonctionnelles, etc., alors dépêchez-vous et jetez un œil avec l'éditeur, ne le manquez pas.

Comment mettre en œuvre un système de reconnaissance vocale en ligne à l'aide de WebSocket et JavaScript Dec 17, 2023 pm 02:54 PM

Comment utiliser WebSocket et JavaScript pour mettre en œuvre un système de reconnaissance vocale en ligne Introduction : Avec le développement continu de la technologie, la technologie de reconnaissance vocale est devenue une partie importante du domaine de l'intelligence artificielle. Le système de reconnaissance vocale en ligne basé sur WebSocket et JavaScript présente les caractéristiques d'une faible latence, d'un temps réel et d'une multiplateforme, et est devenu une solution largement utilisée. Cet article explique comment utiliser WebSocket et JavaScript pour implémenter un système de reconnaissance vocale en ligne.

Méthode détaillée pour désactiver la reconnaissance vocale dans le système WIN10 Mar 27, 2024 pm 02:36 PM

1. Entrez dans le panneau de configuration, recherchez l'option [Reconnaissance vocale] et activez-la. 2. Lorsque la page de reconnaissance vocale apparaît, sélectionnez [Options vocales avancées]. 3. Enfin, décochez [Exécuter la reconnaissance vocale au démarrage] dans la colonne Paramètres utilisateur de la fenêtre Propriétés vocales.

Problèmes de qualité audio dans la reconnaissance vocale vocale Oct 08, 2023 am 08:28 AM

Les problèmes de qualité audio dans la reconnaissance vocale nécessitent des exemples de codes spécifiques. Ces dernières années, avec le développement rapide de la technologie de l'intelligence artificielle, la reconnaissance vocale (Automatic Speech Recognition, appelée ASR) a été largement utilisée et étudiée. Cependant, dans les applications pratiques, nous sommes souvent confrontés à des problèmes de qualité audio, qui affectent directement la précision et les performances de l'algorithme ASR. Cet article se concentrera sur les problèmes de qualité audio dans la reconnaissance vocale et donnera des exemples de code spécifiques. qualité audio pour la parole vocale

Problème de variation du locuteur dans la reconnaissance vocale du genre Oct 08, 2023 pm 02:22 PM

Le problème de variation du locuteur dans la reconnaissance vocale du genre nécessite des exemples de codes spécifiques. Avec le développement rapide de la technologie vocale, la reconnaissance vocale du genre est devenue un domaine de plus en plus important. Il est largement utilisé dans de nombreux scénarios d’application, tels que le service client téléphonique, les assistants vocaux, etc. Cependant, dans la reconnaissance vocale du genre, nous sommes souvent confrontés à un défi, à savoir la variabilité du locuteur. La variation du locuteur fait référence aux différences dans les caractéristiques phonétiques des voix de différents individus. Parce que les caractéristiques vocales individuelles sont affectées par de nombreux facteurs, tels que le sexe, l'âge, la voix, etc.

si rapide! Reconnaissez la parole vidéo en texte en quelques minutes seulement avec moins de 10 lignes de code Feb 27, 2024 pm 01:55 PM

Bonjour à tous, je m'appelle Kite. Il y a deux ans, le besoin de convertir des fichiers audio et vidéo en contenu texte était difficile à réaliser, mais il peut désormais être facilement résolu en quelques minutes seulement. On dit que pour obtenir des données de formation, certaines entreprises ont entièrement exploré des vidéos sur des plateformes vidéo courtes telles que Douyin et Kuaishou, puis ont extrait l'audio des vidéos et les ont converties sous forme de texte pour les utiliser comme corpus de formation pour les modèles Big Data. . Si vous devez convertir un fichier vidéo ou audio en texte, vous pouvez essayer cette solution open source disponible aujourd'hui. Par exemple, vous pouvez rechercher des moments précis où apparaissent des dialogues dans des programmes de cinéma et de télévision. Sans plus attendre, entrons dans le vif du sujet. Whisper est le Whisper open source d'OpenAI. Bien sûr, il est écrit en Python et ne nécessite que quelques packages d'installation simples.

Utiliser le langage Go pour développer et mettre en œuvre des applications de reconnaissance vocale hautes performances Nov 20, 2023 am 08:11 AM

Avec le développement continu de la science et de la technologie, la technologie de reconnaissance vocale a également fait de grands progrès et applications. Les applications de reconnaissance vocale sont largement utilisées dans les assistants vocaux, les haut-parleurs intelligents, la réalité virtuelle et d'autres domaines, offrant aux utilisateurs un moyen d'interaction plus pratique et plus intelligent. Comment mettre en œuvre des applications de reconnaissance vocale hautes performances est devenu une question qui mérite d'être explorée. Ces dernières années, le langage Go, en tant que langage de programmation hautes performances, a attiré beaucoup d'attention dans le développement d'applications de reconnaissance vocale. Le langage Go présente les caractéristiques d'une concurrence élevée, d'une écriture concise et d'une vitesse d'exécution rapide. Il est très approprié pour créer des performances élevées.

Comment activer l'accès administratif à partir de l'interface utilisateur Web du cockpit Mar 20, 2024 pm 06:56 PM

Cockpit est une interface graphique Web pour les serveurs Linux. Il est principalement destiné à faciliter la gestion des serveurs Linux pour les utilisateurs nouveaux/experts. Dans cet article, nous aborderons les modes d'accès à Cockpit et comment basculer l'accès administratif à Cockpit depuis CockpitWebUI. Sujets de contenu : Modes d'entrée du cockpit Trouver le mode d'accès actuel au cockpit Activer l'accès administratif au cockpit à partir de CockpitWebUI Désactiver l'accès administratif au cockpit à partir de CockpitWebUI Conclusion Modes d'entrée au cockpit Le cockpit dispose de deux modes d'accès : Accès restreint : il s'agit de la valeur par défaut pour le mode d'accès au cockpit. Dans ce mode d'accès vous ne pouvez pas accéder à l'internaute depuis le cockpit

See all articles