目次
1. 音声認識
2. 音声認識属性
三、语音合成
四、Web Speech API的优点和缺点  
1.提高生产力
2.可访问性
3.翻译
4.离线功能
5.精确度
五、结语
ホームページ テクノロジー周辺機器 AI Web Speech API 開発者ガイド: Web Speech API とは何か、どのように機能するか

Web Speech API 開発者ガイド: Web Speech API とは何か、どのように機能するか

Apr 11, 2023 pm 07:22 PM
web 音声認識 音声合成

翻訳者|Li Rui

レビュアー|Sun Shujuan

Web Speech API は、ユーザーが音声データをアプリケーション中間に組み込むことができる Web テクノロジーです。ブラウザを通じて音声をテキストに、またはその逆に変換できます。

Web Speech API は、2012 年に W3C コミュニティによって導入されました。 10 年後、ブラウザの互換性が限られているため、この API はまだ開発中です。

API は、口頭コマンドなどの短期入力フラグメントと長期連続入力の両方をサポートします。広範なディクテーション機能により、Applause アプリとの統合に最適であり、短い入力は言語翻訳に最適です。

音声認識はアクセシビリティに大きな影響を与えています。障害を持つユーザーは、音声を使用してより簡単に Web を閲覧できます。したがって、この API は Web をより使いやすく効率的にするための鍵となる可能性があります。

テキスト読み上げ機能と音声テキスト変換機能は、音声合成と音声認識という 2 つのインターフェイスによって処理されます。

1. 音声認識

音声認識インターフェイスでは、ユーザーがマイクに向かって話すと、音声認識サービスが独自のルールに従ってユーザーの発言をチェックします。文法。 。

API は、最初にマイクを介してユーザーの音声にアクセスする許可を要求することで、ユーザーのプライバシーを保護します。 API を使用するページが HTTPS プロトコルを使用する場合、許可は 1 回だけ要求されます。それ以外の場合、API はインスタンスごとに質問します。

ユーザーのデバイスには、iOS または Android 音声用の Siri などの音声認識システムがすでに組み込まれている場合があります。音声認識インターフェイスを使用する場合は、デフォルトのシステムが使用されます。音声が認識されると、変換されてテキスト文字列として返されます。

「ワンショット」音声認識では、ユーザーが話すのをやめるとすぐに認識が終了します。これは、Web でアプリケーション テスト サイトを検索したり、電話をかけたりするなどの短いコマンドに役立ちます。 「継続」認識では、ユーザーは「停止」ボタンを使用して手動で認識を終了する必要があります。

現在、Web Speech API の音声認識は、Chrome for Desktop と Android の 2 つのブラウザでのみ正式にサポートされています。 Chrome はプレフィックス インターフェイスを使用する必要があります。

ただし、Web Speech API はまだ実験段階にあり、仕様は変更される可能性があります。現在のブラウザがこの API をサポートしているかどうかを確認するには、webkitSpeechRecognition オブジェクトを検索します。

2. 音声認識属性

新しい関数、音声認識 () を学習しましょう。

var recognizer = new speechRecognition();
ログイン後にコピー

次に、特定のイベントのコールバックを確認します。

(1) onStart: onStart は、音声認識エンジンが音声の聞き取りと認識を開始するとトリガーされます。デバイスがリッスンしていることをユーザーに通知するメッセージを表示できます。

(2) onEnd: onEnd はイベントを生成します。このイベントは、ユーザーが音声認識を終了するたびにトリガーされます。

(3)onError: 音声認識エラーが発生するたびに、このイベントは SpeechRecognitionError インターフェイスを使用してトリガーされます。

(4) onResult: このイベントは、音声認識オブジェクトが結果を取得したときにトリガーされます。中間結果と最終結果を返します。 onResult は SpeechRecognitionEvent インターフェイスを使用する必要があります。

SpeechRecognitionEvent オブジェクトには次のデータが含まれます:

(1) results[i]: 音声認識結果オブジェクトの配列、各要素認識された単語を表します。

(2) resultindex: 現在の認識インデックス。

(3) 結果[i][j]: 単語の j 番目の代替単語を特定します。最初に出現する単語が、出現する可能性が最も高い単語です。

(4) results[i].isFinal: 結果が一時的なものであるか最終的なものであるかを示すブール値。

(5) results[i][j].transcript: 単語のテキスト表現。

(6) results[i][j].confidence: 結果が正しい確率 (値の範囲は 0 ~ 1)。

それでは、音声認識オブジェクトにはどのようなプロパティを設定する必要があるのでしょうか?以下をご覧ください。

(1) 継続的 vs ワンショット

ユーザーは、音声認識オブジェクトが回転するまで自分の話を聞く必要があるかどうかを決定します。短いフレーズを認識するために必要です。デフォルト設定は「false」です。

このテクノロジーは、在庫追跡テンプレートと統合するためにメモをとるために使用されていると仮定します。アプリをスリープに戻さずに一時停止するのに十分な時間を確保しながら、長時間通話できる必要があります。 Continuous は次のように true に設定できます:

speechRecognition.continuous = true;
ログイン後にコピー

(2) 言語

Web Speech API 開発者ガイド: Web Speech API とは何か、どのように機能するか

Hope どの言語ですかオブジェクトは認識しますか? ブラウザがデフォルトで英語に設定されている場合は、自動的に英語が選択されます。ただし、市外局番も使用できます。

# さらに、ユーザーはメニューから言語を選択できるようにすることもできます。

speechRecognition.lang = document.querySelector("#select_dialect").value;
ログイン後にコピー

(3) 中間結果

中間結果とは、まだ完全または最終ではない結果を指します。このプロパティを true に設定すると、オブジェクトに一時的な結果をユーザーへのフィードバックとして表示させることができます。

speechRecognition.interimResults = true;
ログイン後にコピー

(4) 開始と停止

If 音声認識オブジェクトが「連続」として設定されている場合は、開始ボタンと停止ボタンの onClick プロパティを次のように設定する必要があります:

JavaScript

1 document.querySelector("#start").onclick = () => {
2
3 speechRecognition.start();
4
5 };
6
7 document.querySelector("#stop").onclick = () => {
8
9 speechRecognition.stop();
10
11 };
ログイン後にコピー

这将允许用户控制使用的浏览器何时开始“监听”,何时停止。

因此,在深入了解了语音识别界面、方法和属性之后。现在探索Web Speech API的另一面。

三、语音合成

语音合成也被称为文本到语音(TTS)。语音合成是指从应用程序中获取文本,将其转换成语音,然后从设备的扬声器中播放。

可以使用语音合成做任何事情,从驾驶指南到为在线课程朗读课堂笔记,再到视觉障碍用户的屏幕阅读。

在浏览器支持方面,从Gecko42+版本开始,Web Speech API的语音合成可以在Firefox桌面和移动端使用。但是,必须首先启用权限。Firefox OS2.5+默认支持语音合成;不需要权限。Chrome和Android 33+也支持语音合成。

那么,如何让浏览器说话呢?语音合成的主要控制器界面是SpeechSynthesis,但需要一些相关的界面,例如用于输出的声音。大多数操作系统都有默认的语音合成系统。

简单地说,用户需要首先创建一个SpeechSynthesisUtterance界面的实例。其界面包含服务将读取的文本,以及语言、音量、音高和速率等信息。指定这些之后,将实例放入一个队列中,该队列告诉浏览器应该说什么以及什么时候说。

将需要说话的文本指定给其“文本”属性,如下所示:

newUtterance.text =
ログイン後にコピー

除非使用.lang属性另有指定,否则语言将默认为应用程序或浏览器的语言。

在网站加载后,语音更改事件可以被触发。要改变浏览器的默认语音,可以使用语音合成中的getvoices()方法。这将显示所有可用的语音。

声音的种类取决于操作系统。谷歌和MacOSx一样有自己的默认声音集。最后,用户使用Array.find()方法选择喜欢的声音。

根据需要定制SpeechSynthesisUtterance。可以启动、停止和暂停队列,或更改通话速度(“速率”)。

四、Web Speech API的优点和缺点  

什么时候应该使用Web Speech API?这种技术使用起来很有趣,但仍在发展中。尽管如此,还是有很多潜在的用例。集成API可以帮助实现IT基础设施的现代化,而用户可以了解Web Speech API哪些方面已经成熟可以改进。

1.提高生产力

对着麦克风说话比打字更快捷、更有效。在当今快节奏的工作生活中,人们可能需要能够在旅途中访问网页。

它还可以很好地减少管理工作量。语音到文本技术的改进有可能显著减少数据输入任务的时间。语音到文本技术可以集成到音频视频会议中,以加快会议的记录速度。

2.可访问性

如上所述,语音到文本(STT)和文本语音(TTS)对于有残疾或支持需求的用户来说都是很好的工具。此外,由于任何原因而在写作或拼写方面有困难的用户可以通过语音识别更好地表达自己。

这样,语音识别技术就可以成为互联网上一个很好的均衡器。鼓励在办公室使用这些工具也能促进工作场所的可访问性。

3.翻译

Web Speech API可以成为一种强大的语言翻译工具,因为它同时支持语音到文本(STT)和文本语音(TTS)。目前,并不是每一种语言都可用。这是Web Speech API尚未充分发挥其潜力的一个领域。

4.离线功能

一个缺点是API必须要有互联网连接才能正常工作。此时,浏览器将输入发送到它的服务器,然后服务器返回结果。这限制了Web Speech API可以使用的环境。

5.精确度

在提高语音识别器的准确性方面已经取得了令人难以置信的进展。用户可能偶尔还会遇到一些困难,例如技术术语和其他专业词汇或者方言。然而,到2022年,语音识别软件的精确度已经达到了人类的水平。

五、结语

虽然Web Speech API还处于实验阶段,但它可以成为网站或应用程序的一个惊人的补充。从科技公司到市场营销商,所有的工作场所都可以使用这个API来提高效率。只需几行简单的JavaScript代码,就可以打开一个全新的可访问性世界。

语音识别可以使用户更容易更有效地浏览网页,人们期待看到这项技术快速成长和发展!

原文链接:https://dzone.com/articles/the-developers-guide-to-web-speech-api-what-is-it

以上がWeb Speech API 開発者ガイド: Web Speech API とは何か、どのように機能するかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

動画切り出しで音声を自動認識して字幕を生成する方法 字幕を自動生成する方法の紹介 動画切り出しで音声を自動認識して字幕を生成する方法 字幕を自動生成する方法の紹介 Mar 14, 2024 pm 08:10 PM

このプラットフォームに音声字幕を生成する機能を実装するにはどうすればよいですか? ビデオを作成するとき、質感を高めるため、またはストーリーをナレーションするときに、誰もが情報をよりよく理解できるように字幕を追加する必要があります。上のビデオの一部。表現にも役割を果たしますが、多くのユーザーは自動音声認識と字幕生成にあまり慣れていません。どこにいても、さまざまな面でより良い選択を簡単に行うことができます。機能的なスキルなどをゆっくり理解する必要があります。急いでエディターで確認してください。お見逃しなく。​

WebSocket と JavaScript を使用してオンライン音声認識システムを実装する方法 WebSocket と JavaScript を使用してオンライン音声認識システムを実装する方法 Dec 17, 2023 pm 02:54 PM

WebSocket と JavaScript を使用してオンライン音声認識システムを実装する方法 はじめに: 技術の継続的な発展により、音声認識技術は人工知能の分野の重要な部分になりました。 WebSocket と JavaScript をベースとしたオンライン音声認識システムは、低遅延、リアルタイム、クロスプラットフォームという特徴があり、広く使用されるソリューションとなっています。この記事では、WebSocket と JavaScript を使用してオンライン音声認識システムを実装する方法を紹介します。

WIN10システムで音声認識をオフにする詳細な方法 WIN10システムで音声認識をオフにする詳細な方法 Mar 27, 2024 pm 02:36 PM

1. コントロール パネルに入り、[音声認識] オプションを見つけてオンにします。 2. 音声認識ページが表示されたら、[音声詳細オプション]を選択します。 3. 最後に、音声のプロパティ画面のユーザー設定欄にある「起動時に音声認識を実行する」のチェックを外します。

音声認識における音声品質の問題 音声認識における音声品質の問題 Oct 08, 2023 am 08:28 AM

音声音声認識における音質の問題には、特定のコード例が必要ですが、近年、人工知能技術の急速な発展に伴い、音声音声認識(Automatic Speech Recognition、ASR)が広く利用され、研究されています。ただし、実際のアプリケーションでは、ASR アルゴリズムの精度とパフォーマンスに直接影響するオーディオ品質の問題に直面することがよくあります。この記事では、音声認識における音質の問題に焦点を当て、具体的なコード例を示します。音声通話のオーディオ品質

音声性別認識における話者変動の問題 音声性別認識における話者変動の問題 Oct 08, 2023 pm 02:22 PM

音声性別認識における話者変動の問題には、特定のコード例が必要です 音声技術の急速な発展に伴い、音声性別認識はますます重要な分野になっています。電話カスタマー サービス、音声アシスタントなど、多くのアプリケーション シナリオで広く使用されています。ただし、音声の性別認識では、話者の多様性という課題に遭遇することがよくあります。話者のバリエーションとは、さまざまな個人の声の音声特性の違いを指します。なぜなら、個人の声の特性は、性別、年齢、声などのさまざまな要因の影響を受けるからです。

非常に高速! 10 行未満のコードを使用して、わずか数分でビデオ音声を認識してテキストに変換します 非常に高速! 10 行未満のコードを使用して、わずか数分でビデオ音声を認識してテキストに変換します Feb 27, 2024 pm 01:55 PM

皆さん、こんにちは。私は Kite です。2 年前には、オーディオ ファイルとビデオ ファイルをテキスト コンテンツに変換する必要性を実現するのは困難でしたが、今ではわずか数分で簡単に解決できるようになりました。一部の企業では、トレーニングデータを取得するために、DouyinやKuaishouなどのショートビデオプラットフォーム上のビデオをフルクロールし、ビデオから音声を抽出してテキスト形式に変換し、ビッグデータのトレーニングコーパスとして使用していると言われていますモデル。ビデオまたはオーディオ ファイルをテキストに変換する必要がある場合は、現在利用可能なこのオープン ソース ソリューションを試すことができます。たとえば、映画やテレビ番組のセリフが登場する特定の時点を検索できます。早速、本題に入りましょう。 Whisper は OpenAI のオープンソース Whisper で、もちろん Python で書かれており、必要なのはいくつかの簡単なインストール パッケージだけです。

Go 言語を使用して高性能音声認識アプリケーションを開発および実装する Go 言語を使用して高性能音声認識アプリケーションを開発および実装する Nov 20, 2023 am 08:11 AM

科学技術の継続的な発展に伴い、音声認識技術も大きく進歩し、応用されています。音声認識アプリケーションは、音声アシスタント、スマート スピーカー、仮想現実などの分野で広く使用されており、より便利でインテリジェントな対話方法を人々に提供しています。高性能音声認識アプリケーションを実装する方法は、検討する価値のある問題となっています。近年、音声認識アプリケーションの開発において、高機能なプログラミング言語としてGo言語が注目を集めています。 Go 言語は、同時実行性が高く、記述が簡潔で、実行速度が速いという特徴があり、高パフォーマンスの言語を構築するのに非常に適しています。

コックピット Web UI から管理アクセスを有効にする方法 コックピット Web UI から管理アクセスを有効にする方法 Mar 20, 2024 pm 06:56 PM

Cockpit は、Linux サーバー用の Web ベースのグラフィカル インターフェイスです。これは主に、初心者/熟練ユーザーにとって Linux サーバーの管理を容易にすることを目的としています。この記事では、Cockpit アクセス モードと、CockpitWebUI から Cockpit への管理アクセスを切り替える方法について説明します。コンテンツ トピック: コックピット エントリ モード 現在のコックピット アクセス モードの確認 CockpitWebUI からコックピットへの管理アクセスを有効にする CockpitWebUI からコックピットへの管理アクセスを無効にする まとめ コックピット エントリ モード コックピットには 2 つのアクセス モードがあります。 制限付きアクセス: これは、コックピット アクセス モードのデフォルトです。このアクセス モードでは、コックピットから Web ユーザーにアクセスできません。

See all articles