目錄
一、語音辨識
二、語音辨識屬性
三、语音合成
四、Web Speech API的优点和缺点  
1.提高生产力
2.可访问性
3.翻译
4.离线功能
5.精确度
五、结语
首頁 科技週邊 人工智慧 Web Speech API開發者指南:它是什麼以及如何運作

Web Speech API開發者指南:它是什麼以及如何運作

Apr 11, 2023 pm 07:22 PM
web 語音辨識 語音合成

譯者| 李睿

審校| 孫淑娟

#Web Speech API是一種Web技術,允許用戶將語音資料合併到應用程式中。它可以透過瀏覽器將語音轉換為文本,反之亦然。

Web Speech API於2012年由W3C社群引進。而在十年之後,這個API仍在開發中,這是因為瀏覽器相容性有限。

此API既支援短時輸入片段,例如一個口頭命令,也支援長時連續的輸入。廣泛的聽寫能力使它非常適合與Applause應用程式集成,而簡短的輸入很適合語言翻譯。

語音辨識對可訪問性產生了巨大的影響。殘疾用戶可以使用語音更輕鬆地瀏覽網路。因此,這個API可能成為讓網路更友善、更有效率的關鍵。

文字轉語音和語音到文字的功能由兩個介面處理:語音合成和語音辨識。

一、語音辨識

在語音辨識介面中,使用者對著麥克風說話,然後語音辨識服務就會根據它自己的語法來檢查他所說的話。

API透過首先請求允許透過麥克風存取使用者的語音來保護他的隱私。如果使用API​​的頁面使用HTTPS協議,則只要求一次權限。否則,API將在每個實例中詢問。

使用者的裝置可能已經包含了語音辨識系統,例如iOS或Android語音的Siri。使用語音辨識介面時,將會使用預設系統。在語音被識別之後,它將被轉換並作為文字字串返回。

在「one-shot」語音辨識中,只要使用者停止說話,辨識就會結束。這對於簡短的命令很有用,例如如在網頁上搜尋應用程式測試網站或打電話。在「continuous」識別中,使用者必須使用「停止」按鈕手動結束識別。

目前,Web Speech API的語音辨識只得到了兩種瀏覽器正式支援:Chrome for Desktop和Android。 Chrome需要使用前綴介面。

然而,Web Speech API仍處於實驗階段,規格可能會改變。可以透過搜尋webkitSpeechRecognition物件來檢查目前瀏覽器是否支援該API。

二、語音辨識屬性

以下學習一個新函數:語音辨識()。

var recognizer = new speechRecognition();
登入後複製

現在檢查一下某些事件的回呼:

(1)onStart:當語音辨識器開始聆聽和辨識語音時,會觸發onStart。可以顯示訊息以通知使用者的裝置正在收聽。

(2)onEnd:onEnd產生一個事件,每次使用者結束語音辨識時都會觸發該事件。

(3)onError:每當發生語音辨識錯誤時,都會使用SpeechRecognitionError介面觸發此事件。

(4)onResult:當語音辨識物件獲得結果時,觸發此事件。它會傳回臨時結果和最終結果。 onResult必須使用SpeechRecognitionEvent介面。

SpeechRecognitionEvent物件包含以下資料:

(1)results[i]:語音辨識結果物件的數組,每個元素代表一個已識別的單字。

(2)resultindex:目前識別索引。

(3)results[i][j]:辨識單字的第j個替代詞;第一個出現的單字是最可能出現的單字。

(4)results[i].isFinal:一個布林值,顯示結果是暫時的還是最終的。

(5)results[i][j].transcript:單字的文字表示。

(6)results[i][j].confidence:結果正確的機率(取值範圍從0到1) 。

那麼,應該在語音辨識物件上配置什麼屬性?以下來看看。

(1)Continuous vs One-Shot

#用戶確定是否需要語音辨識物件在關閉之前一直聽他說話,或者只需要它來識別一個簡短的短語。其預設為“false”。

假設正在使用該技術做筆記,以便與庫存追蹤範本整合。需要能夠長時間說話,並有足夠的時間暫停,而不需要將應用程式送回睡眠狀態。可以將continuous設為true,如下所示:

speechRecognition.continuous = true;
登入後複製

(2)語言

Web Speech API開發者指南:它是什麼以及如何運作

希望物件識別什麼語言?如果瀏覽器預設為英文,它將自動選擇英文。但是,也可以使用地區代碼。

此外,可以允許使用者從選單中選擇語言:

speechRecognition.lang = document.querySelector("#select_dialect").value;
登入後複製

(3)中期結果

中期結果是指尚未完成或最終的結果。透過將此屬性設為true,可以使物件將臨時結果顯示為對使用者的回饋:

speechRecognition.interimResults = true;
登入後複製

(4)啟動和停止

如果已經將語音識別物件配置為“continuous”,則需要設定開始和停止按鈕的onClick屬性,如下所示:

JavaScript

1 document.querySelector("#start").onclick = () => {
2
3 speechRecognition.start();
4
5 };
6
7 document.querySelector("#stop").onclick = () => {
8
9 speechRecognition.stop();
10
11 };
登入後複製

这将允许用户控制使用的浏览器何时开始“监听”,何时停止。

因此,在深入了解了语音识别界面、方法和属性之后。现在探索Web Speech API的另一面。

三、语音合成

语音合成也被称为文本到语音(TTS)。语音合成是指从应用程序中获取文本,将其转换成语音,然后从设备的扬声器中播放。

可以使用语音合成做任何事情,从驾驶指南到为在线课程朗读课堂笔记,再到视觉障碍用户的屏幕阅读。

在浏览器支持方面,从Gecko42+版本开始,Web Speech API的语音合成可以在Firefox桌面和移动端使用。但是,必须首先启用权限。Firefox OS2.5+默认支持语音合成;不需要权限。Chrome和Android 33+也支持语音合成。

那么,如何让浏览器说话呢?语音合成的主要控制器界面是SpeechSynthesis,但需要一些相关的界面,例如用于输出的声音。大多数操作系统都有默认的语音合成系统。

简单地说,用户需要首先创建一个SpeechSynthesisUtterance界面的实例。其界面包含服务将读取的文本,以及语言、音量、音高和速率等信息。指定这些之后,将实例放入一个队列中,该队列告诉浏览器应该说什么以及什么时候说。

将需要说话的文本指定给其“文本”属性,如下所示:

newUtterance.text =
登入後複製

除非使用.lang属性另有指定,否则语言将默认为应用程序或浏览器的语言。

在网站加载后,语音更改事件可以被触发。要改变浏览器的默认语音,可以使用语音合成中的getvoices()方法。这将显示所有可用的语音。

声音的种类取决于操作系统。谷歌和MacOSx一样有自己的默认声音集。最后,用户使用Array.find()方法选择喜欢的声音。

根据需要定制SpeechSynthesisUtterance。可以启动、停止和暂停队列,或更改通话速度(“速率”)。

四、Web Speech API的优点和缺点  

什么时候应该使用Web Speech API?这种技术使用起来很有趣,但仍在发展中。尽管如此,还是有很多潜在的用例。集成API可以帮助实现IT基础设施的现代化,而用户可以了解Web Speech API哪些方面已经成熟可以改进。

1.提高生产力

对着麦克风说话比打字更快捷、更有效。在当今快节奏的工作生活中,人们可能需要能够在旅途中访问网页。

它还可以很好地减少管理工作量。语音到文本技术的改进有可能显著减少数据输入任务的时间。语音到文本技术可以集成到音频视频会议中,以加快会议的记录速度。

2.可访问性

如上所述,语音到文本(STT)和文本语音(TTS)对于有残疾或支持需求的用户来说都是很好的工具。此外,由于任何原因而在写作或拼写方面有困难的用户可以通过语音识别更好地表达自己。

这样,语音识别技术就可以成为互联网上一个很好的均衡器。鼓励在办公室使用这些工具也能促进工作场所的可访问性。

3.翻译

Web Speech API可以成为一种强大的语言翻译工具,因为它同时支持语音到文本(STT)和文本语音(TTS)。目前,并不是每一种语言都可用。这是Web Speech API尚未充分发挥其潜力的一个领域。

4.离线功能

一个缺点是API必须要有互联网连接才能正常工作。此时,浏览器将输入发送到它的服务器,然后服务器返回结果。这限制了Web Speech API可以使用的环境。

5.精确度

在提高语音识别器的准确性方面已经取得了令人难以置信的进展。用户可能偶尔还会遇到一些困难,例如技术术语和其他专业词汇或者方言。然而,到2022年,语音识别软件的精确度已经达到了人类的水平。

五、结语

虽然Web Speech API还处于实验阶段,但它可以成为网站或应用程序的一个惊人的补充。从科技公司到市场营销商,所有的工作场所都可以使用这个API来提高效率。只需几行简单的JavaScript代码,就可以打开一个全新的可访问性世界。

语音识别可以使用户更容易更有效地浏览网页,人们期待看到这项技术快速成长和发展!

原文链接:https://dzone.com/articles/the-developers-guide-to-web-speech-api-what-is-it

以上是Web Speech API開發者指南:它是什麼以及如何運作的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

剪下如何自動辨識語音產生字幕 自動產生字幕方法介紹 剪下如何自動辨識語音產生字幕 自動產生字幕方法介紹 Mar 14, 2024 pm 08:10 PM

我們在這款平台上面是怎麼來進行一些語音生成字幕的功能的呢,我們在製作一些視頻的是,為了能夠更加的有質感,或者是在敘述一些故事的時候,都是需要來添加上我們的字幕,這樣大家們也能夠更好的讀懂上面的一些影片的資訊了。也是起到了表達的作用,但是很多用戶們對於自動識別語音生成字幕方面都不是非常的了解,不管是在哪一些方位我們都能很輕鬆的讓你們更好的進行多方面的一些選擇都是可以的,如果你也喜歡的話,一定不能夠錯過對於一些功能方面的技巧等,都是需要我們來慢慢的了解的,趕緊和小編一起來看看吧,不要錯過了。  

如何使用WebSocket和JavaScript實現線上語音辨識系統 如何使用WebSocket和JavaScript實現線上語音辨識系統 Dec 17, 2023 pm 02:54 PM

如何使用WebSocket和JavaScript實現線上語音辨識系統引言:隨著科技的不斷發展,語音辨識技術已成為了人工智慧領域的重要組成部分。而基於WebSocket和JavaScript實現的線上語音辨識系統,具備了低延遲、即時性和跨平台的特點,成為了廣泛應用的解決方案。本文將介紹如何使用WebSocket和JavaScript來實現線上語音辨識系

WIN10系統關閉語音辨識的詳細方法 WIN10系統關閉語音辨識的詳細方法 Mar 27, 2024 pm 02:36 PM

1.進入控制面板,找到【語音辨識】選項,並將之開啟。 2.待語音辨識頁面彈出後,選取【進階語音選項】。 3.最後,在語音屬性視窗內的使用者設定一欄中取消關於【啟動時運行語音辨識】的勾選。

聲音語音辨識中的音訊品質問題 聲音語音辨識中的音訊品質問題 Oct 08, 2023 am 08:28 AM

聲音語音辨識中的音訊品質問題,需要具體程式碼範例近年來,隨著人工智慧技術的快速發展,聲音語音辨識(AutomaticSpeechRecognition,簡稱ASR)得到了廣泛應用和研究。然而,在實際應用中,我們傾向於面臨音訊品質問題,這直接影響了ASR演算法的準確性和效能。本文將重點放在聲音語音辨識中的音訊品質問題,並給出具體的程式碼範例。音訊品質對於聲音語音

聲音語音性別辨識中的說話者變異問題 聲音語音性別辨識中的說話者變異問題 Oct 08, 2023 pm 02:22 PM

聲音語音性別辨識中的說話者變異問題,需要具體代碼範例隨著語音技術的快速發展,聲音語音性別辨識成為了一個日益重要的領域。它在許多應用場景中都有廣泛的應用,例如電話客服、語音助理等。然而,在聲音語音性別辨識中,我們經常會遇到一個挑戰,即說話者的變異問題。說話者變異是指不同個體的聲音在語音特徵上有差異。由於個人的聲音特徵受到多種因素的影響,例如性別、年齡、嗓音等

真快!幾分鐘就把視訊語音辨識為文字了,不到10行程式碼 真快!幾分鐘就把視訊語音辨識為文字了,不到10行程式碼 Feb 27, 2024 pm 01:55 PM

大家好,我是風箏兩年前,將音視頻檔轉換為文字內容的需求難以實現,但是如今只需幾分鐘便可輕鬆解決。據說一些公司為了獲取訓練數據,已經對抖音、快手等短視頻平台上的視頻進行了全面爬取,然後將視頻中的音頻提取出來轉換成文本形式,用作大數據模型的訓練語料。如果您需要將視訊或音訊檔案轉換為文字,可以嘗試今天提供的這個開源解決方案。例如,可以搜尋影視節目的對話出現的具體時間點。話不多說,進入正題。 Whisper這個方案就是OpenAI開源的Whisper,當然是用Python寫的了,只需要簡單安裝幾個套件,然

使用Go語言開發實現高效能的語音辨識應用 使用Go語言開發實現高效能的語音辨識應用 Nov 20, 2023 am 08:11 AM

隨著科技的不斷發展,語音辨識技術也得到了長足的進步與應用。語音辨識應用廣泛運用在語音助理、智慧音箱、虛擬實境等領域,為人們提供了更便利和智慧的互動方式。而如何實現高效能的語音辨識應用,則成為了一個值得探討的問題。近年來,Go語言作為一種高效能的程式語言,在語音辨識應用的開發中備受矚目。 Go語言具備並發性高、編寫簡潔、執行速度快等特點,非常適合用於建構高效能

如何從駕駛艙Web使用者介面啟用管理訪問 如何從駕駛艙Web使用者介面啟用管理訪問 Mar 20, 2024 pm 06:56 PM

Cockpit是一個面向Linux伺服器的基於Web的圖形介面。它主要是為了使新用戶/專家用戶更容易管理Linux伺服器。在本文中,我們將討論Cockpit存取模式以及如何從CockpitWebUI切換Cockpit的管理存取。內容主題:駕駛艙進入模式查找當前駕駛艙訪問模式從CockpitWebUI啟用Cockpit的管理訪問從CockpitWebUI禁用Cockpit的管理訪問結論駕駛艙進入模式駕駛艙有兩種訪問模式:受限訪問:這是駕駛艙的默認訪問模式。在這種存取模式下,您無法從駕駛艙Web用戶

See all articles