目錄
系統架構
說話人轉換偵測
擷取聲紋特徵
多階段聚類
即時校正以及使用者標註
未來工作
首頁 科技週邊 人工智慧 谷歌Recorder實現說話者自動標註,功能性與iOS語音備忘錄再度拉大

谷歌Recorder實現說話者自動標註,功能性與iOS語音備忘錄再度拉大

Apr 10, 2023 pm 07:31 PM
人工智慧 Google

Google於 2019 年為其 Pixel 手機推出了安卓系統下的錄音軟體 Recorder,對標 iOS 下的語音備忘錄,並支援音訊檔案的錄製、管理和編輯等。在此之後,Google陸續為 Recorder 加入了大量基於機器學習的功能,包括語音識別,音訊事件偵測,自動標題生成,以及智慧瀏覽等。

不過當錄音檔案較長且包含多個說話人的時候,一部分 Recorder 的使用者在使用過程中會感到不便。因為僅憑語音辨識得到的文本,並不能判斷每句話分別是誰說的。在今年的 Made By Google 大會上,Google公佈了 Recorder 應用程式的自動說話人標註功能。此功能將即時為語音辨識的文字加上匿名的說話者標籤(例如 「說話者 1」 或「說話者 2」)。這項功能將大大提升錄音文本的可讀性與實用性。而這項功能背後的技術,稱為聲紋分割聚類(speaker diarization)。 Google在 2022 年的 ICASSP 會議上,首次介紹了其名為 Turn-to-Diarize 的聲紋分割聚類系統。

谷歌Recorder實現說話者自動標註,功能性與iOS語音備忘錄再度拉大

左圖:關閉了說話者標註的錄音文字。右圖:開啟了說話者標註的錄音文字。

系統架構

Google的Turn-to-Diarize 系統包含了多個高度最佳化的模型和演算法,實現了在行動裝置上,以極少的運算資源完成對長達數小時的音訊進行即時聲紋分割聚類處理。系統主要包含三個組成部分:使用以偵測說話者身分轉換的說話者轉換偵測模型,以擷取每個說話者聲音特徵的聲紋編碼器模型,以及一個能夠有效率完成說話者標註的多階段聚類演算法。所有組成部分都完全運行在使用者的裝置上,不依賴任何伺服器連線。

谷歌Recorder實現說話者自動標註,功能性與iOS語音備忘錄再度拉大

Turn-to-Diarize 系統的架構圖。

說話人轉換偵測

這個系統的第一個組成部分是一個基於Transformer Transducer(T-T)的說話人轉換偵測模型。該模型能夠將聲學特徵序列轉換為包含了特殊字元 的文字序列。特殊字元 表示一個說話者轉換的事件。谷歌之前發表的論文曾經用諸如 或 的特殊字符來表示具體說話人的身份。而在最新的系統中,由於 字元不限於特定的身份,因此其應用也更加廣泛。

對於大多數的應用,聲紋分割聚類系統的輸出一般不會直接呈現給用戶,而是與語音辨識模型的輸出結合。由於語音辨識模型在訓練過程中已經針對詞錯率進行了最佳化,因此說話者轉換偵測模型對於詞錯率較為寬容,但更重視特殊字元 的準確率。在此基礎上,Google提出了一種新的基於字符的損失函數,實現了只需較小的模型,就能準確地檢測出說話人轉換事件 。

擷取聲紋特徵

當音訊訊號被依照說話者轉換事件進行分割之後,系統透過聲紋編碼器模型對每個說話者片段擷取包含聲紋訊息的嵌入碼,即d-vector。谷歌在先前發表的論文中,一般都是從固定長度的音訊中提取聲紋嵌入碼。與之相比,這次的新系統有多項改進。首先,新系統避免了從包含多個說話者資訊的片段中提取聲紋嵌入碼,從而提升了嵌入碼的整體品質。其次,每一個聲紋嵌入碼對應的語音片段,其時長都比較長,因此包含了對應說話者較多的聲紋訊息。最後,此方法得到的最終聲紋嵌入碼序列,其長度較短,使得後續的聚類演算法計算代價較低。

多階段聚類

聲紋分割聚類的最後一步,便是將前面幾步得到的聲紋嵌入碼序列進行聚類。由於使用者使用 Recorder 應用程式產生的錄音可能只有幾秒鐘,也可能長達 18 小時,因此聚類演算法面臨的關鍵挑戰便是能夠處理各種長度的聲紋嵌入碼序列。

為此,Google的多階段聚類策略巧妙地結合了幾種不同的聚類演算法各自的優勢。對於較短的序列,此策略採用聚合式分層聚類(AHC)。對於中等長度的序列,此方法採用譜聚類,並利用特徵值的最大間隔法,來準確估算說話者的數量。對於較長的序列,方法先用聚合式分層聚類來對序列進行預處理,然後再呼叫譜聚類,從而降低了聚類這一步驟的計算代價。而在整個流式處理的過程當中,透過對先前的聚類結果進行動態快取並重複利用,每一次聚類演算法的調用,其時間複雜度以及空間複雜度,上限都可以被設定為一個常數。

多階段聚類策略是針對裝置端應用的關鍵最佳化。因為在裝置端,CPU、記憶體、電池等資源通常都較為稀缺。該策略即使在處理過長達數小時的音訊之後,依然能夠維持在低能耗的狀態下運作。而此策略的常數複雜度上限,通常可以根據特定的設備型號進行調整,以實現準確率和性能之間的平衡。

谷歌Recorder實現說話者自動標註,功能性與iOS語音備忘錄再度拉大

多階段聚類策略的示意圖。

即時校正以及使用者標註

因為Turn-to-Diarize 是一個即時的串流處理系統,所以當模型處理完更多的音訊之後,其預測得到的說話者標籤也會變得更加準確。為此,Recorder 應用程式會在使用者錄音的過程當中,持續地對先前預測的說話者標籤進行校正,保證使用者在目前螢幕上看到的說話者標籤始終是更為準確的標籤。

同時,Recorder 應用程式的使用者介面還允許使用者對每一段錄音中的說話者標籤進行重命名,例如將「說話者2」 重新命名為「汽車經銷商”,從而方便使用者閱讀和記憶。

谷歌Recorder實現說話者自動標註,功能性與iOS語音備忘錄再度拉大

Recorder 允許使用者對說話者標籤進行重新命名,從而提升可讀性。

未來工作

Google在最新的數款 Pixel 手機上推出了自研晶片 Google Tensor。而目前的聲紋分割聚類系統主要便運行在 Google Tensor 的 CPU 模組上。未來Google計劃將聲紋分割聚類系統運行到 Google Tensor 的 TPU 模組上,從而進一步降低能耗。此外,谷歌還希望藉助多語言的聲紋編碼器以及語音辨識模型,將這項功能擴展到英語以外的其他語言。

以上是谷歌Recorder實現說話者自動標註,功能性與iOS語音備忘錄再度拉大的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1664
14
CakePHP 教程
1423
52
Laravel 教程
1318
25
PHP教程
1268
29
C# 教程
1248
24
加密數字資產交易APP推薦top10(2025全球排名) 加密數字資產交易APP推薦top10(2025全球排名) Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台,涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋,例如币安以其全球最大的交易量和丰富的功能著称,而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。 希望本文能帮助您找到最适合自

歐易okex賬號怎麼註冊、使用、註銷教程 歐易okex賬號怎麼註冊、使用、註銷教程 Mar 31, 2025 pm 04:21 PM

本文詳細介紹了歐易OKEx賬號的註冊、使用和註銷流程。註冊需下載APP,輸入手機號或郵箱註冊,完成實名認證。使用方面涵蓋登錄、充值提現、交易以及安全設置等操作步驟。而註銷賬號則需要聯繫歐易OKEx客服,提供必要信息並等待處理,最終獲得賬號註銷確認。 通過本文,用戶可以輕鬆掌握歐易OKEx賬號的完整生命週期管理,安全便捷地進行數字資產交易。

binance怎麼註冊詳細教程(2025新手指南) binance怎麼註冊詳細教程(2025新手指南) Mar 18, 2025 pm 01:57 PM

本文提供Binance幣安註冊及安全設置的完整指南,涵蓋註冊前的準備工作(包括設備、郵箱、手機號及身份證明文件準備),詳細介紹了官網及APP兩種註冊方式,以及不同級別的身份驗證(KYC)流程。此外,文章還重點講解瞭如何設置資金密碼、開啟雙重驗證(2FA,包括谷歌身份驗證器和短信驗證)以及設置防釣魚碼等關鍵安全步驟,幫助用戶安全便捷地註冊和使用Binance幣安平台進行加密貨幣交易。 請務必在交易前了解相關法律法規及市場風險,謹慎投資。

如何優化jieba分詞以改善景區評論的關鍵詞提取效果? 如何優化jieba分詞以改善景區評論的關鍵詞提取效果? Apr 01, 2025 pm 06:24 PM

如何優化jieba分詞以改善景區評論的關鍵詞提取?在使用jieba分詞處理景區評論數據時,如果發現分詞結果不理�...

gate.io手機app使用教程 gate.io手機app使用教程 Mar 26, 2025 pm 05:15 PM

gate.io手機app使用教程:1、安卓用戶,訪問 Gate.io 官方網站,下載安卓安裝包,您可能需要在手機設置中允許安裝來自未知來源的應用;2、ios用戶,在 App Store 中搜索 "Gate.io" 下載。

C語言數據結構:數據結構在人工智能中的關鍵作用 C語言數據結構:數據結構在人工智能中的關鍵作用 Apr 04, 2025 am 10:45 AM

C語言數據結構:數據結構在人工智能中的關鍵作用概述在人工智能領域,數據結構對於處理大量數據至關重要。數據結構提供了一種組織和管理數據的有效方法,優化算法和提高程序的效率。常見的數據結構C語言中常用的數據結構包括:數組:一組連續存儲的數據項,具有相同的類型。結構體:將不同類型的數據組織在一起並賦予它們一個名稱的數據類型。鍊錶:一種線性數據結構,其中數據項通過指針連接在一起。堆棧:遵循後進先出(LIFO)原理的數據結構。隊列:遵循先進先出(FIFO)原理的數據結構。實戰案例:圖論中的鄰接表在人工智

虛擬幣最老的幣排行榜最新更新 虛擬幣最老的幣排行榜最新更新 Apr 22, 2025 am 07:18 AM

虛擬貨幣“最老”排行榜如下:1. 比特幣(BTC),發行於2009年1月3日,是首個去中心化數字貨幣。 2. 萊特幣(LTC),發行於2011年10月7日,被稱為“比特幣的輕量版”。 3. 瑞波幣(XRP),發行於2011年,專為跨境支付設計。 4. 狗狗幣(DOGE),發行於2013年12月6日,基於萊特幣代碼的“迷因幣”。 5. 以太坊(ETH),發行於2015年7月30日,首個支持智能合約的平台。 6. 泰達幣(USDT),發行於2014年,是首個與美元1:1錨定的穩定幣。 7. 艾達幣(ADA),發

虛擬幣購買app安全靠譜的top10推薦 虛擬幣購買app安全靠譜的top10推薦 Mar 18, 2025 pm 12:12 PM

2025年全球虛擬幣交易平台Top 10推薦,助您玩轉數字貨幣市場!本文將為您深度解析幣安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所等十家頂級平台的核心優勢和特色功能。無論是追求高流動性、豐富的交易類型,還是注重安全合規、創新功能,都能在此找到適合您的平台。 我們將從交易品種、安全性、特色功能等方面進行全面對比,助您選擇最合適的虛擬貨幣交易平台,把握2025年數字貨幣投資機遇

See all articles