谷歌Recorder實現說話者自動標註,功能性與iOS語音備忘錄再度拉大
Google於 2019 年為其 Pixel 手機推出了安卓系統下的錄音軟體 Recorder,對標 iOS 下的語音備忘錄,並支援音訊檔案的錄製、管理和編輯等。在此之後,Google陸續為 Recorder 加入了大量基於機器學習的功能,包括語音識別,音訊事件偵測,自動標題生成,以及智慧瀏覽等。
不過當錄音檔案較長且包含多個說話人的時候,一部分 Recorder 的使用者在使用過程中會感到不便。因為僅憑語音辨識得到的文本,並不能判斷每句話分別是誰說的。在今年的 Made By Google 大會上,Google公佈了 Recorder 應用程式的自動說話人標註功能。此功能將即時為語音辨識的文字加上匿名的說話者標籤(例如 「說話者 1」 或「說話者 2」)。這項功能將大大提升錄音文本的可讀性與實用性。而這項功能背後的技術,稱為聲紋分割聚類(speaker diarization)。 Google在 2022 年的 ICASSP 會議上,首次介紹了其名為 Turn-to-Diarize 的聲紋分割聚類系統。
左圖:關閉了說話者標註的錄音文字。右圖:開啟了說話者標註的錄音文字。
系統架構
Google的Turn-to-Diarize 系統包含了多個高度最佳化的模型和演算法,實現了在行動裝置上,以極少的運算資源完成對長達數小時的音訊進行即時聲紋分割聚類處理。系統主要包含三個組成部分:使用以偵測說話者身分轉換的說話者轉換偵測模型,以擷取每個說話者聲音特徵的聲紋編碼器模型,以及一個能夠有效率完成說話者標註的多階段聚類演算法。所有組成部分都完全運行在使用者的裝置上,不依賴任何伺服器連線。
Turn-to-Diarize 系統的架構圖。
說話人轉換偵測
這個系統的第一個組成部分是一個基於Transformer Transducer(T-T)的說話人轉換偵測模型。該模型能夠將聲學特徵序列轉換為包含了特殊字元 的文字序列。特殊字元 表示一個說話者轉換的事件。谷歌之前發表的論文曾經用諸如 或 的特殊字符來表示具體說話人的身份。而在最新的系統中,由於 字元不限於特定的身份,因此其應用也更加廣泛。
對於大多數的應用,聲紋分割聚類系統的輸出一般不會直接呈現給用戶,而是與語音辨識模型的輸出結合。由於語音辨識模型在訓練過程中已經針對詞錯率進行了最佳化,因此說話者轉換偵測模型對於詞錯率較為寬容,但更重視特殊字元 的準確率。在此基礎上,Google提出了一種新的基於字符的損失函數,實現了只需較小的模型,就能準確地檢測出說話人轉換事件 。
擷取聲紋特徵
當音訊訊號被依照說話者轉換事件進行分割之後,系統透過聲紋編碼器模型對每個說話者片段擷取包含聲紋訊息的嵌入碼,即d-vector。谷歌在先前發表的論文中,一般都是從固定長度的音訊中提取聲紋嵌入碼。與之相比,這次的新系統有多項改進。首先,新系統避免了從包含多個說話者資訊的片段中提取聲紋嵌入碼,從而提升了嵌入碼的整體品質。其次,每一個聲紋嵌入碼對應的語音片段,其時長都比較長,因此包含了對應說話者較多的聲紋訊息。最後,此方法得到的最終聲紋嵌入碼序列,其長度較短,使得後續的聚類演算法計算代價較低。
多階段聚類
聲紋分割聚類的最後一步,便是將前面幾步得到的聲紋嵌入碼序列進行聚類。由於使用者使用 Recorder 應用程式產生的錄音可能只有幾秒鐘,也可能長達 18 小時,因此聚類演算法面臨的關鍵挑戰便是能夠處理各種長度的聲紋嵌入碼序列。
為此,Google的多階段聚類策略巧妙地結合了幾種不同的聚類演算法各自的優勢。對於較短的序列,此策略採用聚合式分層聚類(AHC)。對於中等長度的序列,此方法採用譜聚類,並利用特徵值的最大間隔法,來準確估算說話者的數量。對於較長的序列,方法先用聚合式分層聚類來對序列進行預處理,然後再呼叫譜聚類,從而降低了聚類這一步驟的計算代價。而在整個流式處理的過程當中,透過對先前的聚類結果進行動態快取並重複利用,每一次聚類演算法的調用,其時間複雜度以及空間複雜度,上限都可以被設定為一個常數。
多階段聚類策略是針對裝置端應用的關鍵最佳化。因為在裝置端,CPU、記憶體、電池等資源通常都較為稀缺。該策略即使在處理過長達數小時的音訊之後,依然能夠維持在低能耗的狀態下運作。而此策略的常數複雜度上限,通常可以根據特定的設備型號進行調整,以實現準確率和性能之間的平衡。
多階段聚類策略的示意圖。
即時校正以及使用者標註
因為Turn-to-Diarize 是一個即時的串流處理系統,所以當模型處理完更多的音訊之後,其預測得到的說話者標籤也會變得更加準確。為此,Recorder 應用程式會在使用者錄音的過程當中,持續地對先前預測的說話者標籤進行校正,保證使用者在目前螢幕上看到的說話者標籤始終是更為準確的標籤。
同時,Recorder 應用程式的使用者介面還允許使用者對每一段錄音中的說話者標籤進行重命名,例如將「說話者2」 重新命名為「汽車經銷商”,從而方便使用者閱讀和記憶。
Recorder 允許使用者對說話者標籤進行重新命名,從而提升可讀性。
未來工作
Google在最新的數款 Pixel 手機上推出了自研晶片 Google Tensor。而目前的聲紋分割聚類系統主要便運行在 Google Tensor 的 CPU 模組上。未來Google計劃將聲紋分割聚類系統運行到 Google Tensor 的 TPU 模組上,從而進一步降低能耗。此外,谷歌還希望藉助多語言的聲紋編碼器以及語音辨識模型,將這項功能擴展到英語以外的其他語言。
以上是谷歌Recorder實現說話者自動標註,功能性與iOS語音備忘錄再度拉大的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

DeepSeek是一款功能強大的信息檢索工具,其優勢在於能夠深入挖掘信息,但缺點是速度較慢、結果呈現方式較簡單且數據庫覆蓋範圍有限,需要根據具體需求權衡其利弊。

DeepSeek是一個專有搜索引擎,僅在特定數據庫或系統中搜索,速度更快,準確性更高。使用時,建議用戶閱讀文檔、嘗試不同的搜索策略、尋求幫助和反饋使用體驗,以便充分利用其優勢。

本文詳細介紹了芝麻開門交易所(Gate.io)網頁版和Gate交易App的註冊流程。 無論是網頁註冊還是App註冊,都需要訪問官方網站或應用商店下載正版App,然後填寫用戶名、密碼、郵箱和手機號等信息,並完成郵箱或手機驗證。

為什麼Bybit交易所鏈接無法直接下載安裝? Bybit是一個加密貨幣交易所,為用戶提供交易服務。該交易所的移動應用程序不能直接通過AppStore或GooglePlay下載,原因如下:1.應用商店政策限制蘋果公司和谷歌公司對應用商店中允許的應用程序類型有嚴格的要求。加密貨幣交易所應用程序通常不符合這些要求,因為它們涉及金融服務,需要遵循特定的法規和安全標準。 2.法律法規合規在許多國家/地區,與加密貨幣交易相關的活動都受到監管或限制。為了遵守這些規定,Bybit應用程序只能通過官方網站或其他授權渠

詳細介紹芝麻開門交易所網頁版登入口操作,含登錄步驟、找回密碼流程,還針對登錄失敗、無法打開頁面、收不到驗證碼等常見問題提供解決方法,助你順利登錄平台。

本文推荐十大值得关注的加密货币交易平台,涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋,例如币安以其全球最大的交易量和丰富的功能著称,而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。 希望本文能帮助您找到最适合自

訪問幣安官方網站最新版登錄入口,只需遵循這些簡單步驟。前往官方網址,點擊右上角的“登錄”按鈕。選擇您現有的登錄方式,如果是新用戶,請“註冊”。輸入您的註冊手機號或郵箱和密碼,並完成身份驗證(例如手機驗證碼或谷歌身份驗證器)。成功驗證後,即可訪問幣安官方網站的最新版登錄入口。
