聊聊即時通訊中的AI降噪技術-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

聊聊即時通訊中的AI降噪技術

PHPz

Apr 12, 2023 pm 01:07 PM

ai 深度學習

聊聊即時通訊中的AI降噪技術

Part 01 #

#在即時音訊視訊通信場景，麥克風採集用戶語音的同時會採集大量環境噪聲，傳統降噪演算法僅對平穩噪聲（如電扇風聲、白噪聲、電路底噪等）有一定效果，對非平穩的瞬態噪聲（如餐廳嘈雜噪音、地鐵環境噪音、家庭廚房噪音等）降噪效果較差，嚴重影響使用者的通話體驗。針對泛家庭、辦公室等複雜場景中的上百種非平穩噪音問題，融合通訊系統部生態賦能團隊自主研發基於GRU模型的AI音頻降噪技術，並透過演算法和工程優化，將降噪模型尺寸從2.4MB壓縮至82KB，運行記憶體降低約65%；計算複雜度從約186Mflops優化至42Mflops,運行效率提升77%；在現有的測試資料集中（實驗環境下），可有效分離人聲和噪音，將通話語音品質Mos分（平均意見值）提升至4.25。

本篇文章將介紹我們團隊如何基於深度學習做即時雜訊抑制，並落地於行動裝置和家親APP的過程。全文將依照以下組織，介紹噪音的分類，如何選擇演算法去解決這些噪音的問題；如何透過深度學習的方式去設計演算法，訓練AI模型；最後會介紹目前AI降噪能達到什麼樣效果與重點應用場景。

Part 02 雜訊分類與降噪演算法選擇

聊聊即時通訊中的AI降噪技術

聊聊即時通訊中的AI降噪技術 # #即時音視訊的應用場景中，裝置處於複雜的聲學環境，麥克風擷取語音訊號的同時還會擷取大量噪音，對即時音視訊品質來說是一個非常大的挑戰。噪音的種類是多種多樣的。根據雜訊的數學統計特性可以將雜訊分為兩類：

聊聊即時通訊中的AI降噪技術

#平穩雜訊：##雜訊的統計特性在比較長的時間內不會隨時間而變化，例如白噪音、電風扇、空調、車內噪音等；

##################################################################### #################非平穩噪音：#########噪音的統計特性隨時間在變化，如餐廳雜訊、地鐵站、辦公室、家庭廚房等。 #####################################在即時音訊應用中，通話易受到各類雜訊幹擾從而影響體驗，因此即時音訊降噪已成為即時音視訊中的重要功能。對於平穩的噪音，例如空調出風口呼呼聲或錄製設備的底噪，它不會隨著時間變化而產生較大變化，可以將其估計預測出來，透過簡單的減法的方式把它去掉，常見的有譜減法、維納濾波以及小波轉換。對於非平穩噪音，例如馬路上車子呼嘯而過的聲音、餐廳內餐盤的撞擊聲、家庭廚房內的鍋具的敲擊聲，都是隨機突發出現，是不可能通過估計預測的方式去解決的。傳統演算法對於非平穩噪音難以估計和消除，這也是我們採用深度學習演算法的原因。 ##########

Part 03 #深度學習降噪演算法設計

聊聊即時通訊中的AI降噪技術

##為了提高音訊SDK對於各種噪音場景的降噪能力，彌補傳統降噪演算法的不足，我們研發了基於RNN的AI降噪模組，結合傳統降噪技術和深度學習技術。重點在於家庭和辦公室使用場景的降噪處理，在噪音資料集中加入大量的室內噪音類型，諸如辦公室內的鍵盤敲擊、辦公桌與辦公用品拖拉的摩擦聲、座椅拖動、家庭中的廚房嘈雜聲、地板撞擊聲等等。

同時，為了在行動端的即時語音處理落地，該AI音訊降噪演算法將計算開銷和庫的尺寸控制在一個非常低的量級。在計算開銷上，以48KHz為例，每幀語音的RNN網路處理處理僅需約17.5Mflops，FFT和IFFT每幀語音需要約7.5Mflops，特徵提取需要約12Mflops，總計約42Mflops，計算複雜度約和48KHz的Opus編解碼相當，在某品牌中階手機型號，統計RNN降噪模組CPU佔用約4%。在音訊庫的尺寸上，開啟RNN降噪編譯後，音訊引擎庫的體積僅增加約108kB。

Part 04 網路模型及處理流程

該模組採用RNN 模型，原因是RNN 相比其他學習模型（例如CNN）攜帶時間訊息，可以對時序訊號進行建模，而不僅僅是單獨的音訊輸入和輸出幀。同時，模型採用門控循環單元（GRU，如圖1所示），實驗表明，GRU在語音降噪任務上的性能略好於LSTM，並且由於GRU的權值參數更少，可以節省計算資源。與簡單的循環單元相比，GRU有兩個額外的門。重置閘控制狀態是否用於計算新狀態，而更新閘控制狀態將根據新輸入而改變的程度。這個更新閘讓GRU可以長時間記憶時序訊息，這也是GRU比簡單的循環單元表現更好的原因。

聊聊即時通訊中的AI降噪技術

#圖 1 左邊為簡單循環單元，在右側為GRU

模型的結構如圖2所示。訓練後的模型會被嵌入到音視頻通訊SDK 中，透過讀取硬體設備的音頻流，對音頻流進行分幀處理並送入AI 降噪預處理模組中，預處理模組會將對應的特徵（ Feature）計算出來，並輸出到訓練好的模型中，透過模型計算對應的增益（Gain）值，使用增益值對訊號進行調整，最終達到降噪的目的（如圖3所示）。

聊聊即時通訊中的AI降噪技術

#圖2.基於GRU的RNN網路模型

聊聊即時通訊中的AI降噪技術

###############13. 上方為模型訓練流程，下方為即時降雜訊流程##################

Part 05 AI降噪處理效果與落地

##圖4為具有鍵盤敲擊噪音的降噪前後語音語譜圖的對比，上半部為降噪前的帶噪語音訊號，其中紅色矩形框內為鍵盤敲擊噪音。下半部為降噪後的語音訊號，透過觀測可以發現，絕大部分鍵盤敲擊聲均可以被抑制，同時語音損傷控制在較低的程度。

聊聊即時通訊中的AI降噪技術

#圖4. 有雜訊語音（通話過程伴隨著鍵盤敲擊聲）降噪前後對比

目前的AI降噪模型，已經在手機端和家親上線，改善手機端和家親APP通話降噪效果，對泛家庭、辦公室等100多種噪音場景具備優秀的抑制能力，同時保持語音不失真。下一階段，將持續優化AI降噪模型的運算複雜度，以便在IoT低功耗設備上能夠推廣使用。 #

以上是聊聊即時通訊中的AI降噪技術的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7814

Java教學

1646

CakePHP 教程

1402

Laravel 教程

1300

PHP教程

1238

Related knowledge

幣圈行情實時數據免費平台推薦前十名發布 Apr 22, 2025 am 08:12 AM

適合新手的加密貨幣數據平台有CoinMarketCap和非小號。 1. CoinMarketCap提供全球加密貨幣實時價格、市值、交易量排名，適合新手與基礎分析需求。 2. 非小號提供中文友好界面，適合中文用戶快速篩選低風險潛力項目。

okx在線 okx交易所官網在線 Apr 22, 2025 am 06:45 AM

OKX 交易所的詳細介紹如下：1) 發展歷程：2017 年創辦，2022 年更名為 OKX；2) 總部位於塞舌爾；3) 業務範圍涵蓋多種交易產品，支持 350 多種加密貨幣；4) 用戶遍布 200 餘個國家，千萬級用戶量；5) 採用多重安全措施保障用戶資產；6) 交易費用基於做市商模式，費率隨交易量增加而降低；7) 曾獲多項榮譽，如“年度加密貨幣交易所”等。

各大虛擬貨幣交易平台的特色服務一覽 Apr 22, 2025 am 08:09 AM

機構投資者應選擇Coinbase Pro和Genesis Trading等合規平台，關注冷存儲比例與審計透明度；散戶投資者應選擇幣安和火幣等大平台，注重用戶體驗與安全；合規敏感地區的用戶可通過Circle Trade和Huobi Global進行法幣交易，中國大陸用戶需通過合規場外渠道。

大宗交易的虛擬貨幣交易平台排行榜top10最新發布 Apr 22, 2025 am 08:18 AM

選擇大宗交易平台時應考慮以下因素：1. 流動性：優先選擇日均交易量超50億美元的平台。 2. 合規性：查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性：冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力：是否提供專屬客戶經理和定制化交易工具。

支持多種幣種的虛擬貨幣交易平台推薦前十名一覽 Apr 22, 2025 am 08:15 AM

優先選擇合規平台如OKX和Coinbase，啟用多重驗證，資產自託管可減少依賴：1. 選擇有監管牌照的交易所；2. 開啟2FA和提幣白名單；3. 使用硬件錢包或支持自託管的平台。

數字貨幣交易app容易上手的推薦top10（025年最新排名） Apr 22, 2025 am 07:45 AM

gate.io（全球版）核心優勢是界面極簡，支持中文，法幣交易流程直觀；幣安（簡版）核心優勢是全球交易量第一，簡版模式僅保留現貨交易；OKX（香港版）核心優勢是界面簡潔，支持粵語/普通話，衍生品交易門檻低；火幣全球站（香港版）核心優勢是老牌交易所，推出元宇宙交易終端；KuCoin（中文社區版）核心優勢是支持800 幣種，界面採用微信式交互；Kraken（香港版）核心優勢是美國老牌交易所，持有香港SVF牌照，界面簡潔；HashKey Exchange（香港持牌）核心優勢是香港知名持牌交易所，支持法