本站 6 月 27 日消息,騰訊今日宣布,該公司主導的新一代實時語音編碼行業標準 AVS3P10 完成定稿,即將正式對外發布。這次 AVS 音訊組 AVS3P10 標準採納了騰訊側方案,以騰訊會議首款自研神經網路語音編解碼器 Penguins AI 語音引擎為原型,可提升弱網環境下的通話品質。
騰訊介紹稱,這是全球首個系統性引入人工智慧並實現低碼率下高品質語音編碼標準,表現達到國際一流水準。只需 1/3 的編碼碼率,就能實現和現有主流標準同等清晰的音質。 「即使網路卡如 2G,也能順暢開會」。該標準由騰訊提議啟動、推進和維護,經過 AVS 音頻組多家成員單位共同貢獻。 「今後在線上會議、語音通話等即時音訊場景,頻寬需求大幅降低。即使在電梯、地庫、隧道等網路很差的環境,也能實現清晰流暢的語音通話。」
據介紹,在在有限的頻寬條件下,想要將聲音高品質傳遞到接收方,壓縮原始資料、移除冗餘資訊的語音編碼技術是其中關鍵。然而,基於 EVS、OPUS 等現有主流音訊編解碼標準,當碼率降低到 10kbps 以下時,語音品質下降明顯,影響使用者體驗。為應對此挑戰,騰訊會議天籟實驗室聯合騰訊 AI Lab 自研了騰訊首款神經網路語音編解碼器 ——Penguins。
具體來說,Penguins 將AI 與傳統技術融合,打破傳統香農定律的性能極限,引入大數據並在可控算力增量下提供了新的性能上界,從而對下一代通信系統,尤其是信源編碼器部分,提供了新的技術基礎和方法論。透過 AI 語音訊號建模,提取最核心的特徵參數編碼,再藉助深度學習網絡,預測並重建語音中的細微結構,最終產生逼真的音訊波形。
多方測試表明,騰訊提交的AVS3P10 標準實現了6kbps 下的高質量語音通信,即使在“2G”網絡下也能實現清晰通話,且主觀質量非常接近原始參考信號,媲美國際主流的OPUS 標準在20kbps 的品質。同時,主觀品質對標傳統編碼的中高碼率情況下,編碼效率提升 200-300%。
2021 年起,Penguins 音訊編碼器就在騰訊會議的駕駛模式、弱網模式及 QQ 語音通話等場景中投入規模應用。
2023 年 3 月,騰訊團隊在 AVS 音訊組提議並參與標準制定,即 AVS3P10 即時語音編碼標準。隨後,騰訊提交基於 Penguins 的候選技術;經過 AVS 音訊組交叉驗證後採納。 2024 年 6 月,AVS3P10 即時語音編碼標準正式完成標準化工作,進入公示階段。
本站註:從 2002 年 6 月我國成立 AVS 工作小組開始,十多年來上千人的團隊努力,我國自主知識產權的 AVS 應運而生。 AVS3 是全球首個已推出的 8K 及 5G 產業應用的視訊編碼標準。
AVS 已經啟動 AVS4 的標準制定,並呼籲 AVS 成員單位繼續支持 AVS 下一代標準開發工作,各個廠商聯合起來,一起實現技術標準共同出海,推動全球化部署。
以上是電梯、地庫裡通話不卡頓,騰訊主導新一代即時語音編碼產業標準 AVS3P10 即將發布的詳細內容。更多資訊請關注PHP中文網其他相關文章!