目錄
模型介绍
Wav2vec 2.0 模型
HuBERT 模型
中文預訓練模型
首頁 科技週邊 人工智慧 找不到中文語音預訓練模型?中文版 Wav2vec 2.0和HuBERT來了

找不到中文語音預訓練模型?中文版 Wav2vec 2.0和HuBERT來了

Apr 08, 2023 pm 06:21 PM
ai 數據 模型

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 

WenetSpeech [4] 是由西工大音频、语音和语言处理研究组 (ASLP@NPU)、出门问问、希尔贝壳联合发布的 1 万多小时多领域语音数据集。为了弥补中文语音预训练模型的空缺,我们开源了基于 WenetSpeech 1 万小时数据训练的中文版 Wav2vec 2.0 和 HuBERT 模型。

为了验证预训练模型的性能,我们在 ASR 任务进行了验证。实验结果表明,在 100 小时有监督数据 ASR 任务上,预训练模型学到的语音表征相对于传统声学 FBank 特征有显著的性能提升,甚至仅用 100 小时有监督数据能够得到和 1000 小时有监督数据可比的结果。

模型链接:https://github.com/TencentGameMate/chinese_speech_pretrain

模型介绍

Wav2vec 2.0 模型

找不到中文語音預訓練模型?中文版 Wav2vec 2.0和HuBERT來了

图 1: Wav2vec 2.0 模型结构 (Baevski et al., 2020)

Wav2vec 2.0 [1] 是 Meta 在 2020 年发表的无监督语音预训练模型。它的核心思想是通过向量量化(Vector Quantization,VQ)构造自建监督训练目标,对输入做大量掩码后利用对比学习损失函数进行训练。模型结构如上图 1,基于卷积网络(Convoluational Neural Network,CNN)的特征提取器将原始音频编码为帧特征序列,通过 VQ 模块把每帧特征转变为离散特征 Q,并作为自监督目标。同时,帧特征序列做掩码操作后进入 Transformer [5] 模型得到上下文表示 C。最后通过对比学习损失函数,拉近掩码位置的上下文表示与对应的离散特征 q 的距离,即正样本对。原论文中,Wav2vec 2.0 BASE 模型采用 12 层的 Transformer 结构,用 1000 小时的 LibriSpeech 数据进行训练,LARGE 模型则采用 24 层 Transformer 结构,用 6 万小时的 Libri-light 数据训练。训练时间方面,BASE 模型使用 64 块 V100 显卡训练 1.6 天,LARGE 使用 128 块 V100 显卡训练 5 天。在下游 ASR 评测中,即使只用 10 分钟的有监督数据,系统仍可得到 4.8 的词错误率(Word Error Rate, WER)结果。

HuBERT 模型

找不到中文語音預訓練模型?中文版 Wav2vec 2.0和HuBERT來了

图 2: HuBERT 模型结构 (Hsu et al., 2021)

HuBERT [2] 是 Meta 在 2021 年发表的模型,模型结构类似 Wav2vec 2.0,不同的是训练方法。Wav2vec 2.0 是在训练时将语音特征离散化作为自监督目标,而 HuBERT 则通过在 MFCC 特征或 HuBERT 特征上做 K-means 聚类,得到训练目标。HuBERT 模型采用迭代训练的方式,BASE 模型第一次迭代在 MFCC 特征上做聚类,第二次迭代在第一次迭代得到的 HuBERT 模型的中间层特征上做聚类,LARGE 和 XLARGE 模型则用 BASE 模型的第二次迭代模型提取特征做聚类。从原始论文实验结果来看,HuBERT 模型效果要优于 Wav2vec 2.0,特别是下游任务有监督训练数据极少的情况,如 1 小时、10 分钟。

中文預訓練模型

實驗配置我們使用 WenetSpeech [4] train_l 集的 1 萬小時中文資料作為無監督預訓練資料。資料主要來自YouTube 和Podcast,涵蓋了各種類型錄製場景、背景噪音、說話方式等,其領域主要包括有聲書、解釋、紀錄片、電視劇、訪談、新聞、朗讀、演講、綜藝和其他10 大場景。我們基於 Fairseq 工具包 [6] 分別訓練了 Wav2vec 2.0 和 HuBERT 模型,遵循 [1,2] 的模型配置,每個預訓練模型模型包括 BASE 和 LARGE 兩種大小。對於 BASE 模型,我們使用 8 張 A100 顯示卡,梯度累積為 8,模擬 64 張顯示卡進行訓練。對於 LARGE 模型,我們使用 16 張 A100 顯示卡,梯度累積為 8,模擬 128 張顯示卡進行訓練。

下游語音辨識任務驗證為了驗證預訓練模型在下游ASR 任務的效果,我們遵循ESPnet [7,8,9] 工具包中的Conformer [10] 模型實驗配置,即將預訓練模型作為特徵提取器,對於輸入語音提取預訓練模型各隱層表徵進行加權求和,得到的語音表徵將替換傳統FBank 特徵作為Conformer ASR 模型的輸入。

  • Aishell 資料集

#我們使用Aishell 178 小時訓練集作為有監督資料進行訓練,分別對比了使用FBank 特徵、Wav2vec 2.0 BASE/LARGE 模型特徵和HuBERT BASE/LARGE 模型特徵的字錯誤率(Character Error Rate, CER) 結果。同時,我們額外對比了使用 WenetSpeech train_l 集 1 萬小時中文資料進行訓練時,其在 Aishell 測試集上的效果。訓練資料使用了變速(0.9、1.0、1.1 倍)和 SpecAugment 資料增廣技術,解碼方式為 beam search,使用了基於 Transformer 的語言模型進行 rescoring。

找不到中文語音預訓練模型?中文版 Wav2vec 2.0和HuBERT來了

表1:不同模型在Aishell 測試集上的字錯誤率(CER%)結果

根據表1 結果可以看到,透過結合萬小時無監督資料訓練的預訓練模型,下游ASR 任務效果均有顯著提升。尤其是使用 HuBERT LARGE 模型時,在 Test 集上得到約 30% 的 CER 相對提升,實現了目前在 178h 有監督訓練資料下業界最佳結果。

  • WenetSpeech 資料集

我們使用WenetSpeech train_s 集100 小時中文資料作為有監督資料進行訓練,分別比較了使用FBank 特徵、Wav2vec 2.0 BASE/LARGE 模型特徵和HuBERT BASE/LARGE 模型特徵的字錯誤率(Character Error Rate, CER) 結果。同時,我們額外比較了使用 WenetSpeech train_m 集 1000 小時和 train_l 集 1 萬小時中文資料 FBank 特徵訓練的模型結果。訓練資料沒有使用變速或 SpecAugment 資料增廣技術,解碼方式為 beam search,沒有使用語言模型 rescoring。

找不到中文語音預訓練模型?中文版 Wav2vec 2.0和HuBERT來了

表2:不同模型在WenetSpeech 測試集上的字錯誤率(CER%)結果

根據表2 結果可以看到,透過結合萬小時無監督資料訓練的預訓練模型,下游ASR 結果得到了巨大提升。尤其當使用 HuBERT LARGE 作為語音表徵提取器時,使用 100 小時有監督資料訓練的 ASR 模型要比 1000 小時基於 FBank 特徵訓練的模型效果要好,甚至接近 1 萬小時資料訓練的模型。

更多語音下游任務實驗結果請關注 GitHub 連結(https://github.com/TencentGameMate/chinese_speech_pretrain)。歡迎大家使用我們提供的中文語音預訓練模型進行研究工作,一起探索語音預訓練模型在中文和相關眾多場景下的應用。

以上是找不到中文語音預訓練模型?中文版 Wav2vec 2.0和HuBERT來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

大宗交易的虛擬貨幣交易平台排行榜top10最新發布 大宗交易的虛擬貨幣交易平台排行榜top10最新發布 Apr 22, 2025 am 08:18 AM

選擇大宗交易平台時應考慮以下因素:1. 流動性:優先選擇日均交易量超50億美元的平台。 2. 合規性:查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性:冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力:是否提供專屬客戶經理和定制化交易工具。

數字貨幣交易所App前十名蘋果版下載入口匯總 數字貨幣交易所App前十名蘋果版下載入口匯總 Apr 22, 2025 am 09:27 AM

提供各種複雜的交易工具和市場分析。覆蓋 100 多個國家,日均衍生品交易量超 300 億美元,支持 300 多個交易對與 200 倍槓桿,技術實力強大,擁有龐大的全球用戶基礎,提供專業的交易平台、安全存儲解決方案以及豐富的交易對。

排名前十的虛擬貨幣交易app有哪些 十大數字貨幣交易所平台推薦 排名前十的虛擬貨幣交易app有哪些 十大數字貨幣交易所平台推薦 Apr 22, 2025 pm 01:12 PM

2025年安全的數字貨幣交易所排名前十依次為:1. Binance,2. OKX,3. gate.io,4. Coinbase,5. Kraken,6. Huobi,7. Bitfinex,8. KuCoin,9. Bybit,10. Bitstamp,這些平台均採用了多層次的安全措施,包括冷熱錢包分離、多重簽名技術以及24/7的監控系統,確保用戶資金的安全。

穩定幣有哪些?穩定幣如何交易? 穩定幣有哪些?穩定幣如何交易? Apr 22, 2025 am 10:12 AM

常見的穩定幣有:1. 泰達幣(USDT),由Tether發行,與美元掛鉤,應用廣泛但透明性曾受質疑;2. 美元幣(USDC),由Circle和Coinbase發行,透明度高,受機構青睞;3. 戴幣(DAI),由MakerDAO發行,去中心化,DeFi領域受歡迎;4. 幣安美元(BUSD),由幣安和Paxos合作,交易和支付表現出色;5. 真實美元(TUSD),由TrustTo

目前有多少穩定幣交易所?穩定幣種類有多少? 目前有多少穩定幣交易所?穩定幣種類有多少? Apr 22, 2025 am 10:09 AM

截至2025年,穩定幣交易所數量約為千家。 1. 法定貨幣支持的穩定幣包括USDT、USDC等。 2. 加密貨幣支持的穩定幣如DAI、sUSD。 3. 算法穩定幣如TerraUSD。 4. 還有混合型穩定幣。

幣圈十大交易所有哪些 最新幣圈app推薦 幣圈十大交易所有哪些 最新幣圈app推薦 Apr 24, 2025 am 11:57 AM

選擇可靠的交易所至關重要,Binance、OKX、Gate.io等十大交易所各具特色,CoinGecko、Crypto.com等新app也值得關注。

2025下一個千倍幣可能有哪些 2025下一個千倍幣可能有哪些 Apr 24, 2025 pm 01:45 PM

截至2025年4月,有七个加密货币项目被认为具有显著增长潜力:1. Filecoin(FIL)通过分布式存储网络实现快速发展;2. Aptos(APT)以高性能Layer 1公链吸引DApp开发者;3. Polygon(MATIC)提升以太坊网络性能;4. Chainlink(LINK)作为去中心化预言机网络满足智能合约需求;5. Avalanche(AVAX)以快速交易和

DLC是什麼幣 DLC幣前景怎麼樣 DLC是什麼幣 DLC幣前景怎麼樣 Apr 24, 2025 pm 12:03 PM

DLC幣是基於區塊鏈的加密貨幣,旨在提供高效、安全的交易平台,支持智能合約和跨鏈技術,適用於金融和支付領域。

See all articles