小紅書多媒體智慧演算法團隊和香港中文大學首次共同提出了基於多階段多碼本緊湊型語音表徵的高效能語音合成方案 MSMC-TTS。基於向量量化變分自編碼器(VQ-VAE)的特徵分析器採用若干碼本對聲學特徵進行階段式編碼,形成一組具有不同時間解析度的隱序列集合。這些隱序列可以由多階段預測器從文字中預測獲得,並且透過神經聲碼器轉換成目標音訊。該方案,對比基於Mel-Spectrogram的Fastspeech 基線系統,音質和自然度有明顯的改善。該工作現已總結成論文 “A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS”,並被語音領域會議 INTERSPEECH 2022 接收。
語音合成(Text-to-Speech, 簡稱TTS)是將文字轉化為語音的一種技術,被廣泛應用於視訊配音、影音內容創作、智慧人機互動等產品中。主流語音合成系統後端的聲學建模技術通常包括特徵提取器,聲學模型和聲碼器三個部分。 TTS 通常會對基於訊號處理獲得的聲學特徵(例如梅爾譜Mel Spectrogram)進行聲學建模,但受限於模型的擬合能力,預測得到的聲學特徵和真實數據在分佈上存在一定差異,這導致在真實資料上訓練的聲碼器難以從預測特徵中產生高品質音訊。
TTS 系統框架圖
針對這一難題,學界使用了更複雜的模型結構和更新穎的生成式演算法以減少預測誤差和縮小分佈差異。而本工作另闢蹊徑,以緊湊型語音表徵為出發點來考慮問題。對語音合成來說,1)聲學特徵良好的緊湊性能夠保證更為準確的模型預測結果和更魯棒的波形生成;2)聲學特徵良好的完備性能夠保證更好地重構語音信號。基於這兩點考慮,本文提出採用向量量化變分自編碼器(VQ-VAE)從目標資料中挖掘出更好的緊湊型表示。
VQ-VAE 包含編碼器與解碼器。編碼器將輸入聲學特徵序列加工為隱序列並以對應碼本進行量化。而解碼器把經過量化的序列恢復為原始聲學特徵序列。這種量化序列作為離散化表徵具有較好的緊湊性(特徵參數量較少)。其中量化程度越高,即碼本容量越小,特徵緊湊程度越高。但這也造成了資訊壓縮,使特徵完備度變差。為了確保足夠的完備性,一般都會使用更多的碼字。但隨著碼本容量的增加,碼本更新所需的資料量以及訓練次數將呈指數級遞增,這使得 VQ-VAE 難以透過增大碼本來有效增強表徵完備性。針對此問題,本文提出多頭向量量化(MHVQ)方法。
VQ-VAE 模型結構圖
MHVQ 將單一碼本依特徵維度方向均分為若干個子碼本。量化時也將每個輸入向量相等地切割成若干個子向量,並分別以對應子碼本量化,最終拼接成輸出向量。這樣我們就能更有效地提高碼本利用率及表徵容量,而無需增加碼本參數量。例如,要讓壓縮率減少1倍,碼字本來要增加到原碼本數的平方。採用 MHVQ 後,只要把碼本切分成兩部分就可以達到相同的壓縮率。因此,本方法能夠更有效地調節量化表徵的完備性。
MHVQ 範例圖
另外在對語音序列進行量化時,語音特徵中蘊含的各類訊息都有不同程度地遺失。這些資訊在時間粒度上是不一樣的,如粗粒度的音色,發音風格等,以及細粒度的音調,發音細節等。在任何時間尺度上過度壓縮訊息都可能使語音品質遭到一定程度的破壞。為了緩解這個問題,本工作提出了一種多時間尺度的語音建模方法。如圖所示,聲學特徵序列透過若干個編碼器將聲學特徵序列階段式編碼至不同時間尺度,然後再透過解碼器端逐層量化,解碼得到若干個具有不同時間解析度的量化序列。這類序列集合構成的表徵, 即為本工作提出的多階段多碼本表徵。
多階段建模範例圖
針對多階段多碼本表徵MSMCR ,本論文提出了對應的TTS 系統,即MSMC-TTS 系統。系統包括分析、合成和預測3個部分。在系統訓練中,此系統先對分析模組進行訓練。訓練集中的音訊經過訊號處理後轉換為高完備性聲學特徵(如本次工作中所使用的 Mel-Spectrogram 特徵)。利用這些聲學特徵對基於 MSMC-VQ-VAE 的特徵分析器進行訓練,訓練結束時將其轉換為對應的MSMCR,再對聲學模型及神經聲碼器進行訓練。解碼過程中,此系統利用聲學模型從文字中預測 MSMCR,然後利用神經聲碼器產生目標音訊。
MSMC-TTS 系統框架圖
本工作也提出一種多階段預測器來適應MSMCR 建模。該模型是以 FastSpeech 為基礎實現的,但在解碼器端有所不同。該模型首先對文字進行編碼,並根據預測時長資訊對文字上採樣。然後再將序列降採樣至 MSMCR 對應的各個時間解析度。這些序列將由不同解碼器由低解析度向高分辨率逐級解碼量化。同時將低解析度量化序列傳送給下一階段的解碼器以協助預測。最後將預測所得 MSMCR 送入神經聲碼器中產生目標音訊。
多階段預測器結構圖
對多階段預測器進行訓練與推論時,本工作選擇直接在連續空間預測目標表徵。此方法能較好地顧及向量間及碼字間在線性連續空間上的距離關係。訓練準則除了採用常用於 TTS 建模的 MSE 損失函數外,還使用了 “triplet loss” 以迫使預測向量遠離非目標碼字並靠近目標碼字。透過將兩種損失函數項組合,該模型能夠更好地預測目標碼字。
本工作在公開的英文單說話人資料集 Nancy (Blizzard Challenge 2011) 上進行實驗。我們組織了主觀意見得分測試 (MOS)對 MSMC-TTS 合成效果進行評估。實驗結果顯示:原始錄音為 4.50 分的情況下, MSMC-TTS 的得分為 4.41分,基線系統 Mel-FS(Mel-Spectrogram based FastSpeech)為 3.62 分。我們對基線系統的聲碼器進行調優,使其與Mel-FS輸出特徵相適配,結果為 3.69 分。此對比結果證明了文中所提方法對 TTS 系統的顯著改善作用。
另外我們也進一步討論了建模複雜度對於 TTS 的效能影響。由 M1 至 M3 模型參數量呈倍數下降, Mel-FS 合成效果降至 1.86 分。反觀 MSMC-TTS, 參數量減少並未對合成品質造成顯著的影響。當聲學模型參數量為 3.12 MB 時, MOS 仍可保持 4.47 分。這既證明了以緊湊型特徵為基礎的 MSMC-TTS 建模複雜度需求較低,同時也展示了此方法應用於輕量級 TTS 系統的潛力。
最後我們在不同MSMCR 基礎上進行了MSMC-TTS 比較,以探討MHVQ 與多階段建模對TTS 的影響。其中 V1 系統採用單階段單碼本的表徵, V2 系統基於 V1 採用 4-head 向量量化, V3 系統則基於 V2 採用兩階段建模。首先,V1 系統所使用的表徵擁有最高的特徵壓縮比,但在分析合成實驗中表現出最低的完備性,同時在 TTS 實驗中表現出最差的合成品質。經過 MHVQ 增強完備性, V2 系統在 TTS 效果上也得到了明顯提升。 V3 所使用的多階段表徵雖然沒有展現進一步完備性的提升,但是在 TTS 上展現出了最佳的效果,無論是韻律自然度還是音頻質量均有明顯改善。這進一步顯示多階段建模、多尺度資訊保留在MSMC-TTS 中具有重要意義。
該工作從研究緊湊型語音表徵角度出發,提出一套新的高性能 TTS(MSMC-TTS)建模方法。系統從音訊中擷取多階段多碼本表徵,以取代傳統聲學特徵。輸入文字可被多階段預測器轉換為這種由多個時間解析度不同的序列組成的語音表徵,並透過神經聲碼器轉換到目標語音訊號。實驗結果表明,相較於主流的基於 Mel-Spectrogram 的 FastSpeech 系統,該系統展示出了更優秀的合成質量,以及對建模複雜度更低的要求。
郭浩瀚:小紅書多媒體智慧演算法團隊實習生。本碩畢業於西北工業大學,期間在 ASLP 實驗室學習,師從謝磊教授。現博士就讀香港中文大學 HCCL 實驗室,師從蒙美玲教授。迄今為止,作為一作,先後在 ICASSP、INTERSPEECH、SLT 國際語音會議上發表論文六篇。
解奉龍:小紅書多媒體智慧演算法團隊語音技術負責人。曾在ICASSP、INTERSPEECH、SPEECHCOM等語音領域會議及期刊發表論文十餘篇, 長期擔任ICASSP、INTERSPEECH等主要語音會議的審稿人,主要研究方向為語音訊號處理與建模。
以上是如何以緊湊型語音表徵打造高性能語音合成系統的詳細內容。更多資訊請關注PHP中文網其他相關文章!