首個支持國語和方言混說的TTS大模型：河南話、上海話、粵語說得溜-人工智慧-PHP中文網

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

自2024 年GPT-4o 出現以來，巨大投入各公司的資源進行TTS 大模型的研發。近幾個月內，中文語音合成大模型如雨後春筍般湧現，如 chattts、seedtts、cosyvoice 等。

雖然當前語音合成大模型在中文普通話上的效果已與真人幾乎無異，但面對中國紛繁複雜的方言，TTS 大模型卻鮮有涉獵，訓練一個統一的中文各方言語音合成大模型是一項極具挑戰性的任務。

產業痛點與技術瓶頸

技術目前，語音合成大模型在普通話領域已經取得了顯著進展，但在方言領域的發展卻十分緩慢。中國擁有數十種主要方言，每種方言都有獨特的語音特徵和語法結構，這使得訓練一個覆蓋各種方言的 TTS 大模型變得異常複雜。

現有的 TTS 大模型大多專注於普通話，無法滿足多樣化的語音合成需求。此外，方言語料庫的稀缺性以及高品質標註資料的匱乏，也進一步增加了技術難度。

巨人網路AI Lab 的技術創新與突破

為了解決上述難題，巨人網路AI Lab 團隊中的演算法專家和語言學家共同努力，基於中國方言體系，建構了涵蓋20 種方言、超過20 萬小時的普通話和方言資料集。透過這龐大的資料集，我們訓練出了第一個支援多種國語方言混說的 TTS 大模型 ——Bailing-TTS。 Bailing-TTS 不僅能夠產生高品質的普通話語音，還能產生包括河南話、上海話、粵語等在內的多種方言語音。

首個支持國語和方言混說的TTS大模型：河南話、上海話、粵語說得溜

ArXiv: https://arxiv.org/pdf/2408.00284
Homepage: //giantailab.github.io/bailingtts_tech_report/index.html
論文標題：Bailing-TTS: Chinese Dialectal Speech Synthesis Towards

以下是Bailing-TTS 河南話的合成效果：

文本1：

汴水東流無限春，隋家宮闕已成塵。行人莫上長堤望，風起楊花愁殺人。

產生語音1：

文字：

文字2：

我嘞愛好也可多了，好聽豫劇，那腔調兒，聽著得勁兒嘞很。沒事嘞時候我也好出去溜達溜達，逛逛俺河南嘞大好風光。我還好搗鼓點兒吃嘞，像那燴面呀、胡辣湯呀，你別說，我自己做嗞也可像回事兒。

產生語音2：

再給大家聽一下普通話零樣本複製的效果：

Prompt 1：青年-男

生成1：這個問題，嗯嘶，從另一個角度看，是不是對我們來說也是一件好事？

Prompt 2：少年-男

生成2：嘍，明天又是週末啦，一起去看個電影吧。

Prompt 3：老年-女

生成3：說起我們以前三天的事，啊，那真是三天三夜都說不完。

Prompt 4：幼童-女

產生4：哦，你說的是這個啊，這是我去海邊的時候撿到的。

我們採取了多項創新技術來實現這一目標：

1. 統一的方言Token 規範：我們將各方言的token 規範統一，並使普通話與各方言的token 有部分重疊，以利用普通話提供基礎發音能力。這使得我們能夠在有限的數據條件下，實現高品質的方言語音合成。

2. 精細化 Token 對齊技術：我們提出了基於大規模多模態預訓練的精細化 token-wise 對齊技術。

3. 層次混合專家結構：我們設計了一種層次混合專家體系結構，用於學習多個漢語方言的統一表示和每種方言的特定表示。

4. 層級強化學習增強策略：我們提出了層次化的強化學習策略，透過基礎訓練策略和高階訓練策略結合的方法，進一步增強TTS 模型的方言表達能力。

實作細節

首個支持國語和方言混說的TTS大模型：河南話、上海話、粵語說得溜

^{時中對> 🎜>}1. 基於大規模多模態預訓練的精細化Token 對齊

為了實現文字和語音token 的精細化對齊，我們提出了一個多階段、多模態的預訓練學習框架。

第一階段，我們使用無監督的取樣策略，在大規模資料集上進行粗略訓練。第二階段，我們採用精細化採樣策略，在高品質的方言資料集上進行細粒度訓練。此方法能夠有效地捕捉文字和語音之間的細微關聯關係，促進兩種模態的對齊。

2. 層次混合專家Transformer 網路結構

為了訓練適用於多>為了訓練適用於多種漢語方言的統一TTS 模型，我們設計了一種層次混合專家網絡結構和多階段多方言token 學習策略。

首先，我們提出了一種專門設計的混合專家體系結構，用於學習多個漢語方言的統一表示和每種方言的特定表示。然後，我們透過基於交叉注意力的融合機制，將方言 token 注入 TTS 模型的不同層次，以提升模型的多方言表達能力。

3. 層次增強學習增強策略

我們提出了一種層次化的密集學習策略，透過採用基礎策略訓練和進階訓練策略結合的方法，進一步增強TTS 模型的方言表達能力。基礎訓練策略支持探索優質的方言語音表達，高級訓練策略在此基礎上強化不同方言的語音特色，從而實現多種方言的高品質語音合成。

圖2 Dialect MoE 結構

首個支持國語和方言混說的TTS大模型：河南話、上海話、粵語說得溜

實驗結果Bailing-TTS 在國語、多種方言的穩健性、生成品質、自然度上已達到與真人較為接近的程度。

🎜>

在實際的在應用場景評測中，Baling-TTS 均取得了不錯的效果。

首個支持國語和方言混說的TTS大模型：河南話、上海話、粵語說得溜

🎜>

科技的落地應用與未來前景

首個支持國語和方言混說的TTS大模型：河南話、上海話、粵語說得溜

^{目前，這項多方言TTS 大模型已經在多個實際場景中得到應用。例如，在遊戲中為 NPC 配音，影片創作中進行方言配音等。透過這項技術，遊戲和影片內容能夠更加貼近地域文化，提升用戶的沉浸感和體驗感。}

未來，隨著端對端語音互動大模型的進一步發展，這項技術將在方言文化保護、遊戲AI NPC 方言互動等領域展現更大的潛力。在方言保護場景中，透過支持多種方言的語音交互，可以讓下一代便捷地學習、傳承、守護漢語方言，讓漢語方言文化源遠流長。在遊戲場景中，會說方言的可語音互動的智慧 NPC，將進一步提升遊戲內容的表現力。

巨人網路 AI Lab 將持續致力於推動這項技術的創新和應用，為使用者帶來更聰明、更便利的語音互動體驗。

團隊介紹

巨人 AI 實驗室成立於 2022 年，是隸屬於巨人網路的人工智慧技術應用與研究機構。致力於面向 AIGC 內容（圖像 / 文字 / 音訊視訊 / 3D 模型等）生成領域，實現內容生產創作全面智慧化，推動遊戲玩法創新。目前，實驗室已在巨人內部建構起全鏈路 AI 工業化生產管線，同時完成遊戲產業內首個垂類大模型（GiantGPT）備案，率先投入商業化應用。

以上是首個支持國語和方言混說的TTS大模型：河南話、上海話、粵語說得溜的詳細內容。更多資訊請關注PHP中文網其他相關文章！