北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能-AI-php.cn

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

2024 年の GPT-4o の登場以来、業界の企業は TTS 大型モデルの研究開発に莫大なリソースを投資してきました。ここ数か月で、chattts、seedtts、cosyvoice などの大規模な中国語音声合成モデルが登場しました。

現在の大規模音声合成モデルは中国語の北京語を話す現実の人々とほとんど区別がつきませんが、中国の複雑な方言に直面して、TTS 大規模モデルがさまざまな中国語の統一音声合成のトレーニングに関与することはほとんどありませんでした。大きなモデルは非常に困難な作業です。

業界の問題点と技術的ボトルネック

現在、音声合成ラージモデル技術は中国語の分野で大幅な進歩を遂げていますが、方言の分野での発展は非常に遅れています。中国には数十の主要な方言があり、それぞれが独自の音声特徴と文法構造を持っているため、さまざまな方言をカバーする大規模な TTS モデルのトレーニングが非常に複雑になります。

既存の大規模な TTS モデルのほとんどは中国語に焦点を当てており、多様な音声合成のニーズを満たすことができません。さらに、方言コーパスの不足と高品質の注釈データの不足により、技術的な困難がさらに高まります。

Giant Network AI Labの技術革新と躍進

上記の問題を解決するために、Giant Network AI Labチームのアルゴリズム専門家と言語学者が協力して、中国語の方言システム。20 の方言、200,000 時間以上の中国語と方言のデータセット。この巨大なデータセットを通じて、私たちは複数の北京語方言をサポートする最初の大規模 TTS モデル、Bailing-TTS をトレーニングしました。 Bailing-TTS は、高品質の中国語音声を生成できるだけでなく、河南語、上海語、広東語などを含むさまざまな方言音声も生成できます。

北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能

ArXiv: https://arxiv.org/pdf/2408.00284
ホームページ: https://giantailab.github.io/bailingtts_tech_report/index.html
論文タイトル: Bailing- TTS: 人間のような自発的表現に向けた中国語の方言音声合成

以下は、Bailing-TTS 河南方言の合成効果です:

テキスト 1:

ビアン水の流れ東へ無限の春、隋家の宮殿は塵と化した。歩行者は、風が吹き、花々が人を殺すことを心配するために長い堤防に登ってはいけません。

音声 1 を生成します:

テキスト 2:

私は河南オペラを聴くのも素敵で、そのアクセントは聞いていてとても刺激的です。。何もすることがないときは、散歩に出て河南省の美しい景色を眺めることができます。幸いなことに、煮込み麺や辛いスープなど、楽しいものは自分で作ることができます。

生成语音2：

再给大家听一下普通话零样本克隆的效果：

Prompt 1：青年-男

生成1：这个问题，嗯嘶，从另一个角度看，是不是对我们来说也是一件好事？

Prompt 2：少年-男

生成2：喽，明天又是周末啦，一起去看个电影吧。

Prompt 3：老年-女

生成3：说起我们以前的事，啊，那真是三天三夜都说不完。

Prompt 4：幼童-女

生成4：哦，你说的是这个啊，这是我去海边的时候捡到的。

我们采取了多项创新技术来实现这一目标：

1. 统一的方言 Token 规范：我们将各方言的 token 规范统一，并使普通话与各方言的 token 有部分重叠，以利用普通话提供基础发音能力。这使得我们能够在有限的数据条件下，实现高质量的方言语音合成。

2. 精细化 Token 对齐技术：我们提出了基于大规模多模态预训练的精细化 token-wise 对齐技术。

3. 层次混合专家结构：我们设计了一种层次混合专家体系结构，用于学习多个汉语方言的统一表示和每种方言的特定表示。

4. 层次强化学习增强策略：我们提出了层次化的强化学习策略，通过基础训练策略和高级训练策略相结合的方法，进一步增强 TTS 模型的方言表达能力。

实现细节

北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能

️図 1 Bailing-TTS の全体的なアーキテクチャ

参照大規模なマルチモーダル事前トレーニングに基づいた ined トークンの配置

テキストとテキストの洗練された配置を実現するために、音声トークン、多段階、マルチモーダルな事前トレーニング学習フレームワークを提案します。

最初の段階では、教師なしサンプリング戦略を使用して、大規模なデータセットで大まかなトレーニングを実行します。第 2 段階では、洗練されたサンプリング戦略を採用して、高品質の方言データセットに対してきめの細かいトレーニングを実施します。この方法は、テキストと音声の間のきめ細かい相関関係を効果的に捕捉し、2 つのモダリティの調整を促進します。

2. 階層型混合エキスパートTransformerネットワーク構造に基づいて

複数の中国語方言に適した統一TTSモデルをトレーニングするために、階層型混合エキスパートネットワーク構造と多段階マルチを設計しました。 -方言トークンの学習戦略。

まず、複数の中国語の方言の統一表現と各方言の特定の表現を学習するために特別に設計されたハイブリッドエキスパートアーキテクチャを提案します。次に、相互注意に基づく融合メカニズムを通じて TTS モデルのさまざまなレベルに方言トークンを注入し、モデルの複数方言表現機能を向上させます。

3. 階層型強化学習の強化戦略

基本的な戦略トレーニングと高度な方言表現能力を組み合わせることにより、TTS モデルをさらに強化するための階層型強化学習戦略を提案します。基本トレーニング戦略は高品質な方言音声表現の探索をサポートし、高度なトレーニング戦略はこれに基づいてさまざまな方言の音声特徴を強化し、それによって複数の方言で高品質な音声合成を実現します。

北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能

Bailing-TTS は、堅牢性、生成品質、および中国語と複数の方言の自然さ。表 1 は、中国語の一般的な通話と方言における Bailing-TTS のテスト結果です

実際のアプリケーションシナリオの評価では、Bailing-TTS は良好な結果を達成しました。表 2 Bailing-TTS テストの結果では、中国語の一般的な通話、方言、および方言の話者のテスト結果が示されています。複数の方言 TTS の大規模モデルは、多くの実際的なシナリオに適用されています。例えば、ゲームのNPCの吹き替え、映像制作での方言の吹き替えなどです。この技術により、ゲームや映像コンテンツを地域文化に近づけることができ、ユーザーの没入感や体験感が向上します。

将来、エンドツーエンドの音声インタラクション大規模モデルのさらなる開発により、この技術は方言文化保護やゲームAI NPC方言インタラクションなどの分野で大きな可能性を示すでしょう。方言保護シナリオでは、複数の方言での音声インタラクションをサポートすることで、次世代が中国の方言を簡単に学習、継承、保護することができ、中国の方言文化に長い歴史を持たせることができます。ゲームシーンでは、方言を話したり、音声でインタラクトしたりできる知的なNPCがゲームコンテンツの表現力をさらに高めます。

北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能

Giant Network AI Lab は、このテクノロジーの革新と応用を促進し、よりスマートで便利な音声対話エクスペリエンスをユーザーに提供することに引き続き尽力していきます。 チーム紹介

Giant AI Laboratoryは2022年に設立されました。Giant Networkに所属する人工知能技術の応用研究機関です。 AIGC コンテンツ (画像/テキスト/オーディオ/ビデオ/3D モデルなど) 生成の分野に注力し、包括的なインテリジェントなコンテンツ制作と作成を実現し、ゲームプレイの革新を推進します。現在、同研究所はGiant社内にフルリンクAI産業生産パイプラインを構築しており、同時にゲーム業界初の大型垂直モデル（GiantGPT）の登録を完了し、初めて商用化されている。応用。

以上が北京語と方言の混合発話をサポートする初の大規模 TTS モデル: 河南語、上海語、広東語をスムーズに話すことが可能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。