音声生成の「スマートな出現」: 100,000 時間のデータトレーニング、Amazon が 10 億のパラメータを提供 BASE TTS

WBOY
リリース: 2024-02-16 18:40:25
転載
1271 人が閲覧しました

生成深層学習モデルの急速な発展により、自然言語処理 (NLP) とコンピューター ビジョン (CV) は大きな変化を遂げました。専門的なトレーニングが必要だった以前の教師ありモデルから、さまざまなタスクを完了するために単純かつ明確な指示のみを必要とする一般的なモデルへ。この変革により、より効率的で柔軟なソリューションが提供されます。

音声処理と音声合成 (TTS) の世界では、変革が起きています。このモデルは、何千時間ものデータを活用することで、合成を実際の人間の音声にますます近づけます。

最近の調査で、Amazon は BASE TTS を正式に開始し、TTS モデルのパラメーター スケールを 10 億という前例のないレベルに増加しました。

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

  • #論文のタイトル: BASE TTS: 10 万時間のデータに基づく 10 億パラメータの音声合成モデルの構築から得た教訓

  • 論文リンク: https://arxiv.org/pdf/2402.08093.pdf

BASE TTS は、大規模な多言語、マルチスピーカー TTS (LTTS) ) システム。トレーニングには約 100,000 時間のパブリック ドメインの音声データが使用されました。これは、以前に最も大量のトレーニング データを保有していた VALL-E の 2 倍に相当します。 LLM の成功体験に触発された BASE TTS は、TTS を次のトークン予測の問題として扱い、それを大量のトレーニング データと組み合わせて、強力な多言語およびマルチスピーカー機能を実現します。

この記事の主な貢献は次のように要約されます:

提案された BASE TTS は、現在 10 億のパラメータを持つ最大の TTS モデルであり、100,000 時間のパブリック ドメインの音声で構成されるデータに基づいています。トレーニング用のデータセット。主観的な評価により、BASE TTS はパフォーマンスにおいて公開 LTTS ベースライン モデルを上回ります。

この記事では、BASE TTS をより大きなデータ セットとモデル サイズに拡張することで、複雑なテキストに適切な韻律をレンダリングする機能を向上させる方法を説明します。大規模な TTS モデルのテキスト理解およびレンダリング能力を評価するために、研究者らは「緊急能力」テスト セットを開発し、このベンチマークにおける BASE TTS のさまざまなバリアントのパフォーマンスを報告しました。結果は、データ セットのサイズとパラメーターの数が増加するにつれて、BASE TTS の品質が徐々に向上することを示しています。

3. WavLM SSL モデルに基づく新しい離散音声表現が提案され、音声信号の音韻および韻律情報のみをキャプチャすることを目的としています。これらの表現はベースライン量子化方法よりも優れており、高い圧縮レベル (わずか 400 ビット/秒) にもかかわらず、シンプルで高速なストリーミング デコーダによって高品質の波形にデコードできます。

次に、用紙の詳細を見てみましょう。

ベース TTS モデル

最近の音声モデリング作業と同様に、研究者は LLM ベースのアプローチを採用して TTS タスクを処理しています。テキストは、離散音声表現 (音声コードと呼ばれる) を予測する Transformer ベースの自己回帰モデルに入力され、線形層と畳み込み層で構成される個別にトレーニングされたデコーダーによって波形にデコードされます。

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

BASE TTS は、研究者が音声エンコーディングと呼ぶ、個別の音声表現が後に続くテキスト トークンの共同配布をシミュレートするように設計されています。オーディオ コーデックによる音声の離散化が設計の中心となっています。これにより、LTTS における最近の研究結果の基礎となっている LLM 用に開発された手法を直接適用できるようになります。具体的には、クロスエントロピートレーニング目標を持つ復号化自己回帰Transformerを使用して音声コーディングをモデル化します。シンプルではありますが、この目標により、表情豊かな音声の複雑な確率分布を捉えることができるため、初期のニューラル TTS システムで見られた過度の平滑化の問題を軽減できます。暗黙的な言語モデルとして、十分なデータで十分な大きさのバリアントがトレーニングされると、BASE TTS は韻律レンダリングにおいても質的な飛躍を遂げます。

離散言語表現

離散表現は LLM の成功の基礎ですが、音声におけるコンパクトで有益な表現を識別することはテキストほど明白ではありません。探索も減ります。 BASE TTS の場合、研究者は最初に VQ-VAE ベースライン (セクション 2.2.1) の使用を試みました。これは、個別のボトルネックを通じてメル スペクトログラムを再構築するオートエンコーダー アーキテクチャに基づいています。 VQ-VAE は、特に TTS のモデリング ユニットとして、音声および画像表現のパラダイムとして成功しました。

研究者らは、WavLM ベースの音声コーディングを通じて音声表現を学習する新しい方法も導入しました (セクション 2.2.2)。このアプローチでは、研究者は WavLM SSL モデルから抽出された特徴を離散化し、メル スペクトログラムを再構築します。研究者らは、話者の分離を容易にするために追加の損失関数を適用し、バイトペア エンコーディング (BPE) を使用して生成された音声コードを圧縮してシーケンスの長さを短縮し、より長いオーディオ モデリングにトランスフォーマーを使用できるようにしました。

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

與流行的音訊編解碼器相比,這兩種表示法都經過了壓縮(分別為 325 bits/s 和 400 bits/s),以實現更有效率的自回歸建模。基於此壓縮水平,接下來的目標是移除語音編碼中可在解碼過程中重建的訊息(說話者、音訊噪音等),以確保語音編碼的容量主要用於編碼語音和韻律訊息。

自回歸語音建模(SpeechGPT)

研究者訓練了一個GPT-2 架構的自回歸模型“SpeechGPT”,用於預測以文本和參考語音為條件的語音編碼。參考語音條件包括從同一說話者隨機選擇的語句,該語句被編碼為固定大小的嵌入。參考語音嵌入、文字和語音編碼被串聯成一個序列,該序列由基於 Transformer 的自回歸模型建模。研究者對文字和語音使用單獨的位置嵌入和單獨的預測頭。他們從頭開始訓練了自回歸模型,而不對文本進行預訓練。為了保留文字訊息以指導擬聲,也對 SpeechGPT 進行了訓練,目的是預測輸入序列文字部分的下一個 token,因此 SpeechGPT 部分是純文字 LM。與語音損失相比,此處對文字損失採用了較低的權重。

波形產生

此外,研究者指定了一個單獨的語音編碼到波形解碼器(稱為「語音編碼解碼器」),負責重建說話者身份和錄音條件。為了使模型更具可擴展性,他們用卷積層取代了 LSTM 層,對中間表示進行解碼。研究表明,這種基於卷積的語音編碼解碼器計算效率高,與基於擴散的基線解碼器相比,整個系統的合成時間減少了 70% 以上。

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

研究者同時指出,實際上語音編碼解碼器的輸入並不是語音編碼,而是自回歸 Transformer 的最後一個隱藏狀態。之所以這樣做,是因為先前 TortoiseTTS 方法中密集的潛在表徵提供了比單一語音代碼更豐富的資訊。在訓練過程中,研究者將文字和目標程式碼輸入訓練好的 SpeechGPT(參數凍結),然後根據最後的隱藏狀態對解碼器進行調整。輸入 SpeechGPT 的最後隱藏狀態有助於提高語音的分段和聲學質量,但也會將解碼器與特定版本的 SpeechGPT 聯繫起來。這使得實驗變得複雜,因為它迫使兩個組件總是按順序建構。這項限制需要在今後的工作中加以解決。

實驗評估

研究者探索了縮放如何影響模型針對具有挑戰性的文本輸入產生適當的韻律和表達的能力,這與LLM 透過數據和參數縮放「湧現」新能力的方式類似。為了驗證這個假設是否同樣適用於LTTS,研究者提出了一個評估方案來評估TTS 中潛在的湧現能力,確定了七個具有挑戰性的類別:複合名詞、情感、外來語、副語言、標點符號、問題和句法複雜性。

多項實驗驗證了BASE TTS 的結構及其品質、功能和計算性能:

  • 首先,研究者比較了基於自動編碼器和基於WavLM 的語音編碼所達到的模型品質。

  • 然後,研究者評估了對語音編碼進行聲學解碼的兩種方法:基於擴散的解碼器和語音編碼解碼器。

  • 在完成這些結構消融後,研究者評估了 BASE TTS 在資料集大小和模型參數的 3 種變體中的湧現能力,並由語言專家進行了評估。

  • 此外,研究者還進行了主觀的MUSHRA 測試以衡量自然度,以及自動可懂度和說話人相似度測量,還報告了與其他開源文本到語音模型的語音品質比較。

VQ-VAE 語音編碼vs. WavLM 語音編碼

為了全面測試兩種語音token 化方法的品質和通用性,研究者對6 位美式英語和4 位西班牙語說話者進行了MUSHRA 評估。就英語的平均 MUSHRA 分數而言,基於 VQ-VAE 和 WavLM 的系統不相上下(VQ-VAE:74.8 vs WavLM:74.7)。然而,對於西班牙語,基於 WavLM 的模型在統計上顯著優於 VQ-VAE 模型(VQ-VAE:73.3 vs WavLM:74.7)。請注意,英語資料約佔資料集的 90%,而西班牙語資料僅佔 2%。

表3 顯示了按說話者分類的結果:

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

#由於基於WavLM 的系統表現至少與VQ-VAE 基準相當或更好,因此研究者在進一步的實驗中使用它來表示BASE TTS。

基於擴散的解碼器 vs. 語音代碼解碼器

如上文所述,BASE TTS 透過提出端對端語音編碼解碼器,簡化了基於擴散的基線解碼器。此方法具有流暢性,推理速度提高了 3 倍。為了確保這種方法不會降低質量,研究者對所提出的語音編碼解碼器與基準進行了評估。表4 列出了對4 位說英語的美國人和2 位說西班牙語的人進行的MUSHRA 評估結果:

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

結果顯示,語音編碼解碼器是首選方法,因為它不會降低質量,而且對大多數語音而言,它能提高質量,同時提供更快的推理。研究者同時表示,結合兩個強大的生成模型進行語音建模是多餘的,可以透過放棄擴散解碼器來簡化。

湧現能力:資料和模型規模的消融

表1 按BASE-small、BASE-medium 和BASE-large 系統報告了所有參數:

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

三個系統的語言專家判斷結果以及每個類別的平均分數如圖4 所示:

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

在表5 的MUSHRA 結果中,可以注意到語音自然度從BASE-small 到BASE-medium 有明顯改善,但從BASE-medium 到BASE-large 的改善幅度較小:

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

BASE TTS vs. 產業baseline

整體來說,BASE TTS 產生的語音最自然,與輸入文字的錯位最少,與參考說話者的語音最相似,相關結果如表6 及表7 所示:

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

語音編碼解碼器帶來的合成效率提升

語音編碼解碼器能夠進行串流處理,即以增量方式產生語音。將這項功能與自回歸 SpeechGPT 結合,該系統的首字節延遲可低至 100 毫秒 —— 只需幾個解碼語音代碼就足以產生可懂的語音。

這種最低延遲與基於擴散的解碼器形成了鮮明對比,後者需要一次性生成整個語音序列(一個或多個句子),而首字節延遲等於總生成時間。

此外,研究者還觀察到,與擴散基線相比,語音編碼解碼器使整個系統的計算效率提高了 3 倍。他們執行了一個基準測試,在 NVIDIA® V100 GPU 上產生 1000 個持續時間約 20 秒的語句,批次大小為 1。平均而言,使用擴散解碼器的十億參數 SpeechGPT 需要 69.1 秒才能完成合成,而使用語音編碼解碼器的相同 SpeechGPT 只需要 17.8 秒。

更多研究細節,可參考原論文。

以上が音声生成の「スマートな出現」: 100,000 時間のデータトレーニング、Amazon が 10 億のパラメータを提供 BASE TTSの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:jiqizhixin.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート