統計パラメトリック音声合成方法は、その柔軟性により音声合成の分野で広く注目を集めています。近年、機械学習研究の分野におけるディープ ニューラル ネットワーク モデルの適用は、従来の方法と比較して大きな利点を達成しています。統計的パラメトリック音声合成におけるニューラル ネットワークに基づくモデリング手法の適用は徐々に深まり、音声合成の主流の手法の 1 つになりました。
統計的パラメトリック音声合成のためのバックエンド音響モデリングがこの記事の主題です。
#パラメータ化音声合成のバックエンドフレームワーク図に示すように、統計パラメータのバックエンドフレームワーク音声合成について説明します。主に、トレーニングと合成の 2 つの段階が含まれます。 トレーニング フェーズでは、サウンド ライブラリ内の音声波形と対応するテキスト特徴が入力として使用されます。音声波形はボコーダーを通じて抽出され、音響モデリングのためにテキスト特徴と結合されます。 合成段階では、トレーニングされた音響モデルに従って、合成されるテキスト特徴が入力され、対応する音響特徴が予測されます。予測された音響特徴は、ボコーダーを使用して音声波形に変換されます。ボコーダーと音響モデルは、統計的パラメトリック音声合成システムの重要なコンポーネントです。 音声生成のソース フィルター モデルは、音声波形パラメータ化プロセス中に音声の短期スペクトルを基本周波数とスペクトル包絡線に分離するために使用されます。通常、時間領域の波形や周波数領域の高調波を解析することで音声の励起特性を取得し、音声波形を短時間フーリエ変換して得られる振幅スペクトルから時間と周波数の周期性を除去して、音声のスペクトルパッケージを取得します。スピーチ、ネットワーク。この方法は、音声信号をよりよく理解して処理するのに役立ちます。 スペクトル包絡線の次元数が高いため、モデリングが困難になるため、通常はスペクトル包絡線の次元数を減らす必要があります。音声波形の再構成は、音声の音響パラメータから元の音声を復元するのとは逆のプロセスです。音声の基本周波数、スペクトル包絡線、励起特性を指定し、適切な位相制約と組み合わせることで、STFT 振幅スペクトルを再構築できます。 継続時間モデリングは、統計的パラメトリック音声合成のもう 1 つのモジュールです。デュレーションモデリングにはボコーダーは必要ありません。基本的なフレームワークは音響モデリングと似ています。統計モデルは、与えられたテキストの特徴に対応する時間長の確率分布をモデル化するために使用されます。 HMM に基づく統計パラメータ音声合成手法は、20 年以上の開発を経て、成熟した音声合成手法になりました。 このセクションでは、隠れマルコフ モデルとその理論的基礎を紹介します。特定の位相制約と組み合わせて、STFT 振幅スペクトルが再構築されます。継続時間モデリングは、統計的パラメトリック音声合成のもう 1 つのモジュールです。デュレーションモデリングにはボコーダーは必要ありません。基本的なフレームワークは音響モデリングと似ています。統計モデルは、テキストの特徴が与えられた場合に、対応する時間長の確率分布をモデル化するために使用されます。 HMM に基づく統計パラメータ音声合成手法は、20 年以上の開発を経て、成熟した音声合成手法になりました。 隠れマルコフ モデルは、一連の隠れ状態変数と一連の観測変数で構成されるシーケンス モデリングの確率モデルです。 HMM モデルには 2 つの仮定があります。 状態変数は、一次マルコフ連鎖に従います。つまり、式 (1) に示すように、現在の状態は前の状態にのみ関連します。 ある瞬間における観測変数の確率分布は、現時点の状態にのみ関係し、状態とは何の関係もありません。または、式 (2) に示すように、他の瞬間の観測変数。 通常、HMM モデルでは が巧妙に行われます。 HMM の状態遷移行列 A が形成され、観測変数の確率密度は次のとおりです。 HMM の出力確率は次のとおりです。 HMM ベースの統計的パラメトリック音声合成方法における音響モデリングの中心原理は、HMM モデルを使用して音響の確率的モデリングを実行することです。特定の状況における一連の音声の特徴。 システム全体の構成には、音声音響特徴の選択、モデリング単位の選択、HMM モデルの構成が含まれます。音声合成システムにおける音響特徴には、励起特徴とスペクトル特徴が含まれます。 スペクトル特徴量の選択では、HMMモデリングの難易度を下げるために、メルケプストラムや線スペクトルペア特徴量など、次元間の相関を除去した低次元スペクトル表現が一般的に使用されます。音声信号の短期定常特性と HM のモデリング能力を考慮すると、音声合成システムの HMM は通常、中国語の母音単位などの音素レベルの単位をモデル化します。音声のタイミング特性により、オーディオ モデリングにおける HMM のトポロジは、多くの場合、左から右への一方向のトラバーサル状態になります。HMMに基づく統計パラメータ音声合成システムの枠組み
図は、HMMに基づく統計パラメータ音声合成システムの枠組みを説明したものです。研修段階と総合段階に分かれます。トレーニング フェーズには、音声音響特徴抽出と HMM モデルのトレーニングが含まれます。 HMM モデルはモデリング単位として音素を使用するため、通常、モデリングの精度を向上させるために 3 つのコンテキスト関連の音素がモデル化されます。
最初のシステムトレーニングプロセスでは、HMM モデルの分散の下限を推定し、次にシングルトーン HMM モデルをモデル初期化パラメータとしてトレーニングし、次にコンテキスト関連の 3 音素 HMM モデルをトレーニングします。 、最後に決定木に基づいて Mn 圧力クラスタリングを実行します。
合成段階では、まずテキストを解析し、予測時間長と組み合わせて、決定木に基づいてコンテキスト関連のHMMモデル列を決定し、連続音響特徴量列と音声波形を生成します。最尤パラメータ生成アルゴリズムによって取得され、シンセサイザーによって合成されます。 HMM に基づく統計的パラメトリック音声合成システムは滑らかすぎるのですが、その理由の 1 つは HMM のモデリング能力が限られていることです。
近年、機械学習の一分野としてディープラーニングが急速に発展しています。深層学習とは、複数の非線形変換と複数の処理層で構成されるネットワーク モデル、つまりニューラル ネットワークの使用を指します。 DNN とインチの優れたモデリング機能により、DNN と RNN に基づく音響モデリング手法は統計的パラメトリック音声合成に適用され、その効果は HMM に基づく音響モデリング手法より優れています。
統計パラメトリック音声合成音響モデリングの主流の手法となっています。 DNN と RNN に基づく音声合成システムは、システムの枠組みが似ています。
#ニューラルネットワークに基づく音声合成手法のフレームワーク図図に示すように、図の入力特徴は次のとおりです。テキストの特徴から抽出されます。つまり、離散的または連続的な数値特徴を使用してテキストを記述します。 DNN および RNN に基づく統計パラメータ音声合成システムのトレーニングでは、通常、トレーニング基準を採用し、BP アルゴリズムと SGD アルゴリズムを使用してモデル パラメータを更新し、予測された音響パラメータが自然な音響パラメータにできる限り近づくようにします。 。合成段階では、合成されたテキストからテキストの特徴が抽出され、DNN または RNN を通じて対応する音響パラメータが予測され、最後にボコーダーを通じて音声波形が合成されます。 現在、DNN と RNN に基づくモデリング手法は主に、基本周波数やスペクトル パラメーターなどの音声音響パラメーターに適用されています。期間情報は、依然として他のシステムを通じて取得する必要があります。さらに、DNN モデルと RNN モデルの入力機能と出力機能を時間内に調整する必要があります。以上がインテリジェントな音声合成の中心原理の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。