ゲスト | Wang Qiangqiang
コンピレーション | Liu Yuyao
51CTO が主催した前回の AISummit グローバル人工知能技術カンファレンスで、Zuoyebang 音声チームの責任者である Wang Qiangqiang 氏は、基調講演「Zuoyebang Speech Technology Practice」では、Zuoyebang の音声技術実践を音声合成、音声評価、音声認識の 3 つの側面から解説し、音声認識のエンドツーエンド実装、効率的なデータについて説明します。同時シナリオでの音声発音エラーを修正し、モデルの因子微分と耐干渉機能を向上させます。
音声技術に興味のあるより多くの学生が音声技術の現在の発展傾向と最先端の技術実践を理解できるようにするために、王強強教師のスピーチの内容を次のように整理しました。インスピレーションをあなたに。
従来の音声合成技術では、人の声を完全に合成するのに 10 時間以上かかり、長時間の録音セッションが必要でした。これはリコーダーにとって大きな挑戦であり、これほど長い間良好な発音を維持できる人はほとんどいません。少量のデータ量の音声合成技術により、数十の文とレコーダーが話した数分間の音声を使用するだけで、完全な音声合成効果を実現できます。
低データ量音声合成技術は大きく2つに分類されます。 1 つはアノテーションと音声が一致しない場合で、主に 2 つの処理方法があり、1 つは自己教師あり学習で、モデリング単位と音声の対応関係を取得し、アノテーションを使用する自己教師あり学習です。コーパスは、より良い合成効果を達成するために Finetune です; 2 つ目は、ASR を通じてラベルのないコーパスを識別し、TTS を使用して二重関数と二重学習方法を合成して、TTS の合成効果を徐々に向上させることです。
テキストとオーディオのマッチングの場合、主な処理方法は 2 つのタイプに分けられます。1 つは、注釈付きコーパスを使用して多言語事前トレーニング モデルを構築する方法です。もう 1 つはこのソリューションに基づいており、同じ言語の複数の話者が注釈付きデータで事前トレーニングされ、目的の話者のデータを使用して Finetune が実行されて、目的の効果が得られます。
Zuoyebang の音声合成技術フレームワークは、音素部分に FastSpeech2 を使用しています。 FastSpeech2 には、合成速度が速いという主な利点がありますが、同時に、Duration、Pitch、および Energy Predictor も統合されているため、より大きな操作スペースが提供されます。ボコーダーの選択については、音声チームの選択に宿題が役立ちます。 Multi-Band MelGAN は合成効果が高く、非常に高速であるため、Multi-Band MelGAN が使用されます。
基本的な枠組みを決めたら、次に行うのはマルチスピーカー音声合成です。マルチ話者音声合成の一般的なアイデアは、エンコーダに話者埋め込み情報を追加し、特定の話者の情報を学習し、そのモデルを使用してマルチ話者音声合成モデルをトレーニングすることです。最後に、特定のスピーカーを使用して簡単な微調整を実行します。このソリューションにより、10 時間の記録ニーズを約 1 時間に圧縮できますが、実際には、モデルのトレーニング基準を満たす 1 時間の記録を収集することは依然として困難です。小規模データの音声合成の目的は、基本的に、より少ないサウンドを使用して比較的良好なサウンドを合成することです。
したがって、Zuoyebang 音声チームは、M2VOC コンペティションの優勝ソリューションから学び、最終的に D-Vector と ECAPA ベースのスピーカー エンベディングの組み合わせを選択し、スピーカー エンベディングのアップグレードを含む 3 つのアップグレードを実行しました。 ; FastSpeech2 を使用すると、Transformer が Conformer にアップグレードされ、Speaker 情報が LayerNorm に追加されます。
Zuoyebang の音声評価用の基本テクノロジー フレームワークは、基本的に GOP スコアリングを使用します。ユーザーが単語または文章を発音します。しかし、モデルに関しては、Conformer および CGC アテンションベース、つまり完全なエンドツーエンドのモデル トレーニング プロセスにアップグレードされました。 GOP は音と音素、つまりモデリング単位の整合度に大きく依存するため、モデルの学習時に GMM モデルを通じて取得したコーパスの整合情報を追加しました。完全に認証されたモデルと対応する情報を調整することで、非常に効果的なモデルをトレーニングでき、両方の長所を組み合わせることで、GOP のスコアが比較的正確になることが保証されます。
評価シナリオは当然遅延の影響を受けやすいため、遅延とネットワークが GOP 評価システムの実装における 2 つの主要な問題になります。遅延が長く、リアルタイム パフォーマンスが低い場合、全体的なユーザー エクスペリエンスは大きな影響を受けます。さらに、ネットワークに問題が発生し、ユーザーのネットワーク環境が変動すると、ネットワークの遅延と相まって、ユーザーの知覚的な着色時間が 1 秒を超えやすくなり、非常に明らかな停滞感を引き起こし、深刻な影響を及ぼします。コース全体の効果。
上記の問題については、遅延と過剰なメモリの問題は、チャンク マスクを通じてアルゴリズム的に解決できます。チャンクは最大 2 フレーム前方、最大 5 フレーム後方を検索し、遅延の問題は解決されます。
実際のアルゴリズムを実際にテストすると、そのハード遅延はわずか約 50 ミリ秒であり、これは単語が基本的に 50 ミリ秒でアクティブ化されることを意味します。50 ミリ秒は人間の知覚では非常に速いです。したがって、少なくともアルゴリズム レベルでは、ハード遅延の問題は解決されます。これは私たちが行う最初のレベルの作業です。
デバイスとクラウドの統合プラットフォームは、高い同時実行性とネットワーク送信によって引き起こされる問題を解決できます。このプラットフォームは、ユーザーの携帯電話に十分なコンピューティング能力があるかどうかを自動的に判断します。十分な数がある場合は、ローカルのレビューが優先されます。コンピューティング能力が十分でない場合、リクエストはクラウドに送信され、クラウドが評価を実行します。局所的に問題が発生した場合、そのライフサイクルも管理されます。
このソリューションを通じて、瞬間的な高い同時実行性によって引き起こされる問題を解決しました。コンピューティング能力の一部がエンドに転送されるため、クラウドは通常の動作を実現するために元のマシンの 20% を保持するだけで済みます。これにより資源が大幅に節約されます。さらに、アルゴリズムをローカライズした後、遅延の問題も解決されたため、大規模な評価タスクを適切にサポートし、ユーザーに優れたオーディオビジュアル体験をもたらすことができます。
発音誤りの修正が求められる背景には、文脈上の問題や教育リソースの不足がありますが、同様に、この問題点も評価テクノロジーを使用することで解決できます。評価技術を最適化することで、発音が正しいかどうかを判定したり、発音に問題がある箇所を特定したりできます。
技術の選択に関して、評価システムは GOP に基づく安定した評価スキームですが、GOP スキームはオーディオ ユニットとモデリング ユニットの調整に大きく依存します。差別はさらに悪化するだろう。したがって、当初の計画はこの種の音声補正シナリオには適していません。さらに、GOP の考えは、専門知識を活用して発音を修正し、指導することですが、発音の修正において発音の欠落や追加は、GOP にとって対処するのに非常に苦痛であり、多大な手動サポートを必要とします。これには、より柔軟なソリューションが必要であるため、最終的に発音エラー修正に ASR ソリューションを選択しました。
ASR スキームの大きな利点は、トレーニング プロセスがシンプルであり、あまり多くのアライメント情報を必要としないことです。たとえ発音が間違っていたとしても、文脈音素の識別にはあまり影響を与えません。 ASR は追加の読み取りと読み取りの欠落を処理し、当然の理論的および技術的な利点があります。そこで私たちは最終的に、発音エラー修正の技術ベースとして純粋なエンドツーエンドの ASR モデルを選択しました。
同時に、Zuoyebang はこれに基づいて最適化と革新の作業も行いました。まず、アテンション モジュールを介してモデルのトレーニングにアプリオリなテキスト情報が追加されます。第 2 に、ランダム置換によってエラーがシミュレートされ、モデルがエラー修正機能を持つようにモデルがトレーニングされます。第 3 に、モデルが十分に区別されていないため、エラーが階層化されます。 , 多少の誤差は間違っているとは判断されません。上記の解決策により、最終的に誤報率が大幅に減少し、再現率の損失が特に大きくないことが保証され、診断の精度も向上しました。
Zuoyebang の音声認識技術フレームワークは、オリジナルの HMM と比較して、エンドツーエンドの音声認識フレームワークです。 GMM/DNN このソリューションには非常に明白な利点があります: まず、多くの複雑なクラスタリング操作と位置合わせ操作が回避されます。第 2 に、トレーニング プロセスがわずかに単純です。第 3 に、エンドツーエンドのフレームワークでは発音辞書の手動生成が必要ありません。音素情報と系列情報は、音響モデルと言語モデルを一緒に学習することに相当します。
もちろん、その欠点も明らかであり、エンドツーエンド モデルでは、最初により多くの音声データやテキスト データを利用することが難しく、コストがかかります。ラベリングコーパスは非常に高いです。私たちの要件は、内部選択がエンドツーエンドの生成モデルを持ち、最新のアルゴリズムに対応し、コーパス モデル情報を融合できるという目標を達成する必要があるということです。
CTC-CRF については、まず CTC について知る必要があります。 CTC は文全体をモデリングするために生まれましたが、CTC の登場後は、文全体の音響モデルをトレーニングする際に音素と音声の調整は必要なくなりました。一方、CTC のトポロジでは、沈黙を吸収するためのブランクが導入され、実際の効果的なモデリング ユニットの外側の沈黙を吸収できます。一方、文全体の確率を計算する場合は、π に基づく動的計画法アルゴリズムを使用して、文全体のパスを比較的妥当なスケール内に保つため、計算量を大幅に削減できます。これは CTC による非常に画期的な取り組みです。
Zuoyebang が内部で使用する CTC-CRF 音声認識システム。公式を理解し、CRF を通じて文全体の確率を当てはめます。文全体の確率は入力がX、出力がπ(πは上記のCTCのトポロジーで表される)となる系列となるため、CTC-CRFと呼ばれます。
CRF で最も重要なことは、ポテンシャル関数とポテンシャル関数の計画全体です。ポテンシャル関数は、入力が X、出力が πt である条件付き確率に文全体の確率を加えたもので、実際には CRF のノードとエッジに対応します。
#CTC-CRF と一般的に使用される音響モデルのアイデアの間には、特定の違いがあります。一般的に使用される音響モデルには、次の 4 つの DNN-HMM、CTC、RNNT、AED があります。 RNNT の基本的な条件付き確率モデルは、入力 X と出力 Y の確率です。フィッティング目標は、この確率を最大化する maxθ とそのパラメーターです。 CTC 図に示すように、CTC の仮定の 1 つは明らかであり、それは条件付き独立仮定であり、その状態間に関連性はなく、状態間の条件付き確率関係は考慮されません。 RNNT は、図から明らかなように、現在の状態とすべての過去の状態の条件付き確率を考慮します。同じことが AED にも当てはまり、現在の状態と過去の状態の条件付き確率が考慮されます。 しかし、CTC-CRF は実際には条件付き確率に基づくローカル正規化モデルではなく、全文正規化モデルおよびグローバル正規化モデルです。したがって、これは履歴だけでなく未来にも依存し、文全体の確率情報を実際に考慮できることがわかります。これが理論上の最大の違いです。 最初に損失層で CTC-CRF を使用します。これは現在使用されている標準のエンコーダとデコーダであり、次に CTC-CRF と損失を追加して音響モデルをトレーニングします。 -エンドツーエンドの音響モデルプロセス。損失層は、元の CTC 損失の代わりに CTC-CRF 損失を使用します。 CTC-CRF は電話レベルでモデル化されていますが、ここでのアテンションでは、ワード レベルのモデリングを念頭に置いて作成されています。 Phone レベルと Word レベルの 2 つの機能を使用してモデルをトレーニングします。 最後に、具体的な効果についてですが、これは Aishell1 テスト セットに対するいくつかのオープン ソース ツールの効果であり、パラメーターの数もマークされています。 CTC-CRFをベースにしたものが比較的有利であることがわかります。 アルゴリズムの理論的な効果も非常に優れており、ビジネス側に目を向けると、ビジネス側は依然として異なりますが、すべてのビジネス側には、最適な効率を実現するという共通の魅力があります。この問題を解決するために、ホット ワード ソリューションがあります。 Hot Word ソリューションはこの問題を完全に解決し、ビジネス側が識別したい単語を迅速に識別します。 #一般的なホット ワードの解決策は、ホット ワードの拡張された有向グラフを TLG に追加することです。上図は一般的な3値NgramのWFSTデコード図で、実線は条件付き確率、点線はバックオフ確率を表しています。 Zhuoyebang のソリューションは、プレフィックス オートマトンに基づくホット ワード ソリューションですが、ホット ワードの規模が非常に大きいため、効率のボトルネックが発生します。プレフィックス オートマトンを使用することは、特にホット ワード リスト内のホット ワードにヒットする、カバーする、またはカバーする文字列の場合、マルチパターン文字列の一致の問題を解決するのに非常に適しています。 sher などのシーケンスは、she と her の 2 つのホット ワードをカバーします。この接頭辞オートマトン スキームでは、she を取得した後、her に直接ジャンプでき、文字列に含まれる複数のホット ワードをすぐに見つけることができます。結論としては、このソリューションは十分に高速であり、ストレージ領域をある程度節約できるということです。 このソリューションを実際に使用すると、いくつかの問題もあります。プレフィックス ツリーを構築するには、依然としてプレフィックス ツリー全体を走査する必要があり、比較的コストがかかります。ホットワードはリアルタイムで追加する必要があるため、いつでも追加でき、いつでも有効になります。この問題を解決するために、最終的に通常のプレフィックス ツリーとプレフィックス オートマトンの 1 つまたは 2 つのツリーを作成しました。つまり、通常のプレフィックス ツリーにユーザーのホット ワードが追加されます。即時効果が得られます。これは、いつでもオンラインであることと同じであり、ホットワードをアクティブにすることができます。しきい値を超えると、プレフィックス オートマトンが自動的に構築されるため、基本的にユーザー グループの要求が満たされます。上記は主に 3 方向、各方向 1 ~ 2 点で行われますが、この技術的な復号方法は、Zuoyebang の音声技術の実装と実装時の実装プロセスを整理します。に遭遇し、最終的にビジネス側のニーズを比較的満たせるソリューションをどのように出力するか。
しかし、これら 3 つのポイントに加えて、音声グループは音声の原子的な能力も数多く蓄積してきました。評価レベルは非常に細かく、増読、欠読、連読、濁音、アクセント、音の上昇下降まで行われ、さらに中国語と英語の混合認識、声紋、ノイズリダクション、年齢判別も追加されています。
これらのアトミック機能により、アルゴリズム レベルはビジネス側のサポートとサービスをより快適に行うことができます。
Zuoyebang の音声テクノロジー チームの責任者、Wang Qiangqiang 氏。 Zuoyebang に入社する前は、清華大学電子工学部の音声処理および機械知能研究室に勤務し、音声認識アルゴリズムの実装と産業グレードのソリューションの構築を担当していました。 2018 年に Zuoyebang に入社し、音声関連アルゴリズムの研究と実装を担当し、Zuoyebang での音声認識、評価、合成、その他のアルゴリズムの実装を主導し、同社に音声テクノロジー ソリューションの完全なセットを提供してきました。
以上がZuoyebang 音声技術の実践の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。