最近、Volcano Voice チームからのいくつかの論文が Interspeech 2023 に選ばれ、短いビデオの音声認識、言語を超えた音色とスタイル、口頭流暢さの評価が取り上げられました。 、など。アプリケーションの方向における革新的なブレークスルー。 Interspeech は、国際音声通信協会 ISCA が主催する音声研究分野のトップカンファレンスの 1 つであり、世界最大の総合的な音声信号処理イベントとしても知られ、世界の言語分野の人々から広く注目されています。 。
Interspeech2023イベント サイト
ランダムな文の連結に基づくデータ拡張による短いビデオの改善音声認識 (ランダム発話連結ベースのデータ拡張によるショートビデオ音声認識の改善)
一般的に言えば、エンドツーエンドの自動音声認識 ( ASR) フレームワークの制限の 1 つは、トレーニング ステートメントとテスト ステートメントの長さが一致しない場合にパフォーマンスが低下する可能性があることです。この論文では、Huoshan Speech チームは、短いビデオ ASR タスクにおけるトレーニングとテスト文の長さの不一致の問題を軽減するフロントエンド データ拡張として、インスタント ランダム センテンス連結 (RUC) に基づくデータ拡張方法を提案しています。
具体的には、チームは、次の観察が革新的な実践において大きな役割を果たしたことを発見しました: 通常、短いビデオの自発的な発話のトレーニング文は、人間が書き起こした文よりもはるかに短いです (平均約3 秒)、音声アクティビティ検出フロントエンドから生成されたテスト センテンスははるかに長かった(平均約 10 秒)。したがって、この不一致によりパフォーマンスの低下が生じる可能性があります。
Volcano Speech チームは、実証作業の目的で 15 の言語のマルチクラス ASR モデルを使用したと述べました。これらの言語のデータセットは 1,000 ~ 30,000 時間の範囲にあります。モデルの微調整フェーズでは、複数のデータからサンプリングして結合したデータもリアルタイムで追加しました。強化されていないデータと比較して、この方法では、すべての言語で平均相対単語誤り率 5.72% の減少が達成されます。テストセットに合格した長文の WER は、RUC が大幅に低下しました。トレーニング後 (青と赤)
実験的観察によると、RUC メソッドは長文の認識能力を大幅に向上させましたが、短文のパフォーマンスは低下しませんでした。さらなる分析により、提案されたデータ拡張手法により、長さの正規化の変更に対する ASR モデルの感度が低下することがわかりました。これは、ASR モデルが多様な環境においてより堅牢であることを意味する可能性があります。要約すると、RUC データ強化方法は操作が簡単ですが、効果は顕著です。
音声と韻律を意識した自己監視方法に基づく流暢性スコアリング
(音声と韻律を意識した自己監視方法に基づく流暢性スコアリング)非母国語の流暢性スコアリングのための韻律を意識した自己教師あり学習アプローチ)
第二言語学習者の言語能力を評価するための重要な要素の 1 つは口頭流暢さです。流暢な発音の主な特徴は、話すときに一時停止、ためらい、または自己修正などの多くの異常現象を起こすことなく、簡単かつ正常に音声を発する能力によって特徴付けられます。ほとんどの第二言語学習者は通常、ネイティブスピーカーよりもゆっくり話し、頻繁に休憩します。話し言葉の流暢さを評価するために、Volcano Speech チームは、音声と韻律の相関に基づく自己教師ありモデリング手法を提案しました。 具体的には、事前トレーニング段階で、モデルの入力シーケンスの特徴 (音響特徴、音響特徴) 、音素 ID、音素継続時間) がマスクされ、マスクされた特徴がモデルに送信されます。コンテキスト関連エンコーダーを使用して、タイミング情報に基づいてマスクされた部分の音素 ID と音素継続時間情報を復元します。より強力な音声と韻律表現能力を備えています。 このソリューションは、シーケンス モデリング フレームワークで元の継続時間、音素、音響情報の 3 つの特徴をマスクして再構築し、機械がコンテキストの音声と継続時間表現を自動的に学習できるようにし、流暢さのスコアリングに適しています。
#音声と韻律に基づくこの自己教師あり学習方法は、この分野の他の方法よりも優れており、機械の結果と社内の人間の専門家を予測します。テスト セット スコア間の相関は
0.833
に達し、これは専門家と専門家の間の相関と同じ 0.831 です。オープンソース データセットでは、機械の予測結果と人間の専門家のスコア間の相関関係は 0.835 に達し、そのパフォーマンスはこのタスクに関して過去に提案された一部の自己教師あり手法を上回りました。 アプリケーション シナリオに関しては、この方法は、口頭試験やさまざまなオンライン口頭演習など、自動流暢性評価が必要なシナリオに適用できます。 自動発音評価における非ネイティブ音声の寄与を解きほぐす
非母語話者の発音評価の基本的な考え方は、学習者の発音と母語話者の発音の間の偏差を定量化することです。したがって、発音評価に使用される初期の音響モデルは、通常、トレーニングにターゲット言語データのみを使用しますが、最近の研究では、非母語の発音データをトレーニングに使用し始めており、母語の音声データがモデルのトレーニングに組み込まれています。非ネイティブ音声を L2 ASR に組み込む目的と、非ネイティブ評価または発音エラー検出の間には根本的な違いがあります。前者の目的は、最適な ASR を達成するためにモデルを可能な限り非ネイティブ データに適応させることです。非母語音声のより高い認識精度と非母語発音の発音レベルの客観的な評価という、一見相反する要件が求められます。
Volcano Speech チームは、発音評価における非母語音声の寄与を、アライメント精度と評価パフォーマンスという 2 つの異なる観点から研究することを目的としています。この目的を達成するために、音響モデルをトレーニングする際に、上の図に示すように、さまざまなデータの組み合わせとテキスト転写フォームを設計しました。上の 2 つの表はそれぞれ、アライメント精度と評価における音響モデルのさまざまな組み合わせのパフォーマンスを示しています。実験結果は、音響モデルのトレーニング中に手動で注釈が付けられた音素シーケンスを持つ非母国語データのみを使用すると、非母語音声の位置合わせが可能になり、発音評価で最高の精度が得られることを示しています。具体的には、トレーニングでネイティブ言語データと非ネイティブ データ (人間が注釈を付けた音素シーケンス) を半分ずつ混合すると、若干悪くなる可能性がありますが、人間が注釈を付けた音素シーケンスを持つ非ネイティブ データのみを使用する場合と同等です。
さらに、母国語データの発音を評価する場合、上記の混合ケースのパフォーマンスが向上します。リソースが限られている中で、10 時間の非母語データを追加すると、使用するテキスト転写タイプに関係なく、母語データのみを使用した音響モデルのトレーニングと比較して、位置合わせの精度と評価パフォーマンスが大幅に向上しました。この研究は、音声評価の分野におけるデータ アプリケーションにとって重要な指針となる重要な意味を持ちます。
ノンスパイクによるフレーム分類の最適化
CTC プロセッサーがタイムスタンプの問題を解決します。 (エンドツーエンドの自動音声認識におけるピーキーでない CTC による単語タイミングのフレームレベル分類器の改善)自動音声認識 (ASR) エンドツーエンドこのドメイン内のシステムは、ハイブリッド システムに匹敵するパフォーマンスを実証しました。 ASR の副産物として、タイムスタンプは多くのアプリケーション、特に字幕生成や計算支援による発音トレーニングなどのシナリオで重要です。このペーパーでは、タイムスタンプを取得するためにエンドツーエンド システムのフレーム レベル分類器を最適化することを目的としています。 。この点で、チームは、フレームレベルの分類器をトレーニングするために CTC (コネクショニスト時間分類) 損失の使用を導入し、CTC のスパイク現象を緩和するためにラベル事前情報を導入し、メル フィルターの出力と ASR を組み合わせました。エンコーダーを入力機能として使用します。 中国語社内の実験では、この方法は単語タイムスタンプ 200ms で 95.68%/94.18% の精度を達成しましたが、従来のハイブリッド システムは 93.0%/90.22% にすぎませんでした。さらに、以前のエンドツーエンドのアプローチと比較して、チームは 7 つの内部言語で 4.80%/8.02% の絶対的なパフォーマンス向上を達成しました。この実験は LibriSpeech に対してのみ行われましたが、単語のタイミングの精度もフレームごとの知識蒸留アプローチによってさらに向上しました。 この研究の結果は、ラベル事前分布を導入し、さまざまなレベルの特徴を融合することによって、エンドツーエンドの音声認識システムにおけるタイムスタンプのパフォーマンスを効果的に最適化できることを示しています。社内の中国語実験では、この方法はハイブリッド システムや以前のエンドツーエンド方法と比較して大幅な改善を達成しました。さらに、この方法は複数の言語に対して明らかな利点も示しています。知識蒸留方法の適用により、単語の精度がさらに向上しました。タイミングの正確さ。これらの結果は、字幕生成や発音トレーニングなどのアプリケーションにとって非常に重要なだけでなく、自動音声認識技術の開発に有用な探索の方向性を提供します。
北京語と英語のコードスイッチング音声認識のための言語固有の音響境界学習書き直された内容: 誰もが知っているように、主な目標はコードスイッチング (CS) の目的は、異なる言語または技術分野間の効果的なコミュニケーションを促進することです。 CS では、文内で 2 つ以上の言語を交互に使用する必要がありますが、複数の言語の単語やフレーズを結合すると、音声認識でエラーや混乱が生じる可能性があり、コード交換音声認識 (CSSR) がより困難になります。ミッション###
通常のエンドツーエンド ASR モデルは、エンコーダー、デコーダー、およびアライメント メカニズムで構成されます。既存のエンドツーエンド CSASR モデルのほとんどは、エンコーダーとデコーダーの構造の最適化のみに焦点を当てており、言語関連のアライメント メカニズムの設計が必要かどうかについてはほとんど議論されていません。既存の研究のほとんどは、中国語と英語が混在するシナリオのモデリング単位として、北京語の文字と英語のサブワードを組み合わせて使用しています。通常、中国語の文字は中国語の単一音節を表し、明確な音響境界を持っていますが、英語のサブワードは音響知識をまったく参照せずに取得されるため、音響境界があいまいになる場合があります。 CSASR システムで中国語と英語の間の良好な音響境界 (整合) を取得するには、言語関連の音響境界学習が非常に必要です。そこで、我々は CIF モデルを改良し、CSASR タスク用の言語区別音響境界学習法を提案しました。モデル アーキテクチャの詳細については、以下の図を参照してください。
モデルは 6 つのコンポーネント、つまりエンコーダー、言語区別重み推定器 (LSWE)、 CIF モジュール、自動回帰 (AR) デコーダ、非自己回帰 (NAR) デコーダ、および言語変更検出 (LCD) モジュール。エンコーダ、自己回帰デコーダ、および CIF の計算プロセスは、元の CIF ベースの ASR メソッドと同じです。言語固有の重み推定器は、言語に依存しない音響境界のモデリングを完了する役割を果たします。非自己回帰 (NAR) デコーダ言語変更検出 (LCD) モジュールはモデルのトレーニングを支援するように設計されており、デコード段階では保持されません。
実験結果は、この方法がオープンソース中国語の 2 つのテスト セットで有効であることを示しています。英国混合データセット SEAME と で新しい SOTA 効果が得られ、MER はそれぞれ 16.29% と 22.81% でした。より大きなデータ量に対するこの方法の効果をさらに検証するために、チームは 9,000 時間の内部データ セットで実験を実施し、最終的に 7.9% の相対的な MER 向上を達成しました。この論文は、CSASR タスクにおける言語区別のための音響境界学習に関する最初の研究でもあることが理解されています。
USTR: 統一表現とプレーン テキストに基づく ASR ドメイン アダプテーション (テキスト専用ドメイン)トランスデューサでの統一音声テキスト表現を使用した適応)
ご存知のとおり、ASR ではドメイン移行は常に非常に重要なタスクでしたが、ターゲットでペアの音声データを取得することは重要でした。ドメインは非常に時間とコストがかかるため、認識効果を高めるために対象ドメインに関連するテキストデータを使用することが多くあります。従来の手法のうち、TTS はトレーニング サイクルと関連データのストレージ コストを増加させますが、ILME や Shallow fusion などの手法は推論の複雑さを増加させます。
このタスクに基づいて、チームはエンコーダを RNN-T に基づくオーディオ エンコーダと共有エンコーダに分割し、音声信号に類似した表現を学習するためにテキスト エンコーダを導入しました。音声とテキストの表現は共有エンコーダ、RNN を介して行われます。 -T loss は、USTR (Unified Speech-Text Representation) と呼ばれるトレーニングに使用されます。 「テキスト エンコーダ部分については、文字シーケンス、電話シーケンス、サブワード シーケンスなど、さまざまなタイプの表現を検討しました。最終結果では、電話シーケンスが最も効果的であることがわかりました。トレーニング方法については、この記事でその方法を検討します。」指定された RNN に基づいています。T モデルのマルチステップ トレーニング メソッドと、完全にランダムな初期化によるシングル ステップ トレーニング メソッドです。」
# 具体的には、チームは LibriSpeech データ セットを使用しました。 SPGISpeech の注釈付きテキストは、ドメイン移行実験のプレーン テキストとして使用されます。実験の結果、対象フィールドにおけるこの方法の効果は基本的にTTSと同じであることが示され、シングルステップトレーニングの効果がより高く、効果は基本的にマルチステップと同じであることがわかりました。 USTR メソッドは、LM が同じテキスト トレーニング コーパスを使用する場合でも、ILME などのプラグイン言語モデルのパフォーマンスをさらに向上させることができます。最後に、ターゲット ドメイン テスト セットでは、外部言語モデルを組み合わせずに、この方法はベースライン WER の 23.55% -> 13.25% と比較して 43.7% の相対的な減少を達成しました。
#知識蒸留に基づく効率的な内部言語モデル推定手法 (効率的な内部言語モデル推定のための知識蒸留アプローチ)
Internal Language Model Estimation (ILME) は、エンドツーエンドの ASR 言語モデル融合においてその有効性が証明されていますが、従来の Shallow fusion と比較して、ILME では内部言語モデルの計算が追加で導入されるため、推論のコストが増加します。内部言語モデルを推定するには、ASR デコーダーに基づいて追加の前方計算が必要になるか、内部言語として密度比法に基づく ASR トレーニング セット テキストを使用して独立言語モデル (DR-LM) がトレーニングされます。モデルの近似値。 ASR デコーダに基づく ILME 法は、ASR パラメータを直接推定に使用するため、通常、密度比法よりも優れた性能を達成できますが、その計算量は ASR デコーダのパラメータ量に依存し、密度比法の利点は次のとおりです。 DR-LM のサイズにより、効率的な内部言語モデルの推定が可能になります。
このため、Volcano Voice チームは、密度比法のフレームワークの下で、ASR デコーダに基づく ILME 法を教師として使用し、DR-LM を抽出して学習することを提案しました。これにより、DR-LM の計算を大幅に削減できます。 ILMEのパフォーマンスを維持しながらILMEのコストを削減します。
実験結果は、この方法が内部言語モデルのパラメータの 95% を削減でき、ASR ベースの方法とパフォーマンスが同等であることを示しています。デコーダ ILME メソッドも非常に似ています。より優れたパフォーマンスの ILME メソッドを教師として使用すると、対応する生徒モデルもより良い結果を達成できます。同等の計算量を伴う従来の密度比手法と比較して、この手法は高リソース シナリオでのパフォーマンスがわずかに優れています。低リソースのクロスドメイン移行シナリオでは、CER ゲインが 8% に達する可能性があり、より堅牢です。融合重み
GenerTTS:クロス言語音声合成における音色とスタイルの一般化のための発音のもつれの解消 (GenerTTS: クロス言語での音色とスタイルの一般化のための発音のもつれの解消) - 言語テキスト読み上げ)
言語の音色やスタイルにまたがる汎用音声合成 (TTS) は、音声を合成することを目的としています。ターゲット言語で訓練されていない特定の参照音色またはスタイルを使用します。特定話者の多言語音声データの取得が困難なことが多いため、音色と発音の分離が困難であること、話法には言語に依存しない部分と言語に依存する部分が混在しているため、文体と発音が混在することなどの課題に直面している。
これらの課題に対処するために、Volcano Voice チームは GenerTTS を提案しました。彼らは、音色と発音/スタイルの関係を解きほぐすために、HuBERT ベースの情報ボトルネックを慎重に設計しました。同時に、スタイルと言語の間の相互情報を最小限に抑えることで、スタイル内の言語固有の情報も排除します。
実験的証明, GenerTTS は、文体の類似性と発音の正確さの点でベースライン システムを上回っており、言語の音色やスタイル全体での汎用性を実現しています。
Huoshan Voice チームは常に、高品質の音声 AI テクノロジー機能とフルスタックの音声製品ソリューションを ByteDance の社内ビジネスラインに提供し、これらを外部の世界に輸出してきました。 Volcano エンジンのサービスを提供します。 2017 年の設立以来、チームは業界をリードする AI インテリジェント音声テクノロジーの研究開発に注力し、より大きなユーザー価値を達成するために AI とビジネス シナリオの効率的な組み合わせを常に模索してきました。
以上がInterspeech 2023 にはいくつかの論文が選ばれ、Huoshan Speech は多くの種類の実際的な問題を効果的に解決しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。