リアルタイムのオーディオおよびビデオ通信 RTC が人々の生活や仕事に不可欠なインフラストラクチャとなった後、それに関連するさまざまなテクノロジーも常に変化しています。オーディオ シナリオにおけるマルチデバイス、マルチパーソン、マルチノイズのシナリオでクリアでリアルな聴覚体験をユーザーに提供する方法など、複雑なマルチシナリオの問題に対処するため。
ICASSP (音響、音声、信号処理に関する国際会議) は、音声信号処理研究分野の代表的な国際会議として、音響分野における最先端の研究の方向性を常に代表してきました。 ICASSP 2023 には、オーディオ信号音声強調アルゴリズムに関連する記事が多数含まれており、その中で、Volcano Engine RTC オーディオ チームには、合計 4# が含まれています。 ## 研究論文が会議に受理され、話者固有の音声強調、エコー キャンセル、マルチチャンネル音声強調、および音質復元に関するトピックが取り上げられました。この記事では、これら 4 つの論文によって解決されたシーンの中核的な問題と技術的解決策を紹介し、音声ノイズ リダクション、エコー キャンセル、人間の声の干渉除去の分野における Volcano Engine RTC オーディオ チームの考えと実践を共有します。 「周波数帯域セグメンテーションリカレントニューラルネットワークに基づくスピーカー固有の強化」
論文アドレス:
https://www.php.cn/link/73740ea85c4ec25f00f9acbd859f861dリアルタイムの話者固有の音声強調タスクでは、解決する必要がある問題が数多くあります。まず、音の全周波数帯域幅を収集すると、モデルの処理の難易度が高くなります。第二に、非リアルタイム シナリオと比較して、リアルタイム シナリオのモデルはターゲット話者の位置を特定することがより困難であり、話者埋め込みベクトルと音声強調モデルの間の情報の相互作用をどのように改善するかが、リアルタイム シナリオの困難です。時間の処理。人間の聴覚的注意に触発された Volcano Engine は、話者情報を導入する Speaker Attentive Module (SAM) を提案し、それをシングル チャネル音声強調モデルとバンド セグメンテーション リカレント ニューラル ネットワーク (バンド分割リカレント ニューラル ネットワーク、BSRNN) の融合と組み合わせます。エコーキャンセルモデルの後処理モジュールとして特定の人間の音声強調システムを構築し、2 つのモデルのカスケードを最適化します。
モデル フレームワーク構造
バンド分割リカレント ニューラル ネットワーク (バンド分割 RNN) 、BSRNN) ) は、フルバンドの音声強調と音楽分離のための SOTA モデルであり、その構造は上図に示されています。 BSRNN は、バンド分割モジュール、バンドおよびシーケンス モデリング モジュール、バンド マージ モジュールの 3 つのモジュールで構成されます。周波数帯域セグメンテーション モジュールは、まずスペクトルを K 周波数帯域に分割し、各周波数帯域の特徴がバッチ正規化 (BN) された後、K 個の全結合層 (FC) によって同じ特徴次元 C に圧縮されます。その後、すべての周波数帯域の特徴が 3 次元テンソルに連結され、周波数帯域シーケンス モデリング モジュールによってさらに処理されます。このモジュールは、GRU を使用して特徴テンソルの時間と周波数帯域の次元を交互にモデル化します。処理された特徴は最終的に周波数帯域結合モジュールを通過し、最終的なスペクトル マスキング関数が出力として得られ、スペクトル マスクと入力スペクトルを乗算することで強化された音声が得られます。話者固有の音声強調モデルを構築するために、各周波数帯域シーケンスのモデリング モジュールの後に話者注意モジュールを追加します。
スピーカー アテンション メカニズム モジュール (SAM)
スピーカー アテンション モジュール (Speaker Attentive Module) の構造は上図のとおりです。核となるアイデアは、話者埋め込みベクトル
eを音声強調モデルの中間特徴のアトラクターとして使用し、それと中間特徴の間の相関 s を常に計算し、注意値と呼ばれる周波数帯域。このアテンション値は、中間特徴 h をスケーリングおよび正規化するために使用されます。具体的な式は次のとおりです。 最初に、完全接続と畳み込みによって e と h を k と q に変換します。
K と q を乗算して次の結果を取得します。アテンション フォース値:
最後に、このアテンション値によって元のフィーチャをスケーリングします:
モデル学習データについては、DNS 5th 話者別音声強調トラックのデータと DiDispeech の高品質音声データを使用し、データクリーニングにより約 3500 個の音声データを取得しました。人間の音声データをクリアします。データクリーニングに関しては、ECAPA-TDNN [1] 話者認識に基づく事前学習モデルを使用して、音声データに残留する干渉話者の音声を除去し、また、第 1 位を獲得した事前学習モデルを使用しました。音声データから残留ノイズを除去する第 4 回 DNS チャレンジ。トレーニング段階では、100,000 を超える 4 秒音声データを生成し、これらの音声に残響を追加してさまざまなチャンネルをシミュレートし、それらをノイズと干渉ボーカルとランダムに混合して、1 種類のノイズ、2 種類のノイズ、ノイズと干渉に設定しました。音声 干渉シナリオは 4 つあります。人間と干渉する話者のみです。同時に、ノイズの多い音声とターゲットの音声のレベルがランダムにスケーリングされ、異なるサイズの入力をシミュレートします。
論文アドレス:
https: //www.php.cn/link/7c7077ca5231fd6ad758b9d49a2a1eeb
エコー キャンセルは、外部ブロードキャスト シナリオにおいて常に非常に複雑かつ重要な問題です。高品質の近端のクリーンな音声信号を抽出するために、Volcano Engine は信号処理と深層学習テクノロジーを組み合わせた軽量のエコー キャンセル システムを提案します。パーソナライズされたディープノイズ抑制 (pDNS) に基づいて、デジタル信号処理に基づく前処理モジュール、ディープノイズ抑制の 2 段階モデルに基づく前処理モジュールを含む、パーソナライズされた音響エコーキャンセレーション (pAEC) システムをさらに構築しました。ニューラル ネットワークと、BSRNN および SAM に基づく話者固有の音声抽出モジュール。
#話者固有のエコー キャンセレーションの全体的なフレームワーク
以下に基づく線形エコー キャンセリングの前処理デジタル信号処理モジュール 前処理モジュールには、主に時間遅延補償 (TDC) と線形エコー キャンセル (LAEC) の 2 つの部分が含まれており、どちらもサブバンド特性に対して実行されます。#信号処理サブバンドに基づく線形エコー キャンセル アルゴリズム フレームワーク遅延補償
リニア エコー キャンセレーション
マルチレベル畳み込み巡回畳み込みニューラル ネットワーク (CRN) に基づく) の 2 段階モデル
モデル モデリングの負担を軽減するために、pAEC タスクを「エコー抑制」と「特定の話者抽出」の 2 つのタスクに分離することをお勧めします。したがって、後処理ネットワークは主に 2 つのニューラル ネットワーク モジュールで構成されています: 予備的なエコー キャンセルとノイズ抑制のための軽量の CRN ベースのモジュールと、近端音声信号の再構築を改善するための pDNS ベースの後処理モジュールです。 第一段階: CRN ベースの軽量モジュールCRN ベースの軽量モジュールは、帯域圧縮モジュール、エンコーダー、2 つのデュアルパス GRU、デコーダーで構成されます。周波数帯域分解モジュール。同時に、マルチタスク学習用の音声アクティビティ検出 (VAD) モジュールも導入しました。これは、近端音声の知覚を改善するのに役立ちます。 CRN は圧縮振幅を入力として受け取り、予備的な複素理想比マスク (cIRM) とターゲット信号のニアフィールド VAD 確率を出力します。 第 2 段階: pDNS に基づく後処理モジュールこの段階の pDNS モジュールには、上で紹介した周波数帯域セグメンテーション リカレント ニューラル ネットワーク BSRNN と、話者注意メカニズム モジュール SAM、カスケード モジュール It が含まれています。軽量 CRN モジュールの後に直列に接続されます。私たちの pDNS システムは、特徴的な話者の音声強調タスクにおいて比較的優れたパフォーマンスを達成しているため、事前トレーニングされた pDNS モデル パラメーターをモデルの第 2 段階の初期化パラメーターとして使用し、前段階の出力をさらに処理します。カスケード最適化を通じて 2 段階モデルを改善し、第 1 段階で近端の音声を予測し、第 2 段階の近端で特定の話者を予測できるようにします。声。また、近距離で音声を認識するモデルの能力を強化するために、話者に近いことに対する音声アクティビティ検出ペナルティも含めます。具体的な損失関数は次のように定義されます。
このうち、
はモデルの第 1 段階と第 2 段階で予測された STFT 特徴にそれぞれ対応します。近端の音声と近端の特定話者の音声の STFT 特徴を表す
は、それぞれモデル予測とターゲット VAD 状態を表します。
エコーキャンセルシステムが複数のデバイスからのエコー、複数の残響、複数のノイズ収集シーンを処理できるように、エコーとクリーンを混合することで 2,000 時間のトレーニング データを取得しました。このうち、エコー データは AEC Challenge 2023 リモート単一音声データを使用し、クリーン スピーチは DNS Challenge 2023 と LibriSpeech から取得され、ニアエンド残響をシミュレートするために使用される RIR セットは DNS Challenge から取得されます。 AEC Challenge 2023 の遠端シングルトーク データのエコーには少量のノイズ データが含まれているため、これらのデータを直接エコーとして使用すると、近端音声の歪みが発生しやすくなります。しかし、前処理を使用した効果的なデータ クリーニング戦略 トレーニングされた AEC モデルは、リモートの単一チャネル データを処理し、残留エネルギーがより高いデータをノイズ データとして識別し、以下に示すクリーニング プロセスを繰り返し実行します。
このような融合エコーキャンセレーションと特定話者抽出に基づく音声強調システムは、ICASSP 2023 AEC Challenge Blind で使用されました。主観的指標と客観的指標がテスト セットで検証されました [2] - 主観的意見スコア 4.44 (Subjective-MOS) と音声認識精度 82.2% (WAcc) を達成しました。
「フーリエ畳み込みアテンション メカニズムに基づくマルチチャネル音声強調」
紙のアドレス:
https://www.php.cn/link/373cb8cd58cad5f1309b31c56e2d5a83
深層学習に基づくビーム重み推定は、マルチチャネル音声強調タスクを解決するために現在使用されている主流の方法の 1 つです。つまり、ネットワークを通じてビーム重みを解決することでマルチチャネル信号をフィルタリングし、純粋な音声を取得します。ビーム重みの推定におけるスペクトル情報と空間情報の役割は、従来のビーム形成アルゴリズムの空間共分散行列を解く原理と似ています。ただし、既存のニューラル ビームフォーマーの多くは、ビームの重みを最適に推定できません。この課題に対処するために、Volcano Engine は、周波数特徴軸上にグローバルな受容野を提供し、周波数軸のコンテキスト特徴を強化できるフーリエ畳み込みアテンション エンコーダー (FCAE) を提案します。同時に、入力特徴からスペクトルのコンテキスト特徴と空間情報をキャプチャするための FCAE ベースの畳み込み再帰エンコーダー/デコーダー (CRED) 構造も提案しました。 モデル フレームワーク構造ビーム重量推定ネットワーク このネットワークは、埋め込みビーム ネットワーク (Embedding and Beamforming Network、EaBNet) を使用します。構造パラダイムは、ネットワークをエンベディング モジュールとビーム モジュールの 2 つの部分に分割し、エンベディング モジュールはスペクトルと空間情報を集約するエンベディング ベクトルを抽出するために使用され、そのエンベディング ベクトルをビーム部分に送信してビームの重みを導出します。ここでは, CRED 構造を使用して埋め込みテンソルを学習します. マルチチャネル入力信号は STFT によって変換された後, 埋め込みテンソルを抽出するために CRED 構造に送信されます. 埋め込みテンソルは従来の空間共分散行列に似ていますビームフォーミングを行い、識別可能な音声とノイズの特徴を含みます。埋め込みテンソルは、LayerNorm2d 構造を通過し、次に 2 つのスタックされた LSTM ネットワークを通過し、最後に線形層を通過してビームの重みを導出します。マルチチャネル入力スペクトル特性にビーム重みを適用し、フィルタリングと加算演算を実行して、最終的に純粋な音声スペクトルを取得し、ISTFT 変換を行うと、目的の時間領域波形が得られます。 CRED の構造##
私たちが使用する CRED 構造は上の図に示されています。このうち、FCAE はフーリエ畳み込みアテンション エンコーダ、FCAD は FCAE と対称的なデコーダであり、ループ モジュールはディープ フィードワード シーケンシャル メモリ ネットワーク (DFSMN) を使用してシーケンスの時間依存性をモデル化し、モデルに影響を与えることなくモデル サイズを削減します。パフォーマンス; ジャンプ接続部分は、シリアル チャネル アテンション (Channel Attendance) および空間アテンション (Spatial Attendance) モジュールを使用して、チャネル間の空間情報をさらに抽出し、深い層を接続します。フィーチャと浅いフィーチャは、ネットワーク内の情報の送信を促進します。
フーリエ畳み込みアテンション エンコーダー (FCAE) の構造を上の図に示します。フーリエ畳み込み演算子 [3] からインスピレーションを得たこのモジュールは、変換領域の任意の点での離散フーリエ変換の更新が元の領域の信号に全体的な影響を与えるという事実を利用し、周波数軸特徴の周波数分析 次元 FFT 変換を通じて、周波数軸上で全体的な受容野を取得できるため、周波数軸上のコンテキスト特徴の抽出が強化されます。さらに、空間アテンション モジュールとチャネル アテンション モジュールを導入して、畳み込み表現能力をさらに強化し、有益なスペクトル空間結合情報を抽出し、純粋な音声とノイズの識別可能な特徴についてのネットワークの学習を強化しました。最終的なパフォーマンスの点では、ネットワークはわずか 0.74M のパラメータで優れたマルチチャネル音声強調を実現しました。
データセットに関しては、ConferencingSpeech 2021 コンペティションによって提供されたオープンソース データセットを使用しました。クリーンな音声データには、AISHELL-1、AISHELL-3、VCTK、およびLibriSpeech (train-clean -360) では、信号対雑音比が 15dB を超えるデータを選択してマルチチャネル混合音声を生成し、MUSAN と AudioSet をノイズ データ セットとして使用します。同時に、実際の複数部屋の残響シナリオをシミュレートするために、部屋のサイズ、残響時間、音源、騒音源の位置などの変化をシミュレートすることにより、オープンソース データに 5,000 を超える部屋のインパルス応答を畳み込みました。最終的に 60,000 を超える応答が生成されました マルチチャネル トレーニング サンプル。
論文アドレス:
https://www.php.cn/link/e614f646836aaed9f89ce58e837e2310
Volcano Engine は、特定の話者の音声を強化するなど、音質の修復にもいくつかの試みを行っています。エコーとマルチチャンネルオーディオの強化。リアルタイム通信のプロセスでは、さまざまな形の歪みが音声信号の品質に影響を及ぼし、その結果、音声信号の明瞭さと明瞭度が低下します。 Volcano Engine は、段階的な分割統治戦略を使用して音声品質に影響を与えるさまざまな歪みを修復する 2 段階モデルを提案しています。
下の図は 2 段階モデルの全体的なフレームワーク構成を示しており、このうち、1 段階目のモデルは主にスペクトルの欠落部分を修復し、2 段階目のモデルは主にスペクトルの欠落部分を修復します。 -ステージモデルは、主にノイズ、残響、および最初のステージモデルから発生する可能性のあるアーティファクトを抑制します。
全体のモデルは、Deep Complex Convolution Recurrent Network (DCCRN) [4] アーキテクチャを採用しており、以下の 3 つの部分が含まれます: エンコーダ、タイミング モデリング モジュールおよびデコーダー。画像修復からインスピレーションを得て、Encoder と Decoder の複素数値畳み込みと複素数値転置畳み込みを置き換える Gate 複素数値畳み込みと Gate 複素数値転置畳み込みを導入しました。オーディオ修復部分の自然さをさらに向上させるために、補助トレーニング用に Multi-Period Discriminator と Multi-Scale Discriminator を導入しました。
全体的に S-DCCRN アーキテクチャを採用しており、エンコーダ、2 つの軽量 DCCRN サブモジュール、およびデコーダ (そのうち 2 つの軽量 DCCRN サブモジュール) の 3 つの部分が含まれます。サブバンドとフルバンドのモデリングをそれぞれ実行します。時間領域モデリングにおけるモデルの能力を向上させるために、DCCRN サブモジュールの LSTM を Squeezed Temporal Convolutional Module (STCM) に置き換えました。
ここで音質を修復するためのトレーニングに使用されるクリーン オーディオ、ノイズ、リバーブはすべて 2023 DNS コンペティション データ セットからのものです。クリーン オーディオの合計継続時間は次のとおりです。 750 時間、騒音の合計持続時間は 170 時間です。最初の段階のモデルのデータ拡張では、フルバンド オーディオを使用して、ランダムに生成されたフィルターと畳み込み、20 ミリ秒のウィンドウ長でオーディオ サンプリング ポイントをランダムにゼロに設定し、オーディオをランダムにダウンサンプリングしてスペクトル損失をシミュレートします。まず、音声の振幅周波数と音声収集ポイントにそれぞれランダムなスケールを掛け合わせます。データ拡張の第 2 段階では、第 1 段階ですでに生成されたデータを使用して、さまざまな種類の室内インパルスを畳み込みます。応答として音声データを取得します。残響レベルが異なります。
ICASSP 2023 AEC Challenge で、Volcano Engine RTC オーディオ チームが 一般エコー キャンセレーション (非パーソナライズド AEC) および特定のスピーカー エコー キャンセリング (パーソナライズド AEC) で優勝しました。 このトラックで、 デュアルトーク エコー抑制、デュアルトーク ニアエンド音声保護、ニアエンド シングルトーク バックグラウンド ノイズ抑制、包括的な主観的音声品質スコアリング、および最終音声認識精度## を獲得しました。 # など。指標は他の参加チームよりも大幅に優れており、国際トップレベルに達しています。
上記の技術的ソリューションの後の、さまざまなシナリオにおける Volcano Engine RTC の音声強化処理効果を見てみましょう。 さまざまな信号対ノイズエコー比のシナリオでのエコー キャンセル次の 2 つの例は、異なる信号対エコー エネルギーでの処理前と処理後のエコー キャンセル アルゴリズムの効果の比較を示しています。比率シナリオ。中文字エコー率シナリオ
超低信号エコー率のシーンは、エコー キャンセレーションにとって最大の課題となりますが、このとき、高エネルギーのエコーを効果的に除去するだけでなく、同時に弱いターゲット音声を最大限に保持する必要があります。対象外の話者の声 (エコー) が対象話者 (女性) の声をほぼ完全に覆い隠してしまい、識別が困難になります。#超低信号エコー率シーン
さまざまな背景干渉話者シナリオでの話者抽出
次のサンプルでは、特定のスピーカーにドアベルのようなノイズの干渉と背景のノイズの両方の干渉が発生しています。AI ノイズ リダクションだけではドアベルのノイズしか除去できないため、特定のスピーカーに対して音声処理を行う必要もあります。スピーカーを取り外します。
#ターゲット スピーカーと背景の干渉ボーカルとノイズ
ターゲット話者の声と背景の干渉音声の声紋特徴が非常に近い場合、この時点での特定話者抽出アルゴリズムの課題は大きくなり、特定話者抽出アルゴリズムの堅牢性をテストすることができます。次のサンプルでは、ターゲット話者と背景の干渉音声は 2 つの似た女性の声です。 ターゲットの女性の声と干渉する女性の声が混在しています
概要と展望上記では、特定のスピーカーのノイズ低減、エコーキャンセル、マルチチャンネル音声強調などにおける深層学習に基づいて、Volcano Engine RTC オーディオ チームによって作成されたいくつかのソリューションと効果を紹介します。 将来のシナリオ音声ノイズリダクションを騒音シーンに適応させる方法、より広範囲の音質修復でオーディオ信号の複数タイプの修復を実行する方法、軽量で複雑度の低いモデルを実行する方法など、依然として多方向の課題に直面しています。さまざまな端末上で、これらの課題はまた、私たちの次の焦点となる研究の方向性となります。
以上がリアルタイム通話で使用される AI ベースの音声強化技術の一部を解明するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。