Wav2vec 2.0 [1]、HuBERT [2]、WavLM [3]、およびその他の音声事前トレーニング モデル。数万時間のラベルなし音声データ (Libri-light など) に対する自己教師あり学習による) により、自動音声認識 (ASR)、テキスト読み上げ (TTS)、音声変換 (VC) などの下流の音声タスクのパフォーマンスが大幅に向上します。ただし、これらのモデルには公開中国語バージョンがないため、中国語音声研究シナリオに適用するには不便です。
WenetSpeech [4] は、NPU、Mobvoi、およびヒルシェル データ セット。 中国語音声事前トレーニング モデルのギャップを埋めるために、WenetSpeech からの 10,000 時間のデータ トレーニングに基づいた中国語バージョンの Wav2vec 2.0 および HuBERT モデルをオープンソース化しました。
事前トレーニング済みモデルのパフォーマンスを検証するために、ASR タスクの検証を実行しました。実験結果は、100 時間の教師付きデータを含む ASR タスクにおいて、事前トレーニング モデルによって学習された音声表現は、従来の音響 FBank 機能と比較して大幅なパフォーマンスの向上を示していることを示しています。 1000 時間の監視とデータの比較可能な結果。
#モデルリンク: https://github.com/TencentGameMate/chinese_speech_pretrain
モデルの紹介Wav2vec 2.0モデル図 1: Wav2vec 2.0 モデル構造 (Baevski et al., 2020)
Wav2vec 2.0 [1] は、2020 年に Meta によって公開された教師なし音声事前トレーニング モデルです。その中心的なアイデアは、ベクトル量子化 (VQ) を通じて自己構築された教師ありトレーニング ターゲットを構築し、入力を大量にマスクしてから、トレーニングに対照的な学習損失関数を使用することです。モデル構造は上の図 1 に示されており、畳み込みニューラル ネットワーク (CNN) に基づく特徴抽出器は、元のオーディオをフレーム特徴のシーケンスにエンコードし、VQ モジュールを通じて各フレーム特徴を離散特徴 Q に変換します。自己監視対象として使用されます。同時に、フレーム特徴シーケンスはマスキング操作を受けて、Transformer [5] モデルに入力され、コンテキスト表現 C が取得されます。最後に、マスク位置のコンテキスト表現と対応する離散特徴 q の間の距離は、学習損失関数、つまり正のサンプルのペアを比較することによって短縮されます。元の論文では、Wav2vec 2.0 BASE モデルは 12 層の Transformer 構造を使用し、1,000 時間の LibriSpeech データでトレーニングされていますが、LARGE モデルは 24 層の Transformer 構造を使用し、60,000 時間の Libri-light データでトレーニングされています。トレーニング時間に関しては、BASE モデルは 64 枚の V100 グラフィックス カードを使用して 1.6 日間トレーニングし、LARGE モデルは 128 枚の V100 グラフィックス カードを使用して 5 日間トレーニングします。ダウンストリームの ASR 評価では、10 分間の教師ありデータのみを使用した場合でも、システムはワード誤り率 (WER) の結果 4.8 を達成しました。HuBERT モデル
##図 2: HuBERT モデルの構造 (Hsu et al., 2021)HuBERT [2] は、2021 年に Meta によって公開されたモデルです。モデル構造は Wav2vec 2.0 に似ていますが、違いはトレーニング方法です。 Wav2vec 2.0 はトレーニング中に音声特徴を自己教師ありターゲットとして離散化しますが、HuBERT は MFCC 特徴または HuBERT 特徴に対して K 平均法クラスタリングを実行することによってトレーニング ターゲットを取得します。 HuBERT モデルは反復トレーニング手法を採用しています。BASE モデルの最初の反復では、MFCC 特徴に対してクラスタリングを実行します。2 回目の反復では、最初の反復で得られた HuBERT モデルの中間層の特徴に対してクラスタリングを実行します。LARGE モデルと XLARGE モデルは、 BASE モデルの 2 番目の反復では、クラスタリング用の特徴が抽出されます。元の論文の実験結果から判断すると、特にダウンストリーム タスクの教師ありトレーニング データが 1 時間 10 分など非常に少ない場合、HuBERT モデルは Wav2vec 2.0 よりも優れています。
実験構成WenetSpeech [4] train_l セットからの 10,000 時間の中国語データを教師なし事前トレーニング データとして使用します。データは主に YouTube と Podcast から取得され、さまざまな種類の録音シーン、背景雑音、話し方などをカバーしています。その分野には主にオーディオブック、ナレーション、ドキュメンタリー、テレビ シリーズ、インタビュー、ニュース、朗読、スピーチ、バラエティ番組などが含まれます。など10大シーン。 [1、2] のモデル構成に従い、Fairseq ツールキット [6] に基づいて Wav2vec 2.0 モデルと HuBERT モデルをそれぞれトレーニングしました。事前トレーニングされた各モデルには、BASE と LARGE の 2 つのサイズが含まれています。 BASE モデルの場合、8 枚の A100 グラフィックス カードを使用し、勾配累積は 8 で、トレーニング用に 64 枚のグラフィックス カードをシミュレートします。 LARGE モデルの場合、16 枚の A100 グラフィックス カードを使用し、勾配累積は 8 で、トレーニング用に 128 枚のグラフィックス カードをシミュレートします。
下流の音声認識タスクの検証下流の ASR タスクに対する事前トレーニング済みモデルの効果を検証するために、ESPnet の Conformer に従います [7] ,8,9] ツールキット [10] モデル実験構成、つまり、事前トレーニング済みモデルが特徴抽出器として使用され、入力音声抽出事前トレーニング済みモデルの隠れ層表現が重み付けされて合計されます。この表現は、Conformer ASR モデルの入力として従来の FBank 機能を置き換えます。
Aishell 178 時間トレーニング セットをトレーニング用の教師ありデータとして使用し、比較しましたFBank 機能、Wav2vec 2.0 BASE/LARGE モデル機能、および HuBERT BASE/LARGE モデル機能を使用した文字誤り率 (CER) の結果。同時に、トレーニングに 10,000 時間の中国語データの WenetSpeech train_l セットを使用した場合の Aishell テスト セットに対する効果をさらに比較しました。トレーニングデータには可変速度(0.9、1.0、1.1倍)とSpecAugmentデータ拡張技術が使用され、デコード方法はビームサーチで、再スコアリングにはTransformerベースの言語モデルが使用されます。
#表 1: Aishell テスト セットでのさまざまなモデルの単語誤り率 (CER%) の結果
表 1 の結果によると、事前トレーニングされたモデルと数万時間の教師なしデータ トレーニングを組み合わせることで、ダウンストリーム ASR タスクのパフォーマンスが向上することがわかります。大幅に改善されました。特に、HuBERT LARGE モデルを使用した場合、テスト セットで CER が相対的に約 30% 向上し、178 時間の教師付きトレーニング データの下で業界最高の結果が得られました。
WenetSpeech train_s セットの 100 時間の中国語データをトレーニング用の教師ありデータとして使用します。 FBank の機能、Wav2vec 2.0 BASE/LARGE モデルの機能、および HuBERT BASE/LARGE モデルの機能を使用した文字誤り率 (CER) の結果が比較されました。同時に、WenetSpeech train_m セット (1,000 時間) と train_l セット (10,000 時間) の中国データ FBank 機能を使用してモデルの結果をさらに比較しました。トレーニング データは可変速度または SpecAugment データ拡張テクノロジを使用せず、デコード方法はビーム サーチであり、言語モデルの再スコアリングは使用されません。
#表 2: WenetSpeech テスト セットでのさまざまなモデルの単語誤り率 (CER%) の結果
表 2 の結果からわかるように、事前トレーニングされたモデルと数万時間の教師なしデータ トレーニングを組み合わせることで、ダウンストリーム ASR の結果は大幅に向上しました。改善されました。特に音声表現抽出器として HuBERT LARGE を使用する場合、100 時間の教師付きデータでトレーニングされた ASR モデルは、1,000 時間の FBank 機能でトレーニングされたモデルよりも優れたパフォーマンスを示し、10,000 時間のデータでトレーニングされたモデルにさえ近くなります。音声ダウンストリーム タスクに関するさらなる実験結果については、GitHub リンク (https://github.com/TencentGameMate/chinese_speech_pretrain) を参照してください。私たちが提供する中国語音声事前トレーニング モデルを誰でも使用して、研究作業を実行し、中国語および関連シナリオでの音声事前トレーニング モデルの応用を検討することを歓迎します。
以上が中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。