Huoshan Voice の教師なし事前トレーニング技術と「アルゴリズムの最適化 + エンジニアリングの革新」の実装を徹底調査-AI-php.cn

長年にわたり、Volcano Engine は、一般的なビデオプラットフォーム向けに音声認識テクノロジに基づいたインテリジェントなビデオ字幕ソリューションを提供してきました。簡単に説明すると、AI技術を利用して動画内の音声や歌詞を自動でテキスト化して動画作成を支援する機能です。しかし、プラットフォームユーザーの急速な増加と、より豊富で多様な言語タイプの要求に伴い、従来使用されてきた教師あり学習テクノロジーがますますボトルネックに達し、チームは大きな問題に直面しています。

ご存知のとおり、従来の教師あり学習は、特に大規模言語の継続的な最適化や小規模言語のコールドスタートにおいて、手動で注釈が付けられた教師ありデータに大きく依存します。中国語、北京語、英語などの主要言語を例に挙げると、ビデオプラットフォームはビジネスシナリオに十分な音声データを提供しますが、教師付きデータが一定の規模に達すると、継続的なアノテーションの ROI は非常に低くなります。技術担当者は必然的に、大規模言語の音声認識のパフォーマンスをさらに向上させるために、数百の教師付きデータ、数万時間のラベルなしデータを効果的に利用する方法を検討する必要があります。

比較的ニッチな言語または方言の場合、リソース、人員、その他の理由によりデータのラベル付けのコストが高くなります。ラベル付きデータが非常に少ない場合 (約 10 時間)、教師付きトレーニングの効果は非常に低く、正常に収束しないこともあります。また、購入したデータがターゲットシナリオと一致せず、ユーザーのニーズを満たすことができないことがよくあります。仕事。

したがって、火山エンジン音声チームは、ラベル付けされていない大量のデータを可能な限り低いラベル付けコストで最大限に活用し、少ない量で認識効果を向上させる方法を早急に検討する必要があります。ラベル付きデータを作成し、実際のビジネスに実装します。したがって、教師なし事前トレーニングテクノロジーが、ビデオプラットフォームの ASR (自動音声認識/自動音声認識) 機能を小規模言語に普及させるための鍵となっています。

学術コミュニティは、近年、Wav2vec2.0[1]など、音声の教師なし事前トレーニングの分野で多くの重要な進歩を遂げてきましたが、、HuBERT[2]などがありますが、業界での導入事例は少ないので参考にしてください。 全体として、Volcano Voice チームは、次の 3 つの理由が教師なし事前トレーニングテクノロジの実装を妨げていると考えています。

#モデルのパラメーターが大きく、推論のオーバーヘッドが高くなります。大量のラベルなしデータでは、高品質の音声表現を得るために、より大きなモデルを使用した教師なし事前トレーニングが必要ですが、そのようなモデルをオンラインで直接展開すると、高い推論コストが発生します。
教師なし事前トレーニングは音声表現の学習のみに焦点を当てており、目的の効果を達成するには、大量のプレーンテキストでトレーニングされた言語モデルと組み合わせて共同デコードする必要があります。また、エンドツーエンドの ASR 推論エンジンとは互換性がありません。
教師なしの事前トレーニングは費用がかかり、時間がかかり、不安定です。 Wav2vec2.0 を例にとると、3 億パラメータのモデルは、64 個の V100 GPU を使用して 600,000 ステップの事前トレーニングに最長で半月かかりました。また、データ分布の違いにより、ビジネスデータのトレーニングは、発散。

上記の 3 つの主要な問題点を考慮して、アルゴリズムの改善とエンジニアリングの最適化が実行され、完全で推進しやすい実装計画が作成されました。この記事では、実装プロセス、アルゴリズムの最適化、エンジニアリングの最適化に至るまで、ソリューションを詳しく紹介します。

実装プロセス

次の図は、低リソース言語 ASR の教師なし事前トレーニングの実装プロセスであり、大きく分けて データ収集、シードモデルのトレーニング、モデルの移行という 3 つの段階があります。

Huoshan Voice の教師なし事前トレーニング技術と「アルゴリズムの最適化 + エンジニアリングの革新」の実装を徹底調査

教師なし事前トレーニングに基づく ASR 実装プロセス

# #具体的には、データ収集の最初の段階では、言語転用、調達、その他の手段を通じて、ターゲット言語のラベルなし音声、ラベル付き音声、およびプレーンテキストデータを収集できます。

シードモデルトレーニングの第 2 段階は、古典的な「教師なし事前トレーニングと教師あり微調整」プロセスです。 この段階で、音響モデルが取得されます。これは通常、コネクショニスト時間分類 (CTC[3]) 損失関数に基づいて微調整されます。純粋なテキストでトレーニングされた言語モデルと音響モデルを組み合わせることで、良好な認識結果を達成できる完全な音声認識システムが形成されます。シードモデルと呼ばれる理由は、このモデルがビジネスに直接導入するのには適していないためであり、Volcano エンジンは LAS (Listen, Attend and Spell[4]) または RNN- を使用することを好みます。 T (リカレントニューラル) ネットワークトランスデューサー[5]) このタイプのエンドツーエンドモデルはオンラインで展開されます。

主な理由は、LAS/RNN-T が優れたエンドツーエンドのモデリング機能を備えていると同時に、近年従来の CTC モデルよりも優れた結果を達成しているためです。、業界で広く使用されています。 Volcano Engine は、エンドツーエンドの音声認識モデルの推論と展開に関して多くの最適化作業を行い、多くのビジネスをサポートする比較的成熟したソリューションを形成しました。効果をロスなく維持しつつ、エンドツーエンドの推論エンジンを利用できれば、エンジンの運用保守コストを大幅に削減できます。

これに基づいて、チームはモデル移行フェーズである 3 番目のフェーズを設計しました。 主に知識の蒸留のアイデアを活用し、シードモデルを使用してラベルのないデータを疑似ラベルし、トレーニング用に少数のパラメーターを備えた LAS モデルを同期的に提供します。モデル構造の移行と推論計算の圧縮を実現します。 プロセス全体の有効性は広東 ASR で検証されており、具体的な実験結果は次の表に示されています。 #まず第一に、チームは実験比較のために 1kh の完成品データを購入しましたが、LAS モデルを直接トレーニングした場合のパフォーマンスは低く、文字エラー率 (CER) は 44.2% と高かったです。ボルケーノエンジンでは分析の結果、調達データ（会話）とビジネステストセット（ビデオ）フィールドの不一致が主な原因であると考えており、wav2vec2.0 の予備実験でも同様の現象が確認されました。

Huoshan Voice の教師なし事前トレーニング技術と「アルゴリズムの最適化 + エンジニアリングの革新」の実装を徹底調査

調達データを使用した事前トレーニングと比較して、Volcano Engine は対象分野と一致したデータを事前トレーニングに使用するため、ビジネステストセットの CER を向上させることができます。は 42.0% から 29.4% に減少し、ビジネスシナリオのラベルなしデータが 50kh まで蓄積されると、モデルパラメーターは 100M から 300M に増加し、CER はさらに 23.1% に低下します。

最後に、火山エンジンはモデル移行の効果を検証し、広東語モデルを組み合わせて 50kh の言語をデコードしました。ラベルのないデータを使用して擬似ラベルを取得し、LAS モデルをトレーニングします。擬似ラベルトレーニングに基づく LAS モデルは、基本的に CTC シードモデルの認識効果を維持でき、モデルパラメーターの数が 3 分の 1 に削減され、直接展開できることがわかります。オンラインの成熟したエンドツーエンド推論エンジンに基づいています。

#モデルパラメーターと CER の比較

最後に、モデル内でパラメーターの数が変わらないという前提の下で、チームは 50 時間のラベルなしビジネスデータと 10 時間のラベル付きビジネスデータを使用して、23.0% の CER を達成しました。これは、ベースラインモデルと比較して 48% 減少です。 Huoshan Voice の教師なし事前トレーニング技術と「アルゴリズムの最適化 + エンジニアリングの革新」の実装を徹底調査

オンライン計算量と互換性の問題を解決した後、プロセス全体のコアとなる教師なし事前トレーニング技術に焦点を当て、wav2vec2.0 では、Volcano Engine がアルゴリズムとアルゴリズムの 2 つの次元から作業を実行しました。エンジニアリング、最適化。

アルゴリズム最適化wav2vec2.0 は、2020 年にメタ AI によって提案された自己教師あり事前トレーニングモデルとして、教師なし表現を可能にしますスピーチの新たな章。中心となるアイデアは、量子化モジュールを使用して入力特徴を離散化し、比較学習の最適化を通じて、モデルの本体が BERT と同様のランダムマスク部分入力特徴を実現することです。

wav2vec2.0 モデルの構造図 (出典: wav2vec 2.0 図 1 [1])

ビジネスデータで wav2vec 2.0 モデルをトレーニングするときに遭遇する問題が 2 つあります。 : 1 つは学習効率が低く、64 枚のカードを含む 300M の大きなモデルを完了するのに 10 日以上かかること、もう 1 つは学習が不安定で分岐しやすいことです。 この Volcano エンジンは、上記 2 つの問題を軽減するために効率的な wav2vec を提案します。

トレーニング効率が低いという問題に関して、チームはモデルのフレームレートを下げ、入力特徴を波形からフィルターバンクに置き換えることでトレーニング速度を加速しました。フレームレートは元の 20ms から 40ms に変更されました。これにより、特徴抽出畳み込みの計算量が大幅に削減されるだけでなく、Transformer の内部エンコード長も大幅に短縮され、学習効率が向上します。学習が不安定であるという問題は、教師なし事前学習と総合判断による学習方法をビジネスデータの実態と組み合わせて分析することで解決され、比較学習損失は次の式で表されます。

Huoshan Voice の教師なし事前トレーニング技術と「アルゴリズムの最適化 + エンジニアリングの革新」の実装を徹底調査

各フレーム t について、ct はフレームのエンコーダ出力 _{を表します。 q}t は、フレームの量子化された出力を表します。さらに、他のいくつかのフレームを負のサンプルとしてサンプリングする必要があるため、現在のフレームと負のサンプルフレームのセットは、動的に構築された語彙 _Qt と同等になります。

対比学習の最適化目標は、現在のフレームエンコーディングとフレームの量子化結果の間の類似性を最小限に抑えながら、現在のフレームエンコーディングとフレームの量子化結果の間の類似性を最大化することです。他のフレーム。陰性サンプルと陽性サンプル間の類似性と陰性サンプルの数が対照学習の効果を直接決定することを見つけるのは難しくありません。実際の運用では、ビジネスデータの平均長は短く、1 文で 50 個のネガティブサンプルを提供するだけでは十分ではありません。隣接する音声フレーム間の類似性が非常に高いことを考慮すると、マスク領域の連続性を確保する必要があり、それによって表現再構成の難易度が高くなります。

上記の 2 つの問題を解決するために、Volcano エンジンは 2 つの改善を提案しました:

等しい長さのデータストリーム: 事前トレーニングプロセスでは、トレーニングセット全体が最初と最後から接続された音声の一部とみなされます。各文の各トレーニングサンプルを切り出し、固定長を取得します。これは、負のサンプルの数が十分であること、およびコンテキストエンコーディングネットワーク内の長さがさまざまなフレームレートで一貫していることを確認して、トレーニングの堅牢性を確保するために行われます。
適応連続マスク: トレーニングに対するデータノイズの影響を軽減するには、より小さいマスク長を選択します。各マスク領域は強制的に連続しており、マスク領域に対応するオーディオの長さは異なるフレームレートでも同等です。これにより、ノイズの多いデータ下での比較学習の困難が軽減されるだけでなく、さまざまなフレームレートにも適応します。

wav2vec2.0 (w2v) と Efficient wav2vec (w2v-e) のビジネスデータへの効果を比較した結果、次の表に示す結果が得られました (全モデル)はトレーニングに 64 個の V100 GPU を使用しています):

Huoshan Voice の教師なし事前トレーニング技術と「アルゴリズムの最適化 + エンジニアリングの革新」の実装を徹底調査

改良された効率的な wav2vec は、以前と比較して安定して 5% パフォーマンスが向上していることがわかります。オリジナルの wav2vec 2.0 に比べて、トレーニング効率がほぼ 2 倍になっています。

エンジニアリングの最適化

チームが提案した効率的なwav2vecは、アルゴリズムレベルで学習効率を2倍近く向上させましたが、300Mモデルの通信量が多いため、学習にはまだばらつきがあります。通信効率やマルチマシン拡張効率が低い。これに関して、Volcano Engine Voice チームは次のように結論付けています。「同期勾配シナリオにおけるモデルの事前トレーニングの通信効率を向上させるために、BytePS 分散トレーニングフレームワークに基づいた通信バックエンド上のバケットグループ通信最適化テクノロジを完成させました。データ並列効率は 10% の向上を達成できます。同時に、モデルパラメーター定義の順序と勾配更新順序の違いによって引き起こされる待機問題に対処するために、適応パラメーターの並べ替え (パラメーターリオーダー) 戦略も実装されています。」 ##これらの最適化をベースに、さらに勾配累積やその他の技術を組み合わせることで、300M モデルのシングルカード拡張効率は 55.42% から 81.83% に向上し、マルチマシン拡張効率は 60.54% から 91.13% に向上しました。 %. 当初トレーニングに 6.5 日かかったモデルは、現在ではわずか 4 日でトレーニングできるようになり、時間が 40% 短縮されました。

さらに、将来検討される大規模モデルのビッグデータシナリオをサポートするために、Volcano Engine 音声チームはさらにシリーズを完成させました。超大規模モデルの原子能力構築。まず、ローカル OSS テクノロジが実装され、オプティマイザが占有する冗長メモリのほとんどを削除しながらマシン間の拡張効率の問題を解決しました。その後、同期勾配でのバケットをサポートしました。 Lazy init は、ビデオメモリの使用量をパラメータ数の 2 倍に削減し、ピークメモリ値を大幅に削減し、ビデオメモリリソースが不足している非常に大規模なモデルシナリオに適応します。最後に、データ並列処理に基づいて、モデル並列処理とパイプライン並列処理がサポートされます。、1B および 10B モデルでは検証とカスタマイズのサポートが完了しています。この一連の最適化により、大規模モデルとビッグデータのトレーニングのための強固な基盤が築かれます。

現在、低リソース ASR 実装プロセスを採用することで、2 つの低リソース言語がビデオ字幕とコンテンツセキュリティサービスの実装に成功しています。 wav2vec2.0 に基づく事前トレーニングモデルは、音声認識に加えて、オーディオイベント検出、言語認識、感情検出など、他の多くの下流タスクでも大幅な向上を達成しており、ビデオコンテンツのセキュリティにも段階的に実装される予定です。、将来の推奨および分析、オーディオオフロード、電子商取引顧客サービスセンチメント分析およびその他の関連事業。教師なし事前トレーニングテクノロジの実装により、さまざまな種類の音声データのラベル付けコストが大幅に削減され、ラベル付けサイクルが短縮され、ビジネスニーズへの迅速な対応が実現されます。
概要と展望

実際には、Volcano Engine は wav2vec2.0 に基づいた一連の低リソース言語 ASR 実装ソリューションを検討してきました。問題を解決します。高い推論オーバーヘッドの問題を解決し、エンドツーエンドエンジンとのシームレスな接続を実現します。 wav2vec2.0 のトレーニング効率の低さと不安定性という中心的な問題に対処するために、効率的な wav2vec が提案されました。 wav2vec2.0 と比較して、下流タスクへの効果が 5% 向上し、事前トレーニング時間が半分に短縮され、エンジニアリングの最適化と組み合わせることで、最終的な事前トレーニング時間はオリジナルバージョンと比較して 70% 短縮されました。 今後も、Volcano Engine は次の 3 つの方向への探求を続けていきます:

教師なしアルゴリズムのアップグレード: wav2vec 2.0 の後、教師なし音声の事前トレーニングに関する研究作業が始まり、チームは最新の研究を追跡し、それをビジネスシナリオに反映します。この段階では、主に HuBERT[2]、MAE[6]、data2vec[7] などの教師なしモデルを試し、それぞれのダウンストリームアプリケーションを調査します。 . タスクのパフォーマンス。将来的には、教師なしモデルのパフォーマンスは、さまざまなビジネスシナリオに応じた効率的で適応性のある教師なしソリューションの設計、およびさまざまな下流タスクのパフォーマンスを向上させるための一般的な教師なしモデルの設計という 2 つの側面から改善されるでしょう。

多言語とマルチモーダル: 現在、教師なし言語とマルチモーダル言語の組み合わせに関する研究が数多く行われています。 XLSR[8] などの多言語。これに基づいて、Volcano Engine は、事前トレーニングモデルで複数の疎なサブネットワークを分割して異なる言語をモデル化することで、異なる言語間の競合を効果的に軽減する S3Net[9] を提案しました。干渉 (言語干渉) は、大規模なコーパス言語に対して大幅なパフォーマンス向上効果をもたらします。既存の研究は主にオーディオエンコーダ側に焦点を当てており、現在の主流のエンドツーエンドモデルはすべてエンコーダ - デコーダ構造、つまりオーディオテキストマルチモーダルモデリングを採用しています。チームは、純粋なオーディオエンドの事前トレーニングではもはやエンドツーエンドモデルのニーズを満たすことができないと判断し、将来的には、大規模な非整列の共同モデリングを含む、オーディオテキストのマルチモーダル事前トレーニングを検討する予定です。オーディオテキスト、エンドツーエンドモデル、および純粋な教師なしマルチモーダル事前トレーニング。

ビッグデータビッグモデル: 既存モデルのパフォーマンスは 100,000 規模では飽和に近い時間、チームは 100,000 時間の中国語ラベル付きデータでトレーニングされたモデルに基づいて NST[10] トレーニングを行うために 100 万時間のラベルなしデータを使用し、一般的なテストセットで相対的に 7% の CER 削減を達成しました。同時に、モデルの汎化能力が大幅に向上し、20 ドメインのテストセットの平均 CER が 15% 低下しました。数百万時間オーダーの膨大なデータを完全に吸収するには、より大きなモデルが必要ですが、現在、Volcano Engine は 1B パラメータレベルのモデルで暫定的な進歩を遂げています。大規模モデルのパフォーマンス限界は高く、実装が難しいという問題があります。大規模なモデルを実際のビジネスに実装するために、可能な限り可逆圧縮効果を達成するために、行列分解、重みクリッピング、知識蒸留など、さまざまなモデル圧縮手法が今後試行されます。

Volcano Voice、長期サービス ByteDance の各ビジネスライン向けの最先端の音声テクノロジーは Volcano エンジンを通じて開かれ、業界をリードする AI 音声テクノロジー機能と優れた完全な機能を提供します。 -スタック音声製品ソリューションには、音声理解、音声合成、仮想デジタルヒューマン、会話型インタラクション、音楽検索、インテリジェントハードウェアなどが含まれます。現在、Volcano Engine の音声認識と音声合成は複数の言語と方言をカバーしており、多くの技術論文がさまざまなトップ AI カンファレンスに選ばれており、Douyin、Jianying、Feishu、Tomato Novels、Pico およびその他のビジネスに主要な音声機能を提供しています。ショートビデオ、ライブブロードキャスト、ビデオ作成、オフィス、ウェアラブルデバイスなどのさまざまなシナリオに適しています。

参考文献

[1] Baevski, A.、Zhou, Y.、Mohamed, A.、Auli, M. 、2020. wav2vec 2.0: 音声表現の自己教師あり学習のためのフレームワーク. Advances in Neural Information Processing Systems, 33, pp.12449-12460.

#[ 2] Hsu, W.N.、Bolte, B.、Tsai, Y.H.H.、Lakhotia, K.、Salakhutdinov, R.、Mohamed, A.、2021. Hubert: 隠れ単位のマスク予測による自己教師あり音声表現学習. IEEE /ACM Transactions on Audio, Speech, and Language Processing, 29, pp.3451-3460.

##[3] Graves, A.、Fernández, S.、Gomez, F. および Schmidhuber, J.、2006 年 6 月. コネクショニスト時間分類: リカレントニューラルネットワークによるセグメント化されていないシーケンスデータのラベル付け. 第 23 回機械学習国際会議議事録 (pp. 369-376).

#[4] Chan, W.、Jaitly, N.、Le, Q.、Vinyals, O.、2016 年 3 月、聞いて、参加して、綴る: 大量の語彙のためのニューラルネットワーク会話型音声認識。2016 年の音響、音声、信号処理に関する IEEE 国際会議 (ICASSP) (pp. 4960-4964)。IEEE.
[5] Graves, A.、2012 年。リカレントニューラルネットワークによるシーケンス変換。 arXiv プレプリント arXiv:1211.3711.

[6] He、K.、Chen、X.、Xie、S.、Li、Y.、Dollár、Pマスクされたオートエンコーダは、スケーラブルな視覚学習器です。コンピュータービジョンとパターン認識に関する IEEE/CVF 会議議事録 (pp. 16000-16009).

[7] Baevski, A.、Hsu、 W.N.、Xu、Q.、Babu、A.、Gu, J.、Auli, M.、2022年。 Data2vec: 音声、視覚、言語における自己教師あり学習のための一般的なフレームワーク。 arXiv プレプリント arXiv:2202.03555.

[8] Conneau, A.、Baevski, A.、Collobert, R.、Mohamed, A.、および Auli, M ., 2020. 音声認識のための教師なし異言語表現学習。 arXiv プレプリント arXiv:2006.13979.

[9] Lu, Y.、Huang, M.、Qu, X.、Wei, P.、および Ma, Z 、2022年5月。スパース共有サブネットワークを使用した言語適応型クロスリンガル音声表現学習。 ICASSP 2022-2022 IEEE 音響、音声および信号処理に関する国際会議 (ICASSP) (pp. 6882-6886)。 IEEE.

[10] Park, D.S.、Zhang, Y.、Jia, Y.、Han, W.、Chiu, C.C.、Li, B. 、Wu、Y. および Le、Q.V.、2020 年。自動音声認識のための騒々しい学生のトレーニングを改善しました。 arXiv プレプリント arXiv:2005.09629.

以上がHuoshan Voice の教師なし事前トレーニング技術と「アルゴリズムの最適化 + エンジニアリングの革新」の実装を徹底調査の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。