中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場します-AI-php.cn

中国語の事前トレーニングモデル

ホームページ

テクノロジー周辺機器

中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場します

PHPz

Apr 08, 2023 pm 06:21 PM

ai データモデル

Wav2vec 2.0 [1]、HuBERT [2]、WavLM [3]、およびその他の音声事前トレーニングモデル。数万時間のラベルなし音声データ (Libri-light など) に対する自己教師あり学習による) により、自動音声認識 (ASR)、テキスト読み上げ (TTS)、音声変換 (VC) などの下流の音声タスクのパフォーマンスが大幅に向上します。ただし、これらのモデルには公開中国語バージョンがないため、中国語音声研究シナリオに適用するには不便です。

WenetSpeech [4] は、NPU、Mobvoi、およびヒルシェルデータセット。中国語音声事前トレーニングモデルのギャップを埋めるために、WenetSpeech からの 10,000 時間のデータトレーニングに基づいた中国語バージョンの Wav2vec 2.0 および HuBERT モデルをオープンソース化しました。

事前トレーニング済みモデルのパフォーマンスを検証するために、ASR タスクの検証を実行しました。実験結果は、100 時間の教師付きデータを含む ASR タスクにおいて、事前トレーニングモデルによって学習された音声表現は、従来の音響 FBank 機能と比較して大幅なパフォーマンスの向上を示していることを示しています。 1000 時間の監視とデータの比較可能な結果。

#モデルリンク: https://github.com/TencentGameMate/chinese_speech_pretrain

モデルの紹介

Wav2vec 2.0モデル

中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場します

図 1: Wav2vec 2.0 モデル構造 (Baevski et al., 2020)

Wav2vec 2.0 [1] は、2020 年に Meta によって公開された教師なし音声事前トレーニングモデルです。その中心的なアイデアは、ベクトル量子化 (VQ) を通じて自己構築された教師ありトレーニングターゲットを構築し、入力を大量にマスクしてから、トレーニングに対照的な学習損失関数を使用することです。モデル構造は上の図 1 に示されており、畳み込みニューラルネットワーク (CNN) に基づく特徴抽出器は、元のオーディオをフレーム特徴のシーケンスにエンコードし、VQ モジュールを通じて各フレーム特徴を離散特徴 Q に変換します。自己監視対象として使用されます。同時に、フレーム特徴シーケンスはマスキング操作を受けて、Transformer [5] モデルに入力され、コンテキスト表現 C が取得されます。最後に、マスク位置のコンテキスト表現と対応する離散特徴 q の間の距離は、学習損失関数、つまり正のサンプルのペアを比較することによって短縮されます。元の論文では、Wav2vec 2.0 BASE モデルは 12 層の Transformer 構造を使用し、1,000 時間の LibriSpeech データでトレーニングされていますが、LARGE モデルは 24 層の Transformer 構造を使用し、60,000 時間の Libri-light データでトレーニングされています。トレーニング時間に関しては、BASE モデルは 64 枚の V100 グラフィックスカードを使用して 1.6 日間トレーニングし、LARGE モデルは 128 枚の V100 グラフィックスカードを使用して 5 日間トレーニングします。ダウンストリームの ASR 評価では、10 分間の教師ありデータのみを使用した場合でも、システムはワード誤り率 (WER) の結果 4.8 を達成しました。

HuBERT モデル

中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場します

##図 2: HuBERT モデルの構造 (Hsu et al., 2021)HuBERT [2] は、2021 年に Meta によって公開されたモデルです。モデル構造は Wav2vec 2.0 に似ていますが、違いはトレーニング方法です。 Wav2vec 2.0 はトレーニング中に音声特徴を自己教師ありターゲットとして離散化しますが、HuBERT は MFCC 特徴または HuBERT 特徴に対して K 平均法クラスタリングを実行することによってトレーニングターゲットを取得します。 HuBERT モデルは反復トレーニング手法を採用しています。BASE モデルの最初の反復では、MFCC 特徴に対してクラスタリングを実行します。2 回目の反復では、最初の反復で得られた HuBERT モデルの中間層の特徴に対してクラスタリングを実行します。LARGE モデルと XLARGE モデルは、 BASE モデルの 2 番目の反復では、クラスタリング用の特徴が抽出されます。元の論文の実験結果から判断すると、特にダウンストリームタスクの教師ありトレーニングデータが 1 時間 10 分など非常に少ない場合、HuBERT モデルは Wav2vec 2.0 よりも優れています。

中国語の事前トレーニングモデル

実験構成WenetSpeech [4] train_l セットからの 10,000 時間の中国語データを教師なし事前トレーニングデータとして使用します。データは主に YouTube と Podcast から取得され、さまざまな種類の録音シーン、背景雑音、話し方などをカバーしています。その分野には主にオーディオブック、ナレーション、ドキュメンタリー、テレビシリーズ、インタビュー、ニュース、朗読、スピーチ、バラエティ番組などが含まれます。など10大シーン。 [1、2] のモデル構成に従い、Fairseq ツールキット [6] に基づいて Wav2vec 2.0 モデルと HuBERT モデルをそれぞれトレーニングしました。事前トレーニングされた各モデルには、BASE と LARGE の 2 つのサイズが含まれています。 BASE モデルの場合、8 枚の A100 グラフィックスカードを使用し、勾配累積は 8 で、トレーニング用に 64 枚のグラフィックスカードをシミュレートします。 LARGE モデルの場合、16 枚の A100 グラフィックスカードを使用し、勾配累積は 8 で、トレーニング用に 128 枚のグラフィックスカードをシミュレートします。

下流の音声認識タスクの検証下流の ASR タスクに対する事前トレーニング済みモデルの効果を検証するために、ESPnet の Conformer に従います [7] ,8,9] ツールキット [10] モデル実験構成、つまり、事前トレーニング済みモデルが特徴抽出器として使用され、入力音声抽出事前トレーニング済みモデルの隠れ層表現が重み付けされて合計されます。この表現は、Conformer ASR モデルの入力として従来の FBank 機能を置き換えます。

Aishell データセット

Aishell 178 時間トレーニングセットをトレーニング用の教師ありデータとして使用し、比較しましたFBank 機能、Wav2vec 2.0 BASE/LARGE モデル機能、および HuBERT BASE/LARGE モデル機能を使用した文字誤り率 (CER) の結果。同時に、トレーニングに 10,000 時間の中国語データの WenetSpeech train_l セットを使用した場合の Aishell テストセットに対する効果をさらに比較しました。トレーニングデータには可変速度（0.9、1.0、1.1倍）とSpecAugmentデータ拡張技術が使用され、デコード方法はビームサーチで、再スコアリングにはTransformerベースの言語モデルが使用されます。

中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場します

#表 1: Aishell テストセットでのさまざまなモデルの単語誤り率 (CER%) の結果

表 1 の結果によると、事前トレーニングされたモデルと数万時間の教師なしデータトレーニングを組み合わせることで、ダウンストリーム ASR タスクのパフォーマンスが向上することがわかります。大幅に改善されました。特に、HuBERT LARGE モデルを使用した場合、テストセットで CER が相対的に約 30% 向上し、178 時間の教師付きトレーニングデータの下で業界最高の結果が得られました。

WenetSpeech データセット

WenetSpeech train_s セットの 100 時間の中国語データをトレーニング用の教師ありデータとして使用します。 FBank の機能、Wav2vec 2.0 BASE/LARGE モデルの機能、および HuBERT BASE/LARGE モデルの機能を使用した文字誤り率 (CER) の結果が比較されました。同時に、WenetSpeech train_m セット (1,000 時間) と train_l セット (10,000 時間) の中国データ FBank 機能を使用してモデルの結果をさらに比較しました。トレーニングデータは可変速度または SpecAugment データ拡張テクノロジを使用せず、デコード方法はビームサーチであり、言語モデルの再スコアリングは使用されません。

中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場します

#表 2: WenetSpeech テストセットでのさまざまなモデルの単語誤り率 (CER%) の結果

表 2 の結果からわかるように、事前トレーニングされたモデルと数万時間の教師なしデータトレーニングを組み合わせることで、ダウンストリーム ASR の結果は大幅に向上しました。改善されました。特に音声表現抽出器として HuBERT LARGE を使用する場合、100 時間の教師付きデータでトレーニングされた ASR モデルは、1,000 時間の FBank 機能でトレーニングされたモデルよりも優れたパフォーマンスを示し、10,000 時間のデータでトレーニングされたモデルにさえ近くなります。

音声ダウンストリームタスクに関するさらなる実験結果については、GitHub リンク (https://github.com/TencentGameMate/chinese_speech_pretrain) を参照してください。私たちが提供する中国語音声事前トレーニングモデルを誰でも使用して、研究作業を実行し、中国語および関連シナリオでの音声事前トレーニングモデルの応用を検討することを歓迎します。

以上が中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7744

Java チュートリアル

1643

CakePHP チュートリアル

1397

Laravel チュートリアル

1291

PHP チュートリアル

1234

Related knowledge

WorldCoin（WLD）価格予測2025-2031：WLDは2031年までに4ドルに達しますか？ Apr 21, 2025 pm 02:42 PM

WorldCoin（WLD）は、独自の生体認証とプライバシー保護メカニズムを備えた暗号通貨市場で際立っており、多くの投資家の注目を集めています。 WLDは、特にOpenai人工知能技術と組み合わせて、革新的なテクノロジーを備えたAltcoinsの間で驚くほど演奏しています。しかし、デジタル資産は今後数年間でどのように振る舞いますか？ WLDの将来の価格を一緒に予測しましょう。 2025年のWLD価格予測は、2025年にWLDで大幅に増加すると予想されています。市場分析は、平均WLD価格が1.31ドルに達する可能性があり、最大1.36ドルであることを示しています。ただし、クマ市場では、価格は約0.55ドルに低下する可能性があります。この成長の期待は、主にWorldCoin2によるものです。

クロスチェーントランザクションとはどういう意味ですか？クロスチェーントランザクションとは何ですか？ Apr 21, 2025 pm 11:39 PM

クロスチェーントランザクションをサポートする交換：1。Binance、2。Uniswap、3。Sushiswap、4。CurveFinance、5。Thorchain、6。1inchExchange、7。DLNTrade、これらのプラットフォームはさまざまな技術を通じてマルチチェーン資産トランザクションをサポートします。

なぜ仮想通貨価格の上昇または下落があるのですか？なぜ仮想通貨価格の上昇または下落があるのですか？ Apr 21, 2025 am 08:57 AM

仮想通貨価格の上昇の要因には、次のものが含まれます。1。市場需要の増加、2。供給の減少、3。刺激された肯定的なニュース、4。楽観的な市場感情、5。マクロ経済環境。衰退要因は次のとおりです。1。市場需要の減少、2。供給の増加、3。ネガティブニュースのストライキ、4。悲観的市場感情、5。マクロ経済環境。

カーネルエアドロップ報酬を獲得する方法バイナンスフルプロセス戦略 Apr 21, 2025 pm 01:03 PM

暗号通貨の賑やかな世界では、新しい機会が常に現れます。現在、Kerneldao（Kernel）Airdropアクティビティは多くの注目を集め、多くの投資家の注目を集めています。それで、このプロジェクトの起源は何ですか？ BNBホルダーはそれからどのような利点を得ることができますか？心配しないでください、以下はあなたのためにそれを一つ一つ明らかにします。

ハイブリッドブロックチェーン取引プラットフォームとは何ですか？ Apr 21, 2025 pm 11:36 PM

暗号通貨交換を選択するための提案：1。流動性の要件については、優先度は、その順序の深さと強力なボラティリティ抵抗のため、Binance、gate.ioまたはokxです。 2。コンプライアンスとセキュリティ、Coinbase、Kraken、Geminiには厳格な規制の承認があります。 3.革新的な機能、Kucoinのソフトステーキング、Bybitのデリバティブデザインは、上級ユーザーに適しています。

Aavenomicsは、Aaveプロトコルトークンを変更し、Tokenの買戻しを導入するための推奨事項です。 Apr 21, 2025 pm 06:24 PM

Aavenomicsは、Aaveプロトコルトークンを変更し、Aavedaoの定足数を実装したToken Reposを導入する提案です。 Aave Project Chain（ACI）の創設者であるMarc Zellerは、これをXで発表し、契約の新しい時代をマークしていることに注目しました。 Aave Chain Initiative（ACI）の創設者であるMarc Zellerは、Aavenomicsの提案にAave Protocolトークンの変更とトークンリポジトリの導入が含まれていると発表しました。 Zellerによると、これは契約の新しい時代を告げています。 Aavedaoのメンバーは、水曜日の週に100でした。

通貨サークル市場に関するリアルタイムデータの上位10の無料プラットフォーム推奨事項がリリースされます Apr 22, 2025 am 08:12 AM

初心者に適した暗号通貨データプラットフォームには、Coinmarketcapと非小さいトランペットが含まれます。 1。CoinMarketCapは、初心者と基本的な分析のニーズに合わせて、グローバルなリアルタイム価格、市場価値、取引量のランキングを提供します。 2。小さい引用は、中国のユーザーが低リスクの潜在的なプロジェクトをすばやくスクリーニングするのに適した中国フレンドリーなインターフェイスを提供します。

ビットコイン完成品構造の分析チャートは何ですか？描く方法は？ Apr 21, 2025 pm 07:42 PM

ビットコイン構造分析チャートを描画する手順には、次のものが含まれます。1。図面の目的と視聴者を決定します。2。適切なツールを選択します。3。フレームワークを設計し、コアコンポーネントを入力します。4。既存のテンプレートを参照してください。完全な手順チャートが正確で理解しやすいことを確認してください。

See all articles

中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場します

中国語の事前トレーニング モデル

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

中国語の事前トレーニングモデル