目次
中国語の事前トレーニング モデル
ホームページ テクノロジー周辺機器 AI 中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場します

中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場します

Apr 08, 2023 pm 06:21 PM
ai データ モデル

Wav2vec 2.0 [1]、HuBERT [2]、WavLM [3]、およびその他の音声事前トレーニング モデル。数万時間のラベルなし音声データ (Libri-light など) に対する自己教師あり学習による) により、自動音声認識 (ASR)、テキスト読み上げ (TTS)、音声変換 (VC) などの下流の音声タスクのパフォーマンスが大幅に向上します。ただし、これらのモデルには公開中国語バージョンがないため、中国語音声研究シナリオに適用するには不便です。

WenetSpeech [4] は、NPU、Mobvoi、およびヒルシェル データ セット。 中国語音声事前トレーニング モデルのギャップを埋めるために、WenetSpeech からの 10,000 時間のデータ トレーニングに基づいた中国語バージョンの Wav2vec 2.0 および HuBERT モデルをオープンソース化しました。

事前トレーニング済みモデルのパフォーマンスを検証するために、ASR タスクの検証を実行しました。実験結果は、100 時間の教師付きデータを含む ASR タスクにおいて、事前トレーニング モデルによって学習された音声表現は、従来の音響 FBank 機能と比較して大幅なパフォーマンスの向上を示していることを示しています。 1000 時間の監視とデータの比較可能な結果。

#モデルリンク: https://github.com/TencentGameMate/chinese_speech_pretrain

モデルの紹介

Wav2vec 2.0モデル

中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場します

図 1: Wav2vec 2.0 モデル構造 (Baevski et al., 2020)

Wav2vec 2.0 [1] は、2020 年に Meta によって公開された教師なし音声事前トレーニング モデルです。その中心的なアイデアは、ベクトル量子化 (VQ) を通じて自己構築された教師ありトレーニング ターゲットを構築し、入力を大量にマスクしてから、トレーニングに対照的な学習損失関数を使用することです。モデル構造は上の図 1 に示されており、畳み込みニューラル ネットワーク (CNN) に基づく特徴抽出器は、元のオーディオをフレーム特徴のシーケンスにエンコードし、VQ モジュールを通じて各フレーム特徴を離散特徴 Q に変換します。自己監視対象として使用されます。同時に、フレーム特徴シーケンスはマスキング操作を受けて、Transformer [5] モデルに入力され、コンテキスト表現 C が取得されます。最後に、マスク位置のコンテキスト表現と対応する離散特徴 q の間の距離は、学習損失関数、つまり正のサンプルのペアを比較することによって短縮されます。元の論文では、Wav2vec 2.0 BASE モデルは 12 層の Transformer 構造を使用し、1,000 時間の LibriSpeech データでトレーニングされていますが、LARGE モデルは 24 層の Transformer 構造を使用し、60,000 時間の Libri-light データでトレーニングされています。トレーニング時間に関しては、BASE モデルは 64 枚の V100 グラフィックス カードを使用して 1.6 日間トレーニングし、LARGE モデルは 128 枚の V100 グラフィックス カードを使用して 5 日間トレーニングします。ダウンストリームの ASR 評価では、10 分間の教師ありデータのみを使用した場合でも、システムはワード誤り率 (WER) の結果 4.8 を達成しました。

HuBERT モデル

中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場します

##図 2: HuBERT モデルの構造 (Hsu et al., 2021)HuBERT [2] は、2021 年に Meta によって公開されたモデルです。モデル構造は Wav2vec 2.0 に似ていますが、違いはトレーニング方法です。 Wav2vec 2.0 はトレーニング中に音声特徴を自己教師ありターゲットとして離散化しますが、HuBERT は MFCC 特徴または HuBERT 特徴に対して K 平均法クラスタリングを実行することによってトレーニング ターゲットを取得します。 HuBERT モデルは反復トレーニング手法を採用しています。BASE モデルの最初の反復では、MFCC 特徴に対してクラスタリングを実行します。2 回目の反復では、最初の反復で得られた HuBERT モデルの中間層の特徴に対してクラスタリングを実行します。LARGE モデルと XLARGE モデルは、 BASE モデルの 2 番目の反復では、クラスタリング用の特徴が抽出されます。元の論文の実験結果から判断すると、特にダウンストリーム タスクの教師ありトレーニング データが 1 時間 10 分など非常に少ない場合、HuBERT モデルは Wav2vec 2.0 よりも優れています。

中国語の事前トレーニング モデル

実験構成WenetSpeech [4] train_l セットからの 10,000 時間の中国語データを教師なし事前トレーニング データとして使用します。データは主に YouTube と Podcast から取得され、さまざまな種類の録音シーン、背景雑音、話し方などをカバーしています。その分野には主にオーディオブック、ナレーション、ドキュメンタリー、テレビ シリーズ、インタビュー、ニュース、朗読、スピーチ、バラエティ番組などが含まれます。など10大シーン。 [1、2] のモデル構成に従い、Fairseq ツールキット [6] に基づいて Wav2vec 2.0 モデルと HuBERT モデルをそれぞれトレーニングしました。事前トレーニングされた各モデルには、BASE と LARGE の 2 つのサイズが含まれています。 BASE モデルの場合、8 枚の A100 グラフィックス カードを使用し、勾配累積は 8 で、トレーニング用に 64 枚のグラフィックス カードをシミュレートします。 LARGE モデルの場合、16 枚の A100 グラフィックス カードを使用し、勾配累積は 8 で、トレーニング用に 128 枚のグラフィックス カードをシミュレートします。

下流の音声認識タスクの検証下流の ASR タスクに対する事前トレーニング済みモデルの効果を検証するために、ESPnet の Conformer に従います [7] ,8,9] ツールキット [10] モデル実験構成、つまり、事前トレーニング済みモデルが特徴抽出器として使用され、入力音声抽出事前トレーニング済みモデルの隠れ層表現が重み付けされて合計されます。この表現は、Conformer ASR モデルの入力として従来の FBank 機能を置き換えます。

  • Aishell データセット

Aishell 178 時間トレーニング セットをトレーニング用の教師ありデータとして使用し、比較しましたFBank 機能、Wav2vec 2.0 BASE/LARGE モデル機能、および HuBERT BASE/LARGE モデル機能を使用した文字誤り率 (CER) の結果。同時に、トレーニングに 10,000 時間の中国語データの WenetSpeech train_l セットを使用した場合の Aishell テスト セットに対する効果をさらに比較しました。トレーニングデータには可変速度(0.9、1.0、1.1倍)とSpecAugmentデータ拡張技術が使用され、デコード方法はビームサーチで、再スコアリングにはTransformerベースの言語モデルが使用されます。

中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場します

#表 1: Aishell テスト セットでのさまざまなモデルの単語誤り率 (CER%) の結果

表 1 の結果によると、事前トレーニングされたモデルと数万時間の教師なしデータ トレーニングを組み合わせることで、ダウンストリーム ASR タスクのパフォーマンスが向上することがわかります。大幅に改善されました。特に、HuBERT LARGE モデルを使用した場合、テスト セットで CER が相対的に約 30% 向上し、178 時間の教師付きトレーニング データの下で業界最高の結果が得られました。

  • WenetSpeech データ セット

WenetSpeech train_s セットの 100 時間の中国語データをトレーニング用の教師ありデータとして使用します。 FBank の機能、Wav2vec 2.0 BASE/LARGE モデルの機能、および HuBERT BASE/LARGE モデルの機能を使用した文字誤り率 (CER) の結果が比較されました。同時に、WenetSpeech train_m セット (1,000 時間) と train_l セット (10,000 時間) の中国データ FBank 機能を使用してモデルの結果をさらに比較しました。トレーニング データは可変速度または SpecAugment データ拡張テクノロジを使用せず、デコード方法はビーム サーチであり、言語モデルの再スコアリングは使用されません。

中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場します

#表 2: WenetSpeech テスト セットでのさまざまなモデルの単語誤り率 (CER%) の結果

表 2 の結果からわかるように、事前トレーニングされたモデルと数万時間の教師なしデータ トレーニングを組み合わせることで、ダウンストリーム ASR の結果は大幅に向上しました。改善されました。特に音声表現抽出器として HuBERT LARGE を使用する場合、100 時間の教師付きデータでトレーニングされた ASR モデルは、1,000 時間の FBank 機能でトレーニングされたモデルよりも優れたパフォーマンスを示し、10,000 時間のデータでトレーニングされたモデルにさえ近くなります。

音声ダウンストリーム タスクに関するさらなる実験結果については、GitHub リンク (https://github.com/TencentGameMate/chinese_speech_pretrain) を参照してください。私たちが提供する中国語音声事前トレーニング モデルを誰でも使用して、研究作業を実行し、中国語および関連シナリオでの音声事前トレーニング モデルの応用を検討することを歓迎します。

以上が中国語音声の事前トレーニング済みモデルが見つかりませんか?中国語版 Wav2vec 2.0 と HuBERT が登場しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? Apr 07, 2025 pm 09:39 PM

vue.jsのオブジェクトに文字列を変換する場合、標準のjson文字列にはjson.parse()が推奨されます。非標準のJSON文字列の場合、文字列は正規表現を使用して処理し、フォーマットまたはデコードされたURLエンコードに従ってメソッドを削減できます。文字列形式に従って適切な方法を選択し、バグを避けるためにセキュリティとエンコードの問題に注意してください。

Vue Axiosのタイムアウトを設定する方法 Vue Axiosのタイムアウトを設定する方法 Apr 07, 2025 pm 10:03 PM

Vue axiosのタイムアウトを設定するために、Axiosインスタンスを作成してタイムアウトオプションを指定できます。グローバル設定:Vue.Prototype。$ axios = axios.create({Timeout:5000});単一のリクエストで:this。$ axios.get( '/api/users'、{timeout:10000})。

Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調​​整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

MySQLを解決する方法は開始できません MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合(ポート占有率をチェックして構成の変更)、許可の問題(ユーザー許可を実行するサービスを確認)、構成ファイルエラー(パラメーター設定のチェック)、データディレクトリの破損(テーブルスペースの復元)、INNODBテーブルスペースの問題(IBDATA1ファイルのチェック)、プラグインロード障害(エラーログのチェック)が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

インストール後にMySQLの使用方法 インストール後にMySQLの使用方法 Apr 08, 2025 am 11:48 AM

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? Apr 07, 2025 pm 09:36 PM

概要:Vue.js文字列配列をオブジェクト配列に変換するための次の方法があります。基本方法:定期的なフォーマットデータに合わせてマップ関数を使用します。高度なゲームプレイ:正規表現を使用すると、複雑な形式を処理できますが、慎重に記述して考慮する必要があります。パフォーマンスの最適化:大量のデータを考慮すると、非同期操作または効率的なデータ処理ライブラリを使用できます。ベストプラクティス:コードスタイルをクリアし、意味のある変数名とコメントを使用して、コードを簡潔に保ちます。

リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です Apr 08, 2025 pm 12:27 PM

リモートシニアバックエンジニアの求人事業者:サークル場所:リモートオフィスジョブタイプ:フルタイム給与:$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です

MySQLインストール後にデータベースのパフォーマンスを最適化する方法 MySQLインストール後にデータベースのパフォーマンスを最適化する方法 Apr 08, 2025 am 11:36 AM

MySQLパフォーマンスの最適化は、インストール構成、インデックス作成、クエリの最適化、監視、チューニングの3つの側面から開始する必要があります。 1。インストール後、INNODB_BUFFER_POOL_SIZEパラメーターやclose query_cache_sizeなど、サーバーの構成に従ってmy.cnfファイルを調整する必要があります。 2。過度のインデックスを回避するための適切なインデックスを作成し、説明コマンドを使用して実行計画を分析するなど、クエリステートメントを最適化します。 3. MySQL独自の監視ツール(ShowProcessList、ShowStatus)を使用して、データベースの健康を監視し、定期的にデータベースをバックアップして整理します。これらの手順を継続的に最適化することによってのみ、MySQLデータベースのパフォーマンスを改善できます。

See all articles