目次
ネチズンのコメント
ホームページ テクノロジー周辺機器 AI 異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?

異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?

Jul 04, 2023 pm 05:57 PM
ai

AIが参加する音声の世界は本当に魔法のようで、人の声を別の人の声に変えるだけでなく、動物と声を交換することもできます。

音声変換の目標は、内容を変更せずにソース音声をターゲット音声に変換することであることはわかっています。最近の Any-to-Any 音声変換方法では、自然さと話者の類似性が向上しますが、その代償として複雑さが大幅に増加します。これは、トレーニングと推論のコストが高くなり、改善の評価と確立が困難になることを意味します。

問題は、高品質の音声変換には複雑さが必要かということです。南アフリカのステレンボッシュ大学の最近の論文では、数人の研究者がこの問題を調査しました。

異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?

  • 論文アドレス: https://arxiv.org/pdf/2305.18975.pdf # #GitHub アドレス: https://bshall.github.io/knn-vc/
  • 研究のハイライトは次のとおりです:
K 最近傍音声変換 ( kNN -VC)、シンプルで強力な任意の音声変換メソッド

。明示的な変換モデルをトレーニングする代わりに、K 最近傍回帰が単純に使用されます。 具体的には、研究者らはまず自己教師あり音声表現モデルを使用してソース発話と参照発話の特徴シーケンスを抽出し、次にソース表現の各フレームを 1 つのフレームに置き換えました。参照では、最近傍を使用してターゲット話者に変換し、最後にニューラル ボコーダーを使用して変換された特徴を合成し、変換された音声を取得します。

結果から、そのシンプルさにも関わらず、KNN-VC は、いくつかのベースライン音声変換システムと比較して、主観的評価と客観的評価の両方において、話者との類似性において同等またはさらに向上した明瞭度を達成します。

KNN-VC 音声変換の効果を評価してみましょう。まず人間の音声変換について見てみると、KNN-VC は LibriSpeech データセットには表示されないソース話者とターゲット話者に適用されます。

#ソース音声

00:11

##合成音声 100:11

合成音声 200:11

KNN-VC は、スペイン語からドイツ語、ドイツ語など、言語間の音声変換もサポートしています。日本語から中国語、スペイン語まで。

ソース中国語00:08

宛先スペイン語00:05

合成音声 300:08

さらに驚くべきことは、KNN-VC は人間の声と犬の吠え声を組み合わせることができることです。 。

ソース犬の吠え声00:09

ソース人間の声00:05

#合成音声 400:08

##合成音声 500:05

次に、KNN-VC がどのように実行されるかを見て、他の jixian メソッドと比較します。 方法の概要と実験結果

kNN-VC のアーキテクチャ図は、エンコーダー、コンバーター、ボコーダーの構造に従って以下に示されています。まずエンコーダがソース音声とリファレンス音声の自己教師あり表現を抽出し、次にコンバータが各ソースフレームをリファレンス内の最も近い隣接フレームにマッピングし、最後にボコーダが変換された特徴に基づいてオーディオ波形を生成します。

エンコーダーは WavLM を使用し、コンバーターは K 最近傍回帰を使用し、ボコーダーは HiFiGAN を使用します。トレーニングが必要な唯一のコンポーネントはボコーダーです。

WavLM エンコーダーの場合、研究者は事前トレーニングされた WavLM-Large モデルのみを使用し、記事内ではトレーニングを行いませんでした。 kNN 変換モデルの場合、kNN はノンパラメトリックであり、トレーニングは必要ありません。 HiFiGAN ボコーダーの場合、オリジナルの HiFiGAN 作者のリポジトリが WavLM 機能のボコード化に使用され、トレーニングが必要な唯一の部分となりました。

写真

実験では、研究者らはまず、利用可能な最大のターゲット データを使用して、KNN-VC を他のベースライン手法と比較しました。 (スピーカーごとに約 8 分の音声) 音声変換システムをテストします。

異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?

KNN-VC の場合、研究者はすべてのターゲット データをマッチング セットとして使用します。ベースライン方法では、各ターゲット発話の話者エンベディングを平均します。

以下の表 1 は、各モデルの明瞭さ、自然さ、話者の類似性に関する結果を示しています。ご覧のとおり、kNN-VC は最高のベースライン FreeVC と同様の自然さと明瞭さを実現しますが、話者の類似性は大幅に向上しています。これは、この記事の主張を裏付けるものでもあります。高品質の音声変換には複雑さを増す必要はありません。

異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?

さらに、研究者らは、事前に照合されたデータでトレーニングされた HiFi-GAN による改善がどの程度あるのかを理解したいと考えていました。ターゲット話者データ サイズが明瞭度と話者の類似性にどの程度影響するか。

以下の図 2 は、異なるターゲット スピーカー サイズでの 2 つの HiFi-GAN バリアントの WER (小さいほど優れている) と EER (高いほど優れている) の関係を示しています。

異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?写真

ネチズンのコメント

これについては、「最近傍のみを使用する」 」の新しい音声変換手法 kNN-VC について、記事内で事前学習済みの音声モデルが使用されていると考える人もいますので、「のみ」を使用するのは正確ではありません。しかし、kNN-VC が他のモデルに比べて依然として単純であることは否定できません。

この結果は、kNN-VC が、非常に複雑な Any-to-Any 音声変換方法と比較して、最高ではないにしても同等に効果的であることも示しています。

異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?写真

人間の声と犬の鳴き声のやりとりの例がとても興味深いという意見もありました。 ###############写真######

以上が異言語、人間の声、犬の鳴き声の交換をサポートし、最近傍音声のみを使用する単純な音声変換モデルはどれほど素晴らしいのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

SQLに新しい列を追加する方法 SQLに新しい列を追加する方法 Apr 09, 2025 pm 02:09 PM

Alter Tableステートメントを使用して、SQLの既存のテーブルに新しい列を追加します。特定の手順には、テーブル名と列情報の決定、テーブルステートメントの変更、およびステートメントの実行が含まれます。たとえば、顧客テーブルに電子メール列を追加します(Varchar(50)):Alter Table Customersはメール(50)を追加します。

SQLに列を追加するための構文は何ですか SQLに列を追加するための構文は何ですか Apr 09, 2025 pm 02:51 PM

sqlに列を追加するための構文は、table table_name add column_name data_type [not null] [default default_value];です。 table_nameはテーブル名、column_nameは新しい列名、data_typeはデータ型であり、nullはnull値が許可されているかどうかを指定しない、デフォルトのdefault_valueがデフォルト値を指定します。

SQLクリアテーブル:パフォーマンスの最適化のヒント SQLクリアテーブル:パフォーマンスの最適化のヒント Apr 09, 2025 pm 02:54 PM

SQLテーブルクリアパフォーマンスを改善するためのヒント:削除の代わりにTruncateテーブルを使用し、スペースを解放し、ID列をリセットします。カスケードの削除を防ぐために、外部のキーの制約を無効にします。トランザクションカプセル化操作を使用して、データの一貫性を確保します。バッチはビッグデータを削除し、制限で行数を制限します。クリアリング後にインデックスを再構築して、クエリ効率を改善します。

sqlに列を追加するときにデフォルト値を設定する方法 sqlに列を追加するときにデフォルト値を設定する方法 Apr 09, 2025 pm 02:45 PM

新しく追加された列のデフォルト値を設定します。3つのテーブルステートメントを使用します。列の追加を指定し、デフォルト値を設定します:table table_name add column_name data_type default_valueを変更します。制約句を使用してデフォルト値を指定します。テーブルテーブルを変更する列列の追加column_name data_type constraint default_constraint default default_value;

削除ステートメントを使用して、SQLテーブルをクリアします 削除ステートメントを使用して、SQLテーブルをクリアします Apr 09, 2025 pm 03:00 PM

はい、削除ステートメントを使用してSQLテーブルをクリアできます。手順は次のとおりです。クリアするテーブルの名前にtable_nameを置き換えます。

phpmyAdminはデータテーブルを作成します phpmyAdminはデータテーブルを作成します Apr 10, 2025 pm 11:00 PM

phpMyAdminを使用してデータテーブルを作成するには、次の手順が不可欠です。データベースに接続して、[新しいタブ]をクリックします。テーブルに名前を付けて、ストレージエンジンを選択します(InnoDB推奨)。列名、データ型、null値、その他のプロパティを許可するかどうかなど、列の追加ボタンをクリックして列の詳細を追加します。一次キーとして1つ以上の列を選択します。 [保存]ボタンをクリックして、テーブルと列を作成します。

Redisメモリの断片化に対処する方法は? Redisメモリの断片化に対処する方法は? Apr 10, 2025 pm 02:24 PM

Redisメモリの断片化とは、再割り当てできない割り当てられたメモリ内に小さな自由領域の存在を指します。対処戦略には、Redisの再起動:メモリを完全にクリアしますが、サービスを割り当てます。データ構造の最適化:Redisに適した構造を使用して、メモリの割り当てとリリースの数を減らします。構成パラメーターの調整:ポリシーを使用して、最近使用されていないキー価値ペアを排除します。永続性メカニズムを使用します:データを定期的にバックアップし、Redisを再起動してフラグメントをクリーンアップします。メモリの使用量を監視する:問題をタイムリーに発見し、対策を講じる。

Oracleデータベースの作成方法Oracleデータベースを作成する方法 Oracleデータベースの作成方法Oracleデータベースを作成する方法 Apr 11, 2025 pm 02:33 PM

Oracleデータベースを作成するのは簡単ではありません。根本的なメカニズムを理解する必要があります。 1.データベースとOracle DBMSの概念を理解する必要があります。 2。SID、CDB(コンテナデータベース)、PDB(プラグ可能なデータベース)などのコアコンセプトをマスターします。 3。SQL*Plusを使用してCDBを作成し、PDBを作成するには、サイズ、データファイルの数、パスなどのパラメーターを指定する必要があります。 4.高度なアプリケーションは、文字セット、メモリ、その他のパラメーターを調整し、パフォーマンスチューニングを実行する必要があります。 5.ディスクスペース、アクセス許可、パラメーター設定に注意し、データベースのパフォーマンスを継続的に監視および最適化します。 それを巧みに習得することによってのみ、継続的な練習が必要であることは、Oracleデータベースの作成と管理を本当に理解できます。

See all articles