Google AIシンガーが登場! AudioLM は、数秒間聞くだけで音楽や歌を作曲できます。
画像生成モデルが登場!ビデオ生成モデルが満載!
次はオーディオ生成モデルです。
最近、Google 研究チームは音声生成用の AI モデル、AudioLM を発表しました。
わずか数秒の音声プロンプトで、高品質で一貫した音声を生成できるだけでなく、ピアノ音楽も生成できます。
論文アドレス: https://www.php.cn/link/b6b3598b407b7f328e3129c74ca8ca94
AudioLM は、長期使用可能な高品質オーディオ生成フレームワークです。一貫性 、入力オーディオを離散トークンの文字列にマッピングし、オーディオ生成タスクを言語モデリング タスクに変換します。
既存のオーディオ タガーは、オーディオ生成の品質と安定した長期的な構造の間でトレードオフを行う必要があります。
この矛盾を解決するために、Google は「ハイブリッド トークン化」ソリューションを採用しています。これは、事前トレーニングされたマスク言語モデルの離散化アクティブ化を使用し、ニューラル オーディオ コーデックによって生成された離散コードを使用して高品質の合成を実現します。
AudioLM モデルは、録音や注釈を付けずに音声でトレーニングすると、短いプロンプトに基づいて自然で一貫した連続単語を生成することを学習でき、文法的にスムーズな連続音声を実現します。話者のアイデンティティとイントネーションを維持しながら、意味的に合理的です。
AudioLM は、音声に加えて、音楽記号のトレーニングを必要とせずに、一貫したピアノ音楽を生成することもできます。
テキストからピアノ音楽へ: 2 つの主要な問題
近年、膨大なテキスト コーパスでトレーニングされた言語モデルは、その優れた生成能力を示し、オープンな対話、機械翻訳、さらには常識さえも実現しています。推論では、自然画像などのテキスト以外の信号もモデル化できます。
AudioLM のアイデアは、言語モデリングにおけるこれらの進歩を活用して、注釈付きデータでトレーニングせずに音声を生成することです。
しかし、これには 2 つの問題に直面する必要があります。
まず、オーディオのデータ レートがはるかに高く、ユニット シーケンスが長くなります。たとえば、文には数十の文字表現が含まれていますが、音声波形に変換されると、通常は数十万の値が含まれます。
さらに、テキストと音声の間には 1 対多の関係があります。同じ文を、異なるスタイル、感情的な内容、コンテキストを持つ異なる話者が提示することができます。
これら 2 つの課題を克服するために、AudioLM は 2 つのオーディオ タグを利用します。
まず、自己教師ありオーディオ モデルである w2v-BERT からセマンティック タグが抽出されます。
これらのタグは、ローカルな依存関係 (スピーチ内のスピーチ、ピアノ音楽のローカルメロディーなど) とグローバルな長期構造 (スピーチの言語構文と意味内容、ピアノ音楽のハーモニーとリズムなど) の両方をキャプチャします。長いシーケンスをモデル化するためにオーディオ信号を大幅にダウンサンプリングします。
ただし、これらのトークンから再構築されたオーディオの忠実度は高くありません。
音質を向上させるために、AudioLM はセマンティック タグ付けに加えて、SoundStream ニューラル コーデックによって生成された音響タグも利用して、オーディオ波形の詳細 (スピーカー特性や録音条件など) をキャプチャして高品質な合成を実現します。 。
トレーニング方法は?
AudioLM は、テキストや音楽の記号表現を一切使用せずにトレーニングされた音声のみのモデルです。
セマンティック タグ付けから細かい音響タグ付けまで、複数の Transformer モデル (ステージごとに 1 つ) をチェーンすることにより、オーディオ シーケンスを階層的にモデル化します。
各ステージは、言語モデルのトレーニングと同様に、最後のトークンに基づいて次のトークンを予測するようにトレーニングされます。
最初のステージでは、セマンティック タグに対してこのタスクを実行し、オーディオ シーケンスの高レベル構造をモデル化します。
第二段階では、意味タグ列全体と過去のラフタグを結び付け、両者を条件としてラフモデルに入力し、将来のマークを予測します。 。
このステップでは、スピーカーの特性や音楽の音色などの音響特性をシミュレートします。
第 3 段階では、細かい音響モデルを使用して粗い音響信号を処理し、最終的なオーディオに詳細を追加します。
最後に、音響マーカーが SoundStream デコーダーに入力されて波形が再構築されます。
トレーニングが完了したら、AudioLM を数秒間の音声で調整して、連続音声を生成できるようになります。
AudioLM の一般的な適用性を実証するために、研究者は、異なるオーディオ分野で 2 つのタスクを通じてそれをテストしました。
1 つ目は音声継続です。このモデルは、プロンプトされた話者の特徴と韻律を保持しながら、文法的に正しく、意味的に一貫した新しいコンテンツを出力します。
2 つ目はピアノ継続で、メロディー、ハーモニー、リズムの点でキューと一致したピアノ音楽を生成します。
以下に示すように、灰色の縦線の後に聞こえるサウンドはすべて AudioLM によって生成されます。
研究者らは、有効性を検証するために、人間の評価者に短い音声クリップを聞いて、それが人間の音声のオリジナルの録音なのか、AudioLM によって生成された録音なのかを判断するよう依頼しました。
収集された評価によると、AudioLM の成功率は 51.2% であることがわかります。これは、この AI モデルによって生成された音声が通常のリスナーにとって実際の音声と区別するのが難しいことを意味します。
ノースイースタン大学で情報科学と言語科学を研究しているルパル・パテル氏は、人工知能を使用して音声を生成するこれまでの研究では、トレーニング データに明示的に注釈が付けられている場合にのみ、これらのニュアンスを捉えることができたと述べました。
対照的に、AudioLM は入力データからこれらの機能を自動的に学習し、忠実度の高い結果も実現します。
GPT3 や Bloom (テキスト生成)、DALLE や Stable Diffusion (画像生成)、RunwayML や Make-A-Video (ビデオ生成) などのマルチモーダル ML モデルの出現により、コンテンツの作成と創造性仕事は変化しています。
未来の世界は、人工知能によって生成された世界です。
参考資料:
https://www.php.cn/link/c11cb55c3d8dcc03a7ab7ab722703e0a
https ://www.php.cn/link/b6b3598b407b7f328e3129c74ca8ca94
https://www.php.cn/link/c5f7756d9f92a8954884ec415f79d120
https://www.php.cn/link/9b644ca9f37e3699ddf2055800130aa9
以上がGoogle AIシンガーが登場! AudioLM は、数秒間聞くだけで音楽や歌を作曲できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











ポインター構文とviperライブラリの使用における問題への取り組みGO言語でプログラミングするとき、特にポインターの構文と使用を理解することが重要です...

GOのマップイテレーションにより、すべての値が最後の要素になるのはなぜですか? Go言語では、いくつかのインタビューの質問に直面したとき、あなたはしばしば地図に遭遇します...

モバイルには、単純で直接無料のXMLからPDFツールはありません。必要なデータ視覚化プロセスには、複雑なデータの理解とレンダリングが含まれ、市場のいわゆる「無料」ツールのほとんどは経験がありません。コンピューター側のツールを使用したり、クラウドサービスを使用したり、アプリを開発してより信頼性の高い変換効果を取得することをお勧めします。

XMLの美化は、合理的なインデンテーション、ラインブレーク、タグ組織など、本質的に読みやすさを向上させています。原則は、XMLツリーを通過し、レベルに応じてインデントを追加し、テキストを含む空のタグとタグを処理することです。 PythonのXML.ETREE.ELEMENTTREEライブラリは、上記の美化プロセスを実装できる便利なchile_xml()関数を提供します。

GO言語開発では、カスタムパッケージを適切に導入することが重要なステップです。この記事では、「ゴラン...

ロックを使用すると、なぜパニックを引き起こすのですか?興味深い質問を見てみましょう。コードにロックが追加されたとしても、時々...

XML形式の検証には、その構造とDTDまたはスキーマへのコンプライアンスを確認することが含まれます。 ElementTree(基本的な構文チェック)やLXML(より強力な検証、XSDサポート)など、XMLパーサーが必要です。検証プロセスでは、XMLファイルを解析し、XSDスキーマをロードし、AssertValidメソッドを実行してエラーが検出されたときに例外をスローすることが含まれます。 XML形式の確認には、さまざまな例外を処理し、XSDスキーマ言語に関する洞察を得る必要があります。

Char Arrayは文字シーケンスをC言語で保存し、char array_name [size]として宣言されます。アクセス要素はサブスクリプト演算子に渡され、要素は文字列のエンドポイントを表すnullターミネーター「\ 0」で終了します。 C言語は、strlen()、strcpy()、strcat()、strcmp()など、さまざまな文字列操作関数を提供します。
