画像生成モデルが登場!ビデオ生成モデルが満載!
次はオーディオ生成モデルです。
最近、Google 研究チームは音声生成用の AI モデル、AudioLM を発表しました。
わずか数秒の音声プロンプトで、高品質で一貫した音声を生成できるだけでなく、ピアノ音楽も生成できます。
論文アドレス: https://www.php.cn/link/b6b3598b407b7f328e3129c74ca8ca94
AudioLM は、長期使用可能な高品質オーディオ生成フレームワークです。一貫性 、入力オーディオを離散トークンの文字列にマッピングし、オーディオ生成タスクを言語モデリング タスクに変換します。
既存のオーディオ タガーは、オーディオ生成の品質と安定した長期的な構造の間でトレードオフを行う必要があります。
この矛盾を解決するために、Google は「ハイブリッド トークン化」ソリューションを採用しています。これは、事前トレーニングされたマスク言語モデルの離散化アクティブ化を使用し、ニューラル オーディオ コーデックによって生成された離散コードを使用して高品質の合成を実現します。
AudioLM モデルは、録音や注釈を付けずに音声でトレーニングすると、短いプロンプトに基づいて自然で一貫した連続単語を生成することを学習でき、文法的にスムーズな連続音声を実現します。話者のアイデンティティとイントネーションを維持しながら、意味的に合理的です。
AudioLM は、音声に加えて、音楽記号のトレーニングを必要とせずに、一貫したピアノ音楽を生成することもできます。
近年、膨大なテキスト コーパスでトレーニングされた言語モデルは、その優れた生成能力を示し、オープンな対話、機械翻訳、さらには常識さえも実現しています。推論では、自然画像などのテキスト以外の信号もモデル化できます。
AudioLM のアイデアは、言語モデリングにおけるこれらの進歩を活用して、注釈付きデータでトレーニングせずに音声を生成することです。
しかし、これには 2 つの問題に直面する必要があります。
まず、オーディオのデータ レートがはるかに高く、ユニット シーケンスが長くなります。たとえば、文には数十の文字表現が含まれていますが、音声波形に変換されると、通常は数十万の値が含まれます。
さらに、テキストと音声の間には 1 対多の関係があります。同じ文を、異なるスタイル、感情的な内容、コンテキストを持つ異なる話者が提示することができます。
これら 2 つの課題を克服するために、AudioLM は 2 つのオーディオ タグを利用します。
まず、自己教師ありオーディオ モデルである w2v-BERT からセマンティック タグが抽出されます。
これらのタグは、ローカルな依存関係 (スピーチ内のスピーチ、ピアノ音楽のローカルメロディーなど) とグローバルな長期構造 (スピーチの言語構文と意味内容、ピアノ音楽のハーモニーとリズムなど) の両方をキャプチャします。長いシーケンスをモデル化するためにオーディオ信号を大幅にダウンサンプリングします。
ただし、これらのトークンから再構築されたオーディオの忠実度は高くありません。
音質を向上させるために、AudioLM はセマンティック タグ付けに加えて、SoundStream ニューラル コーデックによって生成された音響タグも利用して、オーディオ波形の詳細 (スピーカー特性や録音条件など) をキャプチャして高品質な合成を実現します。 。
AudioLM は、テキストや音楽の記号表現を一切使用せずにトレーニングされた音声のみのモデルです。
セマンティック タグ付けから細かい音響タグ付けまで、複数の Transformer モデル (ステージごとに 1 つ) をチェーンすることにより、オーディオ シーケンスを階層的にモデル化します。
各ステージは、言語モデルのトレーニングと同様に、最後のトークンに基づいて次のトークンを予測するようにトレーニングされます。
最初のステージでは、セマンティック タグに対してこのタスクを実行し、オーディオ シーケンスの高レベル構造をモデル化します。
第二段階では、意味タグ列全体と過去のラフタグを結び付け、両者を条件としてラフモデルに入力し、将来のマークを予測します。 。
このステップでは、スピーカーの特性や音楽の音色などの音響特性をシミュレートします。
第 3 段階では、細かい音響モデルを使用して粗い音響信号を処理し、最終的なオーディオに詳細を追加します。
最後に、音響マーカーが SoundStream デコーダーに入力されて波形が再構築されます。
トレーニングが完了したら、AudioLM を数秒間の音声で調整して、連続音声を生成できるようになります。
AudioLM の一般的な適用性を実証するために、研究者は、異なるオーディオ分野で 2 つのタスクを通じてそれをテストしました。
1 つ目は音声継続です。このモデルは、プロンプトされた話者の特徴と韻律を保持しながら、文法的に正しく、意味的に一貫した新しいコンテンツを出力します。
2 つ目はピアノ継続で、メロディー、ハーモニー、リズムの点でキューと一致したピアノ音楽を生成します。
以下に示すように、灰色の縦線の後に聞こえるサウンドはすべて AudioLM によって生成されます。
研究者らは、有効性を検証するために、人間の評価者に短い音声クリップを聞いて、それが人間の音声のオリジナルの録音なのか、AudioLM によって生成された録音なのかを判断するよう依頼しました。
収集された評価によると、AudioLM の成功率は 51.2% であることがわかります。これは、この AI モデルによって生成された音声が通常のリスナーにとって実際の音声と区別するのが難しいことを意味します。
ノースイースタン大学で情報科学と言語科学を研究しているルパル・パテル氏は、人工知能を使用して音声を生成するこれまでの研究では、トレーニング データに明示的に注釈が付けられている場合にのみ、これらのニュアンスを捉えることができたと述べました。
対照的に、AudioLM は入力データからこれらの機能を自動的に学習し、忠実度の高い結果も実現します。
GPT3 や Bloom (テキスト生成)、DALLE や Stable Diffusion (画像生成)、RunwayML や Make-A-Video (ビデオ生成) などのマルチモーダル ML モデルの出現により、コンテンツの作成と創造性仕事は変化しています。
未来の世界は、人工知能によって生成された世界です。
https://www.php.cn/link/c11cb55c3d8dcc03a7ab7ab722703e0a
https ://www.php.cn/link/b6b3598b407b7f328e3129c74ca8ca94
https://www.php.cn/link/c5f7756d9f92a8954884ec415f79d120
https://www.php.cn/link/9b644ca9f37e3699ddf2055800130aa9
以上がGoogle AIシンガーが登場! AudioLM は、数秒間聞くだけで音楽や歌を作曲できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。