Meta は最近、Audiobox と呼ばれる AI サウンド生成モデルを発売しました。このモデルは音声とテキストの両方の入力を受け取ることができ、ユーザーは音声とテキストの説明を通じて必要な音声を生成できます。
このモデルは、Meta が今年 6 月に発表した Voicebox AI モデルをベースにしていると報告されており、Audiobox はさまざまな環境音や自然な会話音声を生成でき、オーディオの生成と編集機能を統合しているため、ユーザーは必要なものを自由に生成します。
Meta 氏は、高品質のオーディオを生成するには、多数のオーディオ ライブラリと深い専門知識が必要であるが、これらのリソースを一般の人が入手するのは難しいと述べ、同社はサウンド生成の敷居を下げ、より簡単にするためにこのモデルを立ち上げました。誰でもビデオを制作できるようにするため、ゲームなどのアプリケーションシナリオの効果音を作成します。
IT House は、この Audiobox モデルが、ターゲット オーディオの生成を容易にする Voicebox の「ガイド サウンド」メカニズムに基づいており、「フロー マッチング」拡散モデル生成手法と連携して「サウンド フィリング (オーディオ インフィリング)」を実現していることを発見しました。マルチレイヤーオーディオを生成する機能。
メタ テストは、雷雨の音を含む雨の音声を生成し、「鳥のさえずりを伴う水の流れる音」、「甲高く速いリズムで話す若い女性」など、デモンストレーション用の一連のプロンプト センテンスを入力します。 、など; 同時に、このテストでは、人間の声とテキスト プロンプトを入力して、感情 (「悲しくて遅い」) と背景音 (教会にいるとき) を含む音声を生成します。
Meta は、Audiobox が音質と「生成されたコンテンツの精度」の点で AudioLDM2、VoiceLDM、および TANGO を打ち負かすことに成功し、既存の最高のオーディオ生成モデルを上回ったと主張しています。
Audioboxは現在、モデルの品質と安全性をテストするための試用を特定の研究者や学者に公開しているが、メタ社は「数週間以内にモデルを完全に一般公開する」予定だと主張している。
以上がMeta が音声とテキストの同時入力をサポートする AI オーディオ モデル Audiobox を発表の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。