私の耳は正しい、音がリアルすぎる、Byte Beanbao音声合成のSeed-TTS技術が明らかに-AI-php.cn

Seed-TTS は、ByteDance Doubao モデルチームによって最近リリースされた大規模な音声生成モデルです。

、生成される音声は現実の人間とほとんど**変わりません**、特に人間の音声を模倣する学習、**忠実度**、および**の点で、発音**の欠陥**さえも生成される可能性があります。流暢さ **全員が**優れた**パフォーマンスを持っています。

例えば、Seed-TTSに音声を提供すると、そのテキストに基づいて新しい音声を生成し、元の素材の音声特性をもたらすことができます。

元素材(プロンプト): Seed-TTS生成中国語音声:

突然、私の周りで笑い声が聞こえました。私は彼らを見て、意気揚々と胸を張り、肉厚な腕を振り、笑いました。「私の体の肉は、私の圧倒的な魅力を隠すためのものです。そうでなければ、私はあなたたちを怖がらせませんか??」

英語の音声も生成でき、中国語話者の特徴を「再現」できます。

Seed-TTS が生成した英語音声:

私の耳は正しい、音がリアルすぎる、Byte Beanbao音声合成のSeed-TTS技術が明らかに

突然、私の横で笑い声が起きました。私は彼らを見て、意気揚々と直立し、少し肉厚な腕を振り、微笑みました。「私の体の肉は私のはじける魅力を隠すためです。そうでないと怖くないですか?」

別の例として、トーンのカスタマイズについては、Seed-TTS でも実現できますキャラクターの「感情」を声で引き出します:

ねぇ、あなたも甘い恋をしてみませんか？「A Little Smile Is Lovely」はあなたのベストチョイスです。主人公の男女はゲームを通じて知り合って、その過程で誤解はまったくありませんでした。考えただけで思わず「おばさん」って言ってしまいました（笑）〜

おバカさん、まあ…とてもかわいくてフレンドリーで、ちょっと「ユニーク」な名前ですが、私は少し不思議ですが、なぜ私にこのあだ名を選んだのですか？

Seed-TTS は、「単一の」音声を生成できるだけでなく、小説のプロットやさまざまなキャラクター特性に基づいて、登場人物や感情に対応する「ストーリーテラー」を提示することもできます。

「この錠剤は…麻薬や媚薬ではありませんよね？なぜ私の香りは、二人の姉妹が言ったものととても似ているのですか？そうですか… 「あなたは私に対して陰謀を企てているのですか？」ハン・リーはこれを聞いた後、長い間呆然としていました。彼は突然血を吐いたように感じました。この少女の考えはあまりにも捉えどころがありませんでした。彼女はインシャン丸薬を媚薬と関連付けることができました。悲しいかな、ハン・リーさんは、相手の用心深さに感心すべきか、理由もなく不当な扱いを受けたために三度叫ぶべきか分からなかった。「あなたの言ったことは本当のようですね。でも、使用する前に次姉にテストしてもらう必要があります。結局のところ、娘の家族は注意しなければなりません。」「ハン・リーは言葉を失い、顔の恥ずかしさを隠すために数回咳をすることしかできませんでした。彼は今、この小さなゴブリンから離れたほうが良いと感じました。そうしないと、いつか彼女に死ぬほど落ち込んでしまうでしょう。」。「ふん、でも、この薬が言うほど効果があるなら、試験は合格だ！兄貴が今後、莫邸で困ったことがあったら、財環に来て助けてもらってもいいよ。ちょっとしたアスファルトを集めればいいだけだよ」ご褒美です、必ず問題を完全に解決するお手伝いをさせていただきます。「わかった、後輩、兄に用事があったら必ず助けてもらうよ。」顔には笑みを浮かべていましたが、心の中ではこう考えました。

その他のデモンストレーションと原則については、元の論文と効果の表示を参照してください:

論文のリンク: https://arxiv.org/abs/2406.02430
Effect表示：https://bytedancespeech.github.io/seedtts_tech_report/

技術レポートのリリース前、Seed-TTS テクノロジーの一部は C サイド製品で一定期間オンラインになっていました。音声合成モデルとビーンバッグサウンド再生モデルは、ユーザーから多くの実際の賞賛を受けており、技術的な商用化サービスとして提供されています

技術的なハイライト、研究価値についてのチームの共有をご覧ください。、そしてそれが克服した課題

音声生成ベースの大型モデル

Q: Seed-TTS はどのような認識に感銘を受けましたか?

A: 音声認識に携わり、その後企業に勤めた教授がいますが、彼は私が非常に尊敬している業界関係者で、少し前に学会でデモを行いました。 Seed-TTSを見た後、音声生成の方向で何ができるかを考えると、この分野でできることは何もないと感じました。まだまだ改善の余地があると感じました。聞いてみてとても満足しています。 Q: どうしてですか?

A: うまくやっていると言われる可能性が高いですが、これは。教授は当時、関連する研究テーマを探していましたが、私たちの結果を見て、前向きなコメントをくれました。私は、これは非常に高い成果だと感じました。

Q: 以前の結果と比較して、Seed-TTS の違いは何ですか?

A: これは音声生成の基本モデルであり、ほとんどの音声とは少し異なります。具体的には、従来の TTS モデルはシングルタスクモデルですが、ベースモデルでは、あらゆるタスクを実行でき、方言などのさまざまな要素を同時に制御できるようにしたいと考えています。、実際の人々の口の習慣、さらには言葉の飲み込みなどの音声の欠陥さえも

世界に音声メソッドがある限り、英語と日本語、中国語、さらには陝西省の方言や方言などのさまざまな言語の方言さえも含まれます。中国語の河南弁...あるいは、嬉しい、悲しい、泣く、怒る、人間が存在する限り、誰もがそれを望んでいます

Q: 上記のアイデアはすべて達成されましたか

。

もちろん、まだ達成できていない部分もありますが、テクノロジーは進歩しています。例えば、現在の言語モデルがベースです。をテキストレベルで深く理解して、それを本当に「ベース」にしたいと考えています

Q: 「ベースモデル」を作成する際の課題はどこですか? A:

まず第一に、詳細なモデリングが優れているということです
以前は、TTS は放送システムとして実装するのが簡単でしたが、それは「機械の音」のように聞こえ、人間のように聞こえるには、たくさんの詳細。特に、人間は自分の音に非常に敏感で、たとえ自然ではない鳴き声であっても、人間の音声には非常に「機械的」に聞こえるという問題があります。

第二に、高い自然性と高い安定性が必要です。
過去 2 年間の主流の TTS のほとんどは、電話機ごとに定義された事前知識と継続時間モデルに基づいていましたが、根本的な表現力は限られていました。これらを削除すると、安定性と自然さの問題が発生し、これもまた課題となります。

3つ目は、データカバレッジ（Data Coverage）が非常に大きいことです。
私たちは、言葉の飲み込みや標準的でない発音など、人間の発音の不完全性の再現を含め、あらゆる人の声とさまざまな言語の方言を再現したいと考えています。これらの特徴を再構築して「不完全性」を復元するには、データカバレッジ (Data Coverage) が高くなければなりません。以前、業界で使用されるデータは数百時間から数千時間程度であり、Seed-TTS で使用されるデータは以前よりもはるかに大きくなりました。データが膨大になると、質と量のバランスも難しくなります。

4番目の、モデルのデザイン。 このような大規模な状況において、あらゆる面でより良い結果を達成するためにモデルを設計する方法も大きな課題です。

最後に、エンジニアリングの課題があります。 上で述べたように、データの規模が大きく、モデルの複雑さが高いと、必然的にエンジニアリング上の問題が発生しますが、これまでに解決した人はほとんどいません。

Q: 技術的な観点から見ると、これらの課題を解決することにどのような価値がありますか?

A テキストと画像のどちらを優先するかは、音声モデリングにどちらが適しているかという問題です。

音声とテキストには多くの類似点があり、言語モデルのモデリングにより適した音声表現をどのように設計するかも解決する必要がある問題です。

強化学習を使用して、さまざまな主観的および客観的な嗜好情報を生成システムに統合する方法も問題の1つです。

Q: 言語モデルと拡散モデルに関する研究について言及しましたが、そこからどのような結論を導き出すことができますか?

Seed-TTS は、言語モデルに基づいた技術ソリューションを提供するだけでなく、期間モデルから完全に分離された別の拡散技術ソリューションも提供します。これも業界初です。。

さらに、2 つのシステムを徹底的に比較した結果、言語モデルはストリーミング処理に比較的適しており、拡散モデルは編集処理に適していることがわかりました。合併を続けます。

Q: これら 2 つのシステムについて、Seed-TTS は具体的にどのような技術的問題を解決しますか?

言語モデルシステムの場合、主にトークナイザーと音声の安定性を解決します。

言語モデルのモデリングでは、音声トークン化が中心部分です。現在、市場には連続トークナイザーと離散トークナイザーの両方が存在しており、チームは多くの調査を行ってきました。トークンに含まれる情報の設計は、トークン、フレームレートなどの情報だけでなく、その方法も含め、あらゆる面でモデル全体のパフォーマンスと安定性に非常に重要な影響を与えることがわかりました。それをトークン化して音に戻す方法。現在、これらは業界ではあまり検討されていません。

言語モデルの安定性に関して、私たちはトークン、モデル設計、デコード戦略、データ準備においてさまざまな検討を行い、業界とアプリケーションの要件を真に満たしました。

純粋な拡散システムの場合、余分な持続時間モデルが削除されているため、難易度も安定性を重視しています。多くの試みの結果、このリンクでも非常に優れた指標が得られました。

Q: 「音声モデルとテキストモデルには多くの類似点がある」ということについて、これは私たちに何をインスピレーションを与えますか?

大規模なテキストモデルの観点から、音声生成モデルは、事前トレーニング、微調整の指示、トレーニング後に分類することもできます。

その中で、事前トレーニングはモデルの基本的な機能を向上させることができ、これは特に音色の継続、音声の複製、その他の機能などのインコンテキスト学習機能に反映されます。

Instruct の微調整では、主に Instruct を通じて音声生成プロセスをより制御可能にします。監督や俳優がリクエストを行うのと同じように、話す速度を速くしたり遅くしたり、人々に印象を与える方法など、これらはすべて次の方法によって統合されます。私たち、入ってください。

最後に、強化学習は、安定性、制御、表現力、自然さなどを含む、さまざまな主観的および客観的な好みの情報を生成システムに統合し、モデルを多くの次元で改善できることもわかりました。業界内でもこの点を検討している人は多くありません。

上記に基づいて、自己蒸留に合成データを使用する方法も検討し、非常に良い利点も得ました。これはテキスト LLM で比較的使用されていますが、音声業界ではこれまであまり検討されていませんでした。

Q: 「業界ではいくつかの問題があまり検討されていない」と 3 回述べましたが、この現象は何が原因でしょうか?

A:一方で、音声生成の分野におけるこれまでの研究は比較的独立しており、業界には多くの伝統的な経験があったため、この AIGC の傾向ではもはや適用できない可能性があります。より広い観点から見ると、音声生成はテキストや画像の生成と多くの共通点があります。大きなテキストモデルと画像生成の急速な発展も、私たちに多くの新しい考え方をもたらしました。新しいアイデアを推進するには時間がかかるため、業界ではまだ探求が比較的少なくなっています。

一方で、多くの研究者は学校で働いており、関連するリソースを持っていません。ここには、それを実行できるだけでなく、それを詳細に調査し、安定性、表現力、計算の複雑さを考慮できるモデルがいくつか見つかりました。しかし、これが私たちにできる最善のことでしょうか？まだまだ探索を続ける必要があるかもしれません。

Q: 研究プロセス全体でマイルストーンとなる瞬間はありますか?

A: 基本的なエフェクトは昨年リリースされて以来、実際のケースを使用して何度も反復してきました。作業には、実際のケースの検索、トレーニング後のさまざまな問題の解決などが含まれます。このシナリオでは、さまざまな安定性、最初のパケットの遅延、同時実行数、計算量など)。当時と比べると今はかなり効果が上がっています。

大規模な音声生成モデルはどこへ行ったのでしょうか?

Q: 今振り返ってみて、研究全体の価値は何ですか?

A: Seed-TTS 自体の価値の観点から見ると、音声は完全にツールではなく、人間の対話の最も直接的な形式です。たとえば、サイレント映画からトーキー映画まで、小さな変化が業界では大きな飛躍となります。たとえば、子供がパパに電話するとき、それがもたらす感情的なつながりは、テキストを読む場合とはまったく異なります。

真の AI に移行したい場合、音声の自然さは重要な要素です。かつて私たちが想像していた機械は、『さまよえる地球』のモスのように、すべて機械の音声でした。AI が本当にアシスタントやパートナーのような存在になり得るのであれば、音声によってもたらされる感情的なつながりが不可欠です。『アイアンマン』のジャービスは実在の人物が声を担当したため、多くの人に記憶されています。

また、アプリケーションに関しては、小説や電子書籍、キャラクターデザイン、ビデオ翻訳、バーチャルキャラクター、放送、俳優の表現など、音声アプリケーションのシナリオは数多くあり、それぞれに用途があります。吃音や音の発音ができない人でも、音声テクノロジーの助けを借りて自分を表現することができます。音声シナリオが単なる情報メディアでない限り、応用の余地はあります。これは、ベースモデルを優れたものにする動機でもあります。

Q: 音声生成モデルに関して、スケーリングの法則は一部の専門家によって「信仰」とみなされていますが、データとモデルをスケーリングした後の結果はどうなりますか?

A: 非常に大規模であっても、規模を拡大し続けると常にメリットが得られます。一般に、スケールの大きさを大きくすると、モデルが新しい機能を獲得し続けることがわかり、嬉しい驚きを感じます。

Q: あなたの観察によれば、この限界はどこにありますか?

A: 現時点では、まだ毎回メリットが見られますが、間違いなく探究を続ける必要があります。しかし、正しいモデル設計があれば、TTS の伝統的な考え方を打ち破ることができることが証明されました。以前は少量の高品質データに依存していましたが、現在ではその規模が増大し続けており、より高いメリットを達成できるようになりました。

Q: GPT4-o は私たちにどのような啓発をもたらしてくれますか?

A:これは生成と理解のための統合モデルであり、音声技術に関する要件が高く、モデルには聞き、話し、考える能力が同時に必要です。これらにより、私たちの仕事に多くの新しい要件が提示されました。

Q: 音声分野における大型モデルの開発段階はどのようなものですか?

A:一方で、私たちはモデルがプロの俳優のような表現力とコントロールを備えていることを望んでいます。ほとんどの場合、モデルによって生成される音声は実際の人間の音声とそれほど変わりませんが、映画やテレビドラマでは俳優の感情表現が非常に激しく、情報密度も比較的高いため、完全に一致するわけではありません。私たちは皆、コーナーケースを完了したいと考えています。

一方、まれなロングテール状況を解決するための Bad Case 処理や最適化などの詳細の処理です。

大規模なモデル作業には、多数の優れた才能の参加が必要です

Q: Seed-TTS の今回のリリースでは、世界中から同僚が参加しています。なぜですか。多くの人が参加していますか？

A:業界の発展に伴い、複数の人々の協力は避けられません。産業化のニーズに応えながら、最終目標である大型モデルを達成するには、1 つ 2 つのアイデアだけでは支えられず、多くの人が参加する必要があります。参加者全員が非常にプロフェッショナルでした。たとえば、私たちのデータでは専門学生が処理に参加する必要があります。もう 1 つの例は、実装プロセスには多くの詳細が含まれており、評価とエンジニアリングサポートを専門とする学生の協力が必要であるということです。彼らは皆、多大な貢献をしてくれました。

AI の最先端研究の主流のプレーヤーの中で、プロジェクトには非常に多くの参加者がおり、そのような高密度で複雑な才能のすべてのリンクを専門学生が担当していることがわかります。コラボレーションと正確な調整、組織スキルの要件も非常に高くなります。

Q: チームの雰囲気はどんな感じですか？

A: それは「意欲」と「詳細」のせいだと思います。「大切さ」は、みんなが率先して物事に取り組む姿に表れます。それ自体は、好奇心と業界を変えたいという考えから生まれた自発的なプロセスでもありました。大企業が少なく、スタートアップ企業に近い雰囲気です。

Q: チームが「詳細を決める」ともおっしゃいましたが、これについてはどのように理解していますか?

A: これは実際のシーンで細部を拾い出すことについてです。生成作業では、デモではきれいなデモを行うのは簡単ですが、実際のアプリケーションでは、システムはさまざまな細かい問題に直面します。モデルが常に高品質で生成され、ユーザーのニーズを満たすことを保証するために、システムの安定性と堅牢性について非常に厳しい要件があり、細部まで高品質であることを保証するために繰り返し研磨する必要があります。逆に、デモではあまり最適化を行いませんでした。

Q: 「デモの最適化をあまり行わないこと」について社内で議論はありますか?

A: そうです、結局のところ、特に若い学生は誰もがより良い面を見せたいと思っていますが、それでも私たちはユーザーが実際に使用するのを防ぐために実装できる結果が得られることを望んでいます。その過程で、製品とデモの間に大きなギャップがあることがわかり、業界が大きく変わりました。

Q:関連技術は現在Doubaoアプリに適用されていますか?

A: 一部の関連テクノロジーは、実際のシナリオでユーザーによって承認された後にのみ外部に公開されます。最後のオンライン作業。

Q: 私たちのチームを要約できるキーワードは何ですか?

A: 最初のものはプロフェッショナルです。これは、データ、インフラストラクチャ、モデル設計など、さまざまな側面に反映されています。私たちはあらゆるリンクの細部に非常に専門的に注意を払い、産業実装の観点から究極のパフォーマンスを達成するよう努めます。

2番目の言葉は集中力と意欲です。 目標を達成するには、集中力と意欲が不可欠です。そのため、実際に成果が出たときは皆がとてもやりがいを感じ、自信を持ちます。

3番目の言葉は団結です。 チームで仕事をする時は、大企業には珍しく全員の縄張り意識がなく連携がスムーズです。

Q: 私たちのチームは今後もどのような資質の人材を獲得したいと考えていますか?

A: まず、値が一貫しているかどうかを見てください。能力は確かに一面ではありますが、それよりも重要なのは、誰もが自己実現を達成できるように、同じ船に乗るパートナーを見つけることを願っています。このような価値観のもとでの協力は自然とスムーズになります。

2つ目は、バックグラウンドの多様性です。現在、AIのさまざまな分野で使用される手法は類似しており、誰もが同じ方向に徐々に統合されているため、強化学習、視覚認識、音声認識などの分野での経験が生成に重要な役割を果たします。さまざまな専門的背景を持つ学生が参加できることを願っています。私は音声理解者なので、TTS に切り替えました。

最後に、主体的な自発性と学習能力、仕事への高い追求力。 ジェネレーティブなタスクにも多くのユニークな特徴があり、その中でアクティブラーニング能力が必要であると同時に、私たちは業界で最高の技術と製品を作ることを望んでいます。学生たちもこのビジョンを胸に日々前進し続けることが求められます。

上記はSeed-TTSチームの学生が共有した内容ですチームは引き続き優秀な人材を採用し続けています。

あなたも大型モデル技術に対する理想と熱意を持ち、Doubao大型モデルチームの雰囲気を認識している場合は、Doubao大型モデルチームの公式Webサイトteam.doubao.comにログインしてください。または、チームの公式公開アカウントをフォローして、技術の進歩、チームのストーリー、採用情報について詳しくご覧ください: 私の耳は正しい、音がリアルすぎる、Byte Beanbao音声合成のSeed-TTS技術が明らかに