Hot ChatTTS はオープンソース音声の上限を突破し、3 日間で 9,000 個のスターを獲得しました
Jun 07, 2024 pm 05:10 PMこれが人々の間のコミュニケーションの未来の姿でしょうか?
最近、ChatTTSと呼ばれるテキスト読み上げプロジェクトが人気を集めており、皆から大きな注目を集めています。わずか 3 日間で、GitHub で 9.2,000 個のスターを獲得しました。
プロジェクトアドレス: https://github.com/2noise/ChatTTS/tree/main
作者自身も x で ChatTTS がオープンソースの天井を突破したと述べました。ただし、現在オープンソースとして公開されているのは基本モデルのみであり、SFT による監修や微調整は行われていません。
このプロジェクトはテキストを音声に変換します。効果は次のとおりです。ChatTTSは中国語だけでなく、英語も話すことができ、途中で笑い声を追加することもできます。ポーズやモーダルパーティクルは非常に再生可能です。
絶版になった亡くなった人々の声をもう一度聞きたい場合はいつでも聞くことができます。スウィフトの音色を真似て聴いてみると、イントネーションも音色の変化も彼女に非常に近く、AIっぽさはほとんどありません。
あなたは中国語と英語も上手に話すことができ、この半分英語と半分中国語のアクセントで、ChatTTS の言語能力は次のレベルに達しています。站 上記の音声はステーション B のものです: https://www.bilibili.com/video/bv1zn4y1o7iv/?share_source=copy_web&vd_source=983EC32A3036B1CF2699E4FDBCE3C28 表示中に、チャットが自然な滑らかさを実現できることがわかります 音声合成は同時に複数の話者をサポートしますChatTTS は、韻律の点でほとんどのオープンソース TTS モデルを上回っています。
現在、ChatTTS は中国語と英語をサポートしています。最大のモデルは、100,000 時間以上の中国語と英語のデータを使用してトレーニングされました。 HuggingFace のオープンソース バージョンは、40,000 時間トレーニングされていますが、まだ SFT されていないバージョンです。
オンライン体験アドレス:https://huggingface.co/spaces/Dzkaka/ChatTTS
ChatTTS には主に 2 つのコア機能があり、1 つ目はテキスト読み上げで、2 つ目は大規模な言語モデルを使用したリアルタイム音声対話です。これらの機能に加えて、「オーディオシード」でデジタル的に指定したスピーカーの音色を調整したり、サイコロを振ってランダムにスピーカーを生成したりすることもできます。ただし、毎回同じパラメーターを使用すると、生成されるトーンが必ずしも固定されるとは限らないというテスターの意見も多かったです。
2Noise は現在サウンドのクローン作成をサポートしているが、それにはより大量のデータが必要だと述べています。
テキスト ボックスにテキストを入力すると、ChatTTS が韻とポーズを自動的に生成し、「その後」などのモーダル助詞も追加します。入力時にテキストに [笑い] と [uv_break] を追加すると、ChatTTS を手動で制御して、話すときに「笑い」を生み出すことができます。
しかし、一部のネチズンはまだ比較的長いテキストを処理できず、オーディオブックに挑戦するよう要求し、初期バージョンでは30秒を超える音声を生成できず、手動で修復する必要があることがわかりました。比較的長いテキストに遭遇した場合、ChatTTS の単語分割にも問題が発生します。
以上がHot ChatTTS はオープンソース音声の上限を突破し、3 日間で 9,000 個のスターを獲得しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

人気の記事

人気の記事

ホットな記事タグ

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











DeepMind ロボットが卓球をすると、フォアハンドとバックハンドが空中に滑り出し、人間の初心者を完全に打ち負かしました

クロードも怠け者になってしまった!ネチズン: 自分に休日を与える方法を学びましょう

初のメカニカルクロー!元羅宝は2024年の世界ロボット会議に登場し、家庭に入ることができる初のチェスロボットを発表した

世界ロボット会議で「未来の高齢者介護の希望」を担う家庭用ロボットを囲みました

宏蒙スマートトラベルS9とフルシナリオ新製品発売カンファレンス、多数の大ヒット新製品が一緒にリリースされました

Li Feifei 氏のチームは、ロボットに空間知能を与え、GPT-4o を統合する ReKep を提案しました

ACL 2024 賞の発表: HuaTech による Oracle 解読に関する最優秀論文の 1 つ、GloVe Time Test Award

中国初の大型UIモデル登場! Motiff の大規模モデルはデザイナーにとって最適なアシスタントを作成し、UI デザインのワークフローを最適化します
