マシンパワーレポート
編集者:Yang Wen
この新しい AI 音声モデル、フィッシュスピーチは、優れた模倣トーンを持っています。
最近、AIボイストラックが急に賑やかになってきました。
1 か月以上前、「オープンソース音声 TTS の天井レベル」として知られる ChatTTS が人気になりました。
人気はどれくらいですか?
わずか 3 日間で、GitHub で 9.2,000 個のスターを集め、一時は GitHub トレンドのリストでトップになり、その後もリストを独占し続けました。
その後間もなく、Byte も同様のプロジェクトである Seed-TTS を立ち上げ、「自然で本物の音声を生成する」という同じスローガンを掲げました。
ここ数日で、新しいプレイヤーがこのトラックに参加しました - Fish Speech。
150,000 時間のデータトレーニングの後、モデルは中国語、英語、日本語の 3 つの言語に堪能になったと報告されています。その音声処理は人間のレベルに近く、中国語のサポートもさらに優れています。
役人はシャオデモと言わざるを得ません——中国語の文:世界の光が湖に反射し、彼女の欲望が静かな水面に波紋を作ります。代償が孤独だけなら、この欲望を自由に流しましょう。それは彼女が見ている世界に流れ込み、湖の水のように透明な彼女の目に流れ込みます。 Zhongli、マシンの力、15秒
Videoリンク:https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc91英語文:人工知能の進歩は記念碑的な成果であり、機械ができることの限界を常に押し広げており、複雑なデータ パターンの解読から自動車の自動運転まで、AI のアプリケーションは広大かつ多様です。 Speak English、The Power of Machines、25 秒
ビデオリンク:https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9
多くのネチズンは次のように述べています。とても良い声で、人に不快感を与えません。
しかし、一部のネチズンは、このプロジェクトはオープンソースではあるが商用利用できないことを思い出させました。
-1-explainsドキュメンタリーと舌のツイスターに伝えると、それは機能しますか?
Fish Speech は、Fish Audio Company によって開発されたオープンソースのテキスト読み上げモデルです。レポートによると、このモデルには 1 億個のパラメータしかなく、個人のデバイスで簡単に実行して微調整することができます。
公式ウェブサイトのリンク: https://fish.audio/zh-CN/text-to-speech/
公式ウェブサイトのインターフェースデザインはシンプルで、「Discover」列には、ネチズンによって訓練されたさまざまな音声が表示されます。ディン・ジェン、トランプ、レイ・ジュン、デン・ズーチー、ドン・ユーフイ、シャン・ティエンファンなどのほか、AD先輩、リウインなどの二次元音声も収録。
次に、実際に評価してみましょう。
첫 번째는 대안해설 '동물의 세계'입니다.
얼마 전 2000년대 이후의 블로거 @DimensionCzoo가 "동물의 세계"를 미친 방식으로 설명하며 업계에서 돌풍을 일으켰습니다.
예를 들어, '부엉이 장바다' 에피소드에서 블로거는 진지함 1부, 기이함 2부, 유머러스 3부, 설명할 수 없는 4부 등의 설명 방식으로 작은 부엉이라는 동물을 소개했습니다.
비디오 링크: https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9
우리는 Fish 음성의 "문서 내레이션" 음성을 사용하여 이 중병에 걸린 카피라이터를 위한 더빙을 생성할 것입니다.
사마귀는 실제로 매우 귀엽고, 매우 귀엽고, 아삭아삭하고 닭고기 냄새가 나지만, 이 모든 것은 밥메추리와는 아무런 관련이 없습니다. 왜냐하면 스스로를 보호할 수 없기 때문이며, 노란배매는 정말 향기롭다고 말합니다. 노란배 매는 남아메리카 전역에서 발견됩니다. 시력이 뛰어나고 10센티미터 떨어진 사물도 볼 수 있으니 오늘의 주인공은 그렇지 않습니다.
세계에서 부엉이 신선한 고기로 알려진 작은 부엉이(샤오)는 내 사촌과 꼭 닮았고, 키가 30cm도 채 되지 않고 매우 귀엽습니다. "호랑이는 넘어지면 개들에게 괴롭힘을 당하고, 부엉이는 야생의 닭만큼 좋지 않다."라는 속담처럼, 작은 굴을 파는 부엉이는 사냥 능력이 좋지 않아 이웃들에게 종종 비웃음을 받습니다. 그러나 우리는 음식을 찾을 수 없기 때문에 낙심하지 않습니다.
또한 혀 트위스터에게 전할 Ding Zhen과 Deng Ziqi의 목소리를 선택했습니다.
동영상 링크: https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9
트럼프에게 영어 텅 트위스터를 말하게 하세요.
이해하면 "이해하지 않는다"고 말하고, "이해하지 않는다"고 말하면 이해한다고 어떻게 이해합니까?
Fish Speech English Tongue Twister, The Power of Machines, 14초
청취 링크: https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9
Dan Tianfang도 알려줍니다 농담.
물고기 연설에는 Shan Tianfang, Deng Ziqi, Trump와 같은 특정 인물의 음색과 억양을 가짜로 모방할 수 있는 독특한 능력이 있습니다.
그러나 몇 가지 결점도 있습니다. 예를 들어 가끔 문맹이어서 "Little Owl"을 무작위로 읽는 경우가 있는데, 문장을 분할하는 방법을 모르고 완전한 문장을 조각으로 읽는 경우도 있습니다. 또한 입력 텍스트가 너무 길면 중단됩니다.
-2-
3개의 TTS 모델 배틀
기성 음성을 사용하는 것 외에도 우리만의 목소리를 만들 수도 있습니다.
조작 방법도 매우 쉽습니다. 새 인터페이스로 이동하려면 페이지 상단의 "Build Sound"를 클릭하세요. 그런 다음 표지를 업로드하고 사운드 이름을 입력한 다음 오디오를 입력합니다.
그 중 오디오 입력은 미리 만들어진 오디오를 업로드하거나 직접 녹음할 수도 있지만 시간 제한이 있는데 가급적 30초 정도가 좋습니다.
예를 들어, 토크쇼에 대해 이야기하는 Xu Zhisheng의 오디오 클립을 업로드했습니다.
효과를 살펴보겠습니다.
리창경은 최근에 조금 짜증이 났습니다.
그는 지금 낡은 크레인을 타고 구름과 안개 속을 날아가며 생각에 잠겨 있었습니다. 치밍홀로 날아가려는 것을 본 라오허쉬는 속도를 늦추지 않고 곧바로 충돌했습니다. 이창경은 정신을 차리고 파리채를 여러 번 흔들더니 급히 날개를 퍼덕이며 홀 옆 계단에 비스듬히 착지했다.
Fish Speech Reading Novel, The Power of Machines, 23초
목소리가 Xu Zhisheng과 전혀 관련이 없다고 말할 수는 없으며, 정확히 동일하다고만 말할 수 있습니다. 심지어 악센트도 그렇습니다. 굉장히 유사한.
또한 "오픈소스 음성 TTS 한도 수준"인 ChatTTS 및 Seed-TTS와 경쟁하게 했습니다.
중국어 텍스트: 그렇군요, 하하하하하, 웃는 걸 좋아하는 분들은 매일 웃으시길 바랍니다.
물고기 스피치:
물고기 스피치, 기계의 힘, 11초
오디션 링크:https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9
ChatTTS:
ChatTTS ,The Power of Machines,6초
오디션 링크:https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9
由于字节的 Seed-TTS 还无法亲自体验,所以我们就用了它的官方示例。
Seed-TTS,机器之能,6秒
这三款 TTS 模型各有千秋,如果非要给它们的实力排个序,Seed-TTS 的断句、语音语调最自然,其次就是 ChatTTS,Fish Speech 虽然还有所欠缺,但它赢在可自定义音色上。
链接 ——
https://fish.audio/zh-CN/text-to-speech/
https://github.com/fishaudio/fish-speech
https://chattts.com/
https://bytedancespeech.github.io/seedtts_tech_report/
https://github.com/BytedanceSpeech/seed-tts-eval
위 내용은 최신 AI 음성 모델의 실제 테스트: Trump와 Ding Zhen에게 텅 트위스터가 가짜라고 말할 수 있지만 문장이 조각난 것이라고 말하도록 요청합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!