Rapport sur la puissance de la machine
Éditeur : Yang Wen
Ce nouveau modèle de voix IA, Fish Speech, a un excellent ton d'imitation.
Récemment, la piste vocale de l'IA est soudainement devenue animée.
Il y a plus d'un mois, ChatTTS, connu comme le « niveau plafond des TTS vocaux open source », est devenu populaire.
Quelle est sa popularité ?
En seulement trois jours, il a collecté 9,2 000 étoiles sur GitHub, et était autrefois en tête de la liste des tendances GitHub et a continué à dominer la liste.
Peu de temps après, Byte a également lancé un projet similaire, Seed-TTS, avec le même slogan : « générer une parole naturelle et réelle ».
Ces derniers jours, un nouveau joueur est entré sur ce morceau - Fish Speech.
Il est rapporté qu'après 150 000 heures de formation sur les données, le modèle maîtrise trois langues : le chinois, l'anglais et le japonais. Son traitement vocal est proche du niveau humain, et sa prise en charge du chinois est encore meilleure -
.Le responsable ne peut s'empêcher de dire la démo de Shao——
Phrase chinoise : Les lumières du monde se reflètent dans le lac, et son désir fait onduler l'eau calme. Si le prix n’est que la solitude, alors laissez ce désir couler librement. Elle se déverse dans le monde qu'elle regarde et dans ses yeux aussi clairs que l'eau d'un lac.
Zhongli, Le pouvoir des machines, 15 secondes
Lien vidéo :https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9
Phrase en anglais :Dans le domaine avancé technologie, évolution de l'intelligence artificielle constitue une réalisation monumentale. Ce domaine dynamique, repoussant constamment les limites de ce que les machines peuvent faire, a connu une croissance et une innovation rapides. Du déchiffrement de modèles de données complexes à la conduite autonome des voitures, les applications de l'IA sont vastes et diverses.
Speak English, Power of Machines, 25 seconds
Lien vidéo :https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9
De nombreux internautes ont dit : Bien que ce soit un peu électronique, l'effet est déjà très bien, et le ton de la voix ne mettra pas les gens mal à l'aise.
Cependant, certains internautes ont rappelé que bien que ce projet soit open source, il n'est pas disponible dans le commerce.
-1-
Expliquer des documentaires et raconter des virelangues, ça marche ?
Fish Speech est un modèle de synthèse vocale open source développé par Fish Audio Company. Selon les rapports, le modèle ne comporte que 100 millions de paramètres et peut être facilement exécuté et ajusté sur des appareils personnels.
Lien du site officiel : https://fish.audio/zh-CN/text-to-speech/
La conception de l'interface du site officiel est simple Dans la colonne « Découvrir », il y a différentes voix formées par les internautes, telles que. comme Ding Zhen, Trump, Lei Jun, Deng Ziqi, Dong Yuhui, Shan Tianfang, etc., ainsi que des voix bidimensionnelles telles que AD Senior Sister, Liuying, etc.
Ensuite, faisons l'évaluation proprement dite.
Le premier est le commentaire alternatif "Animal World".
Il n'y a pas si longtemps, il y avait un blogueur post-00 @dimensionnelCzoo qui s'est détaché de l'industrie en expliquant le "Monde Animal" d'une manière folle.
Par exemple, dans l'épisode "Owl Zhang Ba Da", le blogueur a présenté un animal appelé le petit hibou d'une manière d'explication qui est en partie sérieuse, en deux parties bizarre, en trois parties humoristique et en quatre parties inexplicable.
Lien vidéo : https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9
Nous utiliserons la voix « narration documentaire » dans le discours de Fish pour générer un doublage pour ce rédacteur gravement malade.
La mante verte est en fait très mignonne, extrêmement mignonne, croquante et sent le poulet, mais tout cela n'a rien à voir avec le colin de Virginie, car il ne peut pas se protéger. Le faucon à ventre jaune dit qu'il est vraiment parfumé. Les faucons à ventre jaune se trouvent partout en Amérique du Sud. Ils ont une excellente vue et peuvent voir les choses à 10 centimètres de distance, ce n'est donc pas notre protagoniste d'aujourd'hui.
Petite Chouette (xiao), connue dans le monde sous le nom de Viande Fraîche de Chouette, est comme ma cousine, mesure moins de 30 centimètres et est très mignonne. Comme le dit le proverbe, "Un tigre est intimidé par les chiens lorsqu'il tombe, et un hibou n'est pas aussi bon qu'un poulet dans la nature." La petite chouette des terriers est souvent ridiculisée par ses voisins en raison de sa faible capacité de chasse. Mais nous ne nous décourageons pas. Puisque nous ne trouvons pas de nourriture, nous chercherons de la nourriture.
Nous avons également choisi les voix de Ding Zhen et Deng Ziqi pour raconter des virelangues.
Lien vidéo : https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9
Laissez Trump parler des virelangues anglais.
Si vous comprenez, dites « comprends ». Si vous ne comprenez pas, dites « ne comprends pas ». Mais si vous comprenez et dites « ne comprends pas », comment puis-je comprendre que vous comprenez ?
Fish Speech English Tongue Twister, Le pouvoir des machines, 14 secondes
Lien d'écoute :https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9
Il y a aussi Dan Tianfang qui raconte des blagues. Le discours du poisson a une capacité d'imitation unique. Il peut imiter le timbre et l'intonation de personnes spécifiques au point d'être faux, comme Shan Tianfang, Deng Ziqi et Trump. Cependant, il présente aussi quelques défauts. Par exemple, parfois il est analphabète et lit "Petite Chouette" au hasard ; il ne sait pas segmenter les phrases et lit des phrases complètes en morceaux. De plus, il cesse de fonctionner une fois que le texte saisi est trop long.-2-
Trois batailles de modèles TTS
En plus d'utiliser des voix prêtes à l'emploi, nous pouvons également créer nos propres voix. L'opération est également très simple. Cliquez simplement sur « Créer un son » en haut de la page pour accéder à la nouvelle interface. Téléchargez ensuite la couverture, remplissez le nom du son et entrez l'audio. Parmi eux, lorsqu'il s'agit de saisir de l'audio, nous pouvons soit télécharger de l'audio prêt à l'emploi, soit l'enregistrer nous-mêmes, mais il y a une limite sur la durée, de préférence environ 30 secondes. Par exemple, nous avons mis en ligne un clip audio de Xu Zhisheng parlant de talk-shows. Regardons l'effet : Li Changgeng est un peu agacé récemment. Il montait actuellement sur une vieille grue, volant à travers les nuages et la brume, perdu dans ses pensées. Voyant qu'il était sur le point de voler vers Qiming Hall, Lao Hexu était confus. Au lieu de ralentir, il s'est écrasé directement dessus. Li Changgeng reprit ses esprits et agita le fouet à plusieurs reprises. Puis il battit des ailes à la hâte et atterrit de travers sur les marches à côté du hall.Fish Speech Reading Novel, Le pouvoir des machines, 23 secondes
On ne peut pas dire que la voix n'a rien à voir avec Xu Zhisheng, on peut seulement dire qu'elle est exactement la même, même l'accent est très similaire. Nous l'avons également laissé rivaliser avec le "niveau plafond TTS vocal open source" ChatTTS et Seed-TTS.Texte chinois : D'accord, hahahahaha, les gens qui aiment rire n'auront pas de malchance.
Fish Speech:Fish Speech, la puissance de la machine, 11 secondes
Lien d'audition:https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9
Chat TTS :ChatTTS, Le pouvoir des machines, 6 secondes
Lien de l'audition :https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9
Étant donné que Byte’s Seed-TTS ne peut pas être expérimenté personnellement, nous avons utilisé son exemple officiel.
Seed-TTS, Puissance de la Machine, 6 secondes
Ces trois modèles TTS ont leurs propres mérites Si nous devions classer leurs points forts, Seed-TTS a la segmentation des phrases et l'intonation de la voix les plus naturelles, suivies. par ChatTTS Bien que Fish Speech fasse encore défaut, il gagne en sons personnalisables.
Lien -
https://fish.audio/zh-CN/text-to-speech/
https://github.com/fishaudio/fish-speech
https : //chattts.com/
https://bytedancespeech.github.io/seedtts_tech_report/
https://github.com/BytedanceSpeech/seed-tts-eval
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!