Maison > Périphériques technologiques > IA > Test réel du dernier modèle de parole d'IA : laissez Trump et Ding Zhen prononcer des virelangues, dont on peut dire qu'elles sont fausses, mais les phrases sont brisées en morceaux.

Test réel du dernier modèle de parole d'IA : laissez Trump et Ding Zhen prononcer des virelangues, dont on peut dire qu'elles sont fausses, mais les phrases sont brisées en morceaux.

WBOY
Libérer: 2024-07-15 20:44:38
original
509 Les gens l'ont consulté

Rapport sur la puissance de la machine

Éditeur : Yang Wen

Ce nouveau modèle de voix IA, Fish Speech, a un excellent ton d'imitation.

Récemment, la piste vocale de l'IA est soudainement devenue animée.

Il y a plus d'un mois, ChatTTS, connu comme le « niveau plafond des TTS vocaux open source », est devenu populaire.

Quelle est sa popularité ?

En seulement trois jours, il a collecté 9,2 000 étoiles sur GitHub, et était autrefois en tête de la liste des tendances GitHub et a continué à dominer la liste.

Peu de temps après, Byte a également lancé un projet similaire, Seed-TTS, avec le même slogan : « générer une parole naturelle et réelle ».

Ces derniers jours, un nouveau joueur est entré sur ce morceau - Fish Speech.

Test réel du dernier modèle de parole dIA : laissez Trump et Ding Zhen prononcer des virelangues, dont on peut dire quelles sont fausses, mais les phrases sont brisées en morceaux.

Il est rapporté qu'après 150 000 heures de formation sur les données, le modèle maîtrise trois langues : le chinois, l'anglais et le japonais. Son traitement vocal est proche du niveau humain, et sa prise en charge du chinois est encore meilleure -

.

Test réel du dernier modèle de parole dIA : laissez Trump et Ding Zhen prononcer des virelangues, dont on peut dire quelles sont fausses, mais les phrases sont brisées en morceaux.

Le responsable ne peut s'empêcher de dire la démo de Shao——

Phrase chinoise : Les lumières du monde se reflètent dans le lac, et son désir fait onduler l'eau calme. Si le prix n’est que la solitude, alors laissez ce désir couler librement. Elle se déverse dans le monde qu'elle regarde et dans ses yeux aussi clairs que l'eau d'un lac.

Zhongli, Le pouvoir des machines, 15 secondes

Lien vidéo :https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9

Phrase en anglais :Dans le domaine avancé technologie, évolution de l'intelligence artificielle constitue une réalisation monumentale. Ce domaine dynamique, repoussant constamment les limites de ce que les machines peuvent faire, a connu une croissance et une innovation rapides. Du déchiffrement de modèles de données complexes à la conduite autonome des voitures, les applications de l'IA sont vastes et diverses.

Speak English, Power of Machines, 25 seconds

Lien vidéo :https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9

De nombreux internautes ont dit : Bien que ce soit un peu électronique, l'effet est déjà très bien, et le ton de la voix ne mettra pas les gens mal à l'aise.

Test réel du dernier modèle de parole dIA : laissez Trump et Ding Zhen prononcer des virelangues, dont on peut dire quelles sont fausses, mais les phrases sont brisées en morceaux.

Test réel du dernier modèle de parole dIA : laissez Trump et Ding Zhen prononcer des virelangues, dont on peut dire quelles sont fausses, mais les phrases sont brisées en morceaux.

Cependant, certains internautes ont rappelé que bien que ce projet soit open source, il n'est pas disponible dans le commerce.

Test réel du dernier modèle de parole dIA : laissez Trump et Ding Zhen prononcer des virelangues, dont on peut dire quelles sont fausses, mais les phrases sont brisées en morceaux.

-1-

Expliquer des documentaires et raconter des virelangues, ça marche ?

Fish Speech est un modèle de synthèse vocale open source développé par Fish Audio Company. Selon les rapports, le modèle ne comporte que 100 millions de paramètres et peut être facilement exécuté et ajusté sur des appareils personnels.

Lien du site officiel : https://fish.audio/zh-CN/text-to-speech/

La conception de l'interface du site officiel est simple Dans la colonne « Découvrir », il y a différentes voix formées par les internautes, telles que. comme Ding Zhen, Trump, Lei Jun, Deng Ziqi, Dong Yuhui, Shan Tianfang, etc., ainsi que des voix bidimensionnelles telles que AD Senior Sister, Liuying, etc.

Test réel du dernier modèle de parole dIA : laissez Trump et Ding Zhen prononcer des virelangues, dont on peut dire quelles sont fausses, mais les phrases sont brisées en morceaux.

Ensuite, faisons l'évaluation proprement dite.

Le premier est le commentaire alternatif "Animal World".

Il n'y a pas si longtemps, il y avait un blogueur post-00 @dimensionnelCzoo qui s'est détaché de l'industrie en expliquant le "Monde Animal" d'une manière folle.

Par exemple, dans l'épisode "Owl Zhang Ba Da", le blogueur a présenté un animal appelé le petit hibou d'une manière d'explication qui est en partie sérieuse, en deux parties bizarre, en trois parties humoristique et en quatre parties inexplicable.

Test réel du dernier modèle de parole dIA : laissez Trump et Ding Zhen prononcer des virelangues, dont on peut dire quelles sont fausses, mais les phrases sont brisées en morceaux.

Lien vidéo : https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9

Nous utiliserons la voix « narration documentaire » dans le discours de Fish pour générer un doublage pour ce rédacteur gravement malade.

La mante verte est en fait très mignonne, extrêmement mignonne, croquante et sent le poulet, mais tout cela n'a rien à voir avec le colin de Virginie, car il ne peut pas se protéger. Le faucon à ventre jaune dit qu'il est vraiment parfumé. Les faucons à ventre jaune se trouvent partout en Amérique du Sud. Ils ont une excellente vue et peuvent voir les choses à 10 centimètres de distance, ce n'est donc pas notre protagoniste d'aujourd'hui.

Petite Chouette (xiao), connue dans le monde sous le nom de Viande Fraîche de Chouette, est comme ma cousine, mesure moins de 30 centimètres et est très mignonne. Comme le dit le proverbe, "Un tigre est intimidé par les chiens lorsqu'il tombe, et un hibou n'est pas aussi bon qu'un poulet dans la nature." La petite chouette des terriers est souvent ridiculisée par ses voisins en raison de sa faible capacité de chasse. Mais nous ne nous décourageons pas. Puisque nous ne trouvons pas de nourriture, nous chercherons de la nourriture.

Nous avons également choisi les voix de Ding Zhen et Deng Ziqi pour raconter des virelangues.

Test réel du dernier modèle de parole dIA : laissez Trump et Ding Zhen prononcer des virelangues, dont on peut dire quelles sont fausses, mais les phrases sont brisées en morceaux.

Lien vidéo : https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9

Laissez Trump parler des virelangues anglais.

Si vous comprenez, dites « comprends ». Si vous ne comprenez pas, dites « ne comprends pas ». Mais si vous comprenez et dites « ne comprends pas », comment puis-je comprendre que vous comprenez ?

Fish Speech English Tongue Twister, Le pouvoir des machines, 14 secondes

Lien d'écoute :

https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9

Il y a aussi Dan Tianfang qui raconte des blagues.

Le discours du poisson a une capacité d'imitation unique. Il peut imiter le timbre et l'intonation de personnes spécifiques au point d'être faux, comme Shan Tianfang, Deng Ziqi et Trump.

Cependant, il présente aussi quelques défauts. Par exemple, parfois il est analphabète et lit "Petite Chouette" au hasard ; il ne sait pas segmenter les phrases et lit des phrases complètes en morceaux. De plus, il cesse de fonctionner une fois que le texte saisi est trop long.

-2-

Trois batailles de modèles TTS

En plus d'utiliser des voix prêtes à l'emploi, nous pouvons également créer nos propres voix.

L'opération est également très simple. Cliquez simplement sur « Créer un son » en haut de la page pour accéder à la nouvelle interface. Téléchargez ensuite la couverture, remplissez le nom du son et entrez l'audio.

Parmi eux, lorsqu'il s'agit de saisir de l'audio, nous pouvons soit télécharger de l'audio prêt à l'emploi, soit l'enregistrer nous-mêmes, mais il y a une limite sur la durée, de préférence environ 30 secondes.

Par exemple, nous avons mis en ligne un clip audio de Xu Zhisheng parlant de talk-shows.

Test réel du dernier modèle de parole dIA : laissez Trump et Ding Zhen prononcer des virelangues, dont on peut dire quelles sont fausses, mais les phrases sont brisées en morceaux.

Regardons l'effet :

Li Changgeng est un peu agacé récemment.

Il montait actuellement sur une vieille grue, volant à travers les nuages ​​et la brume, perdu dans ses pensées. Voyant qu'il était sur le point de voler vers Qiming Hall, Lao Hexu était confus. Au lieu de ralentir, il s'est écrasé directement dessus. Li Changgeng reprit ses esprits et agita le fouet à plusieurs reprises. Puis il battit des ailes à la hâte et atterrit de travers sur les marches à côté du hall.

Fish Speech Reading Novel, Le pouvoir des machines, 23 secondes

On ne peut pas dire que la voix n'a rien à voir avec Xu Zhisheng, on peut seulement dire qu'elle est exactement la même, même l'accent est très similaire.

Nous l'avons également laissé rivaliser avec le "niveau plafond TTS vocal open source" ChatTTS et Seed-TTS.

Texte chinois : D'accord, hahahahaha, les gens qui aiment rire n'auront pas de malchance.

Fish Speech:

Fish Speech, la puissance de la machine, 11 secondes

Lien d'audition:

https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9

Chat TTS :

ChatTTS, Le pouvoir des machines, 6 secondes

Lien de l'audition :

https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9

Étant donné que Byte’s Seed-TTS ne peut pas être expérimenté personnellement, nous avons utilisé son exemple officiel.

Seed-TTS, Puissance de la Machine, 6 secondes

Ces trois modèles TTS ont leurs propres mérites Si nous devions classer leurs points forts, Seed-TTS a la segmentation des phrases et l'intonation de la voix les plus naturelles, suivies. par ChatTTS Bien que Fish Speech fasse encore défaut, il gagne en sons personnalisables.

Lien -

https://fish.audio/zh-CN/text-to-speech/

https://github.com/fishaudio/fish-speech

https : //chattts.com/

https://bytedancespeech.github.io/seedtts_tech_report/

https://github.com/BytedanceSpeech/seed-tts-eval

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:jiqizhixin.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal