Maison > Périphériques technologiques > IA > le corps du texte

Meta lance un modèle d'IA audio qui simule la parole d'une personne réelle en seulement 2 secondes

WBOY
Libérer: 2023-06-21 15:20:17
avant
1622 Les gens l'ont consulté

Récemment, Meta a publié le modèle Voicebox AI, qui présente des avantages significatifs en matière de simulation audio.

Il est rapporté que Voicebox n'a besoin que d'un échantillon audio de 2 secondes pour identifier avec précision les détails audio et le timbre, et les convertir en sortie vocale en fonction des résultats du texte.

Meta lance un modèle dIA audio qui simule la parole dune personne réelle en seulement 2 secondes

Voicebox est un modèle d'IA génératif qui facilite l'édition audio, l'échantillonnage et le style.

Cette technologie peut être utilisée pour aider les créateurs à éditer facilement des pistes audio à l'avenir, en même temps, elle peut également aider les personnes dont les cordes vocales sont endommagées et les aider à « sonner » à nouveau. Permet aux personnes malvoyantes d'entendre les messages écrits de leurs amis par le biais du son, tout en permettant aux gens de parler n'importe quelle langue étrangère avec leur propre voix.

En même temps, il peut également remplir automatiquement le contenu manquant en fonction du contenu précédent et suivant du clip vocal.

Selon Meta, Voicebox peut fournir des effets vocaux naturels et réalistes pour les assistants IA ou les PNJ dans le futur métaverse, améliorant considérablement l'immersion des utilisateurs lors de son utilisation.

La polyvalence de Voicebox prend en charge une variété de tâches, notamment :

Synthèse contextuelle de synthèse vocale : en utilisant des échantillons audio aussi courts que deux secondes, Voicebox peut faire correspondre les styles audio et les utiliser pour la génération de synthèse vocale.

Édition vocale et réduction du bruit : Voicebox peut recréer des parties de discours interrompues par du bruit ou remplacer des mots mal prononcés sans avoir à réenregistrer l'intégralité du discours. Par exemple, vous pouvez identifier un segment de discours interrompu par un chien qui aboie, le recadrer, puis demander à Voicebox de régénérer le segment, comme une gomme pour l'édition audio.

Conversion multilingue : lorsqu'elle reçoit un échantillon du discours d'une personne et un texte en anglais, français, allemand, espagnol, polonais ou portugais, Voicebox peut générer une lecture de texte dans l'une de ces langues, même si l'échantillon de discours et le texte sont différents. langue. À l'avenir, les gens pourront utiliser cette fonctionnalité pour communiquer de manière plus naturelle et authentique, même s'ils ne comprennent pas les langues.

Flow matching est une méthode utilisée par Voicebox qui s'est avérée efficace pour améliorer les performances des modèles de diffusion. Voicebox surpasse VALL-E, le modèle anglais de pointe actuel, en termes d'intelligibilité (taux d'erreur de mot de 5,9 % contre 1,9 %) et de similarité audio (0,580 contre 0,681), tout en étant 20 fois plus rapide. Pour le transfert de styles multilingues, Voicebox surpasse YourTTS, réduisant le taux d'erreur de mot moyen de 10,9 % à 5,2 % et améliorant la similarité audio de 0,335 à 0,481.

Meta lance un modèle dIA audio qui simule la parole dune personne réelle en seulement 2 secondes

Voicebox obtient de nouveaux résultats de pointe, surpassant Vall-E et YourTTS en termes de taux d'erreur de mots.

Meta lance un modèle dIA audio qui simule la parole dune personne réelle en seulement 2 secondes

Voicebox obtient également des résultats de pointe en matière de mesures de similarité de style audio dans les benchmarks anglais et multilingues respectivement.

Il convient de mentionner que Meta est actuellement conscient du préjudice potentiel qui existe lorsque Voicebox est utilisé dans le domaine de la contrefaçon, ils recherchent donc un moyen de faire la distinction entre la parole réelle et la parole générée par Voicebox.

Jusqu'à ce qu'une solution soit trouvée, Meta ne divulguera pas le modèle Voicebox AI au public pour éviter tout préjudice inutile.

Commentaire de l'éditeur : L'IA a désormais été appliquée dans divers domaines. En tant que premier modèle multifonctionnel et efficace permettant de généraliser avec succès des tâches, je pense que Voicebox peut inaugurer une nouvelle ère d'IA de génération vocale. Si Meta ne parvient pas à lutter efficacement contre la fraude audio, la technologie Voicebox peut être désactivée.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:sohu.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal