Seed-TTS est un grand modèle de génération vocale récemment publié par l'équipe modèle ByteDance Doubao.
, le discours qu'il génère n'est presque **pas différent** des personnes réelles, même des **défauts** de prononciation peuvent être générés, notamment en termes d'apprentissage à imiter la parole humaine, de **fidélité** et ** maîtrise **tous ont **excellentes** performances.
Par exemple, fournissez un morceau de discours à Seed-TTS, Il peut générer un nouveau discours basé sur le texte et apporter les caractéristiques sonores du matériel original.
Matériel original (invite) : Voix chinoise générée par Seed-TTS :
Tout à coup, il y a eu des rires autour de moi. Je les ai regardés, j'ai redressé ma poitrine avec bonne humeur, j'ai secoué mes bras charnus et j'ai ri : "La chair sur mon corps est là pour dissimuler mon charme irrésistible, sinon, est-ce que je ne vous ferais pas tous peur ? ?"
La parole anglaise peut également être générée et peut toujours « reproduire » les caractéristiques des locuteurs chinois. Seed-TTS a généré un discours en anglais : Soudain, il y a eu un éclat de rire à côté de moi, je les ai regardés, je me suis redressé avec une bonne humeur, j'ai secoué les bras légèrement charnus et j'ai souri. légèrement, en disant : « La chair sur mon corps est là pour cacher mon charme éclatant. Sinon, cela ne vous ferait-il pas peur ? » Réalisez-le et faites ressortir le « sentiment » du personnage dans la voix :
Hé, toi aussi ? tu veux avoir un doux amour ? "A Little Smile Is Lovely" est votre meilleur choix. Les protagonistes masculins et féminins sont des beautés de l'école. Ils ont appris à se connaître grâce aux jeux, et puis lorsqu'ils se sont rencontrés, il n'y a eu aucun malentendu dans tout le processus. Je ne pouvais pas m'empêcher de dire "Tante" quand j'y pense. "~
Non seulement il peut générer une voix "unique", Seed-TTS peut même présenter un "conteur" correspondant aux personnages et aux émotions basé sur l'intrigue du roman et différents traits de caractère.
"Est-ce que cette pilule... est un médicament ou un aphrodisiaque ou quelque chose comme ça ? Pourquoi mon parfum a-t-il une odeur si similaire à ce que les deux sœurs ont dit ? Eh bien, tu ne penses pas... Est-ce que "Han Li a été stupéfait pendant un long moment après avoir entendu cela. Il a soudainement eu l'impression de vomir du sang. Les pensées de cette fille étaient trop insaisissables. Elle pouvait associer les pilules de Yingxiang avec des aphrodisiaques. Hélas, Han Li ne savait pas s’il devait admirer la prudence de l’autre partie ou crier trois fois parce qu’il avait été lésé sans raison. " Il semble que ce que vous avez dit soit vrai. Cependant, je dois encore l'apporter à ma deuxième sœur pour qu'elle le teste avant de l'utiliser. Après tout, la famille de notre fille doit faire attention. " Toux, toux, euh, c'est à vous de décider. "Han Li était sans voix et ne pouvait tousser que quelques fois pour dissimuler l'embarras sur son visage. Il sentait maintenant qu'il ferait mieux de rester à l'écart de ce petit gobelin, sinon il serait déprimé à mort par elle à un moment donné. . "Humph, mais si ce médicament est aussi efficace que vous le dites, alors vous avez réussi le test ! Si le frère aîné a des difficultés à Mo Mansion à partir de maintenant, vous pouvez venir à Caihuan pour obtenir de l'aide. J'ai juste besoin de récupérer quelques petits As une récompense, je pourrai certainement vous aider à résoudre complètement le problème. "D'accord, sœur cadette, si mon frère aîné a quelque chose à faire, je vous demanderai certainement de l'aide. Han Li est revenu à son état normal et a répondu." ceci avec un sourire sur son visage, mais dans son cœur. Puis il pensa méchamment : "C'est étrange que je recherche un petit fan d'argent comme toi.”Pour plus de démonstrations et de principes, veuillez consulter l'affichage du papier et de l'effet d'origine:
- Lien de papier: https://arxiv.org/abs/2406.02430
- effecte Afficher:https://bytedancespeech.github.io/seedtts_tech_report/
Avant la publication du rapport technique, une partie de la technologie Seed-TTS était en ligne depuis un certain temps dans les produits côté C, et a reçu de nombreux éloges de la part des utilisateurs et a été largement salué par le monde extérieur. Le modèle de synthèse vocale et le modèle de reproduction sonore du pouf sont fournis pour les services de commercialisation technique. Vous souhaitez écouter les partages de l'équipe sur les points forts techniques. , valeur de la recherche et défis surmontés Grand modèle de base de génération de parole Q : Seed-TTS a été remarqué par certains initiés. A : Il y a un professeur qui travaille dans le domaine de la reconnaissance vocale et qui a ensuite travaillé dans une entreprise. C'est un initié de l'industrie que j'admire beaucoup. Lors d'une conférence universitaire il n'y a pas longtemps, nous avons présenté la démo de. Seed-TTS. Après l'avoir regardé, il a déclaré qu'il voulait le regarder récemment. En regardant ce qui peut être fait dans le sens de la génération de parole, après l'avoir lu, j'ai l'impression qu'il n'y a rien à faire dans ce domaine. je sens qu'il y a encore place à l'amélioration, je suis très heureux après l'avoir écouté Q : Pourquoi es-tu heureux A : Il est plus probable que les gens disent que tu vas bien, mais ça. Le professeur cherchait des sujets de recherche connexes à l'époque. Pendant cette période, il a vu nos résultats et nous a fait des commentaires positifs, et je pense que nos résultats sont déjà très bons et que nous devons trouver d'autres questions. reconnaissance pour nous Q : Par rapport aux résultats précédents, quelle est la différence entre Seed-TTS A : C'est un modèle de base pour la génération de parole, qui est légèrement différent de la plupart des paroles ? modèles de génération. Plus précisément, le TTS traditionnel est un modèle à tâche unique, mais pour le modèle de base, nous espérons qu'il pourra tout faire, émettre n'importe quel son et nous permettre de contrôler plusieurs dimensions en même temps, comme les dialectes. , les habitudes orales des vraies personnes, et même des défauts phonétiques tels que la déglutition de mots Tant qu'il existe des méthodes de parole dans le monde, l'anglais et le japonais, le chinois et même des dialectes dans diverses langues, comme le dialecte du Shaanxi et. Dialecte Henan en chinois... Ou heureux, triste, en pleurs, en colère, tant que les êtres humains existent, nous voulons tous que cela sorte Q : Toutes les idées ci-dessus ont-elles été réalisées ? A : Une grande partie a été réalisée. Bien sûr, il y a des endroits où cela ne peut pas être fait, mais la technologie avance toujours. Par exemple, le modèle linguistique actuel est une base, qui a une compréhension profonde au niveau du texte. Nous espérons également en faire véritablement une « base » Q : Le défi de créer un « modèle de base » est où ? : La première chose est que la modélisation détaillée est meilleure. Dans le passé, TTS était facile à mettre en œuvre en tant que système de diffusion, mais cela ressemblait à un "son de machine", et cela nécessite beaucoup de travail. de détail. En particulier, les humains sont très sensibles à leurs propres sons. Même si les miaulements des chiots et des chatons ne sont pas naturels, ils peuvent ne pas être entendus. Cependant, il existe un problème avec la parole humaine, qui semble très « mécanique ». Deuxièmement, cela nécessite un grand naturel et une grande stabilité. La plupart des TTS grand public des deux dernières années étaient basés sur des modèles de connaissances et de durée préalables, définis pour chaque téléphone, mais avec une expressivité limitée par le bas. Si vous les supprimez, il y aura des problèmes de stabilité et de naturel, ce qui constitue un autre défi. La troisième est que la couverture des données (Data Coverage) est très large. Nous souhaitons reproduire la voix de n'importe qui et divers dialectes linguistiques, y compris en reproduisant les imperfections de la prononciation humaine, telles que la déglutition de mots et la prononciation non standard. Afin de reconstruire ces caractéristiques et restaurer les « imperfections », la couverture des données (Data Coverage) doit être élevée. Auparavant, les données utilisées dans l'industrie étaient de l'ordre de centaines ou de milliers d'heures, et il existait des modèles de l'ordre de dizaines de milliers d'heures. Les données utilisées par Seed-TTS étaient beaucoup plus volumineuses qu'auparavant. Une telle quantité de données entraînera également un équilibre entre qualité et quantité, ce qui constitue également une difficulté.Quatrième , conception de modèles. Dans une situation à si grande échelle, comment concevoir un modèle pour obtenir de meilleurs effets dans tous les aspects est également un grand défi. Enfin, il y a le défi de l’ingénierie. Comme mentionné ci-dessus, la grande échelle de nos données et la grande complexité du modèle entraîneront naturellement des problèmes d'ingénierie, que peu de gens ont résolus auparavant. Q : D'un point de vue technique, quelle est la valeur de la résolution de ces défis ? A Privilégiant le texte et les images, la parole possède les attributs à la fois du texte et des images. Lequel des deux est le plus adapté à la modélisation de la parole est une question à laquelle nous devons répondre. La parole et le texte présentent de nombreuses similitudes. Comment concevoir la représentation de la parole pour la rendre plus adaptée à la modélisation du modèle de langage est également un problème qui doit être résolu.
Comment utiliser l'apprentissage par renforcement pour intégrer diverses informations de préférences subjectives et objectives dans le système de génération est également l'un des problèmes.
Il existe de nombreux autres points forts, notamment le problème de stabilité du modèle de génération de parole autorégressive. De plus, à travers cette étude, nous essayons également d’examiner les problèmes du TTS d’un point de vue extérieur au domaine du TTS.
Q : Vous avez évoqué les recherches sur les modèles de langage et les modèles de diffusion. Quelles conclusions pouvons-nous en tirer ?
A : Seed-TTS fournit non seulement une solution technique basée sur le modèle de langage, mais fournit également une autre solution technique de diffusion qui est complètement séparée du modèle de durée, qui est également la première du secteur. . De plus, après des comparaisons approfondies entre les deux systèmes, nous avons constaté que le modèle de langage est relativement convivial pour le traitement du streaming et que le modèle de diffusion est plus adapté au traitement de l'édition. Je pense qu'à l'avenir, les deux le seront. continuer à fusionner.
Q : Pour ces deux systèmes, quelles difficultés techniques Seed-TTS résout-il spécifiquement ? A : Pour les systèmes de modèles de langage, il résout principalement le Tokenizer et la stabilité de la parole. Pour la modélisation de modèles de langage, la tokenisation de la parole est un élément essentiel. Actuellement, il existe des Tokenizers continus et discrets sur le marché, et l'équipe a mené de nombreuses explorations. Nous avons constaté que la conception des informations contenues dans le jeton a un impact très critique sur les performances et la stabilité de l'ensemble du modèle sous tous ses aspects. Cela inclut non seulement les informations sur le jeton, la fréquence d'images, etc., mais également la manière de le faire. le symboliser et comment le retransformer en son. Actuellement, ces domaines ne sont pas beaucoup explorés dans l’industrie.
En termes de stabilité du modèle de langage, nous avons effectué diverses explorations dans les jetons, la conception de modèles, la stratégie de décodage et la préparation des données, et avons véritablement répondu aux exigences de l'industrie et des applications. Pour le système Diffusion pur, puisque le modèle de durée supplémentaire est supprimé, la difficulté se porte également sur la stabilité. Après de nombreuses tentatives, nous avons également obtenu de très bons indicateurs sur cette liaison. Q : Concernant « les modèles de parole et de texte ont de nombreuses similitudes », qu'est-ce que cela nous inspire ? A : Du point de vue des grands modèles de texte, les modèles de génération vocale peuvent également être divisés en pré-entraînement, instruction de réglage fin et post-formation. Parmi eux, Pretrain peut améliorer les capacités de base du modèle, ce qui se reflète spécifiquement dans les capacités d'apprentissage Incontext, telles que la continuation du timbre, le clonage de voix et d'autres capacités.
Pour Instruct Fine-Tuning, l'objectif principal est d'utiliser Instruct pour rendre le processus de génération de parole plus contrôlable, tout comme le réalisateur et l'acteur font des demandes, parlent plus vite ou plus lentement, comment impressionner les gens, ce sont tous intégré par nos soins Entrez. Enfin, nous avons également constaté que l'apprentissage par renforcement peut améliorer le modèle dans de nombreuses dimensions, en intégrant diverses informations de préférences subjectives et objectives dans le système de génération, notamment la stabilité, le contrôle, l'expressivité, le naturel, etc. Peu de gens dans l’industrie explorent cet aspect. Sur la base de ce qui précède, nous avons également exploré la méthode d'utilisation de données synthétiques pour l'auto-distillation, et avons également obtenu de très bons avantages. Ceci est relativement couramment utilisé dans le LLM textuel et a été relativement rarement exploré auparavant dans l'industrie de la parole.Q : Vous avez évoqué à trois reprises que « certaines problématiques sont moins explorées dans l'industrie ». Qu'est-ce qui a causé ce phénomène ? R :D'une part, les recherches antérieures dans le domaine de la génération de la parole étaient relativement indépendantes, et il existait de nombreuses expériences traditionnelles dans l'industrie, qui pourraient ne plus être applicables dans le cadre de cette tendance AIGC. D'un point de vue plus large, la génération de parole a de nombreux points communs avec la génération de texte et d'images. Le développement rapide des grands modèles de texte et de la génération d’images nous a également apporté de nombreuses nouvelles réflexions. Comme il faut du temps pour promouvoir de nouvelles idées, l’exploration est encore relativement limitée dans le secteur. En revanche, de nombreux chercheurs travaillent en milieu scolaire et ne disposent pas de ressources pertinentes. Il existe de nombreux projets systématiques ici. Non seulement nous pouvons le faire, mais nous l'avons également exploré en détail et trouvé des modèles qui peuvent prendre en compte la stabilité, l'expressivité et la complexité informatique. Mais est-ce le mieux que nous puissions faire ? Il faudra peut-être encore continuer à explorer. Q : Y a-t-il des moments marquants dans l'ensemble du processus de recherche ? A : L'effet de base a été publié l'année dernière, nous avons beaucoup itéré en utilisant des cas réels. Le travail comprend : la recherche de cas réels, diverses formations post et la résolution de problèmes de mise en œuvre (tels que). comme diverses stabilités, délai du premier paquet, nombre de simultanéités, quantité de calcul, etc.) dans ce scénario. Par rapport à l’époque, l’effet s’est beaucoup amélioré. Où est passé le grand modèle de génération vocale ?
Q : Avec le recul, quelle est la valeur de l'ensemble de l'étude ? A : Du point de vue de la valeur de Seed-TTS lui-même, la voix n'est pas entièrement un outil, mais la forme la plus directe d'interaction humaine. Par exemple, du cinéma muet au cinéma parlant, un petit changement constitue un grand pas en avant dans l’industrie. Le lien émotionnel entre les gens repose davantage sur la voix. Par exemple, lorsqu'un enfant appelle papa, le lien émotionnel qu'il crée est complètement différent de la lecture d'un texte. Si nous voulons évoluer vers une véritable IA, le naturel de la parole est un élément clé. Dans le passé, les machines que nous imaginions étaient toutes des voix de machines, comme Moss dans "The Wandering Earth". Si l'IA peut vraiment être comme votre assistant et partenaire, la connexion émotionnelle apportée par la voix est essentielle. Beaucoup de gens se souviennent de Jarvis dans "Iron Man" car il a été exprimé par une personne réelle. De plus, en termes d'applications, il existe de nombreux scénarios d'application pour la voix, tels que les romans et les livres électroniques, la conception de personnages, la traduction vidéo, les personnages virtuels, la diffusion et les expressions d'acteurs. y compris le bégaiement et l'incapacité de prononcer les sons, les personnes peuvent toujours s'exprimer à l'aide de la technologie vocale. Tant que le scénario vocal n’est pas purement un média d’information, il reste des possibilités d’application. C’est aussi notre motivation pour améliorer le modèle de base. Q : La loi de mise à l'échelle a été considérée comme une « foi » par certains praticiens. Pour les modèles de génération de parole, quel est le résultat après avoir mis à l'échelle les données et le modèle ? R : Même à très grande échelle, nous pouvons toujours constater des avantages à mesure que nous continuons à évoluer. De manière générale, en augmentant l'ampleur de Scale, on est agréablement surpris de voir que le modèle continue d'acquérir de nouvelles capacités. Q : D'après vos observations, où est cette limite ? R : À l'heure actuelle, nous pouvons encore constater des avantages à chaque fois, et nous devons absolument continuer à explorer. Cependant, nous avons prouvé qu'avec une conception de modèle correcte, nous pouvons briser la pensée traditionnelle du TTS. Dans le passé, nous nous appuyions sur une petite quantité de données de haute qualité, mais nous continuons désormais à augmenter leur ampleur et pouvons obtenir des bénéfices plus importants. Q : Quelle illumination GPT4-o a-t-il pour nous ? A :C'est un modèle unifié pour la génération et la compréhension. Il a des exigences plus élevées en matière de technologie vocale et nécessite qu'un modèle ait la capacité d'écouter, de parler et de penser en même temps. Celles-ci mettent en avant de nombreuses nouvelles exigences pour notre travail. Q : Quel est le stade actuel de développement des grands modèles dans le domaine de la parole ? A:D'une part, nous espérons que le modèle a l'expression et le contrôle d'un acteur professionnel. La plupart du temps, le discours généré par le modèle n'est pas très différent de celui des personnes réelles. Cependant, dans les films et les séries télévisées, les acteurs expriment leurs émotions de manière très intense et la densité de l'information est relativement élevée, de sorte qu'ils ne sont pas complètement alignés. Nous voulons tous terminer le Corner Case.D'autre part, il y a le traitement des détails, y compris le traitement et l'optimisation des mauvais cas pour résoudre des situations inhabituelles à longue traîne. Le travail de grand modèle nécessite la participation d'un grand nombre de talents exceptionnelsQ : Dans cette version de Seed-TTS, des collègues du monde entier ont participé. beaucoup de personnes participent ? A :Avec le développement de l'industrie, la coopération entre plusieurs personnes est inévitable. Pour atteindre l'objectif ultime d'un grand modèle tout en répondant aux besoins de l'industrialisation, il ne peut pas être soutenu par une ou deux idées, et de nombreuses personnes doivent y participer. Tous les participants étaient très professionnels. Par exemple, nos données nécessitent la participation d’étudiants professionnels au traitement. Un autre exemple est que le processus de mise en œuvre implique de nombreux détails et nécessite la coopération d’étudiants spécialisés en évaluation et en soutien technique. Ils ont tous apporté une grande contribution. Nous pouvons constater que parmi les principaux acteurs de la recherche de pointe en IA, un projet compte un très grand nombre de participants, et les étudiants professionnels sont responsables de chaque maillon d'une telle densité et d'une telle complexité. collaboration et coordination précise, les exigences en matière de compétences organisationnelles sont également très élevées. Q : Quelle est l'ambiance de l'équipe selon vous ? A : Je pense que c'est à cause du « dynamisme » et des « détails ». « L'importance » se reflète dans le fait que chacun prend l'initiative de faire les choses. C’était aussi un processus autonome en soi, né de la curiosité et de l’idée de changer l’industrie. Cette ambiance ressemble davantage à celle d’une start-up, avec moins de grandes entreprises. Q : Vous avez également mentionné que l'équipe « sélectionnera les détails ». Comment comprenez-vous cela ? A : Il s'agit de sélectionner des détails dans des scènes réelles. Pour le travail de génération, il est facile de faire une belle démo en démo, mais dans l'application réelle, le système sera confronté à divers problèmes détaillés. Afin de garantir que le modèle est toujours généré avec une haute qualité et répond aux besoins des utilisateurs, nous avons des exigences très strictes en matière de stabilité et de robustesse du système, ce qui nécessite un polissage répété pour garantir que chaque détail est de haute qualité. Au contraire, pour Demo, nous n’avons pas fait beaucoup d’optimisation. Q : Avons-nous un débat interne sur le fait de "ne pas faire trop d'optimisation des démos" ? A : Oui, surtout les jeunes étudiants, après tout, tout le monde veut montrer le meilleur côté, mais nous espérons toujours obtenir des résultats qui pourront être mis en œuvre pour empêcher les utilisateurs de l'utiliser réellement. Au cours du processus, il a été découvert qu’il y avait un grand écart entre le produit et la démo, ce qui a véritablement changé l’industrie. Q : La technologie pertinente est-elle actuellement appliquée dans l'application Doubao ? A : Certaines technologies associées ont été utilisées pendant un certain temps. Nous ne les afficherons au monde extérieur qu'après avoir été approuvées par les utilisateurs dans des scénarios réels. Certaines technologies sont également en cours de réalisation. travail final en ligne. Q : Quels mots-clés peuvent résumer notre équipe ? A : Le premier est professionnel. Cela se reflète dans de nombreux aspects, notamment les données, l'infrastructure, la conception de modèles, etc. Nous prêterons attention aux détails de chaque lien de manière très professionnelle et nous nous efforcerons d'atteindre la performance ultime du point de vue de la mise en œuvre industrielle. Le deuxième mot est concentration et dynamisme. Pour atteindre nos objectifs, la concentration et le dynamisme sont indispensables. Ainsi, tout le monde est très investi. Lorsque les résultats sont effectivement obtenus, chacun ressent un sentiment d’accomplissement et gagne en confiance. Le troisième mot est unité. Quand on travaille en équipe, chacun n'a aucun sens de la territorialité et la coopération est fluide. Cela me met très à l'aise, ce qui est rare dans les grandes entreprises. Q : Quelles qualités de personnes notre équipe espère-t-elle continuer à attirer ? A : Tout d'abord, regardez si les valeurspeuvent être cohérentes. La capacité est certainement un aspect, mais plus important encore, nous espérons trouver des partenaires qui sont dans le même bateau afin que chacun puisse s'épanouir. La coopération dans le cadre de ce type de valeurs se déroulera naturellement sans heurts. La seconde est la diversité des origines. À l'heure actuelle, les méthodes utilisées dans les différents domaines de l'IA sont similaires et tout le monde s'intègre progressivement dans la même direction. Par conséquent, l'expérience en apprentissage par renforcement, en reconnaissance visuelle, en reconnaissance audio et dans d'autres domaines joue un rôle essentiel dans la génération.Nous espérons que des étudiants issus de différents horizons professionnels pourront participer. Je suis une personne comprenant la parole et je suis passé à TTS. Enfin, initiative subjective et capacité d'apprentissage, et forte poursuite du travail. Les tâches génératives présentent également de nombreuses caractéristiques uniques. Nous espérons que les candidats pourront trouver la combinaison de tâches et leur propre expérience, parmi lesquelles une capacité d'apprentissage actif est nécessaire. En même temps, nous espérons créer la meilleure technologie et les meilleurs produits de l'industrie. Les étudiants doivent également continuer à avancer chaque jour avec cette vision à l’esprit.
Ce qui précède est ce que les étudiants de l'équipe Seed-TTS ont partagé L'équipe continue de recruter des talents exceptionnels. Si vous avez également des idéaux et un enthousiasme pour la technologie des grands modèles et que vous reconnaissez l'atmosphère de l'équipe Doubao Large Model, veuillez vous connecter au site officiel de l'équipe Doubao Large Model à l'adresse team.doubao.com ou suivez le compte public officiel de l'équipe, pour en savoir plus sur les progrès techniques, les histoires d'équipe et les informations de recrutement : ByteDance Top Seed Talent Plan recrute Nous espérons continuer à attirer et à recruter les meilleurs talents avec des objectifs et des ambitions ambitieux pour ". changer le monde grâce à la technologie. » Rejoignez-nous et vous travaillerez avec les meilleurs scientifiques et ingénieurs pour participer aux principaux défis techniques de l'industrie et résoudre des problèmes difficiles. Bienvenue pour appuyer et maintenir le code QR ci-dessous ou cliquer pour lire le texte original et soumettre votre CV. Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!