En août 2022, une peinture numérique appelée "Space Opera" a remporté le championnat et a provoqué une énorme controverse. Des incidents de sortie du cercle d'AIGC (AI-Generated Content) sont fréquemment apparus aux yeux du public. Le modèle de robot de chat ChatGPT publié par OpenAI le 30 novembre de la même année est gratuit et ouvert au public, ce qui a suscité un large intérêt pour l'AIGC. Diverses questions fantaisistes, telles que changer de code, parler de connaissances, poser des questions sur la vie. . "L'esprit" et "l'érudition" de ChatGPT "C'est impressionnant et rafraîchissant.
La raison pour laquelle ChatGPT a attiré une large attention est qu'OpenAI a publié trois générations de modèles GPT. Chaque génération de paramètres de modèle a augmenté 10 fois, voire 100 fois, par rapport à la génération précédente. Le modèle de génération GPT-3.5 utilise RLHF (de. (Human Feedback Reinforcement Learning) permet de mieux comprendre la signification du langage humain, c'est-à-dire que lorsqu'on interagit avec des humains en discutant, en écrivant des articles, en répondant à des demandes de renseignements, en vérifiant du code, etc., cela ressemble plus à un « être humain » qui donne des réponses. soigneusement après « réflexion sérieuse » ».
Face à des sujets aussi brûlants dans le cercle, selon Stephen, chercheur sur l'algorithme de synthèse vocale et audio de Huoshan : « La raison pour laquelle l'AIGC a été si populaire récemment est indissociable de l'amélioration étape par étape de la qualité du contenu produit par l'IA. En tant qu'outil de production, l'IA a déclenché une efficacité plus élevée, l'AIGC comprend de nombreuses directions telles que la génération de texte, la génération audio, la génération d'images et la génération vidéo, qui à leur tour stimuleront le développement rapide de l'intelligence artificielle. La technologie qui la sous-tend et reflète progressivement sa grande valeur commerciale. Les questions et réponses IA représentées par ChatGPT vous permettent de le comprendre en raison de son érudition et de la « lisibilité » de ses réponses « Sexe » et le test vocal IA consiste à savoir si la personne peut comprendre correctement le contenu comme une personne réelle et s'exprimer. en faisant correspondre le timbre du personnage et le ton qui convient à la situation du moment. Ceci est démontré dans Volcano Voice (ByteDance AI Lab Il n'est pas rare dans la coopération entre Intelligent Speech et Audio Team) et Tomato Novels. l'algorithme d'IA vous permet d'écouter directement n'importe quelle version texte du roman, et cela semble « plus intelligent » : timbre différencié et ton approprié, en lisant à haute voix, il s'est transformé en « esprit dramatique » et a interprété « des émotions, de la colère , peines et joies".
De plus, afin de rendre le la voix sonne mieux, l'équipe a également ajouté des modules plus fonctionnels basés sur le processus TTS régulier pour parvenir à l'attribution et à la correspondance des rôles. Par exemple, la structure BERT est également utilisée dans l'attribution de rôles pour modéliser les deux tâches de détermination du dialogue et de désambiguïsation des références. De plus, une structure similaire est également utilisée pour la prédiction des émotions. "Habituellement, dans les romans, il y aura des conversations à plusieurs personnes, et chaque locuteur éprouve une variété d'émotions qui lui sont propres. Si le timbre et l'émotion peuvent être découplés, l'expressivité de la parole synthétisée peut être mieux contrôlée, et différents timbres et émotions peuvent être mieux contrôlés. Une combinaison flexible de différentes émotions est très importante. "
Un point important est que, afin de permettre à l'IA de comprendre le texte de différents types de romans, Huoshan Voice a également pris l'initiative de proposer le modèle de « compréhension du texte par l'IA ». , qui est un ensemble de longs textes multitâches. Il peut automatiquement distinguer les personnages du dialogue du texte du roman, identifier les émotions que l'on souhaite exprimer dans le dialogue et prédire des pauses raisonnables entre les phrases, ce qui améliore considérablement l'efficacité de la production de livres audio IA de haute qualité et élimine efficacement les goulets d'étranglement de la production manuelle. .
Modèle "Al Text Understanding"Pour aller plus loin, sur la base d'une prononciation claire, d'un rythme cohérent et de hauts et bas d'intonation, l'équipe Volcano Voice a auto-développé un modèle acoustique de contrôle de style de bout en bout d'apprentissage semi-supervisé pour faire suivre à la voix la roue de Plutchik. des émotions ) type d'émotion, montrant une variété de couleurs émotionnelles telles que le bonheur, la tristesse, la surprise, la peur, etc., en utilisant la méthode de migration émotionnelle pour donner à la prononciation initialement sans émotion un effet de synthèse multi-émotionnel. Il exprime mieux la « conversation par le son », modélise et restaure méticuleusement le phénomène de « paralangage » qui se produit souvent dans le langage humain, et réalise des pauses d'accent communes, des questions de questionnement, des rires et des pleurs, ainsi que divers autres phénomènes courants dans les livres audio. , etc. permettent d'obtenir une merveilleuse interprétation du contenu du texte.
"L'effet qui se rapproche de la personne réelle qui parle, afin que la voix finale de l'IA puisse refléter les effets de différents personnages dans différents contextes, est l'objectif que nous poursuivons. À l'avenir, nous espérons y parvenir grâce au texte -entraînement conjoint à la parole Le grand modèle extrait des représentations de texte dans différents contextes et améliore le taux de réussite de l'identification des caractères. Avec le grand modèle de synthèse vocale multi-locuteurs, les attributs tels que l'émotion, le style, le timbre et l'accent sont découplés et peuvent être librement transférés. ; en même temps, généré selon la description du texte Faire correspondre les sons de fond pour améliorer le sentiment d'immersion lors de l'écoute de livres audio. qu'en plus du texte et des images, les gens utilisent l'interaction vocale. Par exemple, les gens émettent souvent des commandes pour contrôler divers appareils électriques à la maison lorsqu'ils voyagent, ils utilisent des assistants vocaux embarqués pour effectuer la navigation ; les réservations de restaurants, etc. et les assistants de conférence fréquemment utilisés dans les bureaux sont tous indissociables des solutions vocales intelligentes pour améliorer la qualité du contenu et l'efficacité de la production.
À cet égard, W, chef de produit de Huoshan Speech and Audio Understanding, a ajouté : « Dans la production de contenu vidéo, la méthode traditionnelle d'ajout de sous-titres oblige le créateur à dicter et à relire la vidéo plusieurs fois, et elle doit également être alignée. image par image en fonction de l'heure de début, souvent 10. Une vidéo d'une minute nécessite plusieurs heures de post-production. De plus, l'équipe de sous-titres doit maîtriser plusieurs langues et être familiarisée avec la production de fichiers de sous-titres. Le coût global de la production vidéo est très élevé, ce qui est très difficile pour les créateurs individuels à l'ère actuelle de la vidéo courte ou simplement pour créer des vidéos. Cela a longtemps été hors de portée pour les utilisateurs qui enregistrent leur vie »
Afin de réduire le coût. seuil de création et permettre à tous les créateurs de produire facilement du contenu vidéo de haute qualité et d'enregistrer une belle vie, Huoshan Voice a lancé une solution de sous-titres intelligente. Non seulement il peut reconnaître efficacement les dialectes et les chansons, mais il peut également avoir un bon effet de reconnaissance sur les scènes où les langues sont mélangées et où les paroles et les chants sont également mélangés, grâce aux caractéristiques audio et à l'analyse de domaine du contenu créé par l'utilisateur ; et l'optimisation de l'algorithme, la reconnaissance vocale peut être considérablement améliorée dans des scènes complexes telles que des scènes de bruit et plusieurs personnes parlant. En particulier, les utilisateurs mobiles ont des exigences plus élevées en matière de temps de réponse des fonctions, c'est-à-dire qu'ils souhaitent que les sous-titres soient rapides et précis. À cette fin, Huoshan Voice a réalisé de nombreuses optimisations et stratégies techniques. juste 2-3 secondes.
Comme nous le savons tous, face au même contenu, l'efficacité d'acquisition des informations audio par les humains est bien inférieure à celle des informations textuelles. La clé pour convertir la parole en texte à enregistrer et à utiliser réside dans la reconnaissance vocale, comme le. La solution de sous-titres en temps réel « Thousand Words Transfer » lancée par Huoshan Voice « Le texte vaut mille mots » utilise le lien IA de « reconnaissance vocale + traduction vocale » pour rendre automatiquement la communication à travers le pays et entre les langues ; générant des enregistrements et des procès-verbaux de réunion, il peut être grandement amélioré. Améliorez l'efficacité du travail des participants et réduisez considérablement la charge de travail de l'organisation après la réunion et de l'enregistrement en cours de réunion. Il est prévisible qu'avec le développement rapide de la technologie, la voix de l'IA augmentera les canaux de sortie d'informations pour l'interaction homme-machine et améliorera l'efficacité de l'acquisition d'informations.
De même, confronté au problème de l'amélioration de la qualité et de l'efficacité apporté par l'AIGC, selon Y, le chef de produit d'interaction vocale de Huoshan Voice, l'AIGC devrait en effet être implémenté dans le scénario auxiliaire de l'interaction vocale intelligente, qui peut réaliser le résumé de la conversation, la recommandation vocale et les fonctions de service client telles que l'apaisement et le résumé des bons de travail fournissent des solutions auxiliaires pour améliorer l'efficacité de la production. Par exemple, lorsqu'une conversation homme-machine déclenche une conversation homme-machine, un résumé de la conversation homme-machine peut être automatiquement généré pour aider l'homme-machine à comprendre plus rapidement les demandes de l'utilisateur et à éviter une interruption soudaine pour vérifier l'historique des discussions. ; lors de la conversation avec la personne, en comprenant le discours de l'utilisateur, les capacités AIGC sont utilisées pour générer des réponses pour référence du service client, ce qui améliore l'efficacité du dialogue avec le service client.
"De plus, il peut également jouer un rôle dans la gestion de situations anormales. Par exemple, lorsque les utilisateurs sont irritables, en colère, etc., AICG peut générer automatiquement des mots apaisants pour référence du service client, améliorant ainsi la satisfaction du service, etc. À l'avenir, Avec la technologie multimodale et à mesure que la technologie AIGC continue de mûrir, les humains numériques virtuels peuvent peut-être remplacer une partie de la main-d'œuvre et servir directement les clients dans une symbiose homme-machine, réduisant considérablement les coûts de main-d'œuvre et améliorant l'efficacité du service "Mais il a également fait. Il est clair que l'AIGC d'aujourd'hui n'est pas encore capable de le faire. Pour produire du contenu de manière véritablement indépendante, elle en est encore au stade d'aider les humains à améliorer l'efficacité de la production de contenu.
Qu'il s'agisse de la réponse étonnante donnée par ChatGPT ou de la voix émouvante interprétée par l'IA dans le roman Tomato, même Musk s'est émerveillé : nous sommes proches d'un artificiel dangereusement puissant. Le renseignement n'est pas loin. Cela semble indiquer que l’ère de l’AIGC approche.
Cependant, Stephen, chercheur sur l'algorithme de synthèse vocale et audio de Huoshan qui travaille en première ligne des algorithmes d'IA depuis de nombreuses années, a un jugement plus sobre. Il a souligné : « La technologie derrière l'AIGC peut effectuer des opérations multiples. fusion modale à l'avenir, pas seulement une modalité unique. » Les tâches génératives, comme le processus de création de contenu humain, ne consistent pas seulement à concevoir un nouveau contenu basé sur une seule forme de connaissance. , actuellement les tâches principales sont les visages. Prédiction séparée des expressions, postures et actions. À l'avenir, un modèle génératif pourrait être utilisé pour prédire ces caractéristiques afin d'améliorer la synergie entre les caractéristiques et de réduire la charge de travail causée par des enregistrements séparés. sera également basé sur des tâches de compréhension multimodales. La représentation, basée sur l'expression, le ton et les mouvements corporels de l'utilisateur qui parle, donne un retour correspondant sur l'image et le son générés "
En plus de la prédiction du développement technologique. , une chose qui ne peut être ignorée est que l'AIGC a actuellement de nombreux problèmes en termes de coût, de droits d'auteur et de praticité. Il reste encore d'énormes défis. Il estime que le coût actuel de l'AIGC reste élevé. La manifestation la plus évidente est que les technologies de génération de textes, d'images et de vidéos de haute qualité, etc., correspondent toutes à la consommation d'une grande quantité de ressources matérielles dans les étapes de formation et d'inférence. ce qui rend difficile la participation des universités et des instituts de recherche, ce qui n'est pas propice à la promotion du développement industriel.
« De plus, en termes de protection des droits d'auteur, une partie du contenu actuellement généré peut être utilisée pour mener des activités illégales, il devient donc de plus en plus important d'ajouter une protection des droits d'auteur, telle que des filigranes d'image et audio, au contenu. Cependant, pendant le processus d'assemblage, vous devez toujours envisager de ne pas rendre le filigrane invalide en raison de méthodes de post-traitement telles que le découpage et le mixage "au cours du passé 2022, bien que l'application de la technologie dans la génération d'images et de vidéos. s'est considérablement amélioré, il nécessite encore beaucoup de criblage manuel avant que le contenu puisse être actualisé. Pour y parvenir, la génération de bandes dessinées et de vidéos contextuelles basées sur de longs textes doit non seulement assurer la continuité de la scène, mais également refléter la scène. changements dans les personnages. Il y a encore beaucoup de problèmes techniques à résoudre. C'est un défi d'empêcher l'intelligence artificielle de devenir un défi « artificiellement retardé », il y a donc encore de la place pour l'amélioration de l'aspect pratique.
Nous pouvons penser que la raison pour laquelle l'AIGC, en tant que nouvelle méthode de production de contenu, a attiré l'attention illustre pleinement le désir de tous les horizons pour le contenu, en particulier la plate-forme Internet, comment comprendre, créer, interagir et distribuer efficacement du contenu. Cela apporte des opportunités et des défis à la technologie de l'IA d'aujourd'hui.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!