Cet audio est devenu viral sur Internet ! Générez des effets sonores réalistes à partir de texte et d'images en un seul clic, AIGC arrive dans l'industrie audio-IA-php.cn

Récemment, AIGC semble avoir été très recherché, et sa popularité reste élevée. Bien sûr, en plus de son nom extrêmement célèbre, ses avancées sont également absolument remarquables : des images, des vidéos et même des modèles 3D peuvent être générés automatiquement par. saisir un langage naturel. N'êtes-vous pas surpris ?

Mais dans le domaine de l’audio et des effets sonores, les avantages de l’AIGC semblent être un peu moins bons. Principalement parce que la génération audio à haut degré de liberté repose sur une grande quantité de données de paires texte-audio et qu'il existe de nombreuses difficultés dans la modélisation de forme d'onde à long terme. Afin de résoudre les difficultés ci-dessus, l'Université du Zhejiang et l'Université de Pékin ont proposé conjointement un système innovant de génération de texte en audio, à savoir Make-An-Audio. Il peut prendre une description en langage naturel comme entrée, et cela peut être dans n'importe quelle modalité (telle que texte, audio, image, vidéo, etc.), et en même temps produire des effets sonores audio qui correspondent à la description. majorité des internautes pour apprécier sa contrôlabilité et sa généralisation.

Cet audio est devenu viral sur Internet ! Générez des effets sonores réalistes à partir de texte et dimages en un seul clic, AIGC arrive dans lindustrie audio

Lien papier : https://arxiv.org/abs/2301.12661
Lien du projet : https://text-to-audio.github.io

En seulement deux jours, la vidéo de démonstration a été vue 45 000 fois sur Twitter.

Après le réveillon du Nouvel An 2023, un grand nombre d'articles sur la synthèse audio ont vu le jour, tels que Make-An-Audio et MusicLM. Il y a eu 4 développements révolutionnaires en 48 heures.

Cet audio est devenu viral sur Internet ! Générez des effets sonores réalistes à partir de texte et dimages en un seul clic, AIGC arrive dans lindustrie audio

Commentaires des internautes 1

Une majorité d'internautes ont déclaré que la synthèse des effets sonores AIGC changerait l'avenir de la production de films et de courtes vidéos. Commentaire d'utilisateur 2

Certains internautes ont soupiré ainsi : « L'audio est tout ce dont vous avez besoin… »

Cet audio est devenu viral sur Internet ! Générez des effets sonores réalistes à partir de texte et dimages en un seul clic, AIGC arrive dans lindustrie audio

Commentaires des internautes 4

Cet audio est devenu viral sur Internet ! Générez des effets sonores réalistes à partir de texte et dimages en un seul clic, AIGC arrive dans lindustrie audio

Affichage des effets audio

Sans plus tard, il suffit de regarder l'effet, Générer des effets sonores basés sur texte Il s'avère ça peut aussi être comme ça. Pratique et fluide.

Texte 1 :

un hors-bord courant alors que le vent souffle dans un microphone

Cet audio est devenu viral sur Internet ! Générez des effets sonores réalistes à partir de texte et dimages en un seul clic, AIGC arrive dans lindustrie audio

Conversion audio 1Audio : 00:0000:09

Texte 2 :

les feux d'artifice éclatent et explosent

Conversion Audio 2

Audio :

00:0000:09

Avez-vous déjà été dérangé par réparer un audio endommagé ? Une fois le modèle Make-An-Audio sorti, cela devient beaucoup plus facile.

Avant la correction

Cet audio est devenu viral sur Internet ! Générez des effets sonores réalistes à partir de texte et dimages en un seul clic, AIGC arrive dans lindustrie audio

Audio avant la correction

Audio avant la correctionAudio : 00:0000:09

Après réparation

Après réparation audio

Après réparation audio Audio: 00:0000:09

Il n'est pas impossible de générer des effets sonores en comprenant les images.

Cet audio est devenu viral sur Internet ! Générez des effets sonores réalistes à partir de texte et dimages en un seul clic, AIGC arrive dans lindustrie audio

Image 1

Convertir l'audio

Image Convertir l'audio Audio : 00:0000:09

Cet audio est devenu viral sur Internet ! Générez des effets sonores réalistes à partir de texte et dimages en un seul clic, AIGC arrive dans lindustrie audio

Image 2

Convertir l'audio

Image Convertir l'audio 2Audio : 00:0000 :09 Générer des effets sonores correspondants basés sur le

contenu vidéo, ce modèle peut également le faire facilement. Vidéo 1

Cet audio est devenu viral sur Internet ! Générez des effets sonores réalistes à partir de texte et dimages en un seul clic, AIGC arrive dans lindustrie audio Conversion Audio

Vidéo 1Audio :

00:0000:09

Vidéo 2

Conversion Audio

Cet audio est devenu viral sur Internet ! Générez des effets sonores réalistes à partir de texte et dimages en un seul clic, AIGC arrive dans lindustrie audio Vidéo 2

Audio : 09

Principes techniques intrinsèques du modèle

Analyse approfondie de la connotation magique du modèle « Internet Celebrity », mais aussi pour revenir au problème objectif des données audio-langage naturel clairsemées à cet égard, l'Université du Zhejiang et. L'Université de Pékin et la Volcano Speech Team ont proposé conjointement une proposition des deux grandes universités Stratégie d'amélioration du texte distiller puis reprogrammer, qui utilise le modèle de l'enseignant pour obtenir la description en langage naturel de l'audio, puis obtient une formation dynamique. échantillons par réorganisation aléatoire.

Plus précisément, dans le lien Distill, des modèles de récupération audio-texte et audio-texte sont utilisés pour trouver les candidats à la description en langage naturel (Candidat) de l'audio sans langue, et la correspondance entre le texte candidat et le l'audio est calculé par similarité, obtient les meilleurs résultats sous le seuil en tant que description de l'audio. Cette méthode a une forte généralisation et le véritable langage naturel évite le texte hors domaine lors de la phase de test. "Dans la phase de reprogrammation, l'équipe a échantillonné au hasard des ensembles de données d'événements supplémentaires et les a combinés avec les échantillons d'entraînement actuels pour obtenir de nouvelles combinaisons de concepts et de nouvelles descriptions afin d'augmenter la robustesse du modèle à différentes combinaisons d'événements", a déclaré l'équipe de recherche.

Cet audio est devenu viral sur Internet ! Générez des effets sonores réalistes à partir de texte et dimages en un seul clic, AIGC arrive dans lindustrie audio

Cadre de stratégie d'amélioration du texte distiller puis reprogrammer

Comme le montre la figure ci-dessus, l'apprentissage auto-supervisé a réussi à transférer des images vers le spectre audio, à l'aide d'auto-encodeurs spectraux Pour résoudre résoudre le problème des longues séquences audio et compléter la prédiction de la représentation auto-supervisée basée sur le modèle de génération de diffusion latente, évitant ainsi la prédiction directe des formes d'onde à long terme.

Cet audio est devenu viral sur Internet ! Générez des effets sonores réalistes à partir de texte et dimages en un seul clic, AIGC arrive dans lindustrie audio

Diagramme du cadre du système de modèle Make-An-Audio

De plus, dans la recherche, l'équipe a également exploré de puissantes stratégies de condition de texte, notamment le pré-entraînement contrastif langage-audio (CLAP) et Le modèle de langage (LLM) T5, BERT, etc., ont vérifié l'efficacité et la convivialité de calcul de la représentation de texte CLAP. Dans le même temps, CLAP Score a été utilisé pour la première fois pour évaluer l'audio généré, qui peut être utilisé pour mesurer la cohérence entre le texte et les scènes générées en utilisant une combinaison de méthodes d'évaluation subjectives et objectives, l'efficacité du modèle a été vérifiée ; dans le test de l'ensemble de données de référence, démontrant que le modèle a une excellente généralisation d'apprentissage zéro-shot (Zero-Shot), etc.

Cet audio est devenu viral sur Internet ! Générez des effets sonores réalistes à partir de texte et dimages en un seul clic, AIGC arrive dans lindustrie audio

Make-An-Audio et résultats expérimentaux d'évaluation subjective et objective du modèle de base

Que savez-vous des perspectives d'application du modèle magique ?

Dans l'ensemble, le modèle Make-An-Audio permet une synthèse audio de haute qualité et hautement contrôlable, et propose "Aucune modalité laissée de côté", qui peut être déverrouillée en affinant le modèle audio conditionnel du texte (audio/. image/vidéo) pour toute entrée modale.

Cet audio est devenu viral sur Internet ! Générez des effets sonores réalistes à partir de texte et dimages en un seul clic, AIGC arrive dans lindustrie audio

Make-An-Audio implémente pour la première fois la synthèse X-audio AIGC hautement contrôlable. Make-An-Audio prend l'encodeur de texte CLIP comme condition et utilise son espace commun image-texte pour. synthétiser l'audio directement en fonction de l'encodage de l'image.

Cet audio est devenu viral sur Internet ! Générez des effets sonores réalistes à partir de texte et dimages en un seul clic, AIGC arrive dans lindustrie audio Make-An-Audio Vision - Cadre de synthèse audio

Il est prévisible que la synthèse audio AIGC jouera un rôle important dans le futur doublage de films, la création de courtes vidéos et d'autres domaines, et avec l'aide de modèles tels que Make-An-Audio, il sera peut-être possible pour tout le monde de devenir un professionnel ingénieur des effets sonores dans le futur Vous pouvez utiliser du texte, des vidéos et des images pour synthétiser des effets audio et sonores réalistes à tout moment et en tout lieu. Cependant, Make-An-Audio n'est pas parfait à ce stade. Peut-être en raison de la richesse des sources de données et des inévitables problèmes de qualité des échantillons, des effets secondaires se produiront inévitablement pendant le processus de formation, tels que la génération d'un son non conforme au contenu du texte. Make-An-Audio se positionne techniquement comme une « génération d'artistes assistée », et une chose est sûre, les avancées dans le domaine de l'AIGC sont effectivement surprenantes.

Volcano Voice fournit depuis longtemps aux principaux secteurs d'activité de ByteDance des capacités technologiques vocales IA avantageuses à l'échelle mondiale et des solutions de produits vocaux complets, notamment la compréhension audio, la synthèse audio, les humains numériques virtuels, l'interaction conversationnelle, la récupération de musique, le matériel intelligent, etc. . Depuis sa création en 2017, l'équipe s'est concentrée sur le développement d'une technologie vocale intelligente d'IA de pointe et sur l'exploration constante de la combinaison efficace de l'IA et des scénarios commerciaux pour obtenir une plus grande valeur utilisateur. À l'heure actuelle, sa reconnaissance vocale et sa synthèse vocale couvrent plusieurs langues et dialectes. De nombreux articles techniques ont été sélectionnés dans diverses conférences de premier plan sur l'IA, offrant des capacités vocales de pointe pour Douyin, Jianying, Feishu, Tomato Novels, Pico et d'autres entreprises. Il convient à divers scénarios tels que les courtes vidéos, les diffusions en direct, la création vidéo, les appareils de bureau et portables, et est ouvert aux entreprises externes via Volcano Engine.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!