Tuer comme un fou ! Google convertit la vidéo en parole et des effets sonores réalistes font des vidéos IA un adieu au silence !-IA-php.cn

L’industrie en plein essor de l’IA a surpris le public.

Ces jours-ci, les gens de l'autre côté de l'océan deviennent fous !

L'excitation de Luma n'est pas encore passée, hier soir, Runway a lancé une bombe royale - Gen-3 Alpha. (Pour plus de détails, veuillez consulter : Sortie de la version Runway de Sora : haute fidélité, super cohérence, les internautes Gen-3 Alpha ont choqué)

De plus, je ne m'attendais pas à cela quand je me suis réveillé, Google DeepMind Il y avait aussi Nouvelles nouvelles, a publié discrètement les progrès de la technologie vidéo-parole (V2A).

Tuer comme un fou ! Google convertit la vidéo en parole et des effets sonores réalistes font des vidéos IA un adieu au silence !

Bien que cette fonctionnalité ne soit pas encore ouverte au public, à en juger par la démo vidéo officielle, l'effet est assez fluide. Dans le même temps, Google DeepMind a souligné que tous les exemples ont été créés conjointement par la technologie V2A et leur modèle vidéo génératif le plus avancé, Veo.

Invite audio : une bande originale de film d'horreur passionnante, des pas résonnant sur le béton. (Cinématique, thriller, film d'horreur, musique, tension, ambiance, pas sur béton)

Dans un entrepôt abandonné aux lumières noires, un homme en noir marche lentement comme un fantôme, couplé à une musique et des pas bizarres, l'ambiance est terrifiant Laman.

Invite audio : Le loup hurle au clair de lune. (Loup hurlant à la lune)

Dès que la démo vidéo est sortie, Qing Yishui dans la zone de commentaires a demandé : Quand sera-t-elle disponible ?

Certains internautes espèrent que la communauté open source deviendra un cyber bodhisattva et copiera la technologie de Google.

En fait, peu de temps après l'annonce officielle de Google DeepMind, ElevenLabs, le "leader" dans le domaine de l'audio IA, est intervenu et a lancé en open source un projet de doublage automatique de vidéos téléchargées, qui peut générer des effets sonores appropriés. pour les vidéos.

Lien :

https://elevenlabs.io/docs/api-reference/how-to-use-text-to-sound-effects

De nos jours, la concurrence dans l'IA Le cercle est devenu féroce. La concurrence entre grands et petits fabricants créera des règles du jeu plus équitables, et une fois que ces technologies auront mûri, les possibilités seront infinies dans le domaine de la vidéo IA.

AI Video Dites adieu aux films muets

Comme nous le savons tous, les modèles de génération vidéo se développent à un rythme alarmant. Cependant, qu'il s'agisse de Sora, qui a choqué le monde en début d'année, ou des récents Keling, Luma et Gen-3 Alpha, tous sont des « films muets » sans exception.

Et la technologie vidéo-audio (V2A) de Google DeepMind rend possible la génération audiovisuelle synchrone. Il peut combiner des pixels vidéo et des signaux textuels en langage naturel pour générer des voix off riches pour l'action à l'écran.

En termes d'application technique, la technologie V2A peut être combinée avec des modèles de génération vidéo tels que Veo pour créer des plans de dialogue avec des bandes sonores dramatiques, des effets sonores réalistes ou des personnages et styles vidéo assortis.

Il peut également générer des pistes audio pour des documents d'archives, des films muets et d'autres images traditionnelles, élargissant ainsi les possibilités créatives.

Invite audio : d'adorables bébés dinosaures gazouillent dans la jungle, accompagnés du bruit des coquilles d'œufs qui craquent. (Mignons gazouillis de bébés dinosaures, ambiance de jungle, craquement d'œufs)

Invites audio : le bruit d'une voiture qui dérape, un rugissement de moteur, accompagné d'une musique électronique angélique. (dérapage des voitures, accélération du moteur de la voiture, musique électronique angélique)

Invite audio : Au coucher du soleil, l'harmonica mélodieux retentit dans la prairie. (un harmonica lent et doux joue pendant que le soleil se couche sur la prairie)

La technologie V2A est capable de générer un nombre illimité de pistes audio pour n'importe quelle entrée vidéo. Les utilisateurs peuvent choisir de définir des « signaux positifs » pour guider la génération des sons souhaités, ou des « signaux négatifs » pour éviter les sons indésirables.

Cette flexibilité donne aux utilisateurs plus de contrôle sur la sortie audio, leur permettant d'essayer rapidement différentes sorties audio et de choisir la meilleure correspondance.

Invite audio : un vaisseau spatial accélère dans le vaste espace, des étoiles volent autour de lui, volant à grande vitesse, plein de sentiment de science-fiction. (Un vaisseau spatial fonce à travers l'immensité de l'espace, des étoiles filant devant lui, haute vitesse, science-fiction)

Invite audio : atmosphère de violoncelle éthérée (Atmosphère de violoncelle éthérée)

Invite audio : un vaisseau spatial dans l'immensité qu'il traverse l'espace à grande vitesse, avec des étoiles passant rapidement autour de lui, lui donnant une sensation de science-fiction. (Un vaisseau spatial fonce à travers l'immensité de l'espace, des étoiles filant devant lui, à grande vitesse, science-fiction)

Le principe de fonctionnement derrière

L'équipe de recherche a essayé des méthodes autorégressives et de diffusion pour découvrir le plus architecture d'IA évolutive. Les méthodes de diffusion donnent les résultats les plus réalistes et les plus attrayants en matière de génération audio pour synchroniser les informations vidéo et audio.

Le système V2A encode d'abord l'entrée vidéo dans une représentation compressée, puis un modèle de diffusion affine de manière itérative l'audio à partir du bruit aléatoire. Ce processus est guidé par une entrée visuelle et des signaux de langage naturel, produisant un son synchronisé et réaliste, étroitement aligné sur les signaux. Enfin, la sortie audio est décodée en une forme d'onde audio et combinée avec les données vidéo.

Pour générer un son de meilleure qualité et guider le modèle pour générer des sons spécifiques, l'équipe de recherche a ajouté plus d'informations au cours du processus de formation, notamment des annotations générées par l'IA détaillant les sons et le texte des dialogues.

En s'entraînant sur la vidéo, l'audio et les annotations supplémentaires, la technologie apprend à associer des événements audio spécifiques à diverses scènes visuelles, tout en répondant aux informations fournies dans les annotations ou le texte.

Google souligne que sa technologie est différente des solutions vidéo-audio existantes car elle comprend les pixels bruts et l'ajout d'indices de texte est facultatif. De plus, le système ne nécessite pas d’alignement manuel du son et de la vidéo générés, ce qui simplifie grandement le processus de création.

Cependant, la technologie de Google n'est pas parfaite et ils travaillent toujours dur pour résoudre certains bugs. Par exemple, la qualité de l’entrée vidéo affecte directement la qualité de la sortie audio, et des artefacts ou des distorsions dans la vidéo peuvent entraîner une dégradation de la qualité audio.

En même temps, ils optimisent également la fonction de synchronisation labiale.

La technologie V2A tente de générer de la parole à partir du texte saisi et de la synchroniser avec les mouvements de la bouche du personnage. Cependant, si le modèle vidéo n'est pas ajusté en conséquence pour le contenu du texte, la forme de la bouche et la parole peuvent être déformées. synchroniser. Ils améliorent cette technologie pour rendre la synchronisation labiale plus naturelle.

Invite audio : Musique, Transcription "Cette dinde a l'air incroyable, j'ai tellement faim" (Musique, Transcription : "Cette dinde a l'air incroyable, j'ai tellement faim")

Peut-être à cause du De nombreux problèmes sociaux causés par la technologie de contrefaçon profonde, Google DeepMind est plein de désir de survie et a continué de promettre de développer et de déployer la technologie d'IA de manière responsable. Avant d'être ouverte au public, la technologie V2A sera soumise à une évaluation et à des tests de sécurité stricts.

De plus, ils ont intégré la boîte à outils SynthID dans la recherche V2A pour ajouter des filigranes à tout le contenu généré par l'IA afin d'éviter toute utilisation abusive de la technologie.

^{Lien de référence :}

^{https://deepmind.google/discover/blog/generating-audio-for-video/}

^{https://x.com/ GoogleDeepMind/statut/1802733643992850760}

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!