L'ajout d'effets spéciaux ne nécessite qu'une phrase ou une image. La société Stable Diffusion a utilisé AIGC pour jouer de nouveaux tours.-IA-php.cn

Table des matières

Paper Details

Méthode

Expérience

Maison

Périphériques technologiques

L'ajout d'effets spéciaux ne nécessite qu'une phrase ou une image. La société Stable Diffusion a utilisé AIGC pour jouer de nouveaux tours.

PHPz

Apr 12, 2023 pm 11:46 PM

图像特技

Je pense que beaucoup de gens ont déjà compris le charme de la technologie de l'IA générative, surtout après avoir vécu l'épidémie d'AIGC en 2022. La technologie de génération de texte en image représentée par Stable Diffusion était autrefois populaire partout dans le monde, et d'innombrables utilisateurs ont afflué pour exprimer leur imagination artistique à l'aide de l'IA...

Comparé à l'édition d'images, le montage vidéo est un problème de tâche plus exigeant, qui nécessite de synthétiser de nouvelles actions, non seulement de modifier l'apparence visuelle, mais également de maintenir une cohérence temporelle.

De nombreuses entreprises explorent cette piste. Il y a quelque temps, Google a publié Dreamix pour appliquer le modèle de diffusion vidéo conditionnelle (VDM) au montage vidéo.

Récemment, Runway, une société qui a participé à la création de Stable Diffusion, a lancé un nouveau modèle d'intelligence artificielle "Gen-1", qui peut convertir des vidéos existantes en nouvelles en appliquant des invites de texte ou tout autre style spécifié par des images de référence. . vidéo.

Lajout deffets spéciaux ne nécessite quune phrase ou une image. La société Stable Diffusion a utilisé AIGC pour jouer de nouveaux tours.

Lien papier : https://arxiv.org/pdf/2302.03011.pdf

Page d'accueil du projet : https://research.runwayml.com/gen1

En 2021, Runway a collaboré avec des chercheurs de l'Université de Munich pour construire la première version de Stable Diffusion. Ensuite, Stability AI, une startup britannique, est intervenue pour financer les dépenses de calcul nécessaires à l'entraînement du modèle sur davantage de données. En 2022, Stability AI introduit la diffusion stable dans le courant dominant, la transformant d'un projet de recherche en un phénomène mondial.

Runway a déclaré espérer que Gen-1 fera pour la vidéo ce que Stable Diffusion a fait pour les images.

«Nous avons assisté à une explosion des modèles de génération d'images», a déclaré Cristóbal Valenzuela, PDG et co-fondateur de Runway. "Je crois vraiment que 2023 sera l'année de la vidéo."

Plus précisément, Gen-1 prend en charge plusieurs modes d'édition :

1. Transférez le style de n’importe quelle image ou invite sur chaque image de votre vidéo.

2. Transformez votre modèle en un rendu entièrement stylisé et animé.

3. Isolez les sujets dans les vidéos et modifiez-les à l'aide de simples invites textuelles.

4. Rendu. Transformez le rendu sans texture en sortie photoréaliste en appliquant des images d'entrée ou des invites.

5. Personnalisation. Libérez toute la puissance de la génération 1 en personnalisant votre modèle pour des résultats plus fidèles.

Dans une démo publiée sur le site officiel de la société, elle montre comment Gen-1 peut changer les styles vidéo en douceur, jetons un coup d'œil à quelques exemples.

Par exemple, pour transformer « les gens dans la rue » en « marionnettes d'argile », vous n'avez besoin que d'une seule ligne d'invite :

Lajout deffets spéciaux ne nécessite quune phrase ou une image. La société Stable Diffusion a utilisé AIGC pour jouer de nouveaux tours.

ou pour transformer « des livres empilés sur la table » en « paysage urbain la nuit" :

Lajout deffets spéciaux ne nécessite quune phrase ou une image. La société Stable Diffusion a utilisé AIGC pour jouer de nouveaux tours.

De « courir sur la neige » à « marcher sur la lune » :

Lajout deffets spéciaux ne nécessite quune phrase ou une image. La société Stable Diffusion a utilisé AIGC pour jouer de nouveaux tours.

La jeune fille s'est transformée en une ancienne sage en quelques secondes :

Lajout deffets spéciaux ne nécessite quune phrase ou une image. La société Stable Diffusion a utilisé AIGC pour jouer de nouveaux tours.

Paper Details

Les effets visuels et le montage vidéo sont omniprésents dans le paysage médiatique contemporain. À mesure que les plateformes vidéo gagnent en popularité, le besoin d’outils de montage vidéo plus intuitifs et plus puissants augmente. Cependant, en raison de la nature temporelle des données vidéo, le montage dans ce format reste complexe et prend du temps. Les modèles d’apprentissage automatique de pointe sont très prometteurs pour améliorer le processus d’édition, mais de nombreuses méthodes doivent trouver un équilibre entre cohérence temporelle et détails spatiaux.

Les méthodes génératives de synthèse d'images ont récemment connu une phase de croissance rapide en termes de qualité et de popularité en raison de l'introduction de modèles de diffusion entraînés sur des ensembles de données à grande échelle. Certains modèles conditionnels au texte, tels que DALL-E 2 et Stable Diffusion, permettent aux utilisateurs novices de générer des images détaillées avec juste une invite de texte. Les modèles de diffusion latente fournissent des méthodes efficaces pour générer des images par composition dans un espace perceptuellement compressé.

Dans cet article, nous proposons un modèle de diffusion vidéo contrôlable, sensible à la structure et au contenu, formé sur un ensemble de données à grande échelle de vidéos non censurées et de données texte-image appariées. Nous avons choisi d'utiliser l'estimation de profondeur monoculaire pour représenter la structure et les intégrations prédites par un réseau neuronal pré-entraîné pour représenter le contenu.

Cette méthode fournit plusieurs modes de contrôle puissants au cours de son processus de génération : Premièrement, à l'instar du modèle de synthèse d'image, les chercheurs entraînent le modèle pour que le contenu vidéo déduit, tel que son apparence ou son style, soit cohérent avec celui fourni par l'utilisateur. image ou L'invite de texte correspond (Figure 1). Deuxièmement, inspirés par le processus de diffusion, les chercheurs ont appliqué un processus de masquage des informations à la représentation structurelle afin de pouvoir sélectionner dans quelle mesure le modèle prend en charge une structure donnée. Enfin, nous ajustons le processus d'inférence grâce à une méthode de guidage personnalisée inspirée du guidage sans classification pour contrôler la cohérence temporelle des segments générés.

Globalement, les points forts de cette recherche sont les suivants :

Le modèle de diffusion latente est étendu au domaine de la génération vidéo en introduisant une couche temporelle dans le modèle d'image pré-entraîné et en s'entraînant conjointement sur les images et videos ;
propose un modèle sensible à la structure et au contenu pour modifier les vidéos guidées par des exemples d'images ou de texte. Le montage est effectué entièrement en temps d'inférence, ne nécessitant aucune formation ou prétraitement supplémentaire pour chaque vidéo
Démontre un contrôle complet sur le temps, le contenu et la cohérence structurelle ; Cette étude est la première à montrer qu'un entraînement conjoint sur des données d'images et de vidéos permet de contrôler la cohérence temporelle par le temps d'inférence. Pour une cohérence structurelle, l'entraînement à différents niveaux de détail dans la représentation permet de choisir les paramètres souhaités lors de l'inférence
Dans une étude utilisateur, notre méthode a été préférée à plusieurs autres méthodes ;
Le modèle entraîné peut être personnalisé en affinant un petit ensemble d'images pour produire des vidéos spécifiques à un sujet plus précises.

Méthode

À des fins de recherche, il sera utile de penser à une vidéo du point de vue du contenu et de la structure. Par structure, nous entendons ici les caractéristiques qui décrivent sa géométrie et sa dynamique, telles que la forme et la position de ses corps, ainsi que leurs changements temporels. Pour le contenu, il est défini ici comme des caractéristiques qui décrivent l'apparence et la sémantique d'une vidéo, comme la couleur et le style des objets et l'éclairage de la scène. L'objectif du modèle Gen-1 est d'éditer le contenu d'une vidéo tout en préservant sa structure.

Pour atteindre cet objectif, les chercheurs apprennent un modèle génératif p (x|s, c) pour la vidéo x, qui est conditionné par la représentation structurelle (notée s) et la représentation du contenu (notée c). Ils déduisent la représentation de forme s à partir de la vidéo d'entrée et la modifient en fonction de l'invite textuelle c décrivant la modification. Tout d’abord, la mise en œuvre du modèle génératif en tant que modèle de diffusion vidéo latente conditionnelle est décrite, puis le choix des représentations de forme et de contenu est décrit. Enfin, le processus d'optimisation du modèle est discuté.

La structure du modèle est illustrée à la figure 2.

Lajout deffets spéciaux ne nécessite quune phrase ou une image. La société Stable Diffusion a utilisé AIGC pour jouer de nouveaux tours.

Expérience

Pour évaluer la méthode, les chercheurs ont utilisé des vidéos DAVIS et divers matériaux. Pour créer automatiquement l'invite d'édition, les chercheurs ont d'abord exécuté un modèle de sous-titres pour obtenir une description du contenu vidéo original, puis ont utilisé GPT-3 pour générer l'invite d'édition.

Étude qualitative

Comme le montre la figure 5, les résultats prouvent que la méthode présentée dans cet article fonctionne bien sur certaines entrées différentes. Les chercheurs ont également mené une étude utilisateur à l'aide d'Amazon Mechanical Turk (AMT) sur un ensemble d'évaluation de 35 invites de montage vidéo représentatives. Pour chaque échantillon, 5 annotateurs ont été invités à comparer la fidélité des invites de montage vidéo entre la méthode de base et notre méthode (« Quelle vidéo représente le mieux les sous-titres édités fournis ? »), puis présentés de manière aléatoire de manière séquentielle, avec un vote majoritaire utilisé pour déterminer le résultat final. résultat.

Les résultats sont présentés dans la figure 7 : Lajout deffets spéciaux ne nécessite quune phrase ou une image. La société Stable Diffusion a utilisé AIGC pour jouer de nouveaux tours.

Évaluation quantitative

La figure 6 montre les résultats de chaque modèle en utilisant la cohérence du cadre de cet article et des indicateurs de cohérence rapides. Les performances du modèle présenté dans cet article ont tendance à dépasser le modèle de référence dans les deux aspects (c'est-à-dire qu'elles sont plus élevées dans le coin supérieur droit de la figure). Les chercheurs ont également remarqué qu'il existe un léger compromis pour augmenter le paramètre d'intensité dans le modèle de base : une plus grande mise à l'échelle de l'intensité signifie une cohérence plus élevée des invites au détriment d'une cohérence de trame plus faible. Ils ont également observé qu’une mise à l’échelle structurelle croissante conduit à une cohérence rapide plus élevée, car le contenu n’est plus déterminé par la structure d’entrée.

Lajout deffets spéciaux ne nécessite quune phrase ou une image. La société Stable Diffusion a utilisé AIGC pour jouer de nouveaux tours. Personnalisation

La figure 10 montre un exemple avec différents nombres d'étapes de personnalisation et différents niveaux de dépendance structurelle ts. Les chercheurs ont observé que la personnalisation augmente la fidélité au style et à l'apparence du personnage, de sorte que, malgré l'utilisation de vidéos animées de personnages présentant des caractéristiques différentes, combinées à des valeurs ts plus élevées, des effets d'animation précis peuvent être obtenus.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Will R.E.P.O. Vous avez un jeu croisé?

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7554

Tutoriel CakePHP

1382

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Comment effacer l'historique des images récentes de l'arrière-plan du bureau dans Windows 11 Apr 14, 2023 pm 01:37 PM

<p>Windows 11 améliore la personnalisation du système, permettant aux utilisateurs d'afficher un historique récent des modifications précédemment apportées à l'arrière-plan du bureau. Lorsque vous entrez dans la section de personnalisation de l'application Paramètres système Windows, vous pouvez voir diverses options, la modification du fond d'écran en fait partie. Mais vous pouvez maintenant voir le dernier historique des fonds d’écran définis sur votre système. Si vous n'aimez pas voir cela et souhaitez effacer ou supprimer cet historique récent, continuez à lire cet article, qui vous aidera à en savoir plus sur la façon de le faire à l'aide de l'Éditeur du Registre. </p><h2>Comment utiliser la modification du registre

Comment télécharger l'image de fond d'écran Windows Spotlight sur PC Aug 23, 2023 pm 02:06 PM

Les fenêtres ne négligent jamais l’esthétique. Des champs verts bucoliques de XP au design tourbillonnant bleu de Windows 11, les fonds d’écran par défaut sont une source de plaisir pour les utilisateurs depuis des années. Avec Windows Spotlight, vous avez désormais un accès direct chaque jour à des images magnifiques et impressionnantes pour votre écran de verrouillage et votre fond d’écran. Malheureusement, ces images ne traînent pas. Si vous êtes tombé amoureux de l'une des images phares de Windows, vous voudrez savoir comment les télécharger afin de pouvoir les conserver comme arrière-plan pendant un certain temps. Voici tout ce que vous devez savoir. Qu’est-ce que WindowsSpotlight ? Window Spotlight est un programme de mise à jour automatique du fond d'écran disponible dans Personnalisation et dans l'application Paramètres.

Comment utiliser la technologie de segmentation sémantique d'images en Python ? Jun 06, 2023 am 08:03 AM

Avec le développement continu de la technologie de l’intelligence artificielle, la technologie de segmentation sémantique des images est devenue une direction de recherche populaire dans le domaine de l’analyse d’images. Dans la segmentation sémantique d'image, nous segmentons différentes zones d'une image et classons chaque zone pour obtenir une compréhension globale de l'image. Python est un langage de programmation bien connu. Ses puissantes capacités d'analyse et de visualisation de données en font le premier choix dans le domaine de la recherche sur les technologies d'intelligence artificielle. Cet article expliquera comment utiliser la technologie de segmentation sémantique d'images en Python. 1. Les connaissances préalables s’approfondissent

iOS 17 : Comment utiliser le recadrage en un clic des photos Sep 20, 2023 pm 08:45 PM

Avec l'application iOS 17 Photos, Apple facilite le recadrage des photos selon vos spécifications. Lisez la suite pour savoir comment. Auparavant, dans iOS 16, le recadrage d'une image dans l'application Photos impliquait plusieurs étapes : appuyez sur l'interface d'édition, sélectionnez l'outil de recadrage, puis ajustez le recadrage à l'aide d'un geste de pincement pour zoomer ou en faisant glisser les coins de l'outil de recadrage. Dans iOS 17, Apple a heureusement simplifié ce processus afin que lorsque vous zoomez sur une photo sélectionnée dans votre bibliothèque Photos, un nouveau bouton Recadrer apparaisse automatiquement dans le coin supérieur droit de l'écran. En cliquant dessus, l'interface de recadrage complète s'affichera avec le niveau de zoom de votre choix. Vous pourrez ainsi recadrer la partie de l'image que vous aimez, faire pivoter l'image, inverser l'image, appliquer un rapport d'écran ou utiliser des marqueurs.

Utilisez des images 2D pour créer un corps humain en 3D. Vous pouvez porter n'importe quel vêtement et modifier vos mouvements. Apr 11, 2023 pm 02:31 PM

Grâce au rendu différenciable fourni par NeRF, les modèles génératifs 3D récents ont obtenu des résultats époustouflants sur des objets stationnaires. Cependant, dans une catégorie plus complexe et déformable comme le corps humain, la génération 3D pose encore de grands défis. Cet article propose une représentation NeRF combinée efficace du corps humain, permettant la génération de corps humain 3D haute résolution (512 x 256) sans utiliser de modèles de super-résolution. EVA3D a largement surpassé les solutions existantes sur quatre ensembles de données du corps humain à grande échelle, et le code est open source. Nom de l'article : EVA3D : Génération humaine compositionnelle en 3D à partir de collections d'images 2D Adresse de l'article : http

Une nouvelle perspective sur la génération d'images : discussion des méthodes de généralisation basées sur NeRF Apr 09, 2023 pm 05:31 PM

La nouvelle génération d'images en perspective (NVS) est un domaine d'application de la vision par ordinateur. Dans le jeu SuperBowl de 1998, le RI de la CMU a démontré la vision stéréo multi-caméras (MVS). À cette époque, cette technologie a été transférée à une chaîne de télévision sportive du pays. États-Unis, mais il n’a finalement pas été commercialisé ; la société britannique BBC Broadcasting a investi dans la recherche et le développement à cet effet, mais il n’a pas été véritablement commercialisé. Dans le domaine du rendu basé sur l'image (IBR), il existe une branche des applications NVS, à savoir le rendu basé sur l'image en profondeur (DBIR). De plus, la télévision 3D, qui était très populaire en 2010, devait également obtenir des effets stéréoscopiques binoculaires à partir de la vidéo monoculaire, mais en raison de l'immaturité de la technologie, elle n'est finalement pas devenue populaire. A cette époque, des méthodes basées sur l’apprentissage automatique commençaient déjà à être étudiées, comme

Comment redimensionner par lots des images à l'aide de PowerToys sous Windows Aug 23, 2023 pm 07:49 PM

Ceux qui doivent travailler quotidiennement avec des fichiers image doivent souvent les redimensionner pour les adapter aux besoins de leurs projets et de leurs tâches. Cependant, si vous avez trop d’images à traiter, les redimensionner individuellement peut prendre beaucoup de temps et d’efforts. Dans ce cas, un outil comme PowerToys peut s'avérer utile, entre autres, pour redimensionner par lots des fichiers image à l'aide de son utilitaire de redimensionnement d'image. Voici comment configurer vos paramètres de redimensionnement d'image et commencer le redimensionnement par lots d'images avec PowerToys. Comment redimensionner des images par lots avec PowerToys PowerToys est un programme tout-en-un doté d'une variété d'utilitaires et de fonctionnalités pour vous aider à accélérer vos tâches quotidiennes. L'un de ses utilitaires est les images

Effacez les imperfections et les rides en un clic : interprétation approfondie du modèle de beauté de la peau haute définition ABPN de la DAMO Academy Apr 12, 2023 pm 12:25 PM

Avec le développement vigoureux de l’industrie de la culture numérique, la technologie de l’intelligence artificielle a commencé à être largement utilisée dans le domaine de l’édition et de l’embellissement d’images. Parmi elles, l’embellissement de la peau en portrait est sans aucun doute l’une des technologies les plus utilisées et les plus demandées. Les algorithmes de beauté traditionnels utilisent une technologie d'édition d'images basée sur des filtres pour obtenir des effets automatisés de resurfaçage de la peau et d'élimination des imperfections, et ont été largement utilisés dans les réseaux sociaux, les diffusions en direct et d'autres scénarios. Cependant, dans le secteur de la photographie professionnelle, où les seuils sont élevés, en raison des exigences élevées en matière de résolution d'image et de normes de qualité, les retoucheurs manuels restent la principale force productive dans la retouche beauté des portraits, accomplissant des tâches telles que le lissage de la peau, l'élimination des imperfections, le blanchiment, etc. travail. Habituellement, le temps de traitement moyen nécessaire à un retoucheur professionnel pour effectuer des opérations d'embellissement de la peau sur un portrait haute définition est de 1 à 2 minutes. Dans des domaines tels que la publicité, le cinéma et la télévision, qui nécessitent une plus grande précision.

See all articles