Maison > Périphériques technologiques > IA > le corps du texte

Le dernier outil de génération d'images de Meta est si populaire qu'il peut transformer les rêves en réalité !

WBOY
Libérer: 2023-04-08 17:11:04
avant
1391 Les gens l'ont consulté

AI est très douée pour peindre.

Récemment, Meta a également développé un "peintre" d'IA - Make-A-Scene.

Le dernier outil de génération dimages de Meta est si populaire quil peut transformer les rêves en réalité !

Pensez-vous toujours que c'est aussi simple d'utiliser simplement du texte pour générer des peintures ?

Il faut savoir que se fier uniquement aux descriptions textuelles peut parfois « renverser », comme le Parti « artiste » lancé par Google il y a quelques temps.

"Une assiette sans banane et un verre sans jus d'orange à côté."

Le dernier outil de génération d'images de Meta est si populaire qu'il peut transformer les rêves en réalité !

Cette fois, Make-A-Scene peut générer ce que vous voulez à travers une description textuelle et un croquis.

Vous avez le dernier mot sur le haut et le bas, la gauche et la droite, la taille, la forme et les autres éléments de la composition.

Le dernier outil de génération dimages de Meta est si populaire quil peut transformer les rêves en réalité !

Même LeCun est sorti pour promouvoir ses propres produits Inutile de dire que la créativité, la clé est « contrôlable » !

Le dernier outil de génération dimages de Meta est si populaire quil peut transformer les rêves en réalité !

Make-A-Scene est tellement génial, jetons-y un coup d'œil ensemble.

Le stylo magique de Meta Ma Liang

Tous parlent sans pratique, faux trucs !

Voyons comment les gens utilisent Make-A-Scene pour réaliser leur imagination.

L'équipe de recherche organisera une séance de démonstration Make-A-Scene avec des artistes reconnus en intelligence artificielle.

Le dernier outil de génération dimages de Meta est si populaire quil peut transformer les rêves en réalité !

L'équipe d'artistes compte une solide programmation, comprenant Sofia Crespo, Scott Eaton, Alexander Reben, Refik Anadol, etc. Ces maîtres ont une expérience directe dans l'application de l'intelligence artificielle générative.

L'équipe R&D permet à ces artistes d'utiliser Make-A-Scene dans le cadre du processus de création et de fournir des commentaires lors de son utilisation.

Ensuite, apprécions les œuvres créées par les maîtres utilisant Make-A-Scene.

Par exemple, Sofia Crespo est une artiste qui se concentre sur l'intersection de la nature et de la technologie. Elle adorait imaginer des formes de vie artificielles qui n'avaient jamais existé, alors elle a utilisé les fonctionnalités de dessin et d'invite de texte de Make-A-Scene pour créer de toutes nouvelles « créatures hybrides ».

Le dernier outil de génération dimages de Meta est si populaire quil peut transformer les rêves en réalité !

Par exemple, les méduses en forme de fleur.

Crespo exploite ses capacités de dessin gratuites pour itérer rapidement sur de nouvelles idées. Elle a déclaré que Make-A-Scene aidera les artistes à mieux exprimer leur créativité et permettra aux artistes d'utiliser une interface plus intuitive pour dessiner.

Le dernier outil de génération dimages de Meta est si populaire quil peut transformer les rêves en réalité !

(Flower Jellyfish)

Scott Eaton est un artiste, éducateur et technologue créatif qui étudie la relation entre les réalités contemporaines et la technologie.

Il a utilisé Make-A-Scene comme moyen de composer une scène, explorant les changements dans la scène à travers différents indices, comme l'utilisation de thèmes comme « des gratte-ciel en train de couler et en décomposition dans le désert » pour mettre en évidence la crise climatique.

Le dernier outil de génération dimages de Meta est si populaire quil peut transformer les rêves en réalité !

(Gratte-ciel dans le désert)

Alexander Reben est artiste, chercheur et roboticien.

Il pense que s'il peut avoir plus de contrôle sur le résultat, cela l'aidera vraiment à exprimer ses intentions artistiques. Il intègre ces outils dans ses séries en cours.

Le dernier outil de génération dimages de Meta est si populaire quil peut transformer les rêves en réalité !

Pour l'artiste médiatique et réalisateur Refik Anadol, cet outil est un moyen de favoriser le développement de l'imaginaire et de mieux explorer des territoires inconnus.

Le dernier outil de génération dimages de Meta est si populaire quil peut transformer les rêves en réalité !

En fait, cet outil de prototypage n'est pas réservé aux personnes intéressées par l'art.

L'équipe de recherche estime que Make-A-Scene peut aider n'importe qui à mieux s'exprimer, y compris ceux qui ont peu de talent artistique.

Pour commencer, l'équipe de recherche a accordé des droits d'utilisation partiels aux employés de la société Meida. Ils testent et fournissent des commentaires sur leurs expériences avec Make-A-Scene.

Le chef de projet Meda, Andy Boyatzis, utilise Make-A-Scene pour créer de l'art avec ses enfants de deux et quatre ans. Ils utilisent des dessins ludiques pour donner vie à leurs idées et à leur imagination.

Ce qui suit est leur travail~

Le dernier outil de génération dimages de Meta est si populaire quil peut transformer les rêves en réalité !

Un chat sculpture coloré~ N'est-ce pas mignon ? Mais cette couleur est en fait un peu insupportable à regarder, comme un enfant pétrissant un gros morceau de pâte à modeler.

Le dernier outil de génération dimages de Meta est si populaire quil peut transformer les rêves en réalité !

Un ours monstre montant dans un train. Sérieusement, les personnes atteintes de cryptophobie devraient rester à l’écart. L'éditeur a immédiatement sauté au sommet après avoir lu cette image. Regardez ces bras étranges, un corps comme un visage, des roues comme des globes oculaires...

Le dernier outil de génération dimages de Meta est si populaire quil peut transformer les rêves en réalité !

Un sommet de montagne. Pour être honnête, cette photo est assez artistique. Mais avez-vous l'impression que les montagnes au loin et le petit train à proximité ne sont pas du tout du même style ?

Le dernier outil de génération dimages de Meta est si populaire quil peut transformer les rêves en réalité !

Technologie derrière

Bien que les méthodes actuelles permettent une conversion décente entre les domaines de texte et d'image, elles présentent encore plusieurs problèmes clés qui ne sont pas bien résolus : la contrôlabilité, la perception humaine, la qualité de l'image.

La méthode de ce modèle améliore dans une certaine mesure la cohérence structurelle et la qualité de l'image.

La scène entière se compose de trois groupes de segmentation sémantique complémentaires (panorama, humain et visage).

En combinant les trois groupes de segmentation sémantique extraits, le réseau apprend à générer la disposition et les conditions de la sémantique pour générer l'image finale.

Afin de créer l'espace symbolique de la scène, les auteurs ont adopté "VQ-SEG", qui est une amélioration de "VQ-VAE".

Dans cette implémentation, l'entrée et la sortie de "VQ-SEG" sont m canaux. Les canaux supplémentaires sont des cartes de bords qui séparent différentes classes et instances. Les canaux Edge assurent la séparation des instances adjacentes de la même classe et mettent l'accent sur les classes rares de grande importance.

Lors de l'entraînement du réseau "VQ-SEG", puisque chaque partie du visage occupe un nombre relativement faible de pixels dans l'espace de la scène, cela conduit à la reconstruction des parties du visage (telles que les yeux, le nez, les lèvres, les sourcils) dans l'espace de la scène. scène La segmentation sémantique est fréquemment réduite.

À cet égard, les auteurs ont essayé d'utiliser la perte de visage par entropie croisée binaire pondérée basée sur la classification segmentée des parties du visage pour mettre en évidence l'importance de la partie du visage. De plus, les bords des parties faciales sont également utilisés dans le cadre de la carte des bords de segmentation sémantique mentionnée ci-dessus.

Les auteurs adoptent un réseau VGG pré-entraîné sur l'ensemble de données ImageNet au lieu d'un réseau dédié d'intégration de visages, et introduisent une perte de correspondance de caractéristiques qui représente la différence de perception entre l'image reconstruite et l'image réelle.

En utilisant la correspondance des fonctionnalités et en ajoutant des couches de suréchantillonnage et de sous-échantillonnage supplémentaires à l'encodeur et au décodeur dans VQ-IMG, la résolution de l'image de sortie peut être augmentée de 256 × 256.

Je pense que tout le monde connaît Transformer, alors qu'est-ce qu'un Transformer basé sur une scène ?

Il s'appuie sur un Transformateur autorégressif avec trois espaces de jetons indépendants et continus, à savoir le texte, la scène et l'image.

Le dernier outil de génération dimages de Meta est si populaire quil peut transformer les rêves en réalité !

La séquence de jetons se compose de jetons de texte codés par l'encodeur BPE, de jetons de scène codés par VQ-SEG et de jetons d'image codés ou décodés par VQ-IMG.

Avant d'entraîner le Transformer basé sur une scène, chaque séquence de jetons codée correspond à un tuple [texte, scène, image], qui est extrait à l'aide de l'encodeur correspondant.

De plus, les auteurs ont également adopté le bootstrapping sans classificateur, qui est le processus consistant à guider des échantillons inconditionnels vers des échantillons conditionnels.

Ce modèle atteint les résultats SOTA. Examinons en détail la comparaison avec la méthode précédente

Le dernier outil de génération dimages de Meta est si populaire quil peut transformer les rêves en réalité !

Le dernier outil de génération dimages de Meta est si populaire quil peut transformer les rêves en réalité !

Maintenant, les chercheurs ont également intégré Make-A-Scene avec un réseau super-résolution, qui peut générer des images de 2048 x 2048, soit 4 fois la résolution.

est la suivante :

Le dernier outil de génération dimages de Meta est si populaire quil peut transformer les rêves en réalité !

En fait, comme d'autres modèles d'IA générative, Make-A-Scene apprend la relation entre la vision et le texte en s'entraînant sur des millions d'images d'exemple.

Il est indéniable que les biais reflétés dans les données d'entraînement affectent les résultats de ces modèles.

Comme l'ont souligné les chercheurs, Make-A-Scene a encore beaucoup à améliorer.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal