Laissez le système de génération d'images DALL·E 2 créé par OpenAI dessiner l'image d'un "poisson rouge sirotant du Coca-Cola sur la plage" et il crachera une image surréaliste. Le programme a rencontré des images de plages, de poissons rouges et de Coca-Cola pendant l'entraînement, mais il était peu probable qu'il voie des images des trois en même temps. Cependant, DALL·E 2 pourrait combiner ces concepts en quelque chose qui aurait pu rendre Dalí fier.
DALL·E 2 est un modèle génératif - un système qui tente d'utiliser les données d'entraînement pour générer de nouvelles choses qui rivalisent avec les données en termes de qualité et de diversité. Il s’agit de l’un des problèmes les plus difficiles de l’apprentissage automatique, et en arriver là a été un parcours difficile.
Le premier modèle important de génération d'images utilisait une méthode d'intelligence artificielle appelée réseau de neurones - un programme composé de plusieurs couches d'unités informatiques appelées neurones artificiels. Mais même si la qualité de leurs images s’est améliorée, les modèles se sont révélés peu fiables et difficiles à entraîner. Pendant ce temps, un puissant modèle génératif, créé par un chercheur postdoctoral passionné de physique, est resté en sommeil jusqu'à ce que deux étudiants diplômés réalisent une percée technologique qui redonne vie à la bête.
DALL·E 2 est une telle bête. Les informations clés qui rendent possibles les images de DALL·E 2, ainsi que celles de ses concurrents Stable Diffusion et Imagen, proviennent du monde de la physique. Les systèmes qui les sous-tendent sont appelés modèles de diffusion et sont fortement inspirés de la thermodynamique hors équilibre, qui régit des phénomènes tels que la diffusion des fluides et des gaz. "De nombreuses techniques inventées à l'origine par des physiciens sont désormais très importantes dans l'apprentissage automatique", a déclaré Yang Song, chercheur en apprentissage automatique chez OpenAI.
La puissance de ces modèles a choqué l'industrie et les utilisateurs. "C'est une période passionnante pour les modèles génératifs", a déclaré Anima Anandkumar, informaticienne au California Institute of Technology et directrice principale de la recherche sur l'apprentissage automatique chez Nvidia.
Bien que les images réalistes créées par les modèles de diffusion puissent parfois perpétuer des préjugés sociaux et culturels, elle a déclaré : « Nous avons montré que les modèles génératifs sont utiles pour les tâches en aval [qui] améliorent l'équité des modèles d'IA prédictifs
Pour comprendre comment créer des données pour une image, commençons par une image simple composée de seulement deux pixels adjacents en niveaux de gris. Nous pouvons décrire entièrement cette image avec deux valeurs basées sur la teinte de chaque pixel (de 0 pour le noir intégral à 255 pour le blanc intégral). Vous pouvez utiliser ces deux valeurs pour tracer l'image sous forme de point dans l'espace 2D.
Si nous traçons plusieurs images sous forme de points, un regroupement peut se produire - certaines images et leurs valeurs de pixels correspondantes apparaissent plus fréquemment que d'autres. Imaginez maintenant qu’il existe une surface courbe au-dessus du plan, dont la hauteur correspond à la densité des amas. Cette surface trace une distribution de probabilité. Il est plus probable que vous trouviez un seul point de données sous la partie la plus élevée de la surface, et rarement sous la partie la plus basse de la surface.
DALL·E 2 a créé ces images "Poisson rouge sirotant du Coca-Cola sur la plage". Ce programme, créé par OpenAI, n'a peut-être jamais rencontré d'images similaires, mais peut toujours les générer lui-même.
Vous pouvez désormais utiliser cette distribution de probabilité pour générer de nouvelles images. Tout ce que vous avez à faire est de générer de nouveaux points de données de manière aléatoire, tout en respectant les contraintes consistant à générer plus de données possibles plus souvent - un processus appelé « échantillonnage » de la distribution. Chaque nouveau point est une nouvelle image.
La même analyse s'applique aux photos en niveaux de gris plus réalistes, telles qu'un million de pixels chacune. Seulement maintenant, au lieu de deux axes, dessiner chaque image en nécessite un million. La distribution de probabilité d’une telle image serait une surface complexe d’un million de dimensions et plus. Si vous échantillonnez cette distribution, vous produirez un million de valeurs de pixels. Imprimez ces pixels sur une feuille de papier et l'image ressemblera très probablement à une photo de l'ensemble de données d'origine.
Le défi de la modélisation générative est d'apprendre cette distribution de probabilité complexe pour un ensemble d'images qui constituent les données d'entraînement. La distribution est utile en partie parce qu'elle capture un large éventail d'informations sur les données, et en partie parce que les chercheurs peuvent combiner des distributions de probabilité de différents types de données, telles que du texte et des images, pour composer des résultats ultra-réalistes, comme un poisson rouge en train de siroter de l'eau. une plage Boire du Coca-Cola. "Vous pouvez mélanger et assortir différents concepts... pour créer des scénarios complètement nouveaux qui n'ont jamais été vus dans les données de formation", a déclaré Anandkumar.
En 2014, un modèle appelé Generative Adversarial Network (GAN) est devenu le premier modèle à générer des images réalistes. "C'est tellement excitant", a déclaré Anandkumar. Mais les GAN sont difficiles à former : ils peuvent ne pas apprendre la distribution de probabilité complète et ne peuvent générer des images qu'à partir d'un sous-ensemble de la distribution. Par exemple, un GAN formé sur des images de divers animaux pourrait générer uniquement des images de chiens.
Le Machine Learning nécessite un modèle plus puissant. Jascha Sohl-Dickstein, dont les travaux s'inspirent de la physique, apportera une réponse.
Jascha Sohl-Dickstein.
À l'époque où les GAN ont été inventés, Sohl-Dickstein était postdoctorant à l'Université de Stanford, étudiant les modèles génératifs et s'intéressant également à la thermodynamique hors équilibre. Cette branche de la physique étudie les systèmes qui ne sont pas en équilibre thermique, c'est-à-dire ceux qui échangent de la matière et de l'énergie en interne et avec leur environnement.
Un exemple illustratif est une goutte d’encre bleue se répandant dans un récipient d’eau. Au début, il forme une tache noire à un endroit. À ce stade, si vous souhaitez calculer la probabilité de trouver des molécules d’encre dans un petit volume du récipient, vous avez besoin d’une distribution de probabilité qui modélise clairement l’état initial avant que l’encre ne commence à se répandre. Mais cette distribution est complexe, ce qui rend difficile son échantillonnage.
Finalement, cependant, l'encre se répand dans l'eau, la rendant bleu clair. Cela permet une distribution de probabilité plus simple et plus uniforme des molécules décrites par des expressions mathématiques simples. La thermodynamique hors équilibre décrit la distribution de probabilité à chaque étape du processus de diffusion. Fondamentalement, chaque étape est réversible : en étapes suffisamment petites, vous pouvez passer d'une distribution simple à une distribution complexe.
Jascha Sohl-Dickstein a créé une nouvelle approche de modélisation générative basée sur les principes de diffusion. ——Asako Miyakawa
Sohl-Dickstein a développé des algorithmes de modélisation générative utilisant les principes de diffusion. L'idée est simple : l'algorithme convertit d'abord les images complexes de l'ensemble de données d'entraînement en un simple bruit (semblable au passage d'une goutte d'encre à un bleu clair d'eau diffus), puis enseigne au système comment inverser le processus, en convertissant le du bruit pour les images.
C'est comme ça que ça marche. Tout d’abord, l’algorithme obtient des images de l’ensemble d’apprentissage. Comme auparavant, en supposant que chacun des millions de pixels a une certaine valeur, nous pouvons tracer l’image comme un point dans un espace à un million de dimensions. L'algorithme ajoute du bruit à chaque pixel à chaque pas de temps, équivalent à la propagation de l'encre après un petit pas de temps. Au fur et à mesure que ce processus se poursuit, les valeurs des pixels deviennent de moins en moins liées à leurs valeurs dans l'image d'origine, et les pixels ressemblent davantage à une simple distribution de bruit. (L'algorithme pousse également chaque valeur de pixel à chaque pas de temps un peu vers l'origine, qui est la valeur zéro sur tous ces axes. Ce coup de pouce empêche les valeurs de pixels de devenir trop grandes pour que l'ordinateur puisse les gérer facilement.)
En faisant cela pour toutes les images de l'ensemble de données, la distribution complexe initiale de points dans un espace à un million de dimensions (qui ne peut pas être facilement décrite et échantillonnée) devient un point simple et normalement distribué autour de l'origine.
Sohl-Dickstein a déclaré : "La transformation très lente de la séquence transforme votre distribution de données en une grosse boule de bruit." Ce "processus avancé" vous donne une distribution qui peut être facilement échantillonnée.
Vient ensuite la partie apprentissage automatique : alimenter le réseau neuronal avec les images bruitées obtenues lors du passage direct et l'entraîner à prédire les images moins bruyantes survenues une étape plus tôt. Il fait des erreurs au début, vous ajustez donc les paramètres du réseau pour qu'il fonctionne mieux. En fin de compte, les réseaux de neurones peuvent transformer de manière fiable des images bruitées représentant des échantillons de distributions simples jusqu'en images représentant des échantillons de distributions complexes.
Le réseau formé est un modèle génératif mature. Désormais, vous n'avez même plus besoin de l'image originale pour effectuer la passe avant : vous disposez d'une description mathématique complète de la distribution simple, vous pouvez donc échantillonner directement à partir de celle-ci. Le réseau neuronal peut transformer cet échantillon (qui est essentiellement statique) en une image finale qui ressemble aux images de l'ensemble de données d'entraînement.
Sohl-Dickstein rappelle la première sortie de son modèle de diffusion. "Vous louchez et dites : 'Je pense que cette goutte colorée ressemble à un camion'", a-t-il déclaré. "J'ai passé plusieurs mois à observer différents modèles de pixels en essayant de voir une structure qui me plaisait, [et c'est plus organisé que jamais auparavant.] Je suis super excité." Sohl-Dickstein a publié son algorithme de modèle de diffusion en 2015, mais il est encore loin des capacités des GAN. Bien que le modèle de diffusion puisse échantillonner l’intégralité de la distribution et ne jamais recracher seulement un sous-ensemble de l’image, l’image semble pire et le processus est trop lent. "Je ne pense pas que c'était excitant à l'époque", a déclaré Sohl-Dickstein.
Adresse papier :
https://doi.org/10.48550/arXiv.1503.03585Il faut deux étudiants qui ne se connaissent ni Sohl-Dickstein ni entre eux pour relier les points de votre œuvre originale aux modèles de diffusion modernes tels que DALL·E 2. Le premier était Song, alors doctorant à l’Université de Stanford. En 2019, lui et son mentor ont publié une nouvelle méthode de construction de modèles génératifs qui n'estime pas les distributions de probabilité des données (surfaces de grande dimension). Au lieu de cela, il estime le gradient de la distribution (considérez-le comme la pente d'une surface de grande dimension).
Yang Song a contribué à proposer une nouvelle technique de génération d'images en entraînant un réseau à interpréter efficacement les images bruitées.
Song a découvert que sa technique débruitait efficacement sa technique s'il perturbait d'abord chaque image de l'ensemble de données d'entraînement avec des niveaux de bruit croissants, puis demandait à son réseau neuronal de prédire l'image originale en utilisant des gradients de distribution qui fonctionnaient le mieux. Une fois entraîné, son réseau neuronal peut extraire des images bruitées à partir d’une distribution simple et les reconvertir progressivement en images représentatives de l’ensemble de données d’entraînement. La qualité de l'image est excellente, mais son modèle d'apprentissage automatique est très lent à échantillonner. Et il l'a fait sans rien connaître de l'œuvre de Sohl-Dickstein. "Je ne connaissais rien aux modèles de diffusion", a déclaré Song. "Après la publication de notre article de 2019, j'ai reçu un e-mail de Jascha. Il m'a fait remarquer que [nos modèles] étaient très étroitement liés." ces travaux pourraient améliorer le modèle de diffusion de Sohl-Dickstein. Jonathan Ho a récemment terminé ses recherches de doctorat en modélisation générative à l'Université de Californie à Berkeley, mais poursuit ses recherches. "Je pense que c'est la sous-discipline mathématiquement la plus belle de l'apprentissage automatique", a-t-il déclaré. Ho a repensé et mis à jour le modèle de diffusion Sohl-Dickstein en utilisant certaines des idées de Song et d'autres avancées dans le domaine des réseaux de neurones. "Je savais que pour attirer l'attention de la communauté, j'avais besoin que le modèle génère de beaux échantillons", a-t-il déclaré. "J'étais convaincu que c'était la chose la plus importante que je pouvais faire à ce moment-là."
Son instinct était bon. Ho et ses collègues ont annoncé ce nouveau modèle de diffusion amélioré dans un article de 2020 intitulé « Denoising Probabilistic Diffusion Models ». Il est rapidement devenu une telle référence que les chercheurs l’appellent désormais simplement DDPM. Sur un benchmark de qualité d'image qui compare la distribution des images générées à la distribution des images de formation, ces modèles correspondaient ou dépassaient tous les modèles génératifs concurrents, y compris les GAN. Il n’a pas fallu longtemps pour que les grandes entreprises s’en rendent compte. Aujourd'hui, DALL·E 2, Stable Diffusion, Imagen et d'autres modèles commerciaux utilisent certaines variantes de DDPM.
Jonathan Ho et ses collègues ont combiné les méthodes de Sohl-Dickstein et Song pour activer des modèles de diffusion modernes tels que DALL·E 2.
Il existe un autre élément clé des modèles de diffusion modernes : les grands modèles de langage (LLM), tels que GPT-3. Il s'agit de modèles génératifs entraînés sur du texte Internet pour apprendre les distributions de probabilité sur des mots plutôt que sur des images. En 2021, Ho (maintenant chercheur scientifique dans une entreprise furtive) et son collègue Tim Salimans de Google Research et d'autres groupes ailleurs ont montré comment combiner les informations du LLM et des modèles de diffusion générateurs d'images à l'aide de texte (par exemple, " Goldfish Sipping Coca-Cola on the Beach") pour guider le processus de diffusion et donc de génération d'images. Ce processus de « diffusion guidée » est à l'origine du succès des modèles texte-image tels que DALL·E 2.
"Ils ont largement dépassé mes attentes les plus folles", a déclaré Ho. "Je ne vais pas faire semblant d'avoir tout vu."
Malgré le succès de ces modèles, les graphismes du DALL·E 2 et ses semblables sont encore loin d'être parfaits. Les grands modèles linguistiques peuvent refléter des préjugés culturels et sociaux, tels que le racisme et le sexisme, dans le texte qu'ils génèrent. C'est parce qu'ils sont formés sur des textes extraits d'Internet, contenant souvent un langage raciste et sexiste. Les LLM qui apprennent les distributions de probabilité sur de tels textes sont semés des mêmes biais. Les modèles de diffusion sont également formés sur des images non conservées prises sur Internet, qui peuvent contenir des données tout aussi biaisées. Il n’est pas étonnant que la combinaison d’un LL.M. avec les modèles de communication actuels produise parfois des images qui reflètent les maux sociaux.
Anandkumar a une expérience personnelle. Elle a été choquée lorsqu'elle a essayé de générer un avatar stylisé d'elle-même à l'aide d'une application basée sur des modèles de diffusion. "De nombreuses images sont très sexualisées", a-t-elle déclaré, "et ce qu'elles présentent aux hommes n'est pas le seul."
Ces biais peuvent être réduits en triant et en filtrant les données (une tâche extrêmement difficile étant donné la taille de l'ensemble de données) ou en examinant les signaux d'entrée et de sortie de ces modèles. "Bien sûr, rien ne peut remplacer des tests de sécurité minutieux et approfondis" d'un modèle, a déclaré Ho. "C'est un défi important pour le domaine."
Malgré ces inquiétudes, Anandkumar croit toujours au pouvoir de la modélisation générative. « J’aime beaucoup la citation de Richard Feynman : « Ce que je ne peux pas créer, je ne le comprends pas » », dit-elle. Cette compréhension accrue permet à son équipe de développer des modèles génératifs qui, par exemple, génèrent des données d'entraînement synthétiques pour les classes sous-représentées pour des tâches de prédiction, telles que les tons chair plus foncés pour la reconnaissance faciale, contribuant ainsi à améliorer l'équité. Les modèles génératifs peuvent également nous donner un aperçu de la manière dont notre cerveau traite les entrées bruyantes ou de la manière dont il évoque des images mentales et envisage des actions futures. La construction de modèles plus complexes pourrait donner à l’IA des capacités similaires.
Anandkumar a déclaré : "Je pense que nous commençons tout juste à explorer les possibilités de l'intelligence artificielle générative
."Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!