La diffusion permet non seulement de mieux imiter, mais aussi de "créer".
Le modèle de diffusion est un modèle de génération d'images. Par rapport aux algorithmes bien connus tels que GAN et VAE dans le domaine de l’IA, le modèle de diffusion adopte une approche différente. Son idée principale est un processus consistant à ajouter d’abord du bruit à l’image, puis à la débruiter progressivement. Comment débruiter et restaurer l’image originale est la partie centrale de l’algorithme. L'algorithme final est capable de générer une image à partir d'une image bruitée aléatoirement.
Ces dernières années, la croissance étonnante de l'IA générative a permis de nombreuses applications passionnantes dans la génération de texte en image, la génération de vidéos, et bien plus encore. Le principe de base de ces outils génératifs est le concept de diffusion, un mécanisme d’échantillonnage spécial qui pallie certaines des lacunes des méthodes précédentes considérées comme difficiles à résoudre.
Récemment, Stanley H. Chan de l'Université Purdue a publié un tutoriel sur les modèles de diffusion "Tutorial on Diffusion Models for Imaging and Vision", qui fournit une explication intuitive et détaillée de la technologie dans ce sens.
Le but de ce tutoriel est de discuter des idées de base des modèles de diffusion. Le public cible comprend les scientifiques et les étudiants diplômés intéressés par la recherche sur les modèles de diffusion. Ce didacticiel expliquera les principes des modèles de diffusion et leur application à la résolution d'autres problèmes afin que les scientifiques et les étudiants diplômés puissent mieux comprendre et appliquer ces modèles.
Lien de l'article : https://arxiv.org/abs/2403.18103
Ce tutoriel se compose de quatre parties et couvre quelques concepts de base prenant en charge les modèles génératifs de diffusion dans la littérature de recherche récente : Autoencodeurs variationnels (VAE), diffusion débridée Modèle probabiliste (DDPM), Langevin Dynamics Fractional Matching (SMLD) et SDE. Ces modèles dérivent indépendamment des mêmes idées de diffusion sous de multiples perspectives et comptent 50 pages.
Introduction à l'auteur
L'auteur de ce tutoriel est Stanley H. Chan, professeur agrégé Elmore, École de génie électrique et informatique et Département de statistiques, Université Purdue, États-Unis.
En 2007, Stanley Chan a obtenu son baccalauréat de l'Université de Hong Kong, puis a obtenu sa maîtrise en mathématiques et son doctorat en génie électrique à l'Université du Canada à San Diego en 2009 et 2011 respectivement. De 2012 à 2014, il a été chercheur postdoctoral à la Harvard John A. Paulson School of Engineering and Applied Sciences. A rejoint l’Université Purdue en 2014.
Stanley Chan est principalement engagé dans la recherche en imagerie informatique. Sa mission de recherche est de construire des caméras intelligentes en co-concevant des capteurs et des algorithmes pour permettre la visibilité dans toutes les conditions d'imagerie.
Stanley Chan a également remporté plusieurs prix d'article, dont le prix du meilleur article de l'IEEE Signal Processing Society (SPS) 2022, le prix du meilleur article de la Conférence internationale de l'IEEE sur le traitement d'images (ICIP) 2016, etc.
Lien de référence :
https://engineering.purdue.edu/ChanGroup/stanleychan.html
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!