L'équipe de He Kaiming et Xie Saining a suivi avec succès l'exploration du modèle de diffusion de déconstruction et a finalement créé l'auto-encodeur de débruitage très apprécié.-IA-php.cn

Maison

L'équipe de He Kaiming et Xie Saining a suivi avec succès l'exploration du modèle de diffusion de déconstruction et a finalement créé l'auto-encodeur de débruitage très apprécié.

PHPz

Jan 29, 2024 pm 02:15 PM

工程 l-dae dae ddm

Le modèle de diffusion de bruit (DDM) est une méthode actuellement largement utilisée dans la génération d'images. Récemment, une équipe de quatre personnes composée de Xinlei Chen, Zhuang Liu, Xie Saining et He Kaiming a mené une étude de déconstruction sur le DDM. En supprimant progressivement ses composants, ils ont constaté que la capacité de génération du DDM diminuait progressivement, mais que la capacité d'apprentissage des représentations maintenait toujours un certain niveau. Cela montre que certains composants du DDM peuvent ne pas être importants pour l'apprentissage des représentations.

Pour les modèles génératifs actuels dans des domaines tels que la vision par ordinateur, le débruitage est considéré comme une méthode essentielle. Ce type de méthode est souvent appelé modèle de diffusion de débruitage (DDM). En apprenant un auto-encodeur de débruitage (DAE), il peut éliminer efficacement plusieurs niveaux de bruit tout au long du processus de diffusion.

Ces méthodes permettent d'obtenir une excellente qualité de génération d'images et sont particulièrement adaptées à la génération d'images réelles simulées haute résolution, semblables à des photos. Les performances de ces modèles génératifs sont si bonnes qu’ils peuvent presque être considérés comme dotés de fortes capacités de reconnaissance et de compréhension du contenu visuel généré.

Bien que DAE soit au cœur des modèles génératifs actuels, le premier article « Extraire et composer des fonctionnalités robustes avec des auto-encodeurs à débruitage » consiste à apprendre la représentation des données via des méthodes supervisées. Cet article propose une méthode capable d’extraire et de combiner des fonctionnalités robustes. Il vise à améliorer les performances des tâches d'apprentissage supervisé en apprenant des représentations utiles des données d'entrée via des auto-encodeurs de débruitage. L'application réussie de cette approche démontre l'importance des DAE dans les modèles génératifs.

Dans la communauté actuelle d'apprentissage des représentations, les variantes basées sur le « bruit de masque » sont considérées comme les DAE les plus efficaces, comme la prédiction du texte manquant dans une langue (comme BERT) ou des tuiles manquantes dans une image.

Bien que les variantes basées sur des masques spécifient explicitement ce qui est inconnu et ce qui est connu, elles sont très différentes de la tâche consistant à supprimer le bruit additif. Dans la tâche d’isolation du bruit additif, aucune information explicite n’est disponible pour guider le traitement. Cependant, les DDM actuels pour les tâches génératives sont principalement basés sur du bruit additif, ce qui signifie que le contenu inconnu et connu peut ne pas être explicitement étiqueté lors de l'apprentissage des représentations. Par conséquent, cette différence peut amener les variantes basées sur un masque à présenter des effets différents dans le traitement du bruit additif.

Récemment, de plus en plus de recherches ont été menées sur les capacités d'apprentissage des représentations du DDM (Deep Denoising Model). Ces études adoptent directement des modèles DDM pré-entraînés (utilisés à l'origine pour les tâches de génération) et évaluent leur qualité de représentation dans les tâches de reconnaissance. L’application de ces modèles orientés génératifs a conduit à des résultats passionnants.

Cependant, ces études pionnières ont également révélé certains problèmes non résolus : ces modèles existants sont conçus pour des tâches de génération, pas pour des tâches de reconnaissance, nous ne pouvons donc pas déterminer si leurs capacités de représentation sont pilotées par le débruitage ou la diffusion obtenue à partir du processus de conduite.

Cette étude de Xinlei Chen et al. fait un grand pas dans cette direction de recherche.

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Titre de l'article : Déconstruire les modèles de diffusion de bruitage pour l'apprentissage auto-supervisé
Adresse de l'article : https://arxiv.org/pdf/2401.14404.pdf

Ils n'ont pas utilisé les orientations existantes Le DDM généré entraîne à la place un modèle orienté reconnaissance. L'idée centrale de cette recherche est de déconstruire le DDM et de le modifier étape par étape jusqu'à ce qu'il devienne un DAE classique.

Grâce à ce processus de recherche déconstructif, ils ont soigneusement exploré tous les aspects du DDM moderne en termes d'objectifs de représentation d'apprentissage. Le processus de recherche a apporté à la communauté de l'IA une nouvelle compréhension des composants clés dont un DAE a besoin pour apprendre une bonne représentation.

Étonnamment, ils ont découvert que le composant clé principal est le tokenizer, dont la fonction est de créer un espace latent de faible dimension. Il est intéressant de noter que cette observation est largement indépendante du tokenizer spécifique : ils ont exploré les encodeurs VAE standard, VAE au niveau des tuiles, AE au niveau des tuiles et PCA au niveau des tuiles. Ils ont découvert que ce qui rend DAE bien représenté est l’espace latent de faible dimension, et non le tokenizer spécifique.

Grâce à l'efficacité du PCA, l'équipe l'a complètement déconstruit et a finalement obtenu une architecture simple et très similaire au DAE classique (voir Figure 1).

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Ils utilisent la PCA au niveau des tuiles pour projeter l'image dans un espace latent, ajouter du bruit et la projeter à nouveau via la PCA inverse. Un auto-encodeur est ensuite entraîné pour prédire l’image débruitée.

Ils appellent cette architecture latent Denoising Autoencoder (l-DAE), qui est un autoencodeur à débruitage latent.

Le processus de déconstruction de l’équipe a également révélé de nombreuses autres propriétés intéressantes entre le DDM et le DAE classique.

Par exemple, ils ont constaté que de bons résultats peuvent être obtenus avec le l-DAE même avec un seul niveau de bruit (c'est-à-dire une planification du bruit sans DDM). L’utilisation de bruit à plusieurs niveaux agit comme une forme d’augmentation des données, ce qui peut être bénéfique, mais ne constitue pas un facteur contributif.

Sur la base de ces observations, l'équipe estime que les capacités de caractérisation du DDM sont principalement obtenues par des processus axés sur le débruitage plutôt que par des processus axés sur la diffusion.

Enfin, l'équipe a également comparé ses résultats avec les benchmarks précédents. D’une part, les nouveaux résultats sont meilleurs que les méthodes précédemment disponibles : c’est normal, puisque ces modèles ont été le point de départ du processus de déconstruction. D'un autre côté, les résultats de la nouvelle architecture ne sont pas aussi bons que ceux des méthodes d'apprentissage contrastées de base et des méthodes basées sur les masques, mais l'écart est un peu réduit. Cela montre également qu’il reste de la place pour des recherches plus approfondies dans la direction de recherche du DAE et du DDM.

Contexte : Modèle de diffusion de débruitage

Le point de départ de cette étude déconstructive est le modèle de diffusion de débruitage (DDM).

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

En ce qui concerne le DDM, veuillez vous référer aux articles "Les modèles de diffusion battent les GAN sur la synthèse d'images" et "Modèles de diffusion évolutifs avec transformateurs" et les rapports associés sur ce site "U-Net, qui domine le modèle de diffusion, sera être remplacé, Xie Saining et al. Présentent Transformer et proposent DiT》.

Déconstruction du modèle de diffusion débruitante

Nous nous concentrons ici sur son processus de déconstruction - ce processus est divisé en trois étapes. La première consiste à modifier le cadre de DiT centré sur la génération en un cadre davantage axé sur l’apprentissage auto-supervisé. Ensuite, déconstruisons et simplifions progressivement le tokenizer. Enfin, ils ont essayé de procéder à une ingénierie inverse autant que possible de la conception basée sur DDM pour rapprocher le modèle du DAE classique.

Redirection du DDM vers l'apprentissage auto-supervisé

Bien que conceptuellement, le DDM soit une forme de DAE, il a été développé à l'origine pour des tâches de génération d'images. De nombreuses conceptions dans DDM sont orientées vers des tâches génératives. Certaines conceptions ne sont pas intrinsèquement adaptées à l'apprentissage auto-supervisé (par exemple, impliquant des étiquettes de catégorie) ; d'autres ne sont pas nécessaires lorsque la qualité visuelle n'est pas prise en compte.

Dans cette section, l'équipe ajustera l'objectif du DDM à l'apprentissage auto-supervisé. Le tableau 1 montre la progression de cette phase.

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Supprimer le conditionnement des catégories

La première étape consiste à supprimer le processus de conditionnement des catégories dans le modèle de base.

De manière inattendue, la suppression du conditionnement des catégories améliore considérablement la précision de la sonde linéaire (de 57,5 % à 62,1 %), mais la qualité de la génération diminue considérablement comme prévu (FID de 11,6 à 34,2).

L'équipe a émis l'hypothèse que conditionner le modèle directement sur les étiquettes de catégorie pourrait réduire le besoin du modèle d'encoder des informations sur les étiquettes de catégorie. La suppression du conditionnement de catégorie forcera le modèle à apprendre plus de sémantique

Déconstruction de VQGAN

DiT Le processus de formation du tokenizer VQGAN hérité de LDM utilise plusieurs termes de perte : perte de reconstruction d'encodage automatique, perte de régularisation de divergence KL, perte de perception basée sur un VGG supervisé réseau formé pour la classification ImageNet, perte contradictoire à l'aide du discriminateur. L'équipe a mené des études d'ablation sur ces deux dernières pertes, voir le tableau 1.

Bien sûr, la suppression des deux pertes affectera la qualité de la génération, mais dans l'indice de précision de détection linéaire, la suppression de la perte de perception la fera passer de 62,5 % à 58,4 %, tandis que la suppression de la perte contradictoire la fera augmenter de 58,4 % à. 59,0%. Après avoir supprimé la perte contradictoire, le tokenizer est essentiellement un VAE.

Remplacer la planification du bruit

L'équipe a étudié un schéma de planification du bruit plus simple pour soutenir l'apprentissage auto-supervisé.

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Plus précisément, laissez le facteur d'échelle du signal γ^2_t s'atténuer linéairement dans la plage de 1>γ^2_t≥0. Cela permet au modèle de mettre plus de puissance dans des images plus nettes. Cela augmente considérablement la précision de détection linéaire de 59,0 % à 63,4 %.

Déconstruire le tokenizer

Ensuite, nous déconstruisons le tokenizer VAE à travers de nombreuses simplifications. Ils ont comparé quatre variantes d'auto-encodeurs comme tokenizers, dont chacune est une version simplifiée de la précédente :

VAE convolutif : C'est le résultat de l'étape précédente de déconstruction, un cas courant est ce VAE L'encodeur et le décodeur sont ; réseaux neuronaux convolutifs profonds.
VAE au niveau des tuiles : transformez les entrées en tuiles.
AE au niveau des tuiles : le terme de régularisation de VAE est supprimé, ce qui fait que VAE devient essentiellement AE, et son encodeur et son décodeur sont tous deux des projections linéaires.
ACP au niveau des tuiles : une variante plus simple qui effectue une analyse en composantes principales (ACP) sur l'espace des tuiles. Il est facile de montrer que PCA est équivalent à un cas particulier d’AE.

Parce que travailler avec des tuiles est simple, l'équipe a visualisé les filtres de trois tokeniseurs au niveau des tuiles dans l'espace des tuiles, voir Figure 4.

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Le Tableau 2 résume la précision de détection linéaire de DiT lors de l'utilisation de ces quatre variantes de tokenizer.

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Ils ont observé les résultats suivants :

Pour que DDM puisse bien réaliser un apprentissage auto-supervisé, la dimension implicite du tokenizer est cruciale.
Pour l'apprentissage auto-supervisé, le DDM haute résolution basé sur les pixels fonctionne mal (voir Figure 5.

Devenez un auto-encodeur à débruitage classique

Le prochain objectif de la déconstruction L'objectif est de créer le modèle aussi proche que possible du DAE classique, c'est-à-dire supprimer tous les aspects qui différencient le DDM actuel basé sur PCA du DAE classique. Les résultats sont présentés dans le tableau 3.

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Le DDM moderne prédit généralement le bruit, tandis que le classique. DAE prédit des données claires. L'approche de l'équipe consiste à accorder plus de poids au terme de perte de données plus claires en ajustant la fonction de perte.

Cette modification entraînera une précision de détection linéaire passée de 65,1 % à 62,4 %. de la cible de prédiction affecte la qualité de la représentation.

Supprimez la mise à l'échelle de l'entrée

Dans le DDM moderne, l'entrée a un facteur de mise à l'échelle γ_t, mais cela n'est pas souvent fait dans les DAE classiques

En définissant γ_t ≡ 1, l'équipe a découvert. qu'il a atteint une précision de 63,6 % (voir tableau 3), ce qui est meilleur que le modèle avec la variable γ_t (62,4 %). Cela montre que dans le scénario actuel, la précision de l'entrée est complètement inutile.

Utilisez la PCA inverse pour opérer sur l'espace image

Jusqu'à présent, pour toutes les entrées explorées précédemment (sauf la figure 5), le modèle a été exécuté dans l'espace implicite généré par le tokenizer (figure 2(b)). J'aimerais que le DAE opère directement sur l'espace image tout en obtenant une excellente précision de position. L'équipe a constaté que puisque la PCA est utilisée, la PCA inverse peut être utilisée pour y parvenir.

En apportant cette modification sur le. côté entrée (en prédisant toujours la sortie sur l'espace implicite), nous pouvons obtenir une précision de 63,6 % (tableau 3) et si nous l'appliquons davantage du côté sortie (c'est-à-dire que la prédiction de la sortie sur l'espace image à l'aide de la PCA inverse donne une précision de 63,9 %. Les deux résultats montrent que les résultats obtenus en opérant sur l'espace image à l'aide de la PCA inverse sont similaires à ceux prédits sur l'espace latent.

Bien que la PCA inverse puisse obtenir la cible prédite dans l'espace image, la cible n'est pas l'image originale. En effet, PCA est un encodeur avec perte pour toute dimension réduite d. Une solution plus naturelle consiste à prédire directement l'image originale

Lorsqu'il est demandé au réseau de prédire l'image originale, le « bruit » introduit se compose de deux parties : l'additif. Bruit gaussien (sa dimension intrinsèque est d) et erreur de reconstruction PCA (sa dimension intrinsèque est d − d (D est 768). L'approche de l'équipe consiste à pondérer les deux parties séparément. Grâce à la conception de l'équipe, l'image originale peut être obtenue. être prédit avec une précision de détection linéaire de 64,5%. Le volume est conceptuellement très simple : son entrée est une image bruitée, où le bruit est ajouté à l'espace implicite PCA, et sa prédiction est l'image propre d'origine (Figure 1).

Niveau de bruit unique

Enfin, poussée par la curiosité, l'équipe a également travaillé sur une variante avec un seul niveau de bruit. Ils ont souligné que le bruit à plusieurs niveaux obtenu grâce à la planification du bruit est une propriété du processus de diffusion du DDM. D'un point de vue conceptuel, les DAE classiques ne nécessitent pas nécessairement un bruit à plusieurs niveaux.

Ils ont fixé le niveau de bruit σ à une constante √(1/3). En utilisant ce bruit à un seul niveau, la précision du modèle atteint un respectable 61,5 %, ce qui ne représente qu'une amélioration de trois points de pourcentage par rapport aux 64,5 % obtenus avec un bruit à plusieurs niveaux.

L'utilisation du bruit à plusieurs niveaux est similaire à une forme d'augmentation des données dans DAE : c'est bénéfique, mais pas un catalyseur. Cela signifie également que le pouvoir de représentation du DDM provient principalement de processus axés sur le débruitage plutôt que de processus axés sur la diffusion.

Résumé

En résumé, l'équipe a déconstruit le DDM moderne et l'a transformé en un DAE classique.

Ils ont supprimé de nombreuses conceptions modernes et n'ont conservé conceptuellement que deux conceptions héritées du DDM moderne : l'espace implicite de faible dimension (c'est là que le bruit est ajouté) et le bruit à plusieurs niveaux.

Ils utilisent le dernier élément du tableau 3 comme instance DAE finale (illustré dans la figure 1). Ils appellent cette méthode latent Denoising Autoencoder (latent denoising autoencoder), en abrégé l-DAE.

Analyse et comparaison

Visualisation du bruit implicite

Conceptuellement, le l-DAE est une forme de DAE qui apprend à supprimer le bruit ajouté à l'espace implicite. La PCA étant simple, le bruit implicite dans la PCA inverse peut être facilement visualisé.

La figure 7 compare le bruit ajouté aux pixels et le bruit ajouté à l'espace latent. Contrairement au bruit des pixels, le bruit implicite est largement indépendant de la résolution de l’image. Si le PCA au niveau des tuiles est utilisé comme tokenizer, le modèle de bruit implicite est principalement déterminé par la taille des tuiles.

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Résultats de débruitage

La figure 8 montre d'autres exemples de résultats de débruitage basés sur le l-DAE. On constate que la nouvelle méthode permet d’obtenir de meilleurs résultats de prédiction, même si le bruit est fort.

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Augmentation des données

Il convient de noter qu'aucun des modèles présentés ici n'utilise l'augmentation des données : seul le recadrage de la zone centrale de l'image est utilisé, pas de redimensionnement aléatoire ni de tramage des couleurs. L'équipe a effectué des recherches plus approfondies et testé en utilisant une légère augmentation des données pour le l-DAE final :

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Les résultats se sont légèrement améliorés. Cela indique que les capacités d'apprentissage des représentations du l-DAE sont largement indépendantes de l'augmentation des données. Un comportement similaire a été observé dans MAE, voir l'article de He Kaiming et al. "Les auto-encodeurs masqués sont des apprenants à vision évolutive", qui est assez différent de la méthode d'apprentissage contrastive.

Époque d'entraînement

Toutes les expériences précédentes étaient basées sur un entraînement de 400 époques. Selon la conception de MAE, l'équipe a également étudié l'entraînement de 800 et 1600 époques :

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

En revanche, lorsque le nombre d'époques est passé de 400 à 800, MAE a eu un gain significatif (4% mais MoCo v3) ; Il n'y a presque aucun gain (0,2 %) lorsque le numéro d'époque passe de 300 à 600.

Taille du modèle

Tous les modèles précédents étaient basés sur la variante DiT-L, et leurs encodeurs et décodeurs étaient des ViT-1/2L (la moitié de la profondeur du ViT-L). L'équipe a ensuite formé des modèles de différentes tailles, l'encodeur étant ViT-B ou ViT-L (le décodeur a toujours la même taille que l'encodeur) :

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Vous pouvez voir : Lorsque la taille du modèle change de ViT-B Lorsqu'il est agrandi en ViT-L, un énorme gain de 10,6 % peut être obtenu.

Comparez les modèles de base précédents

Enfin, afin de mieux comprendre les effets des différents types de méthodes d'apprentissage auto-supervisées, l'équipe a effectué une comparaison et les résultats sont présentés dans le tableau 4.

Léquipe de He Kaiming et Xie Saining a suivi avec succès lexploration du modèle de diffusion de déconstruction et a finalement créé lauto-encodeur de débruitage très apprécié.

Fait intéressant, le l-DAE fonctionne raisonnablement bien par rapport au MAE, avec seulement une baisse de 1,4 % (ViT-B) ou 0,8 % (ViT-L). D’un autre côté, l’équipe a également noté que MAE est plus efficace en formation car il ne traite que les tuiles non masquées. Néanmoins, l’écart de précision entre les méthodes MAE et DAE a été réduit dans une large mesure.

Enfin, ils ont également observé que les méthodes basées sur des auto-encodeurs (MAE et l-DAE) présentent encore des lacunes par rapport aux méthodes d'apprentissage contrastif de ce protocole, notamment lorsque le modèle est petit. Ils ont finalement déclaré : "Nous espérons que nos recherches attireront davantage d'attention sur la recherche sur l'apprentissage auto-supervisé utilisant des méthodes basées sur un auto-encodeur."

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7467

Tutoriel CakePHP

1376

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours Jul 17, 2024 am 01:56 AM

Il s'agit également d'une vidéo Tusheng, mais PaintsUndo a emprunté une voie différente. L'auteur de ControlNet, LvminZhang, a recommencé à vivre ! Cette fois, je vise le domaine de la peinture. Le nouveau projet PaintsUndo a reçu 1,4kstar (toujours en hausse folle) peu de temps après son lancement. Adresse du projet : https://github.com/lllyasviel/Paints-UNDO Grâce à ce projet, l'utilisateur saisit une image statique et PaintsUndo peut automatiquement vous aider à générer une vidéo de l'ensemble du processus de peinture, du brouillon de ligne au suivi du produit fini. . Pendant le processus de dessin, les changements de lignes sont étonnants. Le résultat vidéo final est très similaire à l’image originale : jetons un coup d’œil à un dessin complet.

Du RLHF au DPO en passant par TDPO, les algorithmes d'alignement des grands modèles sont déjà « au niveau des jetons » Jun 24, 2024 pm 03:04 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Dans le processus de développement de l'intelligence artificielle, le contrôle et le guidage des grands modèles de langage (LLM) ont toujours été l'un des principaux défis, visant à garantir que ces modèles sont à la fois puissant et sûr au service de la société humaine. Les premiers efforts se sont concentrés sur les méthodes d’apprentissage par renforcement par feedback humain (RL

En tête de liste des ingénieurs logiciels d'IA open source, la solution sans agent de l'UIUC résout facilement les problèmes de programmation réels du banc SWE. Jul 17, 2024 pm 10:02 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Les auteurs de cet article font tous partie de l'équipe de l'enseignant Zhang Lingming de l'Université de l'Illinois à Urbana-Champaign (UIUC), notamment : Steven Code repair ; doctorant en quatrième année, chercheur

Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Jul 19, 2024 am 01:29 AM

Si la réponse donnée par le modèle d’IA est incompréhensible du tout, oseriez-vous l’utiliser ? À mesure que les systèmes d’apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats, et quand ne pas leur faire confiance. Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger que le système produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire entièrement compréhensible au point que toute erreur possible puisse être trouvé. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions. Pour les grands modèles de langage, nous pouvons également adopter une approche similaire. Cependant, lorsque vous adoptez cette approche, assurez-vous que le modèle de langage génère

La formation Axiom permet au LLM d'apprendre le raisonnement causal : le modèle à 67 millions de paramètres est comparable au niveau de mille milliards de paramètres GPT-4. Jul 17, 2024 am 10:14 AM

Montrez la chaîne causale à LLM et il pourra apprendre les axiomes. L'IA aide déjà les mathématiciens et les scientifiques à mener des recherches. Par exemple, le célèbre mathématicien Terence Tao a partagé à plusieurs reprises son expérience de recherche et d'exploration à l'aide d'outils d'IA tels que GPT. Pour que l’IA soit compétitive dans ces domaines, des capacités de raisonnement causal solides et fiables sont essentielles. La recherche présentée dans cet article a révélé qu'un modèle Transformer formé sur la démonstration de l'axiome de transitivité causale sur de petits graphes peut se généraliser à l'axiome de transitivité sur de grands graphes. En d’autres termes, si le Transformateur apprend à effectuer un raisonnement causal simple, il peut être utilisé pour un raisonnement causal plus complexe. Le cadre de formation axiomatique proposé par l'équipe est un nouveau paradigme pour l'apprentissage du raisonnement causal basé sur des données passives, avec uniquement des démonstrations.

Les articles arXiv peuvent être publiés sous forme de 'barrage', la plateforme de discussion alphaXiv de Stanford est en ligne, LeCun l'aime Aug 01, 2024 pm 05:18 PM

acclamations! Qu’est-ce que ça fait lorsqu’une discussion sur papier se résume à des mots ? Récemment, des étudiants de l'Université de Stanford ont créé alphaXiv, un forum de discussion ouvert pour les articles arXiv qui permet de publier des questions et des commentaires directement sur n'importe quel article arXiv. Lien du site Web : https://alphaxiv.org/ En fait, il n'est pas nécessaire de visiter spécifiquement ce site Web. Il suffit de remplacer arXiv dans n'importe quelle URL par alphaXiv pour ouvrir directement l'article correspondant sur le forum alphaXiv : vous pouvez localiser avec précision les paragraphes dans. l'article, Phrase : dans la zone de discussion sur la droite, les utilisateurs peuvent poser des questions à l'auteur sur les idées et les détails de l'article. Par exemple, ils peuvent également commenter le contenu de l'article, tels que : "Donné à".

Une avancée significative dans l'hypothèse de Riemann ! Tao Zhexuan recommande fortement les nouveaux articles du MIT et d'Oxford, et le lauréat de la médaille Fields, âgé de 37 ans, a participé Aug 05, 2024 pm 03:32 PM

Récemment, l’hypothèse de Riemann, connue comme l’un des sept problèmes majeurs du millénaire, a réalisé une nouvelle avancée. L'hypothèse de Riemann est un problème mathématique non résolu très important, lié aux propriétés précises de la distribution des nombres premiers (les nombres premiers sont les nombres qui ne sont divisibles que par 1 et par eux-mêmes, et jouent un rôle fondamental dans la théorie des nombres). Dans la littérature mathématique actuelle, il existe plus d'un millier de propositions mathématiques basées sur l'établissement de l'hypothèse de Riemann (ou sa forme généralisée). En d’autres termes, une fois que l’hypothèse de Riemann et sa forme généralisée seront prouvées, ces plus d’un millier de propositions seront établies sous forme de théorèmes, qui auront un impact profond sur le domaine des mathématiques et si l’hypothèse de Riemann s’avère fausse, alors parmi eux ; ces propositions qui en font partie perdront également de leur efficacité. Une nouvelle percée vient du professeur de mathématiques du MIT, Larry Guth, et de l'Université d'Oxford

Génération vidéo illimitée, planification et prise de décision, diffusion, intégration forcée de la prédiction du prochain jeton et diffusion de la séquence complète Jul 23, 2024 pm 02:05 PM

Actuellement, les modèles linguistiques autorégressifs à grande échelle utilisant le prochain paradigme de prédiction de jetons sont devenus populaires partout dans le monde. Dans le même temps, un grand nombre d'images et de vidéos synthétiques sur Internet nous ont déjà montré la puissance des modèles de diffusion. Récemment, une équipe de recherche de MITCSAIL (dont Chen Boyuan, doctorant au MIT) a intégré avec succès les puissantes capacités du modèle de diffusion en séquence complète et du prochain modèle de jeton, et a proposé un paradigme de formation et d'échantillonnage : le forçage de diffusion (DF ). Titre de l'article : DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion Adresse de l'article : https://

See all articles