


UC Berkeley Google innove en LLM, implémente un modèle de diffusion sur terminal et l'utilise pour IGN pour générer des images réalistes en une seule étape, et les séries télévisées américaines deviennent une source d'inspiration
Le modèle de diffusion devenu populaire dans la moitié du monde va-t-il être éliminé ?
Actuellement, les modèles d'IA génératifs, tels que les GAN, les modèles de diffusion ou les modèles de cohérence, génèrent des images en mappant les entrées sur les sorties correspondant à la distribution des données cible. Le contenu qui doit être réécrit est :
Normalement, ceci. Ce type de modèle doit apprendre beaucoup d'images réelles, puis il peut essayer de garantir les caractéristiques réelles des images générées. Le contenu qui doit être réécrit est le suivant :
Récemment, des chercheurs de l'UC Berkeley et de Google ont proposé un modèle. modèle nouvelle génération—— Le contenu qui doit être réécrit pour le Réseau Générateur Idempotent (IGN) est :
Photos
Adresse papier : https://arxiv.org/abs/2311.01462
Les IGN peuvent être sélectionnés parmi une variété d'entrées, telles que du bruit aléatoire, des graphiques simples, etc., pour générer des images réalistes en une seule étape sans avoir besoin d'une itération en plusieurs étapes. Le contenu qui doit être réécrit est :
. Ce modèle vise à devenir un projecteur « global mapper » (global mapper)), capable de mapper n'importe quelle donnée d'entrée à la distribution de données cible. Le contenu qui doit être réécrit est :
En bref, le modèle général de génération d'images. Ça doit être comme ça à l'avenir. Le contenu qui doit être réécrit est :
Intéressant Oui, une scène efficace dans "Seinfeld" s'est avérée être une source d'inspiration pour l'auteur. est :
Image
Cette scène résume bien "l'opérateur idempotent" ) Ce concept signifie que pendant le processus d'opération, la même entrée est actionnée à plusieurs reprises et le résultat est toujours le même. doit être réécrit est :
C'est-à-dire
l'image
doit être réécrite Le contenu réécrit est :
Comme Jerry Seinfeld l'a souligné avec humour, certains comportements de la vie réelle peuvent également être envisagés idempotent Le contenu réécrit est :
Réseaux Génératifs Impuissants
IGN avec Il existe deux différences importantes entre le GAN et les modèles de diffusion :
- Contrairement au GAN, l'IGN ne nécessite pas de générateurs ni de discriminateurs séparés. C'est un "soi". -confrontation" qui complète à la fois les exigences de génération et de discrimination. Le contenu réécrit est :
- Contrairement au modèle de diffusion qui effectue des étapes incrémentielles, IGN tente de mapper l'entrée à la distribution des données en une seule étape. Le contenu réécrit est :
IGN (modèle génératif idempotent) Quelle est la source ?
Il est formé pour provenir de la distribution source Étant donné la distribution cible
des échantillons d'entrée, ce qui doit être réécrit pour générer les échantillons est :
Étant donné l'exemple d'ensemble de données , chaque exemple Les deux sont tirés de
Le contenu qui doit être réécrit est : Ensuite, les chercheurs ont entraîné le modèle
à mapper
à
Le contenu qui doit être réécrit est :
Supposons que les distributions et
sont situées dans le même espace, c'est à dire que leurs instances ont les mêmes dimensions. Ce qu'il faut réécrire est : Cela permet d'appliquer
aux deux types d'instances
. et
Le contenu qui doit être réécrit est :
L'image montre l'idée de base derrière IGN : l'exemple réel (x) est invariant au modèle f Le contenu qui doit être réécrit est : les autres entrées (z) sont mappées Le contenu qui doit être réécrit pour mapper f à son propre flux d'instance via l'optimisation
est :
Images
Une partie de l'exemple de routine de formation IGN Code PyTorch Le le contenu qui doit être réécrit est :
Photos
Résultats expérimentaux
Quel est l'effet après avoir obtenu l'IGN ?
L'auteur admet qu'à ce stade, les résultats générés par l'IGN ne peuvent pas rivaliser avec les modèles de pointe. Ce qui doit être réécrit est :
Dans les expériences, des modèles plus petits et une résolution plus faible. les données ont été utilisées Set, et dans l'exploration, nous nous concentrons principalement sur les méthodes simplifiées qui doivent être réécrites :
Bien sûr, les technologies de modélisation générative de base, telles que le GAN et les modèles de diffusion, ont également mis beaucoup de temps à atteindre leur maturité. et l'échelle. Ce qui doit être réécrit pour les performances est :
Configuration expérimentale
Les chercheurs ont évalué l'IGN sur MNIST (ensemble de données de chiffres manuscrits en niveaux de gris) et CelebA (ensemble de données d'images de visage), en utilisant respectivement 28 × 28 et 64. Le contenu qui doit être réécrit pour la résolution d'image ×64 est :
L'auteur utilise une architecture d'encodeur automatique simple, où l'encodeur est un simple squelette de discriminateur à cinq couches de DCGAN, et le décodeur est le générateur qui doit être réécrit. Le contenu est : Les hyperparamètres de formation et de réseau sont tels qu'indiqués dans le tableau 1. Le contenu qui doit être réécrit est :
Images
Résultats de génération
La figure 4 montre après appliquer le modèle une et deux fois de suite. Les résultats qualitatifs pour les deux ensembles de données doivent être réécrits comme suit :
Comme indiqué, l'application de l'IGN une fois (f (z)) produit des résultats de génération cohérents. Ce qui doit être réécrit est : Cependant. , des artefacts peuvent survenir. Des ombres, telles que des trous dans les chiffres du MNIST ou des pixels déformés sur le dessus de la tête et des cheveux dans les images du visage, doivent être réécrites :
Appliquer à nouveau f (f (f (z))) peut corriger ces problèmes, en comblant les trous, ou pour réduire la variation totale autour des patchs de bruit facial. Ce qui doit être réécrit est :
Image
La figure 7 montre des résultats supplémentaires ainsi que les résultats de l'application de f trois fois. . Ce qu'il faut réécrire c'est :
Images
La comparaison de et
montre que lorsque l'image est proche de la variété apprise, l'application de f à nouveau entraîne des changements minimes car l'image est considérée comme distribuée. Ce qui doit être réécrit est :
Manipulation de l'espace latent
L'auteur prouve que l'IGN a un espace latent cohérent en effectuant des opérations similaires à celle montrée pour le GAN. La figure 6 montre que ce qui doit être réécrit pour l'algorithme de l'espace latent est :
. Image
Cartographie hors distribution
L'auteur a également vérifié le potentiel de la « cartographie globale » de l'IGN en saisissant des images de diverses distributions dans le modèle pour générer leurs « images naturelles » équivalentes. Le contenu réécrit est :
Les chercheurs l'ont démontré en débruitant l'image bruyante x+n, en colorant l'image en niveaux de gris et en convertissant le croquis
en l'image réelle de la figure 5. Une chose qui doit être réécrit est :
Image originale x, ces tâches inverses sont mal posées. Ce qui doit être réécrit est : IGN peut créer une cartographie naturelle conforme à la structure de l'image originale Comme le montre l'image, l'application de f améliore continuellement la qualité de l'image (par exemple, il supprime les artefacts sombres et de fumée dans les croquis projetés) Ce qui doit être réécrit est :
Image
Google ensuite ?
Comme le montrent les résultats ci-dessus, l'IGN est plus efficace en matière d'inférence et peut générer des résultats en une seule étape après l'entraînement. Ce qui doit être réécrit est :
Ils peuvent également produire des résultats plus cohérents, ce qui. Peut être étendu à davantage d'applications, telles que la réparation d'images médicales, le contenu qui doit être réécrit est le suivant :
L'auteur de l'article a déclaré :
Nous pensons que ce travail est le premier pas vers un modèle qui apprend à Toute entrée est mappée à une distribution cible. Il s'agit d'un nouveau paradigme de modélisation générative. Ce qui doit être réécrit est :
Ensuite, l'équipe de recherche prévoit d'utiliser davantage de données pour étendre l'échelle de l'IGN, en espérant. pour exploiter de nouvelles formules génératives Le contenu qui doit être réécrit pour réaliser tout le potentiel du modèle d'IA est :
Le dernier code de recherche, qui sera rendu public sur GitHub à l'avenir, le contenu qui doit être réécrit est :
Références :
https://www.php.cn/link/2bd388f731f26312bfc0fe30da009595https://www.php.cn/link/e 1e4e65fddf79af60aab04457a6565a6
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

Aujourd'hui, j'aimerais partager un travail de recherche récent de l'Université du Connecticut qui propose une méthode pour aligner les données de séries chronologiques avec de grands modèles de traitement du langage naturel (NLP) sur l'espace latent afin d'améliorer les performances de prévision des séries chronologiques. La clé de cette méthode consiste à utiliser des indices spatiaux latents (invites) pour améliorer la précision des prévisions de séries chronologiques. Titre de l'article : S2IP-LLM : SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting Adresse de téléchargement : https://arxiv.org/pdf/2403.05798v1.pdf 1. Modèle de fond de problème important

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.
