


Comment le modèle de diffusion construit-il une nouvelle génération d'agents décisionnels ? Au-delà de l'autorégression, générez simultanément de longues trajectoires de planification de séquences
Imaginez que lorsque vous êtes debout dans la pièce et que vous vous préparez à marcher vers la porte, planifiez-vous progressivement le chemin de l'autorégression ? En effet, votre chemin est généré dans son ensemble en une seule fois.
Les dernières recherches soulignent que le module de planification utilisant le modèle de diffusion peut générer en même temps une planification de trajectoire à longue séquence, ce qui est plus conforme à la prise de décision humaine. En outre, le modèle de diffusion peut également fournir des solutions plus optimisées pour les algorithmes d’intelligence décisionnelle existants en termes de représentation politique et de synthèse de données.
L'article de synthèse "Modèles de diffusion pour l'apprentissage par renforcement : une enquête" rédigé par une équipe de l'Université Jiao Tong de Shanghai résume l'application des modèles de diffusion dans les domaines liés à l'apprentissage par renforcement. L'analyse souligne que les algorithmes d'apprentissage par renforcement existants sont confrontés à des défis tels que l'accumulation d'erreurs de planification de longues séquences, des capacités limitées d'expression de politiques et des données interactives insuffisantes. Le modèle de diffusion a montré des avantages dans la résolution des problèmes d'apprentissage par renforcement et a été utilisé pour résoudre les problèmes ci-dessus. Les défis de longue date apportent de nouvelles idées. Lien papier : https://arxiv.org/abs/2311.01223
Cette revue vise à renforcer la diffusion modèle Les rôles dans l'apprentissage sont classés et les cas réussis de modèles de diffusion dans différents scénarios d'apprentissage par renforcement sont résumés. Enfin, la revue attend avec impatience l’orientation future du développement de l’utilisation de modèles de diffusion pour résoudre les problèmes d’apprentissage par renforcement.
La figure montre le rôle du modèle de diffusion dans le cycle classique de pool de relecture agent-environnement-expérience. Par rapport aux solutions traditionnelles, le modèle de diffusion introduit de nouveaux éléments dans le système et offre des opportunités d'interaction et d'apprentissage d'informations plus complètes. De cette manière, l'agent peut mieux s'adapter aux changements environnementaux et optimiser sa prise de décision
L'article est classé selon le rôle du modèle de diffusion dans l'apprentissage par renforcement. les méthodes d'application et les caractéristiques des modèles de diffusion sont comparées.
Figure 2 : Les différents rôles que jouent les modèles de diffusion dans l'apprentissage par renforcement.
Planification de trajectoire
La planification dans l'apprentissage par renforcement fait référence à la prise de décisions en imagination en utilisant des modèles dynamiques, puis en sélectionnant les actions appropriées pour maximiser les récompenses cumulatives. Le processus de planification explore souvent des séquences d'actions et d'états pour améliorer l'efficacité à long terme des décisions. Dans les cadres d'apprentissage par renforcement basé sur modèle (MBRL), les séquences de planification sont souvent simulées de manière autorégressive, ce qui entraîne une accumulation d'erreurs. Les modèles de diffusion peuvent générer simultanément des séquences de planification en plusieurs étapes. Les cibles générées par les articles existants utilisant des modèles de diffusion sont très diverses, incluant (s,a,r), (s,a), uniquement s, uniquement a, etc. Pour générer des trajectoires très rémunératrices lors de l’évaluation en ligne, de nombreux travaux utilisent des techniques d’échantillonnage guidé avec ou sans classificateurs.
Représentation de la politique
Le planificateur de diffusion est plus similaire au MBRL dans l'apprentissage par renforcement traditionnel. En revanche, l'utilisation d'un modèle de diffusion comme politique est plus similaire à l'apprentissage par renforcement sans modèle. Diffusion-QL combine d'abord la stratégie de diffusion avec le framework Q-learning. Étant donné que les modèles de diffusion sont bien plus capables d'ajuster les distributions multimodales que les modèles traditionnels, les stratégies de diffusion fonctionnent bien dans les ensembles de données multimodales échantillonnées par plusieurs stratégies comportementales. La stratégie de diffusion est la même que la stratégie ordinaire, utilisant généralement l'état comme condition pour générer des actions tout en envisageant de maximiser la fonction Q (s, a). Des méthodes telles que Diffusion-QL ajoutent un terme de fonction de valeur pondérée lors de la formation du modèle de diffusion, tandis que CEP construit une cible de régression pondérée d'un point de vue énergétique et utilise la fonction de valeur comme facteur pour ajuster la distribution d'action apprise par le modèle de diffusion.
Synthèse de données
Le modèle de diffusion peut être utilisé comme synthétiseur de données pour atténuer le problème des données clairsemées dans l'apprentissage par renforcement hors ligne ou en ligne. Les méthodes traditionnelles d'amélioration des données d'apprentissage par renforcement ne peuvent généralement perturber que légèrement les données d'origine, tandis que la puissante capacité d'ajustement de distribution du modèle de diffusion lui permet d'apprendre directement la distribution de l'ensemble des données, puis d'échantillonner de nouvelles données de haute qualité.
Autres types
En plus des catégories ci-dessus, il existe également des œuvres éparses utilisant des modèles de diffusion par d'autres moyens. Par exemple, DVF estime une fonction de valeur à l'aide d'un modèle de diffusion. LDCQ code d'abord la trajectoire dans l'espace latent, puis applique le modèle de diffusion sur l'espace latent. PolyGRAD utilise un modèle de diffusion pour transférer dynamiquement l'environnement d'apprentissage, permettant une interaction entre les politiques et les modèles pour améliorer l'efficacité de l'apprentissage des politiques.
Applications dans différents problèmes liés à l'apprentissage par renforcement
Apprentissage par renforcement hors ligne
L'introduction du modèle de diffusion aide la stratégie d'apprentissage par renforcement hors ligne à s'adapter à la distribution de données multimodale et étend la caractérisation de la stratégie capacité. Diffuser a d'abord proposé un algorithme de génération de trajectoire à haute récompense basé sur le guidage d'un classificateur et a inspiré de nombreux travaux ultérieurs. Dans le même temps, le modèle de diffusion peut également être appliqué dans des scénarios d’apprentissage par renforcement multitâches et multi-agents.
Figure 3 : Diagramme schématique du processus et du modèle de génération de trajectoire de diffuseur
Apprentissage par renforcement en ligne
Les chercheurs ont prouvé que le modèle de diffusion a également la capacité d'optimiser les fonctions et les stratégies de valeur dans apprentissage par renforcement en ligne. Par exemple, le DIPO ré-étiquete les données d'action et utilise la formation sur modèle de diffusion pour éviter l'instabilité de la formation guidée par les valeurs. Le CPQL a vérifié que le modèle de diffusion par échantillonnage en une seule étape en tant que stratégie peut équilibrer l'exploration et l'utilisation pendant l'interaction ;
Apprentissage par imitation
L'apprentissage par imitation reconstruit le comportement d'un expert en apprenant à partir de données de démonstration d'experts. L'application du modèle de diffusion permet d'améliorer les capacités de représentation politique et d'acquérir diverses compétences liées aux tâches. Dans le domaine du contrôle des robots, des recherches ont montré que les modèles de diffusion peuvent prédire des séquences d'action en boucle fermée tout en maintenant la stabilité temporelle. La politique de diffusion utilise un modèle de diffusion d'entrée d'image pour générer des séquences d'action de robot. Les expériences montrent que le modèle de diffusion peut générer des séquences d'action efficaces en boucle fermée tout en garantissant la cohérence temporelle.
Figure 4 : Schéma du modèle de politique de diffusion
Génération de trajectoire
La génération de trajectoire du modèle de diffusion dans l'apprentissage par renforcement se concentre principalement sur deux types de tâches : la génération d'actions humaines et le contrôle de robots . Les données d'action ou les données vidéo générées par les modèles de diffusion sont utilisées pour construire des simulateurs de simulation ou former des modèles décisionnels en aval. UniPi entraîne un modèle de diffusion de génération vidéo en tant que stratégie générale et réalise un contrôle de robot transversal en accédant à différents modèles de dynamique inverse pour obtenir des commandes de contrôle sous-jacentes.
Figure 5 : Diagramme schématique du processus décisionnel d'UniPi.
Amélioration des données
Le modèle de diffusion peut également s'adapter directement à la distribution des données d'origine, fournissant une variété de données étendues dynamiquement tout en conservant l'authenticité. Par exemple, SynthER et MTDiff-s génèrent des informations complètes sur le transfert d'environnement de la tâche de formation via le modèle de diffusion et les appliquent à l'amélioration des politiques, et les résultats montrent que la diversité et la précision des données générées sont meilleures que les méthodes historiques.
Figure 6 : Diagramme schématique de MTDiff pour la planification multitâche et l'amélioration des données
Perspectives futures
Environnement de simulation générative
Comme le montre la figure 1, recherche existante principalement Les modèles de diffusion sont utilisés pour surmonter les limites des agents et des pools de relecture d'expériences, et il existe relativement peu d'études sur l'utilisation de modèles de diffusion pour améliorer les environnements de simulation. Gen2Sim utilise le modèle de diffusion de graphes vincentiens pour générer divers objets manipulables dans l'environnement de simulation afin d'améliorer la capacité de généralisation des opérations de précision du robot. Les modèles de diffusion ont également le potentiel de générer des fonctions de transition d'état, des fonctions de récompense ou des comportements d'adversaires dans des interactions multi-agents dans un environnement de simulation.
Ajouter des contraintes de sécurité
En utilisant les contraintes de sécurité comme conditions d'échantillonnage du modèle, les agents basés sur le modèle de diffusion peuvent prendre des décisions qui satisfont à des contraintes spécifiques. L'échantillonnage guidé du modèle de diffusion permet d'ajouter continuellement de nouvelles contraintes de sécurité en apprenant des classificateurs supplémentaires, tandis que les paramètres du modèle d'origine restent inchangés, économisant ainsi une surcharge de formation supplémentaire.
Génération améliorée par récupération
La technologie de génération améliorée par récupération peut améliorer les capacités du modèle en accédant à des ensembles de données externes et est largement utilisée dans les grands modèles de langage. Les performances des modèles de décision basés sur la diffusion dans ces états peuvent également être améliorées en récupérant les trajectoires liées à l'état actuel de l'agent et en les introduisant dans le modèle. Si l'ensemble de données de récupération est constamment mis à jour, il est possible pour l'agent d'afficher de nouveaux comportements sans être recyclé.
Combiner plusieurs compétences
Combiné avec ou sans guidage de classificateur, le modèle de diffusion peut combiner plusieurs compétences simples pour accomplir des tâches complexes. Les premiers résultats de l’apprentissage par renforcement hors ligne indiquent également que les modèles de diffusion peuvent partager des connaissances entre différentes compétences, permettant ainsi de réaliser un transfert zéro ou un apprentissage continu en combinant différentes compétences.
Tableau
Figure 7 : Tableau récapitulatif et de classification des articles connexes.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Le simulateur jojplay est un simulateur de téléphone mobile très facile à utiliser. Il prend en charge les jeux informatiques et peut être exécuté sur les téléphones mobiles, et la compatibilité est très bonne. Certains joueurs ne savent pas comment l'utiliser. comment l'utiliser. Comment utiliser le simulateur joiplay 1. Tout d'abord, vous devez télécharger le plug-in Joiplay body et RPGM. Il est préférable de les installer dans l'ordre body - plug-in. Le package apk peut être obtenu dans la barre Joiplay (. cliquez pour obtenir >>>). 2. Une fois Android terminé, vous pouvez ajouter des jeux dans le coin inférieur gauche. 3. Remplissez le nom avec désinvolture et appuyez sur CHOISIR sur le fichier exécutable pour sélectionner le fichier game.exe du jeu. 4. L'icône peut rester vide ou vous pouvez choisir votre image préférée.

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Life Restart Simulator est un jeu de simulation très intéressant. Ce jeu est devenu très populaire récemment. Il existe de nombreuses façons de jouer au jeu. Ci-dessous, l'éditeur vous propose un guide complet de Life Restart Simulator. les stratégies existent-elles ? Guide du Life Restart Simulator Guide Caractéristiques du Life Restart Simulator Il s'agit d'un jeu très créatif dans lequel les joueurs peuvent jouer selon leurs propres idées. Il y a de nombreuses tâches à accomplir chaque jour et vous pouvez profiter d'une nouvelle vie dans ce monde virtuel. Il y a de nombreuses chansons dans le jeu et toutes sortes de vies différentes vous attendent. Contenu du jeu Life Restart Simulator Cartes de dessin de talents : Talent : Vous devez choisir la mystérieuse petite boîte pour devenir un immortel. Une variété de petites capsules sont disponibles pour éviter de mourir à mi-chemin. Cthulhu peut choisir

Le simulateur Jojplay peut réellement personnaliser les polices du jeu et résoudre le problème des caractères manquants et des caractères encadrés dans le texte. Je suppose que de nombreux joueurs ne savent toujours pas comment l'utiliser. L'éditeur suivant vous apportera la méthode de configuration. police du simulateur jojplay introduire. Comment définir la police du simulateur Joiplay 1. Ouvrez d'abord le simulateur Joiplay, cliquez sur les paramètres (trois points) dans le coin supérieur droit et recherchez-le. 2. Dans la colonne RPGMSettings, cliquez pour sélectionner la police personnalisée CustomFont dans la troisième ligne. 3. Sélectionnez le fichier de police et cliquez sur OK. Veillez à ne pas cliquer sur l'icône "Enregistrer" dans le coin inférieur droit, sinon les paramètres par défaut seront restaurés. 4. Recommander le chinois simplifié Founder et Quasi-Yuan (déjà dans les dossiers des jeux Fuxing et Rebirth). joi

La version officielle de Thunderbolt Simulator est un outil d'émulation Android très professionnel. Alors comment supprimer l’application simulateur de tonnerre et d’éclairs ? Comment supprimer des applications dans Thunderbolt Simulator ? Laissez l'éditeur vous donner la réponse ci-dessous ! Comment supprimer l'application de simulation de tonnerre et d'éclairs ? 1. Cliquez et maintenez l'icône de l'application que vous souhaitez supprimer. 2. Attendez un moment jusqu'à ce que l'option de désinstallation ou de suppression de l'application apparaisse. 3. Faites glisser l'application vers l'option de désinstallation. 4. Dans la fenêtre de confirmation qui apparaît, cliquez sur OK pour terminer la suppression de l'application.

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

Récemment, le milieu militaire a été submergé par la nouvelle : les avions de combat militaires américains peuvent désormais mener des combats aériens entièrement automatiques grâce à l'IA. Oui, tout récemment, l’avion de combat IA de l’armée américaine a été rendu public pour la première fois, dévoilant ainsi son mystère. Le nom complet de ce chasseur est Variable Stability Simulator Test Aircraft (VISTA). Il a été personnellement piloté par le secrétaire de l'US Air Force pour simuler une bataille aérienne en tête-à-tête. Le 2 mai, le secrétaire de l'US Air Force, Frank Kendall, a décollé à bord d'un X-62AVISTA à la base aérienne d'Edwards. Notez que pendant le vol d'une heure, toutes les actions de vol ont été effectuées de manière autonome par l'IA ! Kendall a déclaré : "Au cours des dernières décennies, nous avons réfléchi au potentiel illimité du combat air-air autonome, mais cela a toujours semblé hors de portée." Mais maintenant,
