


Transformers+world model, peut-il sauver l'apprentissage par renforcement profond ?
Beaucoup de gens savent qu'AlphaGo, qui a battu Li Sedol, Ke Jie et d'autres grands joueurs d'échecs internationaux, a eu un total de trois itérations, à savoir l'AlphaGo Lee de première génération, qui a battu Li Sedol, et la deuxième génération. AlphaGo Master, qui a vaincu Ke Jie, et AlphaGo Zero de troisième génération, qui a battu les deux générations précédentes.
Les compétences d'AlphaGo aux échecs peuvent augmenter de génération en génération. Derrière cela se cache en fait une tendance évidente dans la technologie de l'IA, à savoir la proportion croissante d'apprentissage par renforcement.
Ces dernières années, l'apprentissage par renforcement a connu une autre « évolution ». Les gens appellent l'apprentissage par renforcement « évolué » l'apprentissage par renforcement profond.
Mais l'efficacité des échantillons d'agents d'apprentissage par renforcement profond est faible, ce qui limite considérablement leur application dans des problèmes pratiques.
Récemment, de nombreuses méthodes basées sur des modèles ont été conçues pour résoudre ce problème, et l'apprentissage dans l'imagination du modèle du monde est l'une des méthodes les plus importantes.
Cependant, même si une interaction presque illimitée avec un environnement simulé semble attrayante, le modèle mondial doit rester précis sur de longues périodes de temps.
Inspirés par le succès de Transformer dans les tâches de modélisation de séquences, Vincent Micheli, Eloy Alonso et François Fleure de l'Université Cornell ont présenté IRIS, un agent efficace en matière de données qui apprend dans un modèle mondial composé d'auto-encodeurs discrets et Transformateurs autorégressifs.
Sur le benchmark Atari 100k, sur l'équivalent de seulement deux heures de jeu, IRIS a atteint un score moyen normalisé par l'humain de 1,046 et a surperformé dans 10 des 26 jeux les êtres humains.
Auparavant, LeCun avait dit un jour que l'apprentissage par renforcement mènerait à une impasse.
Maintenant, il semble que Vincent Micheli et Eloy Aaron Seau de l'Université Cornell, François Fleure et d'autres intègrent des modèles mondiaux et l'apprentissage par renforcement (plus précisément, l'apprentissage par renforcement profond), et le pont reliant les deux est Transformers.
Quelle est la différence entre l'apprentissage par renforcement profond
Quand il s'agit de technologie d'intelligence artificielle, ce à quoi beaucoup de gens peuvent penser, c'est l'apprentissage en profondeur.
En fait, même si le deep learning est toujours actif dans le domaine de l'IA, il a mis en lumière de nombreux problèmes.
La méthode d'apprentissage profond la plus couramment utilisée actuellement est l'apprentissage supervisé. L'apprentissage supervisé peut être compris comme un « apprentissage avec des réponses de référence ». L'une de ses caractéristiques est que les données doivent être étiquetées avant de pouvoir être utilisées pour la formation. Mais aujourd’hui, une grande quantité de données sont des données non étiquetées, et le coût de l’étiquetage est très élevé.
À tel point qu'en réponse à cette situation, certains ont plaisanté en disant qu'"il y a autant d'intelligence que d'intelligence artificielle".
De nombreux chercheurs, dont de nombreux experts, se demandent si l'apprentissage profond est « faux ».
Ainsi, l'apprentissage par renforcement a commencé à se développer.
L'apprentissage par renforcement est différent de l'apprentissage supervisé et de l'apprentissage non supervisé. Il utilise un agent pour effectuer des essais et des erreurs en continu, et récompense et punit l'IA en fonction des résultats des essais et des erreurs. Il s’agit de la méthode de DeepMind pour créer diverses IA d’échecs et de cartes et IA de jeu. Les partisans de cette voie croient que tant que les récompenses sont correctement définies, l’apprentissage par renforcement finira par créer un véritable AGI.
Mais l'apprentissage par renforcement pose également des problèmes. Selon les mots de LeCun, « l'apprentissage par renforcement nécessite une énorme quantité de données pour entraîner le modèle à effectuer les tâches les plus simples ».
L'apprentissage par renforcement et l'apprentissage profond ont donc été combinés pour devenir un apprentissage par renforcement profond.
L'apprentissage par renforcement profond, l'apprentissage par renforcement est le squelette et l'apprentissage profond est l'âme. Qu'est-ce que cela signifie ? Le principal mécanisme opérationnel de l’apprentissage par renforcement profond est en fait fondamentalement le même que celui de l’apprentissage par renforcement, sauf qu’un réseau neuronal profond est utilisé pour mener à bien ce processus.
De plus, certains algorithmes d'apprentissage par renforcement profond implémentent simplement un nouvel ensemble d'algorithmes d'apprentissage par renforcement profond directement sur les algorithmes d'apprentissage par renforcement existants en ajoutant des réseaux de neurones profonds. Le très célèbre algorithme d'apprentissage par renforcement profond DQN est un typique. exemple.
Ce qui est magique avec les Transformers
Les Transformers sont apparus pour la première fois en 2017 et ont été proposés dans l'article de Google "L'attention est tout ce dont vous avez besoin" de.
Avant l'émergence de Transformer, les progrès de l'intelligence artificielle dans les tâches linguistiques étaient en retard par rapport au développement d'autres domaines. « Le traitement du langage naturel a été un peu tardif dans cette révolution de l'apprentissage profond qui s'est produite au cours de la dernière décennie », explique Anna Rumshisky, informaticienne à l'Université du Massachusetts Lowell. « Dans un sens, la PNL était en retard sur la vision par ordinateur, Transformer. Cela change. Ces dernières années, les modèles d'apprentissage automatique de Transformer sont devenus l'un des principaux points forts des avancées technologiques en matière d'apprentissage profond et de réseaux neuronaux profonds. Il est principalement utilisé pour des applications avancées dans le traitement du langage naturel. Google l'utilise pour améliorer les résultats de ses moteurs de recherche.
Transformer est rapidement devenu un leader dans les applications telles que la reconnaissance de mots axées sur l'analyse et la prédiction de texte. Cela a déclenché une vague d’outils comme GPT-3 d’OpenAI qui peuvent être formés sur des centaines de milliards de mots et générer un nouveau texte cohérent.
Actuellement, l'architecture Transformer continue d'évoluer et de s'étendre dans de nombreuses variantes différentes, s'étendant des tâches linguistiques à d'autres domaines. Par exemple, Transformer a été utilisé pour la prédiction de séries chronologiques et constitue également l’innovation clé derrière le modèle de prédiction de la structure des protéines de DeepMind, AlphaFold.
Les transformateurs sont également récemment entrés dans le domaine de la vision par ordinateur et remplacent lentement les réseaux de neurones convolutifs (CNN) dans de nombreuses tâches complexes.
World Model et Transformers unissent leurs forces, qu'en pensent les autres ? Concernant les résultats de la recherche de l'Université Cornell, certains internautes étrangers ont commenté : « Veuillez noter que ces deux heures sont la durée de prises de vue de l'environnement, réalisées sur le GPU. semaine."
Certaines personnes se demandent également : ce système apprend donc sur un modèle mondial sous-jacent particulièrement précis ? Le modèle ne nécessite-t-il aucune formation préalable ?
De plus, certaines personnes estiment que les résultats de Vincent Micheli et d'autres de l'Université Cornell ne sont pas des avancées révolutionnaires : "Il semble qu'ils n'aient formé que le mannequin mondial, les vqvae et les critiques d'acteurs, qui sont tous venus de ces 2 heures d'expérience (et environ 600 époques) de tampon de relecture".
Référence : https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

De nombreux utilisateurs qui viennent d'entrer en contact avec le logiciel Kujiale ne connaissent pas très bien la manière dont Kujiale se modélise. L'article suivant vous présente les étapes de la propre modélisation de Kujiale. Entrez dans la plateforme Kujiale. Dans Kujiale, cliquez pour accéder à l'interface de conception et de décoration. Dans l'interface de conception, cliquez sur la bibliothèque industrielle à gauche, puis cliquez sur les outils d'installation matérielle pour toute la maison dans la bibliothèque industrielle. Dans tout l'outil de décoration dure de la maison, des opérations de modélisation peuvent être effectuées.

Beaucoup de gens savent qu'AlphaGo, qui a vaincu Li Sedol, Ke Jie et d'autres grands joueurs d'échecs internationaux, a eu un total de trois itérations. Il s'agissait de l'AlphaGo Lee de première génération qui a vaincu Li Sedol, de l'AlphaGo Master de deuxième génération qui a vaincu Ke Jie. , et l'AlphaGo Master de deuxième génération qui a vaincu les deux premiers. La troisième génération d'AlphaGo Zero. La raison pour laquelle les compétences d’AlphaGo aux échecs peuvent augmenter de génération en génération est en fait due à une tendance évidente dans la technologie de l’IA, à savoir la proportion croissante d’apprentissage par renforcement. Ces dernières années, l'apprentissage par renforcement a connu une autre « évolution ». Les gens appellent l'apprentissage par renforcement « évolué » l'apprentissage par renforcement profond. Cependant, l’efficacité des échantillons d’agents d’apprentissage par renforcement profond est faible, ce qui limite considérablement leur application dans des problèmes pratiques. récent

Générez un monde de jeu jouable en un seul clic. Cela ne fait que deux semaines qu’il est sorti, et le modèle mondial de Google est également arrivé, et ses capacités semblent encore plus puissantes : le monde virtuel qu’il génère est « autonome et contrôlable ». Tout à l'heure, Google a défini un nouveau paradigme d'IA générative : les environnements interactifs génératifs (Genie, Generative Interactive Environments). Genie est un modèle mondial de base de 11 milliards de paramètres qui peut générer des environnements interactifs jouables à partir d'une seule invite d'image. Nous pouvons le stimuler avec des images qu'il n'a jamais vues auparavant, puis interagir avec le monde virtuel de notre propre imagination. Qu'il s'agisse d'images composites, de photos ou même de croquis dessinés à la main, Genie peut générer une infinité de mondes jouables à partir d'elles. Ge

Avec la popularité d’Internet, la demande d’applications Web ne cesse de croître. Dans le passé, nous aurions pu utiliser des langages tels que PHP, Java ou Python pour créer des applications Web, mais avec l'émergence continue de nouvelles technologies, nous choisissons désormais d'utiliser Golang pour créer des applications Web. Dans Golang, Iris est un très excellent framework Web. Il a les mêmes fonctions et la même facilité d'utilisation que les autres frameworks Web grand public. Dans cet article, nous explorerons les bases de la création d'applications Web à l'aide du framework Iris.

Le site officiel de la bibliothèque de modélisation du langage go comprend : 1. GORM, une bibliothèque ORM simple mais puissante ; 2. XORM, avec des performances élevées et une facilité d'utilisation 3. beego ORM, qui fournit une API simple pour gérer l'accès aux bases de données et aux données ; mapping ; 4. sqlx, une bibliothèque d'outils de base de données légère ; 5. gorp, fournissant une API simple pour gérer la persistance et les requêtes des données.

Avec le développement rapide de l’intelligence artificielle et de la technologie d’apprentissage automatique, l’apprentissage profond est devenu l’une des technologies les plus populaires dans le domaine de l’intelligence artificielle. En tant que langage de programmation facile à apprendre et à utiliser, Python est devenu le langage de choix pour de nombreux praticiens du deep learning. Cet article vous expliquera comment utiliser la modélisation approfondie en Python. 1. Installez et configurez l'environnement Python. Tout d'abord, nous devons installer Python et les bibliothèques d'apprentissage en profondeur associées. Actuellement, les bibliothèques d'apprentissage profond les plus couramment utilisées en Python sont TensorFlow et PyT.

Numpy est l'une des bibliothèques mathématiques les plus couramment utilisées en Python, intégrant bon nombre des meilleures fonctions et opérations mathématiques. Numpy est largement utilisé, notamment dans les statistiques, l'algèbre linéaire, le traitement d'images, l'apprentissage automatique, les réseaux de neurones et d'autres domaines. En termes d'analyse et de modélisation de données, Numpy fait partie des outils indispensables. Cet article partagera les fonctions mathématiques couramment utilisées dans Numpy, ainsi que des exemples de codes permettant d'utiliser ces fonctions pour mettre en œuvre l'analyse et la modélisation de données. 1. Créez un tableau. Utilisez la fonction array() dans Numpy pour créer un nombre.

Récemment, avec l'essor de la technologie de l'IA générative, de nombreuses nouvelles forces de construction automobile explorent de nouvelles méthodes de modèles de langage visuel et les nouvelles technologies de conduite intelligente de bout en bout semblent être devenues une direction de recherche commune. Le mois dernier, Li Auto a publié l'architecture technologique de conduite autonome de troisième génération de bout en bout + modèle de langage visuel VLM + modèle mondial. Cette architecture a été proposée à des milliers de personnes pour des tests internes. Elle personnifie un comportement de conduite intelligent, améliore l'efficacité du traitement des informations de l'IA et améliore la capacité à comprendre et à réagir à des conditions routières complexes. Li Xiang a déclaré un jour lors d'un partage public que face à des environnements de conduite rares qui sont difficiles à identifier et à traiter pour la plupart des algorithmes, le VLM (Visual Language Model), un modèle de langage visuel, peut théoriquement améliorer systématiquement les capacités de conduite autonome.
