Transformers+world model, peut-il sauver l'apprentissage par renforcement profond ?-IA-php.cn

Table des matières

Quelle est la différence entre l'apprentissage par renforcement profond

Ce qui est magique avec les Transformers

World Model et Transformers unissent leurs forces, qu'en pensent les autres ? Concernant les résultats de la recherche de l'Université Cornell, certains internautes étrangers ont commenté : « Veuillez noter que ces deux heures sont la durée de prises de vue de l'environnement, réalisées sur le GPU. semaine."

Maison

Périphériques technologiques

Transformers+world model, peut-il sauver l'apprentissage par renforcement profond ?

王林

May 04, 2023 am 09:19 AM

世界模型建模 iris

Beaucoup de gens savent qu'AlphaGo, qui a battu Li Sedol, Ke Jie et d'autres grands joueurs d'échecs internationaux, a eu un total de trois itérations, à savoir l'AlphaGo Lee de première génération, qui a battu Li Sedol, et la deuxième génération. AlphaGo Master, qui a vaincu Ke Jie, et AlphaGo Zero de troisième génération, qui a battu les deux générations précédentes.

Les compétences d'AlphaGo aux échecs peuvent augmenter de génération en génération. Derrière cela se cache en fait une tendance évidente dans la technologie de l'IA, à savoir la proportion croissante d'apprentissage par renforcement.

Ces dernières années, l'apprentissage par renforcement a connu une autre « évolution ». Les gens appellent l'apprentissage par renforcement « évolué » l'apprentissage par renforcement profond.

Mais l'efficacité des échantillons d'agents d'apprentissage par renforcement profond est faible, ce qui limite considérablement leur application dans des problèmes pratiques.

Récemment, de nombreuses méthodes basées sur des modèles ont été conçues pour résoudre ce problème, et l'apprentissage dans l'imagination du modèle du monde est l'une des méthodes les plus importantes.

Cependant, même si une interaction presque illimitée avec un environnement simulé semble attrayante, le modèle mondial doit rester précis sur de longues périodes de temps.

Inspirés par le succès de Transformer dans les tâches de modélisation de séquences, Vincent Micheli, Eloy Alonso et François Fleure de l'Université Cornell ont présenté IRIS, un agent efficace en matière de données qui apprend dans un modèle mondial composé d'auto-encodeurs discrets et Transformateurs autorégressifs.

Sur le benchmark Atari 100k, sur l'équivalent de seulement deux heures de jeu, IRIS a atteint un score moyen normalisé par l'humain de 1,046 et a surperformé dans 10 des 26 jeux les êtres humains.

Auparavant, LeCun avait dit un jour que l'apprentissage par renforcement mènerait à une impasse.

Transformers+world model, peut-il sauver lapprentissage par renforcement profond ?

Maintenant, il semble que Vincent Micheli et Eloy Aaron Seau de l'Université Cornell, François Fleure et d'autres intègrent des modèles mondiaux et l'apprentissage par renforcement (plus précisément, l'apprentissage par renforcement profond), et le pont reliant les deux est Transformers.

Quelle est la différence entre l'apprentissage par renforcement profond

Quand il s'agit de technologie d'intelligence artificielle, ce à quoi beaucoup de gens peuvent penser, c'est l'apprentissage en profondeur.

En fait, même si le deep learning est toujours actif dans le domaine de l'IA, il a mis en lumière de nombreux problèmes.

La méthode d'apprentissage profond la plus couramment utilisée actuellement est l'apprentissage supervisé. L'apprentissage supervisé peut être compris comme un « apprentissage avec des réponses de référence ». L'une de ses caractéristiques est que les données doivent être étiquetées avant de pouvoir être utilisées pour la formation. Mais aujourd’hui, une grande quantité de données sont des données non étiquetées, et le coût de l’étiquetage est très élevé.

À tel point qu'en réponse à cette situation, certains ont plaisanté en disant qu'"il y a autant d'intelligence que d'intelligence artificielle".

De nombreux chercheurs, dont de nombreux experts, se demandent si l'apprentissage profond est « faux ».

Ainsi, l'apprentissage par renforcement a commencé à se développer.

L'apprentissage par renforcement est différent de l'apprentissage supervisé et de l'apprentissage non supervisé. Il utilise un agent pour effectuer des essais et des erreurs en continu, et récompense et punit l'IA en fonction des résultats des essais et des erreurs. Il s’agit de la méthode de DeepMind pour créer diverses IA d’échecs et de cartes et IA de jeu. Les partisans de cette voie croient que tant que les récompenses sont correctement définies, l’apprentissage par renforcement finira par créer un véritable AGI.

Mais l'apprentissage par renforcement pose également des problèmes. Selon les mots de LeCun, « l'apprentissage par renforcement nécessite une énorme quantité de données pour entraîner le modèle à effectuer les tâches les plus simples ».

L'apprentissage par renforcement et l'apprentissage profond ont donc été combinés pour devenir un apprentissage par renforcement profond.

L'apprentissage par renforcement profond, l'apprentissage par renforcement est le squelette et l'apprentissage profond est l'âme. Qu'est-ce que cela signifie ? Le principal mécanisme opérationnel de l’apprentissage par renforcement profond est en fait fondamentalement le même que celui de l’apprentissage par renforcement, sauf qu’un réseau neuronal profond est utilisé pour mener à bien ce processus.

De plus, certains algorithmes d'apprentissage par renforcement profond implémentent simplement un nouvel ensemble d'algorithmes d'apprentissage par renforcement profond directement sur les algorithmes d'apprentissage par renforcement existants en ajoutant des réseaux de neurones profonds. Le très célèbre algorithme d'apprentissage par renforcement profond DQN est un typique. exemple.

Ce qui est magique avec les Transformers

Les Transformers sont apparus pour la première fois en 2017 et ont été proposés dans l'article de Google "L'attention est tout ce dont vous avez besoin" de.

Avant l'émergence de Transformer, les progrès de l'intelligence artificielle dans les tâches linguistiques étaient en retard par rapport au développement d'autres domaines. « Le traitement du langage naturel a été un peu tardif dans cette révolution de l'apprentissage profond qui s'est produite au cours de la dernière décennie », explique Anna Rumshisky, informaticienne à l'Université du Massachusetts Lowell. « Dans un sens, la PNL était en retard sur la vision par ordinateur, Transformer. Cela change. Ces dernières années, les modèles d'apprentissage automatique de Transformer sont devenus l'un des principaux points forts des avancées technologiques en matière d'apprentissage profond et de réseaux neuronaux profonds. Il est principalement utilisé pour des applications avancées dans le traitement du langage naturel. Google l'utilise pour améliorer les résultats de ses moteurs de recherche.

Transformer est rapidement devenu un leader dans les applications telles que la reconnaissance de mots axées sur l'analyse et la prédiction de texte. Cela a déclenché une vague d’outils comme GPT-3 d’OpenAI qui peuvent être formés sur des centaines de milliards de mots et générer un nouveau texte cohérent.

Actuellement, l'architecture Transformer continue d'évoluer et de s'étendre dans de nombreuses variantes différentes, s'étendant des tâches linguistiques à d'autres domaines. Par exemple, Transformer a été utilisé pour la prédiction de séries chronologiques et constitue également l’innovation clé derrière le modèle de prédiction de la structure des protéines de DeepMind, AlphaFold.

Les transformateurs sont également récemment entrés dans le domaine de la vision par ordinateur et remplacent lentement les réseaux de neurones convolutifs (CNN) dans de nombreuses tâches complexes.

World Model et Transformers unissent leurs forces, qu'en pensent les autres ? Concernant les résultats de la recherche de l'Université Cornell, certains internautes étrangers ont commenté : « Veuillez noter que ces deux heures sont la durée de prises de vue de l'environnement, réalisées sur le GPU. semaine."

Certaines personnes se demandent également : ce système apprend donc sur un modèle mondial sous-jacent particulièrement précis ? Le modèle ne nécessite-t-il aucune formation préalable ?

De plus, certaines personnes estiment que les résultats de Vincent Micheli et d'autres de l'Université Cornell ne sont pas des avancées révolutionnaires : "Il semble qu'ils n'aient formé que le mannequin mondial, les vqvae et les critiques d'acteurs, qui sont tous venus de ces 2 heures d'expérience (et environ 600 époques) de tampon de relecture".

Référence : https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7486

Tutoriel CakePHP

1377

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Comment modéliser votre propre modèle dans Kujiale - Étapes de modélisation de votre propre modèle dans Kujiale Mar 04, 2024 pm 07:55 PM

De nombreux utilisateurs qui viennent d'entrer en contact avec le logiciel Kujiale ne connaissent pas très bien la manière dont Kujiale se modélise. L'article suivant vous présente les étapes de la propre modélisation de Kujiale. Entrez dans la plateforme Kujiale. Dans Kujiale, cliquez pour accéder à l'interface de conception et de décoration. Dans l'interface de conception, cliquez sur la bibliothèque industrielle à gauche, puis cliquez sur les outils d'installation matérielle pour toute la maison dans la bibliothèque industrielle. Dans tout l'outil de décoration dure de la maison, des opérations de modélisation peuvent être effectuées.

Transformers+world model, peut-il sauver l'apprentissage par renforcement profond ? May 04, 2023 am 09:19 AM

Beaucoup de gens savent qu'AlphaGo, qui a vaincu Li Sedol, Ke Jie et d'autres grands joueurs d'échecs internationaux, a eu un total de trois itérations. Il s'agissait de l'AlphaGo Lee de première génération qui a vaincu Li Sedol, de l'AlphaGo Master de deuxième génération qui a vaincu Ke Jie. , et l'AlphaGo Master de deuxième génération qui a vaincu les deux premiers. La troisième génération d'AlphaGo Zero. La raison pour laquelle les compétences d’AlphaGo aux échecs peuvent augmenter de génération en génération est en fait due à une tendance évidente dans la technologie de l’IA, à savoir la proportion croissante d’apprentissage par renforcement. Ces dernières années, l'apprentissage par renforcement a connu une autre « évolution ». Les gens appellent l'apprentissage par renforcement « évolué » l'apprentissage par renforcement profond. Cependant, l’efficacité des échantillons d’agents d’apprentissage par renforcement profond est faible, ce qui limite considérablement leur application dans des problèmes pratiques. récent

Tout à l'heure, Google a publié un modèle mondial de base : les paramètres 11B, qui peuvent générer un monde virtuel interactif. Aug 06, 2024 am 12:18 AM

Générez un monde de jeu jouable en un seul clic. Cela ne fait que deux semaines qu’il est sorti, et le modèle mondial de Google est également arrivé, et ses capacités semblent encore plus puissantes : le monde virtuel qu’il génère est « autonome et contrôlable ». Tout à l'heure, Google a défini un nouveau paradigme d'IA générative : les environnements interactifs génératifs (Genie, Generative Interactive Environments). Genie est un modèle mondial de base de 11 milliards de paramètres qui peut générer des environnements interactifs jouables à partir d'une seule invite d'image. Nous pouvons le stimuler avec des images qu'il n'a jamais vues auparavant, puis interagir avec le monde virtuel de notre propre imagination. Qu'il s'agisse d'images composites, de photos ou même de croquis dessinés à la main, Genie peut générer une infinité de mondes jouables à partir d'elles. Ge

Créez des applications Web à l'aide du framework Web Iris de Golang Jun 25, 2023 pm 04:31 PM

Avec la popularité d’Internet, la demande d’applications Web ne cesse de croître. Dans le passé, nous aurions pu utiliser des langages tels que PHP, Java ou Python pour créer des applications Web, mais avec l'émergence continue de nouvelles technologies, nous choisissons désormais d'utiliser Golang pour créer des applications Web. Dans Golang, Iris est un très excellent framework Web. Il a les mêmes fonctions et la même facilité d'utilisation que les autres frameworks Web grand public. Dans cet article, nous explorerons les bases de la création d'applications Web à l'aide du framework Iris.

Quels sont les sites officiels de la bibliothèque de modélisation du langage Go ? Aug 01, 2023 pm 04:40 PM

Le site officiel de la bibliothèque de modélisation du langage go comprend : 1. GORM, une bibliothèque ORM simple mais puissante ; 2. XORM, avec des performances élevées et une facilité d'utilisation 3. beego ORM, qui fournit une API simple pour gérer l'accès aux bases de données et aux données ; mapping ; 4. sqlx, une bibliothèque d'outils de base de données légère ; 5. gorp, fournissant une API simple pour gérer la persistance et les requêtes des données.

Comment utiliser la modélisation profonde en Python ? Jun 05, 2023 am 08:01 AM

Avec le développement rapide de l’intelligence artificielle et de la technologie d’apprentissage automatique, l’apprentissage profond est devenu l’une des technologies les plus populaires dans le domaine de l’intelligence artificielle. En tant que langage de programmation facile à apprendre et à utiliser, Python est devenu le langage de choix pour de nombreux praticiens du deep learning. Cet article vous expliquera comment utiliser la modélisation approfondie en Python. 1. Installez et configurez l'environnement Python. Tout d'abord, nous devons installer Python et les bibliothèques d'apprentissage en profondeur associées. Actuellement, les bibliothèques d'apprentissage profond les plus couramment utilisées en Python sont TensorFlow et PyT.

Résumé des fonctions couramment utilisées dans la bibliothèque Numpy : un outil puissant d'analyse et de modélisation de données Jan 19, 2024 am 09:10 AM

Numpy est l'une des bibliothèques mathématiques les plus couramment utilisées en Python, intégrant bon nombre des meilleures fonctions et opérations mathématiques. Numpy est largement utilisé, notamment dans les statistiques, l'algèbre linéaire, le traitement d'images, l'apprentissage automatique, les réseaux de neurones et d'autres domaines. En termes d'analyse et de modélisation de données, Numpy fait partie des outils indispensables. Cet article partagera les fonctions mathématiques couramment utilisées dans Numpy, ainsi que des exemples de codes permettant d'utiliser ces fonctions pour mettre en œuvre l'analyse et la modélisation de données. 1. Créez un tableau. Utilisez la fonction array() dans Numpy pour créer un nombre.

L3 sera lancé au plus tard au premier semestre de l'année prochaine : une conduite autonome idéale de bout en bout et des performances nettement améliorées Aug 07, 2024 am 04:35 AM

Récemment, avec l'essor de la technologie de l'IA générative, de nombreuses nouvelles forces de construction automobile explorent de nouvelles méthodes de modèles de langage visuel et les nouvelles technologies de conduite intelligente de bout en bout semblent être devenues une direction de recherche commune. Le mois dernier, Li Auto a publié l'architecture technologique de conduite autonome de troisième génération de bout en bout + modèle de langage visuel VLM + modèle mondial. Cette architecture a été proposée à des milliers de personnes pour des tests internes. Elle personnifie un comportement de conduite intelligent, améliore l'efficacité du traitement des informations de l'IA et améliore la capacité à comprendre et à réagir à des conditions routières complexes. Li Xiang a déclaré un jour lors d'un partage public que face à des environnements de conduite rares qui sont difficiles à identifier et à traiter pour la plupart des algorithmes, le VLM (Visual Language Model), un modèle de langage visuel, peut théoriquement améliorer systématiquement les capacités de conduite autonome.

See all articles