Introduction : Le développement d'une intelligence artificielle forte est un sujet de préoccupation ces dernières années. Laisser l’IA apprendre de la perception et du comportement humains plutôt que de simples données étiquetées est devenue la priorité de nombreux chercheurs. Parmi eux, la manière d'utiliser les expériences de la vie quotidienne acquises par les humains pour inspirer et construire une intelligence artificielle capable de s'adapter à différents environnements et d'interagir avec le monde extérieur est devenue une nouvelle façon d'explorer dans certains domaines.
Richard Sutton, connu comme le père de l'apprentissage par renforcement, a récemment proposé l'idée d'utiliser l'expérience pour inspirer le développement de l'IA. Il a divisé le processus de l'IA, de l'utilisation des données à l'utilisation de l'expérience, en quatre étapes de développement et a proposé l'orientation du développement vers la construction d'une véritable IA (Real AI) à l'avenir. Le 31 mai 2022, Richard Sutton a prononcé un discours intitulé « Le rôle croissant de l'expérience sensorimotrice dans l'IA » lors de la conférence 2022 sur les sources intelligentes de Pékin, résumant et attendant avec impatience les méthodes d'utilisation de l'expérience pour inspirer le développement de l'IA. .
Profil du conférencier : Richard Sutton, l'un des fondateurs de l'apprentissage par renforcement informatique moderne, est un chercheur scientifique distingué à DeepMind, Département des sciences informatiques, professeur à l'Université de l'Alberta, il est également chercheur de la Société royale, de la Société royale du Canada, de l'Association pour l'avancement de l'intelligence artificielle, de l'Alberta Machine Intelligence Institute (AMII) et du CIFAR.
Sutton croit qu'un agent intelligent interagit avec le monde extérieur, lui envoie des actions et reçoit des perceptions (feedback). Ce type d’interaction impliquant l’expérience est la manière normale de perception dans l’apprentissage par renforcement. C’est également l’approche normale utilisée lorsqu’on laisse un agent essayer de prédire le monde extérieur. Cependant, cette approche est rare dans l’apprentissage supervisé, qui est actuellement le type d’apprentissage automatique le plus répandu. L'apprentissage automatique n'implique pas une expérience ordinaire (expérience ordinaire) et le modèle n'apprend pas à partir de données de formation spéciales différentes de l'expérience ordinaire. En fait, au moment de l’exécution, les systèmes d’apprentissage supervisé n’apprennent pas du tout.
Ainsi, l'expérience est une donnée interactive (apportée) et un moyen de communiquer avec le monde extérieur. L'expérience n'a de sens que si elle est liée à d'autres expériences. Bien sûr, il existe une exception : les récompenses exprimées via des signaux spéciaux. Les récompenses représentent de bons objectifs et l’agent espère certainement maximiser les récompenses.
Dans son discours, Sutton a soulevé une question centrale : qu'est-ce qui peut finalement expliquer l'intelligence ? S'agit-il de termes objectifs ou de termes expérientiels ? Le premier inclut des éléments tels que les états, les objectifs, les personnes, les lieux, les relations, les espaces, les actions et les distances dans le monde extérieur qui ne sont pas dans l'agent, tandis que le second inclut des éléments internes à l'agent tels que la perception, les actions, les récompenses, le temps. étapes, etc Sutton estime que même si les chercheurs réfléchissent généralement à des concepts objectifs lorsqu'ils communiquent et rédigent des articles, ils devraient désormais accorder davantage d'attention aux expériences générées par l'interaction entre les agents et le monde extérieur.
Afin de présenter davantage l'importance de l'expérience aux agents intelligents, Richard Sutton a proposé qu'à mesure que l'expérience est progressivement valorisée, quatre étapes au total aient été vécues. Ce sont : la qualité d'agent, la récompense, l'état expérientiel et la connaissance prédictive. Après ces quatre étapes de développement, l’IA acquiert progressivement de l’expérience et devient plus pratique, plus apprenable et plus facile à développer.
Le sens d'agent est d'avoir/acquérir de l'expérience (IA). Il est peut-être surprenant que les premiers systèmes d’IA n’aient en réalité aucune expérience. Aux premiers stades du développement de l’intelligence artificielle (1954-1985), la plupart des systèmes d’IA n’étaient utilisés que pour résoudre des problèmes ou répondre à des questions. Ils n’avaient aucune perception et ne pouvaient pas agir. Les robots sont une exception, mais les systèmes traditionnels n'ont qu'un état de départ et un état final, comme les éléments de base empilés dans l'image ci-dessous.
Si vous souhaitez atteindre l'état objectif approprié, la solution est une séquence d'actions pour garantir que l'IA peut atteindre l'état objectif à partir de l'état de départ. Il n’y a ni perception ni action là-dedans, car le monde extérieur tout entier est connu, déterminé et fermé, il n’est donc pas nécessaire que l’IA perçoive et agisse. Les chercheurs savent ce qui va se passer, il leur suffit donc d’élaborer un plan pour résoudre le problème et de faire savoir à l’IA que cela résoudra le problème.
Au cours des 30 dernières années de développement, la recherche sur l'intelligence artificielle s'est concentrée sur la création d'agents intelligents. Ce changement se reflète dans le fait que les manuels standards sur l’intelligence artificielle incluent le concept d’agent comme fondement. Par exemple, la version de 1995 de « Intelligence artificielle : une approche moderne » mentionnait que le thème unifié de l'ensemble du livre était d'introduire le concept d'agent intelligent. De ce point de vue, le problème de l’IA est de décrire et de construire des agents intelligents, d’acquérir des connaissances à partir de l’environnement et d’agir. À mesure que la recherche se développe, l’approche standard et moderne consiste à construire un agent capable d’interagir avec le monde extérieur. Sutton estime que l’IA peut être considérée sous cet angle.
La récompense décrit l'objectif de l'IA sous forme d'expérience. C’est aussi une méthode efficace actuellement proposée pour construire tous les objectifs de l’IA. C'est également la méthode proposée par Sutton et ses collaborateurs.
La récompense est considérée comme une hypothèse relativement suffisante à l'heure actuelle - l'intelligence et ses capacités associées peuvent être comprises comme le résultat de la maximisation des récompenses. On dit donc que la récompense est suffisante pour l'agent.
Cependant, Sutton estime que cette idée doit être remise en question. Les récompenses ne suffisent pas pour atteindre l’intelligence. La récompense n’est qu’un nombre, un scalaire, qui ne suffit pas à expliquer le but de l’intelligence. Un objectif qui vient de l’extérieur de l’esprit et s’exprime en un seul chiffre semble trop petit, trop réducteur, voire trop humiliant. Les humains aiment imaginer des objectifs plus grands, comme prendre soin de leur famille, sauver le monde, établir la paix dans le monde et rendre le monde meilleur. Les objectifs humains sont plus importants que maximiser le bonheur et le confort.
Tout comme les chercheurs ont découvert que les récompenses ne sont pas un bon moyen de se fixer des objectifs, les chercheurs ont également découvert les avantages de se fixer des objectifs grâce aux récompenses. Les récompenses établissent des objectifs trop petits, mais dans lesquels les gens peuvent progresser – les objectifs peuvent être bien définis et faciles à apprendre. Il s’agit plutôt d’un défi pour construire des objectifs grâce à l’expérience.
Sutton estime qu'il est difficile d'imaginer construire pleinement des objectifs grâce à l'expérience. En regardant l’histoire, nous pouvons constater qu’à l’origine, l’IA ne s’intéressait pas aux récompenses, même aujourd’hui. Par conséquent, qu'il s'agisse d'un premier système de résolution de problèmes ou de la dernière version du manuel d'IA actuel, l'objectif est toujours défini comme l'état mondial (État mondial) qui doit être atteint, plutôt qu'empirique (définition). Un tel objectif peut encore être un ensemble spécifique de « éléments de base » plutôt qu'un résultat perçu à atteindre.
Bien sûr, les derniers manuels comportent déjà des chapitres mentionnant l'apprentissage par renforcement et mentionnant que ces IA utilisent un mécanisme de récompense. De plus, les récompenses sont déjà une pratique courante dans le processus de définition des objectifs et peuvent être obtenues à l’aide des processus décisionnels de Markov. Pour les chercheurs (comme Yann LeCun) qui critiquent les récompenses pour ne pas avoir correctement fixé les objectifs, les récompenses sont déjà la « cerise » sur le « gâteau » de l’intelligence, et c’est très important.
Dans les deux prochaines étapes, Sutton présentera comment comprendre le monde extérieur du point de vue de l'expérience, mais avant cela, il présentera d'abord à quoi l'expérience fait référence.
Comme le montre la séquence (données non réelles) de la figure ci-dessous, lorsque le pas de temps commence, le système obtient le signal de détection, ainsi que les signaux et les actions sont également donnés. Ainsi, un signal perçu peut provoquer certaines actions, et ces actions peuvent provoquer le prochain signal perçu. À tout moment, le système doit prêter attention aux actions et aux signaux récents, afin de pouvoir décider de ce qui va se passer ensuite et comment le faire.
Comme le montre la figure, il s'agit du tableau de signaux d'entrée et de sortie d'un programme d'exécution d'agent. La première colonne est le pas de temps, chaque pas peut être considéré comme un instant de 0,1 seconde ou 0,01 seconde. La colonne des signaux d'action est représentée par un système à deux niveaux, représenté en gris et blanc. Ensuite, il y a la colonne des signaux sensoriels, dont les quatre premières colonnes sont des valeurs binaires (utilisant également le gris et le blanc), les quatre dernières colonnes utilisent quatre valeurs de 0 à 3, représentées par les quatre couleurs du rouge. , jaune, bleu et vert, et la dernière colonne est une variable continue, représentant la récompense. Dans l’expérience, les chercheurs ont supprimé les chiffres et n’ont laissé que les couleurs pour faciliter la recherche de motifs. Sutton croit que l'expérience fait référence à la connaissance et à la compréhension des modèles trouvés dans les données de l'expérience sensori-motrice.
Dans ce cas, Sutton a énuméré quatre modèles typiques :
1 La dernière partie de l'action est la même que le signal de perception qui suit. Si l’action à un certain pas de temps est blanche, le premier signal perçu par la suite est également blanc, et il en va de même pour le gris.
2. Lorsqu'un pixel rouge apparaît, le pas de temps suivant est un pixel vert. Après avoir élargi la plage de données, on peut constater qu'après l'apparition des pixels rouges et verts les uns après les autres, les pixels bleus apparaîtront un pas de temps sur deux.
3. Les trois dernières colonnes de données apparaissent souvent avec une longue liste de la même couleur, restant inchangée. Une fois qu’une couleur commence, elle persiste pendant plusieurs périodes, formant finalement des rayures. Comme une longue chaîne de rouge, de vert, de bleu, etc.
4. Si les données sensorielles spécifiques prédites par l'IA sont affichées, elles ne peuvent souvent pas être observées immédiatement, donc une valeur de retour (Return) est ajoutée à ces données, ce qui représente que la paire viendra. prédiction des récompenses. La bande verte dans la case indique que la récompense ultérieure sera plus verte que rouge. Cela représente la prédiction actuelle de la récompense.
La zone ombrée spéciale représente la fonction d'attente. Il y a des bandes vertes et rouges dans la zone ombrée de la fonction d'attente. Ici, les chercheurs accordent plus de poids aux retours antérieurs avec des récompenses colorées. Lorsque vous déplacez la valeur de retour dans le temps, vous pouvez voir le changement correspondant de couleur et de valeur entre le résultat prédit et la récompense réelle. Cette valeur de retour est une prédiction - elle peut être apprise par l'expérience.
Sutton estime que cette valeur de retour n'est pas essentiellement tirée d'événements qui se sont déjà produits, mais du signal de décalage horaire. Le signal le plus important est la fonction valeur. Dans ce cas, la valeur de retour est en réalité une fonction de valeur qui représente la somme des récompenses futures. Si vous souhaitez une forme générale d'une fonction complexe pouvant faire référence à des valeurs futures, vous pouvez utiliser une méthode appelée Fonctions de valeur générale (GVF). La fonction de valeur générale comprend divers signaux, pas seulement des récompenses ; elle peut prendre n'importe quelle forme d'enveloppe temporelle, pas seulement exponentielle. La fonction de valeur générale peut également inclure la stratégie de n'importe quelle file d'attente et peut prédire un très grand nombre et un large éventail de choses. Bien entendu, Sutton estime que la difficulté de faire des prédictions par calcul dépend de la forme de l’objet prédit. Lors de l'utilisation d'une fonction de valeur générale pour la prédiction, la forme d'expression de l'objet prédit doit être conçue sous une forme facile à apprendre et nécessitant une efficacité de calcul élevée.
Quand il s'agit du mot « État », de nombreux chercheurs mentionneront l'État mondial, qui est un mot sous le concept objectif. L'État fait référence à une description symbolique (réflexion) du monde objectif qui peut correspondre à la situation du monde lui-même. Par exemple, pour les informations de position des blocs de construction (C est sur A), etc. Ces derniers temps, certains chercheurs (comme Judea Pearl) ont proposé des modèles graphiques probabilistes, qui représentent la distribution de probabilité des États du monde. Certains événements, comme « Il pleut dehors, l'herbe est-elle mouillée ? » Il existe des relations probabilistes entre ces événements.
Un autre état est l'état de croyance (Belief State). Dans ce concept, l'état est une distribution de probabilité qui représente l'état du monde discret et sa méthode correspondante connue sous le nom de POMDP ( Processus de décision de Markov partiellement observables) - il existe des variables d'état cachées, dont une partie est observable, qui peuvent être modélisées à l'aide des processus de décision de Markov.
Les méthodes ci-dessus sont toutes des états objectifs et sont loin de l'expérience. Ce sont les méthodes que les chercheurs ont initialement essayées pour décrire l'état du monde.
La différence est l'état d'expérience. Sutton croit que l'état empirique fait référence à l'état du monde entier défini sur la base de l'expérience. L'état d'expérience est le résumé de l'expérience passée et peut prédire et contrôler l'expérience qui sera obtenue dans le futur.
Cette méthode de construction de l'expérience passée et de prédiction de l'avenir s'est reflétée dans la recherche. Par exemple, dans le jeu Atari, l’une des tâches d’apprentissage par renforcement, les chercheurs utiliseront les quatre dernières images vidéo pour construire un état d’expérience, puis prédire les comportements ultérieurs. Certaines méthodes des réseaux LSTM peuvent également être considérées comme faisant des prédictions à partir d’un certain état empirique.
En regardant le statut de l'expérience, il peut être mis à jour de manière récursive. L’état d’expérience est fonction du résumé de ce qui s’est passé dans le passé Puisque l’IA a besoin d’accéder à l’état d’expérience à chaque instant pour prédire le prochain événement, la mise à jour de l’état d’expérience est récursive : seul l’état d’expérience du moment précédent l’est. accessible au moment actuel, et l'état d'expérience au dernier moment est un résumé de tous les événements qui se sont produits dans le passé. Au moment suivant, seul l'état expérientiel du moment est accessible, et cet état expérientiel est également un résumé de tous les événements survenus dans le passé.
La figure suivante montre le processus de construction de l'état d'expérience de l'agent. Parmi eux, les flèches rouges indiquent les signaux de travail de base de l'agent, notamment : le sentiment, l'action, la récompense, etc. La flèche bleue marque la direction de l'état d'expérience (représentation), issu de la perception, qui est responsable de la mise à jour de son état d'expérience à chaque pas de temps. Le statut mis à jour est utilisé pour élaborer des stratégies d'actions ou effectuer d'autres mises à jour.
Les connaissances, telles que "Joe Biden est le président des États-Unis", "La Tour Eiffel est à Paris", etc., concernent le monde objectif externe Une description qui n'est pas empirique. Cependant, des connaissances telles que « Il faudrait X heures pour faire quelque chose » sont des connaissances empiriques. Il existe une énorme différence entre les connaissances empiriques et les connaissances objectives, ce qui constitue également un défi pour la recherche en IA.
Les recherches précédentes sur l'IA avaient tendance à traiter la connaissance comme un élément objectif, bien que certaines recherches récentes aient examiné le problème d'un point de vue empirique. Les premiers systèmes d’IA n’avaient aucune expérience et ne pouvaient donc pas faire de prédictions. L’IA plus moderne traite la connaissance comme une existence objective. Le plus avancé est le modèle graphique probabiliste, mais dans de nombreux cas, il étudie la probabilité entre deux choses qui se produisent en même temps, et la prédiction doit être orientée vers une série d'événements séquentiels.
La prédiction basée sur des événements de séquence est une connaissance aux propriétés sémantiques claires. Si quelque chose est prévu, l’IA peut comparer la prédiction avec le résultat réel. Ce type de modèle de prédiction peut être considéré comme un nouveau type de connaissance du monde, c’est-à-dire une connaissance prédictive. Parmi les connaissances prédictives, Sutton estime que les plus avancées sont la fonction de valeur générale et le modèle d'option.
Sutton divise la connaissance du monde en deux catégories : l'une est la connaissance sur l'état du monde ; l'autre est la connaissance sur la transition de l'état mondial. Un exemple de connaissance sur les transitions d’états mondiaux est un modèle de prédiction mondiale. Le modèle de prédiction du monde n’est pas ici une forme primaire de processus de décision markovien ou d’équation différentielle. Il peut s'agir d'un état abstrait qui peut être extrait de l'état empirique. Puisque la prédiction est basée sur l’ensemble du comportement, dans le modèle de sélection, l’agent peut également choisir d’arrêter une certaine stratégie et de mettre fin à une certaine condition. Parfois, en utilisant un modèle de transfert mélodique, il est possible de prédire l'état après avoir effectué une action. En prenant comme exemple la vie quotidienne, en supposant que quelqu'un veuille aller en ville, il fera une prédiction sur la distance et le temps jusqu'au centre-ville pour les comportements qui dépassent un certain seuil (comme marcher en ville pendant 10 minutes). ), d'autres prédictions seront faites pour exposer un état, comme la fatigue, etc.
Avec ce modèle qui peut étendre les comportements, l'échelle de connaissances représentée peut également être très grande. Par exemple, vous pouvez prédire l'état du monde en fonction d'un comportement, puis prédire le comportement suivant en fonction de l'état... et ainsi de suite.
Résumant le processus de développement de l'expérience dans la recherche sur l'IA, Sutton a déclaré que l'expérience est la base de la connaissance du monde. Les êtres humains comprennent et influencent le monde par la perception et l'action. L'expérience est le seul moyen pour les humains d'obtenir des informations et d'agir. Et il est indissociable des humains. Malheureusement, parce que l’expérience est trop subjective et personnelle, les humains n’aiment toujours pas penser et s’exprimer en termes expérientiels. L’expérience est trop étrangère, contre-intuitive, éphémère et complexe pour les humains. L’expérience est également subjective et privée, et il est presque impossible de communiquer avec les autres ou de la vérifier.
Sutton estime que l'expérience est très importante pour l'IA pour les raisons suivantes. Premièrement, l’expérience vient du processus opérationnel quotidien de l’IA, et l’obtention de ces expériences est gratuite et automatique. Dans le même temps, le domaine de l’IA utilise une grande quantité de données pour les calculs, de sorte que l’expérience ouvre la voie à la compréhension du monde. Si un fait dans le monde est empirique, alors l’IA peut apprendre sa compréhension du monde à partir de l’expérience et du monde. s'appuyer sur l'expérience pour vérifier.
Pour résumer, Sutton estime qu'au cours des 70 dernières années de développement de l'IA, l'IA a progressivement mis l'accent sur l'expérience - acquérir de l'expérience, fixer des objectifs basés sur l'expérience et obtenir un statut et un statut basés sur expérience. À chaque étape, la recherche empirique, de moins en moins familière aux humains, devient de plus en plus importante et présente l’avantage d’être fondée, apprenable et évolutive. "Comment l'IA utilisera l'expérience à l'avenir" mais cette tendance se dirige vers L'avenir ira de plus en plus loin. Sutton estime que tout attribuer à l’expérience est une voie réalisable vers une véritable IA. Bien que très difficile, il s’agit là de l’image de la capacité à comprendre les flux de données et à obtenir de l’intelligence. Enfin, Sutton a condensé davantage les quatre étapes de la focalisation sur l'expérience sensorimotrice et a formé un slogan :
« Les données sont le moteur de l'intelligence artificielle, et l'expérience est la donnée ultime. Si nous pouvons faire bon usage de l'expérience, nous pouvons plus rapidement et plus efficacement. Promouvoir le développement de l’intelligence artificielle. »
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!