Deepmind vise à construire un modèle capable d'apprendre la physique intuitive et d'analyser pourquoi le modèle atteint cette capacité.
De l'AlphaFold au raisonnement mathématique, DeepMind a essayé de combiner l'IA et la science fondamentale. DeepMind a désormais créé un nouveau modèle capable d'apprendre des règles physiques simples.
Des psychologues du développement ont testé et analysé la façon dont les bébés suivent le mouvement des objets à travers leur regard. Par exemple, les enfants ont exprimé leur surprise lorsqu’une vidéo a été diffusée dans laquelle une balle a soudainement disparu.
Luis Piloto, informaticien de DeepMind, et ses collègues espèrent développer des tests similaires pour l'intelligence artificielle (IA). L'équipe a formé un réseau neuronal à l'aide de vidéos d'animations d'objets simples comme des cubes et des balles, et le modèle a été appris en découvrant des modèles dans de grandes quantités de données. Le document de recherche a été publié le 11 juillet dans Nature Human Behaviour.
Ce modèle effectue l'apprentissage de la physique grâce à l'encodage automatique et au suivi d'objets, il est donc nommé PLATO (Physics Learning through Auto-encoding and Tracking Objects). PLATO reçoit l'image originale de la vidéo et une version de l'image qui met en évidence les cibles de chaque objet de la scène. PLATO vise à développer des représentations internes des propriétés physiques des objets, telles que leur position et leur vitesse.
Le système a été entraîné sur environ 30 heures de vidéos montrant des mécanismes de mouvement simples (comme une balle roulant sur une pente) et a développé la capacité de prédire le comportement de ces objets dans différentes situations. PLATO apprend notamment la continuité et la robustesse pour garantir que la trajectoire de la cible est ininterrompue et que la forme de l'objet est persistante. Au fur et à mesure de la lecture de la vidéo, les prédictions du modèle deviennent plus précises.
Lors de la lecture d'une vidéo avec un événement « impossible », comme la disparition soudaine d'un objet, PLATO peut mesurer la différence entre la vidéo et ses propres prédictions, fournissant ainsi une mesure de « surprise ».
Piloto a déclaré : "PLATO n'a pas été conçu comme un modèle de comportement des nourrissons, mais il peut tester des hypothèses sur la façon dont les nourrissons humains apprennent. Nous espérons que les scientifiques cognitifs finiront par l'utiliser pour simuler le comportement des nourrissons." Le scientifique de Colombie-Britannique Jeff Clune a déclaré : « La comparaison de l'IA avec les méthodes d'apprentissage des nourrissons humains est une direction de recherche importante. Les chercheurs de PLATO ont conçu à la main de nombreuses connaissances antérieures qui confèrent aux modèles d'intelligence artificielle les avantages que Clune et d'autres chercheurs tentent d'exploiter. le programme Développez vos propres algorithmes pour comprendre le monde physique.
Utiliser les connaissances de la psychologie du développement
À la base, la physique intuitive repose sur un ensemble de concepts discrets (par exemple, persistance des objets, solidité, continuité, etc.) qui peuvent être distingués, manipulés et détectés individuellement. Les approches traditionnelles et standard de l'apprentissage de la physique intuitive par l'IA apprennent à connaître le monde physique via des prédicteurs vidéo ou d'état, des prédictions de résultats binaires, des performances de questions-réponses ou des tâches d'apprentissage par renforcement. Ces approches semblent nécessiter la compréhension de certains aspects de la physique intuitive, mais ne mettent pas explicitement en œuvre ni n’explorent stratégiquement un ensemble clair de concepts.
La psychologie du développement, quant à elle, soutient qu'un concept physique correspond à un ensemble d'attentes sur la façon dont l'avenir se déroulera. Par exemple, les gens s’attendent à ce que les objets ne se téléportent pas comme par magie d’un endroit à un autre, mais tracent un chemin continu à travers le temps et l’espace, ce qui conduit au concept de continuité. Il existe donc un moyen de mesurer la connaissance de concepts physiques spécifiques : le paradigme de la violation des attentes (VoE).
Lors de l'exploration de concepts spécifiques à l'aide du paradigme VoE, les chercheurs montrent aux nourrissons des réseaux visuellement similaires (appelés sondes) qui sont soit cohérents (physiquement possibles), soit incompatibles (physiquement impossibles) avec le concept physique. Dans ce paradigme, la « surprise » se mesure par la durée du regard.
Dans un premier temps, DeepMind a proposé un corpus vidéo très riche : l'ensemble de données Physical Concepts. Cet ensemble de données contient des vidéos de sonde VoE ciblant cinq concepts physiques importants considérés comme des éléments fondamentaux de la psychologie du développement, notamment la continuité, la persistance des objectifs et la robustesse. Le quatrième est l'immuabilité, qui englobe le concept selon lequel certaines propriétés de la cible (telles que la forme) ne changent pas ; le cinquième concept est l'inertie directionnelle, qui implique l'attente qu'un objet en mouvement change dans une direction conforme au principe d'inertie.
La chose la plus importante est que l'ensemble de données Physical Concepts comprend également un corpus vidéo distinct comme données d'entraînement. Ces vidéos démontrent divers événements physiques générés de manière procédurale.
Figure 2 : Exemple d'ensemble de données vidéo utilisé pour entraîner le modèle
Deepmind vise à construire un modèle capable d'apprendre la physique intuitive et d'analyser pourquoi le modèle atteint cette capacité. Certains systèmes avancés dans le domaine de l'IA sont instanciés dans le modèle PLATO.
Le premier est le processus de personnalisation de la cible. Le processus de personnalisation de la cible découpe l'apport sensoriel continu de la vision en un ensemble d'entités discrètes, où chaque entité possède un ensemble d'attributs correspondant. Dans PLATO, chaque image vidéo segmentée est décomposée en un ensemble de codes cibles (Figure 3a-c) par le module de perception, permettant la cartographie de l'entrée visuelle vers des cibles individuelles. PLATO n'apprend pas à segmenter la scène, mais étant donné un objectif de segmentation, il apprend une représentation compressée.
Deuxièmement, le suivi de cible (ou indice cible) attribue un indice à chaque cible, obtenant ainsi une correspondance entre la perception de la cible et le calcul des attributs dynamiques dans le temps (Figure 3b, c). Dans PLATO, le code cible est accumulé et suivi sur les images dans le tampon cible (Figure 3d).
Le dernier composant est le traitement relationnel de ces cibles suivies. Ce processus s'inspire du « système de raisonnement physique » proposé en psychologie du développement. Ce système peut traiter dynamiquement la représentation des objets et générer de nouvelles représentations. par les relations et les interactions entre les objets et d’autres objets.
PLATO apprend l'interaction entre la mémoire cible et l'historique de perception de la cible (Figure 3d) pour générer des images vidéo prédites pour la prochaine cible et mettre à jour la mémoire basée sur la cible.
Figure 3 : PLATO se compose de deux composants : un module de perception (à gauche) et une prédiction dynamique (à droite)
Au moment du test, lorsqu'il est entraîné avec cinq graines aléatoires différentes, PLATO a obtenu de meilleurs résultats dans toutes les VoE fortes. des effets ont été observés dans les cinq catégories de détection.
Figure 5 : PLATO montre des performances robustes dans la détection de l'ensemble de données des concepts physiques.
Le corpus d'entraînement de l'ensemble de données Physical Concepts contient un total de 300 000 vidéos. En utilisant des calculs conservateurs, environ 52 jours d’expérience visuelle continue sont nécessaires. Du point de vue de l'IA et du développement, la question se pose de savoir quelle quantité de données de formation est réellement nécessaire pour produire un effet VoE lors des tests. Pour évaluer cela, Deepmind a formé des graines aléatoires de trois prédicteurs dynamiques PLATO sur des ensembles de données de taille décroissante (Figure 6), calculant la moyenne générale des effets VoE sur les cinq classes de détection.
Les résultats montrent des effets VoE robustes dans les modèles Deepmind après une formation avec seulement 50 000 exemples (équivalent à 28 heures d'expérience visuelle).
Figure 6 : PLATO montre des résultats puissants en seulement 28 heures d'expérience visuelle.
Tests de généralisation : Deepmind utilise l'ensemble de données ADEPT, conçu pour explorer les connaissances physiques intuitives. Comme le montre la figure 7, PLATO montre des effets VoE clairs pour les trois catégories de détection.
Figure 7 : PLATO démontre des effets robustes sur des cibles et des dynamiques invisibles sans aucun recyclage.
Pour plus d’informations, veuillez consulter l’article original.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!