


Apprenant comme un bébé, le nouveau modèle de DeepMind apprend les règles du monde physique en 28 heures
Deepmind vise à construire un modèle capable d'apprendre la physique intuitive et d'analyser pourquoi le modèle atteint cette capacité.
De l'AlphaFold au raisonnement mathématique, DeepMind a essayé de combiner l'IA et la science fondamentale. DeepMind a désormais créé un nouveau modèle capable d'apprendre des règles physiques simples.
Des psychologues du développement ont testé et analysé la façon dont les bébés suivent le mouvement des objets à travers leur regard. Par exemple, les enfants ont exprimé leur surprise lorsqu’une vidéo a été diffusée dans laquelle une balle a soudainement disparu.
Luis Piloto, informaticien de DeepMind, et ses collègues espèrent développer des tests similaires pour l'intelligence artificielle (IA). L'équipe a formé un réseau neuronal à l'aide de vidéos d'animations d'objets simples comme des cubes et des balles, et le modèle a été appris en découvrant des modèles dans de grandes quantités de données. Le document de recherche a été publié le 11 juillet dans Nature Human Behaviour.
- Adresse papier : https://www.nature.com/articles/s41562-022-01394-8
- Adresse de l'ensemble de données : https://github.com/deepmind/physical_concepts
Ce modèle effectue l'apprentissage de la physique grâce à l'encodage automatique et au suivi d'objets, il est donc nommé PLATO (Physics Learning through Auto-encoding and Tracking Objects). PLATO reçoit l'image originale de la vidéo et une version de l'image qui met en évidence les cibles de chaque objet de la scène. PLATO vise à développer des représentations internes des propriétés physiques des objets, telles que leur position et leur vitesse.
Le système a été entraîné sur environ 30 heures de vidéos montrant des mécanismes de mouvement simples (comme une balle roulant sur une pente) et a développé la capacité de prédire le comportement de ces objets dans différentes situations. PLATO apprend notamment la continuité et la robustesse pour garantir que la trajectoire de la cible est ininterrompue et que la forme de l'objet est persistante. Au fur et à mesure de la lecture de la vidéo, les prédictions du modèle deviennent plus précises.
Lors de la lecture d'une vidéo avec un événement « impossible », comme la disparition soudaine d'un objet, PLATO peut mesurer la différence entre la vidéo et ses propres prédictions, fournissant ainsi une mesure de « surprise ».
Piloto a déclaré : "PLATO n'a pas été conçu comme un modèle de comportement des nourrissons, mais il peut tester des hypothèses sur la façon dont les nourrissons humains apprennent. Nous espérons que les scientifiques cognitifs finiront par l'utiliser pour simuler le comportement des nourrissons." Le scientifique de Colombie-Britannique Jeff Clune a déclaré : « La comparaison de l'IA avec les méthodes d'apprentissage des nourrissons humains est une direction de recherche importante. Les chercheurs de PLATO ont conçu à la main de nombreuses connaissances antérieures qui confèrent aux modèles d'intelligence artificielle les avantages que Clune et d'autres chercheurs tentent d'exploiter. le programme Développez vos propres algorithmes pour comprendre le monde physique.
Utiliser les connaissances de la psychologie du développement
Afin de poursuivre une intuition physique plus riche dans les systèmes d'IA, l'équipe de recherche de DeepMind s'inspire de la psychologie du développement. L’équipe de recherche a construit un système d’apprentissage profond qui intègre un élément essentiel de la psychologie du développement, à savoir que la physique est comprise au niveau des objets discrets et de leurs interactions.
À la base, la physique intuitive repose sur un ensemble de concepts discrets (par exemple, persistance des objets, solidité, continuité, etc.) qui peuvent être distingués, manipulés et détectés individuellement. Les approches traditionnelles et standard de l'apprentissage de la physique intuitive par l'IA apprennent à connaître le monde physique via des prédicteurs vidéo ou d'état, des prédictions de résultats binaires, des performances de questions-réponses ou des tâches d'apprentissage par renforcement. Ces approches semblent nécessiter la compréhension de certains aspects de la physique intuitive, mais ne mettent pas explicitement en œuvre ni n’explorent stratégiquement un ensemble clair de concepts.
La psychologie du développement, quant à elle, soutient qu'un concept physique correspond à un ensemble d'attentes sur la façon dont l'avenir se déroulera. Par exemple, les gens s’attendent à ce que les objets ne se téléportent pas comme par magie d’un endroit à un autre, mais tracent un chemin continu à travers le temps et l’espace, ce qui conduit au concept de continuité. Il existe donc un moyen de mesurer la connaissance de concepts physiques spécifiques : le paradigme de la violation des attentes (VoE).
Lors de l'exploration de concepts spécifiques à l'aide du paradigme VoE, les chercheurs montrent aux nourrissons des réseaux visuellement similaires (appelés sondes) qui sont soit cohérents (physiquement possibles), soit incompatibles (physiquement impossibles) avec le concept physique. Dans ce paradigme, la « surprise » se mesure par la durée du regard.
Introduction à la méthode
Dans un premier temps, DeepMind a proposé un corpus vidéo très riche : l'ensemble de données Physical Concepts. Cet ensemble de données contient des vidéos de sonde VoE ciblant cinq concepts physiques importants considérés comme des éléments fondamentaux de la psychologie du développement, notamment la continuité, la persistance des objectifs et la robustesse. Le quatrième est l'immuabilité, qui englobe le concept selon lequel certaines propriétés de la cible (telles que la forme) ne changent pas ; le cinquième concept est l'inertie directionnelle, qui implique l'attente qu'un objet en mouvement change dans une direction conforme au principe d'inertie.
La chose la plus importante est que l'ensemble de données Physical Concepts comprend également un corpus vidéo distinct comme données d'entraînement. Ces vidéos démontrent divers événements physiques générés de manière procédurale.
Figure 2 : Exemple d'ensemble de données vidéo utilisé pour entraîner le modèle
Architecture du modèle PLATO
Deepmind vise à construire un modèle capable d'apprendre la physique intuitive et d'analyser pourquoi le modèle atteint cette capacité. Certains systèmes avancés dans le domaine de l'IA sont instanciés dans le modèle PLATO.
Le premier est le processus de personnalisation de la cible. Le processus de personnalisation de la cible découpe l'apport sensoriel continu de la vision en un ensemble d'entités discrètes, où chaque entité possède un ensemble d'attributs correspondant. Dans PLATO, chaque image vidéo segmentée est décomposée en un ensemble de codes cibles (Figure 3a-c) par le module de perception, permettant la cartographie de l'entrée visuelle vers des cibles individuelles. PLATO n'apprend pas à segmenter la scène, mais étant donné un objectif de segmentation, il apprend une représentation compressée.
Deuxièmement, le suivi de cible (ou indice cible) attribue un indice à chaque cible, obtenant ainsi une correspondance entre la perception de la cible et le calcul des attributs dynamiques dans le temps (Figure 3b, c). Dans PLATO, le code cible est accumulé et suivi sur les images dans le tampon cible (Figure 3d).
Le dernier composant est le traitement relationnel de ces cibles suivies. Ce processus s'inspire du « système de raisonnement physique » proposé en psychologie du développement. Ce système peut traiter dynamiquement la représentation des objets et générer de nouvelles représentations. par les relations et les interactions entre les objets et d’autres objets.
PLATO apprend l'interaction entre la mémoire cible et l'historique de perception de la cible (Figure 3d) pour générer des images vidéo prédites pour la prochaine cible et mettre à jour la mémoire basée sur la cible.
Figure 3 : PLATO se compose de deux composants : un module de perception (à gauche) et une prédiction dynamique (à droite)
Résultats expérimentaux
Au moment du test, lorsqu'il est entraîné avec cinq graines aléatoires différentes, PLATO a obtenu de meilleurs résultats dans toutes les VoE fortes. des effets ont été observés dans les cinq catégories de détection.
Figure 5 : PLATO montre des performances robustes dans la détection de l'ensemble de données des concepts physiques.
Le corpus d'entraînement de l'ensemble de données Physical Concepts contient un total de 300 000 vidéos. En utilisant des calculs conservateurs, environ 52 jours d’expérience visuelle continue sont nécessaires. Du point de vue de l'IA et du développement, la question se pose de savoir quelle quantité de données de formation est réellement nécessaire pour produire un effet VoE lors des tests. Pour évaluer cela, Deepmind a formé des graines aléatoires de trois prédicteurs dynamiques PLATO sur des ensembles de données de taille décroissante (Figure 6), calculant la moyenne générale des effets VoE sur les cinq classes de détection.
Les résultats montrent des effets VoE robustes dans les modèles Deepmind après une formation avec seulement 50 000 exemples (équivalent à 28 heures d'expérience visuelle).
Figure 6 : PLATO montre des résultats puissants en seulement 28 heures d'expérience visuelle.
Tests de généralisation : Deepmind utilise l'ensemble de données ADEPT, conçu pour explorer les connaissances physiques intuitives. Comme le montre la figure 7, PLATO montre des effets VoE clairs pour les trois catégories de détection.
Figure 7 : PLATO démontre des effets robustes sur des cibles et des dynamiques invisibles sans aucun recyclage.
Pour plus d’informations, veuillez consulter l’article original.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Le Array Char stocke des séquences de caractères en C et est déclaré Char Array_name [Taille]. L'élément d'accès est passé par l'opérateur d'indice, et l'élément se termine par le terminateur nul «\ 0», qui représente le point final de la chaîne. Le langage C fournit une variété de fonctions de manipulation de cordes, telles que strlen (), strcpy (), strcat () et strcmp ().

Une stratégie pour éviter les erreurs causées par défaut dans les instructions de commutateur C: utilisez des énumérations au lieu des constantes, limitant la valeur de l'instruction de cas à un membre valide de l'énumération. Utilisez Fallthrough dans la dernière instruction de cas pour permettre au programme de continuer à exécuter le code suivant. Pour les instructions de commutation sans tomber, ajoutez toujours une instruction par défaut pour la gestion des erreurs ou fournissez un comportement par défaut.

Il n'y a pas de fonction de somme intégrée dans le langage C, il doit donc être écrit par vous-même. La somme peut être obtenue en traversant le tableau et en accumulant des éléments: Version de boucle: la somme est calculée à l'aide de la longueur de boucle et du tableau. Version du pointeur: Utilisez des pointeurs pour pointer des éléments de tableau, et un résumé efficace est réalisé grâce à des pointeurs d'auto-incitation. Allouer dynamiquement la version du tableau: allouer dynamiquement les tableaux et gérer la mémoire vous-même, en veillant à ce que la mémoire allouée soit libérée pour empêcher les fuites de mémoire.

Dans le langage C, vous pouvez utiliser !! X, mais il n'utilise que deux conversions booléennes, et il est plus concis et efficace pour utiliser x directement.

Le non-opérateur logique (!) A la priorité à côté des parenthèses, ce qui signifie que dans les expressions, il précédera la plupart des autres opérateurs. Comprendre la priorité nécessite non seulement une mémorisation par cœur, mais plus important encore, la compréhension de la logique et des pièges potentiels derrière lui pour éviter les erreurs indétectables dans les expressions complexes. L'ajout de supports peut clarifier l'intention d'expression, améliorer la clarté du code et la maintenabilité et empêcher un comportement inattendu.

! x Compréhension! X est un non-opérateur logique dans le langage C. Il booléen la valeur de x, c'est-à-dire que les véritables modifications sont fausses et fausses modifient true. Mais sachez que la vérité et le mensonge en C sont représentés par des valeurs numériques plutôt que par les types booléens, le non-zéro est considéré comme vrai, et seul 0 est considéré comme faux. Par conséquent,! X traite des nombres négatifs de la même manière que des nombres positifs et est considéré comme vrai.

L'instruction par défaut est cruciale dans l'instruction de cas de commutateur car elle fournit un chemin de traitement par défaut qui garantit qu'un bloc de code est exécuté lorsque la valeur de variable ne correspond à aucune instruction de cas. Cela empêche un comportement ou des erreurs inattendu et améliore la robustesse du code.

Le mot-clé externe est utilisé dans le langage C pour déclarer des variables et des fonctions externes. Il indique au compilateur que la variable ou la fonction est définie ailleurs, demandant au compilateur de rechercher sa définition pendant l'étape de liaison. Lorsque Extern déclare les variables externes, l'espace mémoire n'est pas alloué et sa définition est effectuée dans d'autres fichiers; Lorsque Extern déclare les fonctions externes, elle n'inclut pas les implémentations de fonctions et son implémentation est également effectuée dans d'autres fichiers. L'utilisation de mots clés externes est généralement combinée avec des fichiers d'en-tête, ce qui est propice à la gestion du code et évite les déclarations répétées. Il est très important de comprendre la gestion par Extern des conflits de compilation et de dénomination multi-fichiers, et il joue un rôle clé dans le processus de liaison.
