Biologique Réseaux de neuronesUne caractéristique importante est un degré élevé de plasticité, qui confère aux organismes naturels une excellente adaptabilité, et cette capacité affecte la force synaptique et la topologie du système nerveux.
Cependant, les réseaux de neurones artificiels sont principalement conçus comme des structures statiques et entièrement connectées, qui peuvent être très fragiles face à des environnements changeants et à de nouvelles entrées. Bien que les chercheurs aient mené des recherches approfondies sur l’apprentissage en ligne et le méta-apprentissage, les systèmes de réseaux neuronaux de pointe actuels utilisent toujours l’apprentissage hors ligne, car il est plus simple lorsqu’il est combiné avec la rétropropagation.
Alors, les réseaux de neurones artificiels peuvent-ils aussi avoir des propriétés similaires à une plasticité élevée ?
Une équipe de recherche de l'Université des technologies de l'information de Copenhague a proposé un réseau neuronal auto-organisé - LNDP, qui peut atteindre une plasticité synaptique et structurelle d'une manière dépendante de l'activité et de la récompense.
Lien papier : https://arxiv.org/pdf/2406.09787
En 2023, Najarro et al ont proposé le modèle du programme neurodéveloppemental (NDP). Mais le NPD se limite dans le temps à l’étape pré-environnementale. Par conséquent, une équipe de recherche de l’Université des technologies de l’information de Copenhague a résolu cette limitation en étendant le cadre du NPD.
Plus précisément, l'équipe de recherche a proposé un mécanisme capable d'obtenir une plasticité et des changements structurels au cours du cycle de vie d'un agent - le LNDP (Lifelong Neural Developmental Programs). Ce mécanisme est mis en œuvre en effectuant des calculs locaux, en s'appuyant sur l'activité locale de chaque neurone du réseau neuronal artificiel et sur la fonction de récompense globale de l'environnement. Le LNDP rend les réseaux de neurones artificiels plastiques et comble les règles de plasticité du codage développemental indirect et du méta-apprentissage.
LNDP se compose d'un ensemble de composants paramétrés conçus pour définir la dynamique neuronale et synaptique et rendre les réseaux neuronaux artificiels structurellement plastiques (c'est-à-dire que des synapses peuvent être ajoutées ou supprimées dynamiquement).
Inspirée par l'activité biologique spontanée (SA), l'équipe de recherche a encore élargi le système et introduit un mécanisme capable de réaliser le développement de la pré-expérience, en utilisant les données simples du modèle de processus stochastiques d'apprentissage SA. rend certains composants réutilisables.
L'équipe de recherche a proposé une instance LNDP basée sur la couche Graph Transformer (Dwivedi et Bresson, 2021) et optimisé LNDP à l'aide de la stratégie d'évolution adaptative de matrice de covariance (CMA-ES) sur un ensemble de tâches d'apprentissage par renforcement.
Plus précisément, cette étude a utilisé trois tâches de contrôle classiques (Cartpole, Acrobot, Pendulum) et une tâche de collecte (Foraging) à dynamique non stationnaire, qui nécessitent que l'agent ait une adaptabilité du cycle de vie.
En résumé, l'équipe de recherche a démontré qu'à partir d'un réseau neuronal connecté de manière aléatoire (ou vide), le LNDP s'auto-organise pour former un réseau fonctionnel en fonction de l'activité et de l'expérience afin de résoudre efficacement les tâches de contrôle.
L'étude montre également que la plasticité structurelle peut améliorer les résultats dans des environnements qui nécessitent une adaptation rapide ou qui ont une dynamique non stationnaire qui nécessite une adaptation continue. De plus, cette étude démontre l'efficacité des étapes de développement pilotées par l'activité spontanée pré-environnementale dans l'auto-organisation du réseau en unités fonctionnelles.
Résultats expérimentaux
L'équipe de recherche a testé les différences entre les modèles SP (modèles avec plasticité structurelle) et les modèles non-SP (modèles sans plasticité structurelle) sur toutes les tâches, et les résultats sont présentés dans la figure 2 ci-dessous.
Bei der Sammelaufgabe (Futtersuche) mit instationärer Dynamik stellte das Forschungsteam fest, dass das SP-Modell immer eine höhere durchschnittliche Fitness erreichte als das Nicht-SP-Modell und beide eine ähnliche maximale Fitness erreichten. Dies zeigt, dass SP in instationären Situationen eine bessere Anpassungsfähigkeit aufweist.
In der CartPole-Umgebung ist es für Modelle ohne SA besonders schwierig, von Anfang an eine gute Leistung zu erzielen, während Modelle mit SA von Anfang an inhärente Fähigkeiten bei der Lösung der Aufgabe zeigen. Dies zeigt die Fähigkeit des Modells, Zielfunktionsnetzwerke auf nicht belohnungsabhängige und selbstorganisierende Weise zu erreichen.
Weitere Forschungsdetails finden Sie im Originalpapier.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!