Maison > Périphériques technologiques > IA > En ce qui concerne le cerveau humain, apprendre à oublier améliorera-t-il les grands modèles d'IA ?

En ce qui concerne le cerveau humain, apprendre à oublier améliorera-t-il les grands modèles d'IA ?

王林
Libérer: 2024-03-12 14:43:02
avant
1227 Les gens l'ont consulté

En ce qui concerne le cerveau humain, apprendre à oublier améliorera-t-il les grands modèles dIA ?

Récemment, une équipe d'informaticiens a développé un modèle d'apprentissage automatique plus flexible et élastique. Ils ont la capacité d'oublier périodiquement les informations connues, une fonctionnalité que les grands modèles de langage existants n'ont pas.

Les mesures réelles montrent que dans de nombreux cas, la « méthode d'oubli » est très efficace à l'entraînement, et le modèle d'oubli sera plus performant. Jea Kwon, ingénieur en IA à l'Institut des sciences fondamentales de Corée, a déclaré que cette nouvelle recherche signifie des progrès significatifs dans le domaine de l'IA.

L'efficacité de la formation par « méthode d'oubli » est très élevée

La plupart des moteurs de langage d'IA grand public actuels utilisent la technologie des réseaux neuronaux artificiels. Chaque « neurone » de cette structure de réseau est en fait une fonction mathématique. Ils sont connectés les uns aux autres, reçoivent et transmettent des informations et réalisent le traitement et l'apprentissage des données grâce à des opérations complexes de plusieurs couches de neurones. Cette méthode de simulation des réseaux neuronaux permet à l'IA de simuler le fonctionnement du cerveau humain, obtenant ainsi un comportement intelligent semblable à celui de l'humain.

Au début, le flux d'informations est plus ou moins aléatoire. À mesure que le réseau continue de correspondre aux données d'entraînement, les informations circulant entre les neurones continueront à s'optimiser. Par exemple, si un chercheur souhaite former un modèle de traduction bilingue, il collecte d’abord des quantités massives de texte bilingue et utilise le texte pour former le modèle. Il ajuste les connexions entre les neurones pour comparer le texte dans une langue avec le texte équivalent dans une autre. langage. Connectez des mots efficaces.

La formation ci-dessus nécessite beaucoup de ressources informatiques. Si le modèle fonctionne mal ou si les besoins des utilisateurs changent, le modèle risque de ne pas être en mesure de répondre aux besoins.

Le chercheur Mikel Artetxe a souligné : "Supposons que vous ayez un modèle contenant 100 langues, mais qu'une langue n'est pas incluse. Si vous souhaitez ajouter cette langue au modèle, vous devez vous recycler

Il y a quelques années, Artetxe et Des collègues ont utilisé un langage pour former un réseau neuronal et ont effacé les informations sur la composition des mots connues du réseau neuronal, appelées « jetons ». Les jetons sont stockés dans la première couche du réseau neuronal, également appelée « couche d'intégration ». Pour les autres calques, ignorez-les. Après avoir effacé les jetons de la première langue et formé dans la deuxième langue, de nouveaux jetons de la deuxième langue peuvent être remplis dans la couche d'intégration.

Bien que le modèle contienne une grande quantité d'informations incompatibles, il peut toujours être recyclé dans la deuxième langue, ce qui signifie que le modèle peut apprendre et traiter la deuxième langue. Les chercheurs pensent que bien que la couche d'intégration stocke des informations spécifiques au vocabulaire de la langue seconde, le réseau neuronal stocke des informations abstraites au niveau inférieur, qui impliquent les concepts en coulisses du langage humain. Ce sont ces concepts qui aident le modèle. apprendre la deuxième langue.

Chen Yihong, auteur du rapport de recherche, estime : « Nous vivons dans le même monde et utilisons des mots dans des langues différentes pour exprimer les mêmes concepts. Par conséquent, il y aura le même niveau de raisonnement dans le modèle, comme une pomme, c'est doux et délicieux, cela représente plus qu'un simple mot. "

Ajouter de nouvelles langues au modèle déjà formé est très efficace en utilisant la "méthode de l'oubli". Cependant, cela nécessite encore un recyclage, qui nécessite encore des données massives et une puissance de traitement puissante. Existe-t-il une meilleure façon ? Bien sûr, il n'est pas nécessaire de s'entraîner, il suffit d'effacer la couche d'intégration, puis de s'entraîner à nouveau, c'est-à-dire de réinitialiser périodiquement la couche d'intégration pendant la formation initiale.

Artetxe a déclaré : "De cette façon, l'ensemble du modèle peut s'adapter à la réinitialisation. Si vous souhaitez étendre le modèle et l'adapter à une autre langue, le processus deviendra plus facile

L'oubli des modèles fonctionnera mieux

Les chercheurs." a expérimenté Roberta, un grand modèle de langage relativement général formé à l'aide de techniques d'oubli périodique, et l'a comparé à des modèles formés à l'aide de méthodes standard de non-oubli. Les résultats ont montré que lors du traitement de la première langue, le modèle d’oubli a obtenu un score de 85,1 points et le modèle standard traditionnel un score de 86,1 points. Lors de la formation dans la langue seconde, en utilisant seulement environ 5 millions de jetons (70 milliards ont été utilisés dans la première langue), le score de précision du modèle d'oubli est tombé à 62,7 points et celui du modèle standard à 53,3 points.

Si les chercheurs imposent des contraintes informatiques lors du recyclage, le modèle d'oubli sera plus performant. Par exemple, lorsque les chercheurs ont réduit la durée de la formation de 125 000 pas à 5 000 pas, le score moyen du modèle de désapprentissage était d'environ 57,8 points, et le modèle standard est tombé à 37,2 points, presque une supposition.

Les chercheurs ont donc conclu que le modèle d'oubli est plus performant lors de l'apprentissage d'une langue.

Evgenii Nikishin, chercheur au Centre québécois de recherche en apprentissage profond Mila, estime : « Parce que le modèle oublie constamment puis réapprend pendant l'entraînement, il deviendra plus facile d'enseigner quelque chose de nouveau au réseau plus tard. Divers signes montrent que, les modèles comprennent. » langage à un niveau plus profond que la simple signification de mots individuels.

La méthode d'oubli est quelque peu similaire au mode de fonctionnement du cerveau humain. Benjamin Levy, neuroscientifique à l'Université de San Francisco, estime : « La mémoire humaine est assez imprécise lorsqu'elle stocke de grandes quantités d'informations détaillées. Mais le cerveau humain peut se souvenir des points clés de l'expérience, mémoriser des informations abstraites et est doué pour déduire. Laissez l'IA traiter les informations comme les humains, par exemple en lui laissant la capacité d'oublier, et l'IA pourrait être plus flexible "

Yihong Chen pense que des usines fabriquant des modèles de langage pourraient apparaître dans le futur. De telles usines nécessitent l'oubli de la technologie, ce qui est un problème. modèle de base qui peut s'adapter rapidement à de nouveaux domaines. (Couteau)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal