Maison > Périphériques technologiques > IA > Microsoft lance la méthode de formation modèle « Learn from Mistakes », prétendant « imiter le processus d'apprentissage humain et améliorer les capacités de raisonnement de l'IA »

Microsoft lance la méthode de formation modèle « Learn from Mistakes », prétendant « imiter le processus d'apprentissage humain et améliorer les capacités de raisonnement de l'IA »

王林
Libérer: 2023-11-07 17:13:04
avant
807 Les gens l'ont consulté

Microsoft Research Asia, en collaboration avec l'Université de Pékin, l'Université Jiaotong de Xi'an et d'autres universités, a récemment proposé une méthode de formation à l'intelligence artificielle appelée « Learning from Mistakes (LeMA) ». Cette méthode prétend pouvoir améliorer la capacité de raisonnement de l'intelligence artificielle en imitant le processus d'apprentissage humain. Actuellement, de grands modèles de langage tels que OpenAI GPT-4 et Google aLM-2 sont utilisés dans les tâches de traitement du langage naturel (NLP) et dans la réflexion. chaînes (Les tâches de puzzle mathématique de raisonnement en chaîne de pensée (CoT) ont de bonnes performances.

Cependant, les grands modèles open source tels que LLaMA-2 et Baichuan-2 doivent être renforcés lorsqu'ils traitent des problèmes connexes. Afin d'améliorer les capacités de raisonnement en chaîne de pensée de ces grands modèles de langage open source, l'équipe de recherche 微软推出 “从错误中学习” 模型训练法,号称可“模仿人类学习过程,改善 AI 推理能力” a proposé la méthode LeMA. Cette méthode imite principalement le processus d'apprentissage humain et améliore les capacités de raisonnement du modèle en « apprenant de ses erreurs »

.

▲ Source de l'image Articles connexes

Ce site a révélé que 微软推出 “从错误中学习” 模型训练法,号称可“模仿人类学习过程,改善 AI 推理能力”la méthode des chercheurs consiste à utiliser une paire de données contenant des « mauvaises réponses » ​​et des « réponses correctes corrigées » ​​​​pour affiner le modèle pertinent

. Afin d'obtenir des données pertinentes, les chercheurs ont collecté les mauvaises réponses et les processus de raisonnement de cinq grands modèles de langage différents (y compris les séries LLaMA et GPT), puis ont utilisé GPT-4 comme « réviseur » pour fournir des réponses corrigées.

Il est rapporté que la réponse correcte révisée contient trois types d'informations, à savoir les fragments erronés dans le processus de raisonnement original, les raisons des erreurs dans le processus de raisonnement original et comment modifier la méthode originale pour obtenir la bonne réponse.

Les chercheurs ont utilisé GSM8K et MATH pour tester l'effet de la méthode de formation LeMa sur 5 grands modèles open source. Les résultats montrent que dans le modèle amélioré LLaMA-2-70B, les taux de précision du GSM8K sont respectivement de 83,5 % et 81,4 %, tandis que les taux de précision du MATH sont respectivement de 25,0 % et 23,6 %.

Actuellement, les chercheurs ont collecté des informations pertinentes sur LeMA Il est public sur GitHub. Les amis intéressés peuvent

cliquer ici pour sauter

.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal