Maison Périphériques technologiques IA Meta développe la technologie de distillation System 2 et la précision des tâches du modèle de dialogue Llama 2 est proche de 100 %

Meta développe la technologie de distillation System 2 et la précision des tâches du modèle de dialogue Llama 2 est proche de 100 %

Jul 18, 2024 am 05:07 AM
工程

Les chercheurs affirment que si la distillation du système 2 peut devenir une caractéristique importante des futurs systèmes d'IA à apprentissage continu, elle peut encore améliorer les performances des tâches d'inférence là où le système 2 fonctionne mal.

En ce qui concerne les stratégies de grands modèles de langage (LLM), il existe généralement deux types, l'un est le système immédiat 1 (réponse rapide) et l'autre est le système 2 (réflexion lente).

Là où le raisonnement du Système 2 favorise la pensée réfléchie, la pensée intermédiaire générative permet au modèle (ou à l'humain) de raisonner et de planifier afin de mener à bien une tâche ou de répondre à des instructions. Dans le raisonnement du Système 2, une activité mentale intense est requise, en particulier dans les situations où le Système 1 (pensée plus automatique) peut mal tourner.

Par conséquent, le système 1 est défini comme une application de Transformer qui peut générer directement des réponses basées sur les entrées sans générer de jetons intermédiaires. Le système 2 est défini comme toute méthode qui génère un jeton intermédiaire, y compris les méthodes qui effectuent une recherche ou plusieurs invites, puis génèrent finalement une réponse.

L'industrie a proposé une série de technologies associées au système 2, notamment la chaîne de pensée, l'arbre de pensée, la carte de pensée, la résolution et la fusion de branches, l'attention, la reformulation et la réponse du système 2 (RaR), etc. De nombreuses méthodes donnent des résultats plus précis grâce à cette inférence explicite, mais cela s'accompagne souvent de coûts d'inférence et d'une latence de réponse plus élevés. Par conséquent, bon nombre de ces méthodes ne sont pas utilisées dans les systèmes de production et sont principalement utilisées dans le système 1.

Pour les humains, le processus d'apprentissage du transfert de compétences de délibéré (Système 2) à automatique (Système 1) est connu en psychologie sous le nom d'automaticité et d'utilisation de la mémoire procédurale. Par exemple, lorsqu’ils se rendent au travail en voiture pour la première fois, les gens consacrent souvent des efforts conscients à planifier et à prendre des décisions pour arriver à destination. Une fois que le conducteur aura répété cet itinéraire, le processus de conduite sera « compilé » dans l'esprit subconscient. De même, des sports comme le tennis peuvent devenir une « seconde nature ».

Dans cet article, des chercheurs de Meta FAIR explorent une approche similaire de modèle d'IA. Cette méthode effectue une compilation de manière non supervisée à partir d'un ensemble d'exemples non étiquetés et est appelée distillation du système 2. Pour chaque exemple, ils appliquent une méthode donnée du Système 2 puis mesurent la qualité des prédictions de manière non supervisée.

Par exemple, pour les tâches avec des réponses uniques, les chercheurs appliquent l'auto-cohérence et échantillonnent plusieurs fois. Pour un exemple suffisamment cohérent du système 2, ils supposent que ce résultat doit être distillé et ajouté au pool de distillation. Le système 1 est ensuite affiné pour correspondre aux prédictions de la méthode du système 2 sur le pool d'exemples collectés, mais sans générer d'étapes intermédiaires. La figure 1 ci-dessous illustre le processus global de distillation du système 2 dans le système 1.

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

Les chercheurs ont mené des expériences sur 4 méthodes LLM Système 2 différentes et 5 tâches différentes. Il a été constaté que notre méthode peut distiller le raisonnement du Système 2 dans le Système 1 dans une variété de contextes, parfois même mieux que les résultats des enseignants du Système 2. De plus, ces prédictions peuvent désormais être produites pour une fraction du coût de calcul.

Par exemple, ils ont découvert qu'une distillation réussie est applicable aux tâches consistant à traiter des opinions biaisées ou des informations non pertinentes (Attention Système 2), à clarifier et à améliorer les réponses dans certaines tâches de raisonnement (RaR) et à évaluer finement les LLM (branche- Résoudre - fusionner).

Cependant, toutes les tâches ne peuvent pas être distillées dans le système 1, en particulier les tâches de raisonnement mathématique complexes qui nécessitent une chaîne de pensée. Cela se reflète également chez les humains, qui sont incapables d’effectuer certaines tâches sans un raisonnement réfléchi du Système 2.

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

Adresse papier : https://arxiv.org/pdf/2407.06023v2

Retournez le système 2 au système 1

Configuration : modèles système 1 et système 2

Étant donné une entrée x, les chercheurs ont envisagé de mettre en place un modèle unique, dans leur cas un grand modèle de langage (LLM), capable d'implémenter deux modes de réponse :

  • Système 1 : générer directement la sortie y. Ce type d'approche fonctionne en transmettant les couches d'un réseau neuronal autorégressif sous-jacent (Transformer) pour générer des jetons de sortie.

  • Système 2. De telles méthodes utilisent le Transformer sous-jacent pour générer tout type de jeton de sortie intermédiaire z avant de générer le jeton de réponse final, incluant éventuellement plusieurs appels (indices).

Formellement, les chercheurs traitent le modèle S_II du Système 2 comme une fonction qui accepte LLM p_θ et l'entrée x, et peuvent appeler à plusieurs reprises LLM pour générer des marqueurs intermédiaires z à l'aide d'un algorithme spécifique, puis renvoyer la sortie y :

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

Les méthodes du système 2 peuvent impliquer plusieurs astuces, branches, itérations et recherches, tout en utilisant LLM pour générer des résultats intermédiaires pour un traitement ultérieur. En revanche, le modèle Système 1 ne considère que l'entrée d'origine. L'entrée étiquetée Cependant, ils sont sensibles au bruit : certaines de ces réponses peuvent être de haute qualité, tandis que d’autres peuvent être de mauvaise qualité ou incorrectes. Pour les tâches courtes de réponse à des questions et de raisonnement impliquant des réponses courtes, souvent avec une réponse unique correcte (mais inconnue), les chercheurs ont envisagé une étape de gestion non supervisée pour tenter d'améliorer la qualité des données de formation. Ils ont considéré les deux variantes suivantes qui s'appuient sur le critère d'auto-cohérence :

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

Auto-cohérence de la sortie : échantillonnez S_II (x^i ; p_θ) un total de N fois et acceptez une réponse majoritaire s'il y en a ; pas de majorité. Si le vote l'emporte, l'exemple est écarté.

Auto-cohérence en cas de perturbation d'entrée : perturber l'entrée x^i de manière à ce que la sortie reste inchangée, par exemple en changeant l'ordre des questions à choix multiples dans l'invite et en calculant S_II pour chaque perturbation si la sortie ; est incohérent, rejetez l’exemple.

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%Ensuite, le chercheur a obtenu l'ensemble de données synthétiques (X_S_II, Y_S_II), où X_S_II est un sous-ensemble filtré de X et la cible est Y_S_II. La dernière étape consiste à utiliser cet ensemble de formation distillé pour effectuer un réglage fin supervisé du LLM avec les paramètres p_θ. Les chercheurs initialisent généralement ce modèle à partir de l’état actuel p_θ, puis poursuivent leur formation avec de nouveaux ensembles de données. Après un réglage fin, ils ont obtenu un LLM

, qui est un modèle du système 1 censé fournir des améliorations de sortie et de performances similaires aux modèles du système 2 évalués.

    Résultats expérimentaux
  • Paramètres de formation et d'évaluation
  • Les chercheurs ont utilisé Llama-2-70B-chat comme modèle de base pour toutes les expériences. Ils avaient besoin d'un modèle de base avec suffisamment de puissance pour fonctionner aussi efficacement qu'un modèle System 2, tout en disposant de poids ouverts pouvant être réglés avec précision, d'où ce choix.
Dans le même temps, les chercheurs ont examiné plusieurs méthodes du système 2, notamment le système 2 Attention, RaR, Branch-Solve-Merge et Thought Chaining, et se sont concentrés sur les tâches où chaque méthode a montré de fortes performances.

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%Pour le système 1, les chercheurs utilisent le modèle de base ajusté par les instructions comme référence standard pour l'inférence zéro-shot. Ils rapportent des métriques spécifiques à chaque tâche, ainsi que la métrique « #Tokens », qui mesure le nombre moyen de jetons générés par entrée sur l'ensemble d'évaluation. La méthode Système 2 comprend la génération de jetons intermédiaires et la génération de jetons de sortie finale.

Rephrase and Respond Distillation

RaR est une approche du système 2 qui incite d'abord le modèle de langage à reformuler la question originale de manière plus élaborée, puis génère une réponse basée sur la question reformulée, dans le but de fournir une meilleur rendement. Pour les données de distillation, les chercheurs ont utilisé l'autocohérence des résultats pour créer un ensemble de données de distillation Système 2 pour RaR. Pour chaque entrée, ils ont effectué huit itérations d'échantillonnage sur la tâche de la dernière lettre et huit itérations d'échantillonnage sur chaque étape de la tâche de tirage au sort, puis ont utilisé le vote majoritaire pour déterminer le résultat final.

Regardons d'abord la

Tâche de concaténation de la dernière lettre

. Cette tâche se concentre sur le raisonnement symbolique, exigeant que le modèle relie les dernières lettres d'un mot donné. Les résultats globaux sont présentés dans le tableau 1 ci-dessous.

Le modèle de base du système 1 (Llama-2-70B-chat) atteint une précision de 30,0 %, ce qui est inférieur aux méthodes RaR en 1 étape et en 2 étapes du système 2 (39,5 % et 44,5 % respectivement). En distillant la méthode RaR en 2 étapes dans le modèle de discussion System 1 Llama-2-70B grâce à cette technique non supervisée, une précision étonnante de 98,0 % est obtenue.

Par rapport aux modèles de chat sans tir, le modèle peut apprendre efficacement comment résoudre la tâche à partir de ces données d'entraînement. La distillation de RaR hérite effectivement des avantages du système 2 et du système 1, conservant l'avantage de précision du système 2, tandis que son coût d'inférence est équivalent à celui du système 1.

Revenez à la

Tâche de raisonnement Coin Flip

. Cette tâche de raisonnement symbolique, souvent testée en recherche, consiste à déterminer la face finale d'une pièce (pile ou face), en partant d'une position initiale connue à travers une série de lancers décrits en langage naturel, tels que "La pièce atterrit sur face". .

Les résultats globaux sont présentés dans le tableau 1 ci-dessus. Llama-2-70B-chat (échantillon zéro) a atteint un taux de réussite de 56,1 % sur cette tâche, tandis que 1-Step et 2-Step RaR ont atteint des taux de réussite de 58,5 % et 77,2 % respectivement. Par conséquent, d’énormes améliorations ont été obtenues grâce à l’approche en 2 étapes. La distillation du RaR en 2 étapes vers le système 1 Llama-2-70B-chat via notre technique non supervisée donne des résultats de 75,69 %.

Ainsi, le modèle distillé du Système 2 offre des performances comparables au Système 2 (2 Step RaR), mais sans qu'il soit nécessaire d'exécuter le programme LLM à l'aide de 2 astuces.

Distillation de l'attention du système 2

Weston et Sukhbaatar (2023) ont proposé le système d'attention 2 (S2A), qui aide à réduire les pièges d'inférence du modèle, tels que le recours à des informations biaisées dans l'entrée ou la concentration sur un contexte non pertinent.

Les chercheurs ont vérifié la faisabilité de distiller S2A dans le système 1, en particulier la tâche de réponse aux questions SycophancyEval, qui contient des informations biaisées dans l'entrée connues pour nuire aux performances du LLM.

Les résultats sont présentés dans le tableau 2 ci-dessous, rapportant la précision moyenne de 3 graines aléatoires. Comme prévu, le LLM de base (Système 1) a une précision moindre dans la partie biaisée et est sensible aux entrées biaisées. S2A améliore considérablement les performances sur les entrées biaisées. La distillation du système 2 présente des performances similaires à celles du système 2.

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

Veuillez vous référer à l'article original pour plus de résultats expérimentaux.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
<🎜>: Grow A Garden - Guide de mutation complet
3 Il y a quelques semaines By DDD
Nordhold: Système de fusion, expliqué
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
<🎜> Obscur: Expedition 33 - Comment obtenir des catalyseurs de chrome parfaits
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1676
14
Tutoriel PHP
1278
29
Tutoriel C#
1257
24
L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours Jul 17, 2024 am 01:56 AM

Il s'agit également d'une vidéo Tusheng, mais PaintsUndo a emprunté une voie différente. L'auteur de ControlNet, LvminZhang, a recommencé à vivre ! Cette fois, je vise le domaine de la peinture. Le nouveau projet PaintsUndo a reçu 1,4kstar (toujours en hausse folle) peu de temps après son lancement. Adresse du projet : https://github.com/lllyasviel/Paints-UNDO Grâce à ce projet, l'utilisateur saisit une image statique et PaintsUndo peut automatiquement vous aider à générer une vidéo de l'ensemble du processus de peinture, du brouillon de ligne au suivi du produit fini. . Pendant le processus de dessin, les changements de lignes sont étonnants. Le résultat vidéo final est très similaire à l’image originale : jetons un coup d’œil à un dessin complet.

En tête de liste des ingénieurs logiciels d'IA open source, la solution sans agent de l'UIUC résout facilement les problèmes de programmation réels du banc SWE. En tête de liste des ingénieurs logiciels d'IA open source, la solution sans agent de l'UIUC résout facilement les problèmes de programmation réels du banc SWE. Jul 17, 2024 pm 10:02 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Les auteurs de cet article font tous partie de l'équipe de l'enseignant Zhang Lingming de l'Université de l'Illinois à Urbana-Champaign (UIUC), notamment : Steven Code repair ; doctorant en quatrième année, chercheur

Les articles arXiv peuvent être publiés sous forme de 'barrage', la plateforme de discussion alphaXiv de Stanford est en ligne, LeCun l'aime Les articles arXiv peuvent être publiés sous forme de 'barrage', la plateforme de discussion alphaXiv de Stanford est en ligne, LeCun l'aime Aug 01, 2024 pm 05:18 PM

acclamations! Qu’est-ce que ça fait lorsqu’une discussion sur papier se résume à des mots ? Récemment, des étudiants de l'Université de Stanford ont créé alphaXiv, un forum de discussion ouvert pour les articles arXiv qui permet de publier des questions et des commentaires directement sur n'importe quel article arXiv. Lien du site Web : https://alphaxiv.org/ En fait, il n'est pas nécessaire de visiter spécifiquement ce site Web. Il suffit de remplacer arXiv dans n'importe quelle URL par alphaXiv pour ouvrir directement l'article correspondant sur le forum alphaXiv : vous pouvez localiser avec précision les paragraphes dans. l'article, Phrase : dans la zone de discussion sur la droite, les utilisateurs peuvent poser des questions à l'auteur sur les idées et les détails de l'article. Par exemple, ils peuvent également commenter le contenu de l'article, tels que : "Donné à".

Du RLHF au DPO en passant par TDPO, les algorithmes d'alignement des grands modèles sont déjà « au niveau des jetons » Du RLHF au DPO en passant par TDPO, les algorithmes d'alignement des grands modèles sont déjà « au niveau des jetons » Jun 24, 2024 pm 03:04 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Dans le processus de développement de l'intelligence artificielle, le contrôle et le guidage des grands modèles de langage (LLM) ont toujours été l'un des principaux défis, visant à garantir que ces modèles sont à la fois puissant et sûr au service de la société humaine. Les premiers efforts se sont concentrés sur les méthodes d’apprentissage par renforcement par feedback humain (RL

Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Jul 19, 2024 am 01:29 AM

Si la réponse donnée par le modèle d’IA est incompréhensible du tout, oseriez-vous l’utiliser ? À mesure que les systèmes d’apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats, et quand ne pas leur faire confiance. Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger que le système produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire entièrement compréhensible au point que toute erreur possible puisse être trouvé. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions. Pour les grands modèles de langage, nous pouvons également adopter une approche similaire. Cependant, lorsque vous adoptez cette approche, assurez-vous que le modèle de langage génère

Une avancée significative dans l'hypothèse de Riemann ! Tao Zhexuan recommande fortement les nouveaux articles du MIT et d'Oxford, et le lauréat de la médaille Fields, âgé de 37 ans, a participé Une avancée significative dans l'hypothèse de Riemann ! Tao Zhexuan recommande fortement les nouveaux articles du MIT et d'Oxford, et le lauréat de la médaille Fields, âgé de 37 ans, a participé Aug 05, 2024 pm 03:32 PM

Récemment, l’hypothèse de Riemann, connue comme l’un des sept problèmes majeurs du millénaire, a réalisé une nouvelle avancée. L'hypothèse de Riemann est un problème mathématique non résolu très important, lié aux propriétés précises de la distribution des nombres premiers (les nombres premiers sont les nombres qui ne sont divisibles que par 1 et par eux-mêmes, et jouent un rôle fondamental dans la théorie des nombres). Dans la littérature mathématique actuelle, il existe plus d'un millier de propositions mathématiques basées sur l'établissement de l'hypothèse de Riemann (ou sa forme généralisée). En d’autres termes, une fois que l’hypothèse de Riemann et sa forme généralisée seront prouvées, ces plus d’un millier de propositions seront établies sous forme de théorèmes, qui auront un impact profond sur le domaine des mathématiques et si l’hypothèse de Riemann s’avère fausse, alors parmi eux ; ces propositions qui en font partie perdront également de leur efficacité. Une nouvelle percée vient du professeur de mathématiques du MIT, Larry Guth, et de l'Université d'Oxford

LLM n'est vraiment pas bon pour la prédiction de séries chronologiques. Il n'utilise même pas sa capacité de raisonnement. LLM n'est vraiment pas bon pour la prédiction de séries chronologiques. Il n'utilise même pas sa capacité de raisonnement. Jul 15, 2024 pm 03:59 PM

Les modèles linguistiques peuvent-ils vraiment être utilisés pour la prédiction de séries chronologiques ? Selon la loi des gros titres de Betteridge (tout titre d'actualité se terminant par un point d'interrogation peut recevoir une réponse « non »), la réponse devrait être non. Le fait semble être vrai : un LLM aussi puissant ne peut pas bien gérer les données de séries chronologiques. Les séries chronologiques, c'est-à-dire les séries chronologiques, comme leur nom l'indique, font référence à un ensemble de séquences de points de données disposées par ordre temporel. L'analyse des séries chronologiques est essentielle dans de nombreux domaines, notamment la prévision de la propagation des maladies, l'analyse du commerce de détail, la santé et la finance. Dans le domaine de l'analyse des séries chronologiques, de nombreux chercheurs ont récemment étudié comment utiliser les grands modèles linguistiques (LLM) pour classer, prédire et détecter les anomalies dans les séries chronologiques. Ces articles supposent que les modèles de langage capables de gérer les dépendances séquentielles dans le texte peuvent également se généraliser aux séries chronologiques.

Le premier MLLM basé sur Mamba est là ! Les poids des modèles, le code de formation, etc. sont tous open source Le premier MLLM basé sur Mamba est là ! Les poids des modèles, le code de formation, etc. sont tous open source Jul 17, 2024 am 02:46 AM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com. Introduction Ces dernières années, l'application de grands modèles de langage multimodaux (MLLM) dans divers domaines a connu un succès remarquable. Cependant, en tant que modèle de base pour de nombreuses tâches en aval, le MLLM actuel se compose du célèbre réseau Transformer, qui

See all articles