Meta a mené de nouvelles recherches sur le mécanisme d'attention des grands modèles
En ajustant le mécanisme d'attention du modèle et en filtrant les interférences d'informations non pertinentes, le nouveau mécanisme améliore encore la précision des grands modèles
Et ce mécanisme ne le fait pas. un réglage précis ou une formation est nécessaire, mais Prompt à lui seul peut augmenter la précision des grands modèles de 27 %.
L'auteur a nommé ce mécanisme d'attention "System 2 Attention" (S2A), qui vient de Daniel Kahneman, prix Nobel d'économie 2002, dans son best-seller "Thinking, Le concept psychologique mentionné dans "Fast et lent" - "Système 2" dans le modèle de pensée à double système
Le soi-disant Système 2 fait référence à un raisonnement conscient complexe, par opposition au Système 1, qui est une simple intuition inconsciente.
S2A "ajuste" le mécanisme d'attention dans Transformer et utilise des mots d'invite pour rapprocher la pensée globale du modèle du système 2
Certains internautes ont décrit ce mécanisme comme ajoutant une couche de "lunettes" à l'IA".
De plus, l'auteur a également déclaré dans le titre de l'article que non seulement les grands modèles, ce mode de pensée peut également devoir être appris par les humains eux-mêmes.
Alors, comment cette méthode est-elle mise en œuvre ?
L'architecture Transformer couramment utilisée dans les grands modèles traditionnels utilise un mécanisme d'attention doux : elle attribue une valeur d'attention comprise entre 0 et 1 à chaque mot (jeton).
Le concept correspondant est le mécanisme d'attention dure, qui se concentre uniquement sur un certain ou un certain sous-ensemble de la séquence d'entrée et est plus couramment utilisé dans le traitement d'images.
Le mécanisme S2A peut être compris comme une combinaison de deux modes : le noyau est toujours une attention douce, mais un processus de sélection « dur » y est ajouté.
En termes de fonctionnement spécifique, S2A n'a pas besoin d'ajuster le modèle lui-même, mais utilise des mots d'invite pour permettre au modèle de supprimer « le contenu auquel il ne faut pas prêter attention » avant de résoudre le problème.
De cette façon, la probabilité qu'un grand modèle soit induit en erreur lors du traitement de mots d'invite contenant des informations subjectives ou non pertinentes peut être réduite, améliorant ainsi la capacité de raisonnement du modèle et sa valeur d'application pratique.
Nous avons appris que les réponses générées par les grands modèles sont grandement affectées par les mots d'invite. Afin d'améliorer la précision, S2A a décidé de supprimer les informations susceptibles de provoquer des interférences
Par exemple, si l'on pose la question suivante à un grand modèle :
Une ville est une ville de l'état X, entourée de montagnes et de nombreux parcs, Il y a beaucoup de personnes exceptionnelles ici, et de nombreuses personnes célèbres sont nées dans la ville A.
Où est né le maire Y de la ville B de l'État X ?
À l'heure actuelle, les réponses données par GPT et Llama sont toutes deux la ville A mentionnée dans la question, mais en fait le lieu de naissance de Y est la ville C.
Lorsque la question a été initialement posée, le modèle aurait pu répondre avec précision à la ville C. Cependant, comme la ville A est apparue à plusieurs reprises dans les mots d'invite, elle a attiré "l'attention" du modèle, ce qui a fait que la réponse finale est devenue A
Une autre alternative Quoi Ce qui arrive, c'est que les gens trouvent des « réponses possibles » lorsqu'ils posent des questions.
Dans le groupe M, y a-t-il un chanteur qui est aussi acteur ? Je pense que ça pourrait être A, mais je ne suis pas sûr
Du coup, le grand mannequin a commencé à flatter l'utilisateur. est A. Mais en fait cette personne est B.
De même, si vous demandez directement l'identité de la personne, le modèle peut répondre avec précision
C'est grâce à cette fonctionnalité que l'auteur a pensé au nouveau mécanisme S2A et a conçu un ensemble de mots d'invite pour affiner la saisie de l'utilisateur
Regardons de plus près les effets avant et après la projection :
Q : Mary a 3 fois plus de bonbons que Megan. Mary a pris 10 autres bonbons. Max possède 1 000 livres de plus que Mary. Si Megan a 5 bonbons, combien de morceaux Marie a-t-elle au total ?
A : Max a 1 000 livres de plus que Mary, donc Max a 1 000+x+10 bonbons. Nous pouvons faire une équation :
1000+3x+10=3(5)+10
…
Après traitement par. S2A, la question devient la situation suivante :
Q : Mary a 3 fois plus de bonbons que Megan. Mary a pris 10 autres bonbons. Si Megan a 5 bonbons, combien de morceaux Marie a-t-elle au total ?
Question (la question est écrite directement dans l'invite ici) : Combien de bonbons Mary a-t-elle au total ?
Contenu réécrit : A : Meghan avait 5 yuans, Mary avait trois fois plus que Meghan, soit 15 yuans, puis a pris 10 yuans supplémentaires, donc il y avait un total de 25 yuans
Les résultats du test montrent que par rapport aux questions générales, la précision et l'objectivité de S2A après optimisation sont considérablement améliorées et la précision est proche de celle des invites rationalisées conçues manuellement.
Plus précisément, S2A a appliqué Llama 2-70B à une version modifiée de l'ensemble de données TriviaQA et a amélioré la précision de 27,9 %, passant de 62,8 % à 80,3 %. Dans le même temps, le score d'objectivité a également augmenté de 2,23 points (sur 5 points) à 3,82 points, dépassant même l'effet de la rationalisation artificielle des mots d'invite
En termes de robustesse, les résultats des tests montrent que peu importe si les « informations d'interférence » sont correctes ou fausses, positives ou négatives, S2A permet au modèle de donner des réponses plus précises et objectives.
D'autres résultats expérimentaux de la méthode S2A montrent qu'il est nécessaire de supprimer les informations d'interférence. Dire simplement au modèle d'ignorer les informations invalides n'améliore pas significativement la précision, et peut même conduire à une diminution de la précision. D'un autre côté, tant que les informations d'interférence d'origine sont isolées, d'autres ajustements de S2A ne réduiront pas significativement son effet.
One More Thing
En fait, l'amélioration des performances du modèle grâce à l'ajustement du mécanisme d'attention a toujours été un sujet brûlant dans la communauté universitaire.
Par exemple, le "Mistral" récemment lancé est le modèle open source 7B le plus puissant, qui utilise un nouveau modèle d'attention aux requêtes groupées L'équipe de recherche de Google a également proposé le mécanisme d'attention HyperAttention pour résoudre la complexité du problème du degré de traitement de texte long. … Concernant le modèle d'attention « Système 2 » adopté par Meta, le parrain de l'IA Bengio a avancé un point de vue précis :La seule façon d'avancer vers l'Intelligence Générale Artificielle (IAG) est de passer du Système 1 au Système La transition de 2
Adresse papier : https://arxiv.org/abs/2311.11829
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!