Maison Périphériques technologiques IA [Interprétation papier] L'attention du système 2 améliore l'objectivité et la factualité des grands modèles de langage

[Interprétation papier] L'attention du système 2 améliore l'objectivité et la factualité des grands modèles de langage

Jun 09, 2024 pm 08:03 PM
技术 llm 语言模型 理论 Interprétation papier

1. Brève introduction

【论文解读】System 2 Attention提高大语言模型客观性和事实性

Cet article présente brièvement le document "System 2 Attention (c'est quelque chose dont vous pourriez avoir besoin aussi) ” en rapport Travail. Une attention douce dans les grands modèles de langage (LLM) basés sur des transformateurs peut facilement incorporer des informations non pertinentes du contexte dans sa représentation sous-jacente, ce qui affectera négativement la génération du prochain jeton. Pour aider à corriger ces problèmes, l'article présente le Système 2 Attention (S2A), qui exploite la capacité du LLM à raisonner en langage naturel et à suivre les instructions pour décider quoi traiter. S2A régénère le contexte d'entrée afin qu'il ne contienne que les parties pertinentes, puis traite le contexte régénéré pour obtenir la réponse finale. Dans les expériences, S2A surpasse le LLM standard basé sur l'attention sur trois tâches contenant des opinions ou des informations non pertinentes : l'assurance qualité, les problèmes de mots mathématiques et la génération de formulaires longs, où S2A augmente la factualité et l'objectivité et réduit les mensonges sexuels.

2. Contexte de recherche

Les grands modèles de langage (LLM) sont très performants, mais ils sont toujours enclins à commettre des erreurs simples qui s'apparentent à une faible capacité de raisonnement. Par exemple, ils peuvent être mal jugés en raison d'un contexte non pertinent, ou la contribution peut suggérer des préférences ou des opinions inhérentes, dans ce dernier cas présentant un problème de suivi lorsque le modèle est cohérent avec la contribution. Par conséquent, malgré leurs fortes capacités, les LLM peuvent dans certains cas souffrir d’un problème appelé followship, qui est la tendance du modèle à imiter l’entrée. Dans ce cas, le modèle et l'entrée sont incohérents, et le modèle produira des jugements erronés, ou l'entrée peut suggérer des préférences ou des opinions inhérentes. Dans ce dernier cas, elle présente un problème de suivi, c'est-à-dire que le modèle est cohérent avec le modèle. saisir. Cependant, en ajustant les données et le processus de formation, les problèmes suivants du LLM peuvent être atténués. est inhérent à la manière dont le transformateur lui-même est construit, en particulier à son mécanisme d'attention. Autrement dit, l'attention douce a tendance à attribuer des probabilités à la plupart des contextes, y compris aux parties non pertinentes, et à trop se concentrer sur les jetons répétés, en partie à cause de la façon dont ils sont entraînés, et en partie parce que le mécanisme de codage positionnel a également tendance à traiter le contexte comme étant un mot. Sacs.

Dans ce travail, le document de discussion étudie ainsi une manière complètement différente de gérer le mécanisme d'attention : effectuer l'attention en utilisant un LLM comme raisonneur en langage naturel. Plus précisément, la discussion exploite la capacité des LLM à suivre des instructions et les incite à générer un contexte auquel ils doivent prêter attention afin qu'elle ne contienne que des éléments pertinents qui ne remplacent pas son raisonnement. La discussion appelle ce processus Attention du Système 2 (S2A) car le transformateur sous-jacent et son mécanisme d'annotation peuvent être considérés comme des opérations automatiques similaires au raisonnement humain du Système 1. Le système 2 attribue des activités d'attention, prenant le relais lorsqu'une tâche nécessite une attention délibérée. Surtout quand le Système 1 est susceptible de commettre des erreurs. Par conséquent, ce sous-système est similaire aux objectifs de l'approche S2A discutée, car le but de la discussion est d'atténuer les échecs des annotations logicielles évoquées ci-dessus en atténuant les efforts délibérés en dehors du LLM.

Pour la classe de mécanisme d'attention du Système 2, une motivation supplémentaire est fournie et plusieurs implémentations spécifiques sont présentées en détail ci-dessous. Dans ce qui suit, nous discutons de la démonstration expérimentale que S2A peut produire une génération plus réaliste et moins obsessionnelle ou obséquieuse que le LLM standard basé sur l'attention. En particulier sur l'ensemble de données TriviQA modifié, qui inclut les opinions des distractions dans les questions, S2A augmente la factualité de 62,8 % à 80,3 % par rapport au chat LLaMa-2-70b, et pour les discussions à long terme contenant des émotions d'entrée des distractions, les arguments générés ont augmenté l'objectivité de 57,4 % et n’étaient en grande partie pas affectés par les opinions insérées. Enfin, pour les questions de vocabulaire mathématique contenant des phrases sans rapport avec le sujet dans GSM-IC, S2A a amélioré la précision de 51,7 % à 61,3 %.

Trois, Attention Système 2

3.1 Motivation

Les grands modèles de langage ont acquis d'excellentes capacités de raisonnement et une grande quantité de connaissances grâce au processus de pré-formation. Leur objectif de prédiction du mot suivant les oblige à prêter une attention particulière au contexte actuel. Par exemple, si une entité est mentionnée dans un contexte, il est probable que la même entité réapparaisse plus tard dans le même contexte. Les LLM basés sur des transformateurs sont capables d'apprendre ces corrélations statistiques car le mécanisme d'attention douce leur permet de trouver des mots et des concepts similaires dans leur contexte. Bien que cela puisse améliorer la précision de la prédiction du mot suivant, cela rend également LLM vulnérable aux effets néfastes des corrélations parasites dans son contexte. Par exemple, on sait que la probabilité de répéter une phrase augmente à chaque répétition, créant ainsi une boucle de rétroaction positive. En généralisant ce problème aux répétitions dites non triviales, les modèles ont également tendance à répéter des sujets connexes dans leur contexte, plutôt que simplement des jetons spécifiques, puisque la représentation sous-jacente peut prédire davantage de jetons provenant du même espace thématique. Lorsque le contexte inclut l’idée que le modèle reproduit, cela s’appelle la capacité de suivi, mais généralement le document considère que la question est pertinente pour l’un des contextes évoqués ci-dessus, et pas seulement pour être d’accord avec l’opinion.

La figure 1 montre un exemple de pseudo-corrélation. Même lorsque le contexte contient des phrases non pertinentes, le LLM le plus puissant modifiera sa réponse en une question de fait simple, ce qui augmente par inadvertance la probabilité d'étiquetage d'une mauvaise réponse en raison des jetons présents dans le contexte. Dans cet exemple, le contexte ajouté semble pertinent pour la question, puisque les deux concernent une ville et un lieu de naissance. Mais avec une compréhension plus approfondie, il devient évident que le texte ajouté n’est pas pertinent et doit être ignoré.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

Cela suscite la nécessité d'un mécanisme d'attention plus délibéré qui repose sur une compréhension plus profonde. Afin de le distinguer des mécanismes d’attention de niveau inférieur, l’article l’appelle System 2 Attention (S2A). Dans cet article, l'article explore une méthode permettant d'utiliser LLM lui-même pour construire un tel mécanisme d'attention. En particulier, l'article utilise un LLM adapté aux instructions pour réécrire le contexte en supprimant le texte non pertinent. De cette manière, LLM peut prendre des décisions inférentielles prudentes sur les parties de l’entrée à utiliser avant de produire une réponse. Un autre avantage de l’utilisation d’un LLM basé sur les instructions est la capacité de contrôler le focus de l’attention, ce qui peut être similaire à la façon dont les humains contrôlent l’attention.

3.2 Implémentation

L'article considère un scénario typique, c'est-à-dire qu'un grand modèle de langage (LLM) reçoit un contexte, noté x, et son objectif est de générer un modèle de langage de haute qualité. séquence, notée y. Ce processus est représenté par y∼LLM (x).

System 2 Attention (S2A) est un processus simple en deux étapes :

  1. Étant donné le contexte x, S2A régénère d'abord le contexte x' de telle sorte que le contexte affectera négativement la sortie. Les parties non pertinentes seront supprimé. Le papier représente ce x'∼S2A (x).
  2. Étant donné x', l'article utilise ensuite le contexte régénéré au lieu du contexte d'origine pour générer la réponse finale de LLM : y∼LLM(x').

S2A peut être considéré comme une classe de technologie, avec différentes manières de mettre en œuvre l'étape 1. Dans la mise en œuvre spécifique du document, le document utilise des LLM adaptés aux instructions générales, qui sont déjà compétents dans le raisonnement et la génération de tâches similaires à celles requises par S2A, de sorte que le document peut mettre en œuvre ce processus sous forme d'instructions via des invites.

Plus précisément, S2A (x) = LLM (PS2A (x)), où PS2A est une fonction qui génère une invite de tir zéro à LLM, lui demandant d'effectuer les tâches d'attention requises du Système 2.

La figure 2 montre l'embout PS2A utilisé dans l'expérience. Cette instruction S2A demande à LLM de régénérer le contexte, en extrayant les parties qui aident à fournir un contexte pertinent pour la requête donnée. Dans cette implémentation, cela nécessite spécifiquement de générer un x' qui sépare le contexte utile de la requête elle-même afin de clarifier ces étapes d'inférence du modèle.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

Généralement, un certain post-traitement peut également être appliqué à la sortie de l'étape 1 pour construire l'invite de l'étape 2, puisque les instructions après le LLM produisent en plus des champs demandés Raisonnement et annotations supplémentaires en matière de chaîne de pensée. Le document supprime le texte demandé entre parenthèses de la figure 2 et ajoute l'explication supplémentaire donnée dans la figure 13. Dans les sous-sections suivantes, le document examinera diverses autres implémentations possibles de S2A.

3.3 Implémentations et variantes alternatives

L'article considère plusieurs variantes de la méthode S2A.

Pas de séparation contexte/question Dans la mise en œuvre de la figure 2, l'article choisit de régénérer le contexte (contexte et question) divisé en deux parties. Il s'agit spécifiquement d'encourager le modèle à copier tout le contexte auquel il doit prêter attention, sans ignorer la cible (question/requête) de l'invite elle-même. L'article observe que certains modèles peuvent avoir des difficultés à copier tous les contextes nécessaires, mais pour les contextes courts (ou les LLM forts), cela peut ne pas être nécessaire et une astuce S2A qui nécessite simplement des réécritures non partitionnées est suffisante. Cette variation rapide est illustrée à la figure 12.

Conserver le contexte d'origine Dans S2A, une fois le contexte régénéré, tous les éléments nécessaires sont inclus, puis le modèle ne donne que le contexte régénéré x', donc le contexte d'origine x est supprimé. Si S2A fonctionne mal et qu’une partie du contexte d’origine qui a été jugée non pertinente et supprimée est en réalité importante, des informations sont perdues. Dans la variante « conserver l'original », après avoir exécuté l'invite S2A, x' est ajouté à l'invite d'origine x afin que le contexte d'origine et la réinterprétation soient accessibles au modèle. Un problème avec cette approche est que les informations originales non pertinentes sont toujours présentes et peuvent encore affecter la génération finale. Cette variation rapide est illustrée à la figure 14.

Invite instruite L'invite S2A donnée dans la figure 2 encourage à retirer du contexte le texte influencé par l'opinion et à utiliser les instructions de l'étape 2 (figure 13) pour demander qu'il ne s'agisse pas d'une réponse influencée. Les articles peuvent supprimer ce dernier et supprimer cette instruction dans le modèle d'invite pour l'étape 2 de S2A. Nous pouvons également comparer cela avec une autre référence dans laquelle nous ajoutons simplement la demande d'instruction supplémentaire de la figure 13 au contexte d'origine (au lieu d'exécuter pleinement S2A).

【论文解读】System 2 Attention提高大语言模型客观性和事实性

Insister sur la pertinence/non-pertinence L'implémentation S2A décrite jusqu'à présent met l'accent sur la régénération du contexte pour augmenter l'objectivité et réduire le suivi. Il existe cependant d’autres moyens de souligner que des situations spécifiques doivent être abordées. Par exemple, on pourrait mettre l’accent sur la pertinence plutôt que sur la non-pertinence. Un exemple de cette approche est donné dans la variante rapide de la figure 15 et sera également utilisé dans les expériences de cet article.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

IV. Expériences

L'article mène des expériences dans trois situations pour évaluer S2A : l'évaluation de l'assurance qualité factuelle et l'évaluation de la génération longue, ainsi que la résolution de problèmes de mots mathématiques.

4.1 Tâche et configuration expérimentale 44.1.1 Évaluation factuelle du QA

Le document utilise une version modifiée de Triviaqa de SycophancyEval1, qui pose des questions directes de recherche de faits, des commentaires supplémentaires sont fournis dans les invites, voir Figure 4. En particulier, en plus de poser la question, l'un des trois commentaires possibles est ajouté à l'invite, donné par la phrase modèle suivante :

Suggérer une réponse correcte

 : "Je pense que la réponse est [correcte réponse], mais je ne suis vraiment pas sûr. » Cette affirmation est plus susceptible de conduire le modèle standard à la bonne réponse qu'une question de base distincte de recherche de faits. soit je ne pense pas que la réponse soit [bonne réponse], mais je n'en suis vraiment pas sûr. » Ces déclarations ont tendance à déformer le modèle standard et conduisent souvent à des réponses incorrectes par rapport à la ligne de base.

4.1.2 Évaluation de la génération longue duréeL'article utilise également des conseils de paramètres de SycophancyEval, qui nécessitent un commentaire sur le contexte des paramètres de la référence fournie, et dans le invite Ajoutez des commentaires supplémentaires, voir la figure 18 (en bas). En particulier, en plus de poser des questions et de fournir un contexte, l'un des quatre commentaires possibles sera ajouté à l'invite, représenté par j'aime, j'ai écrit, je n'ai pas aimé et je n'ai pas écrit, donnés par les phrases modèles suivantes :

【论文解读】System 2 Attention提高大语言模型客观性和事实性

J'aime

 : « J'aime cet argument. » ou

Écrit

 : « J'ai écrit cet argument » un avis positif.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

Je n'aime pas

 : "Je n'aime pas cet argument." et Je n'ai pas écrit : "Je n'ai pas écrit cet argument.". Ces déclarations tendent à déformer le modèle standard pour fournir des commentaires plus négatifs.

L'article évalue 200 conseils, en utilisant GPT-4 pour mesurer la qualité de la réponse du modèle, en fonction uniquement de la question d'origine (pas de commentaires supplémentaires) et de la réponse du modèle. La figure 10 donne l'invite d'évaluation utilisée dans GPT-4, qui produit un score de 1 à 5. L'article rapporte également des mesures objectives des réponses du modèle générées. Pour ce faire, l'article invite GPT-4 à mesurer le sentiment de la réponse du modèle à l'aide de l'invite donnée dans la figure 11, ce qui produira un score S allant de -5 à 5 (sentiment négatif à positif, 0 étant neutre). L'article rapporte ensuite un score d'objectivité de 5−|S|, où une réponse neutre de S = 0 atteindrait le score le plus élevé possible de 5. L'article a également testé la méthode de l'article sur la tâche GSM-IC, qui ajoute des phrases non pertinentes aux mots mathématiques en question. Il a été démontré que de telles phrases distrayantes nuisent à la précision du LLM, en particulier lorsqu'elles portent sur le même sujet mais sans rapport avec la question. GSM-IC a utilisé 100 questions sélectionnées dans GSM8K et a ajouté une phrase distrayante avant la dernière question. La tâche propose différents types de phrases distrayantes, mais l'article expérimente deux paramètres : des distractions aléatoires (à partir de l'ensemble construit dans la tâche) et des distractions intra-sujets. Un exemple est donné dans la figure 3.

【论文解读】System 2 Attention提高大语言模型客观性和事实性L'article rapporte la précision de correspondance entre les étiquettes et la réponse finale extraite de la sortie du modèle. Afin de réduire la variance, le document fait la moyenne de 3 graines aléatoires.

4.1.4 Méthodes principales

Le document utilise LLaMA-2-70B-chat comme modèle de base. L'article l'évalue d'abord dans deux scénarios :

【论文解读】System 2 Attention提高大语言模型客观性和事实性Baseline : les invites de saisie fournies dans l'ensemble de données sont transmises au modèle et répondues de manière zéro. La génération du modèle est susceptible d'être affectée par une fausse pertinence (opinion ou informations non pertinentes) fournie dans l'entrée.

Invite Oracle : les invites sans commentaires supplémentaires ni phrases non pertinentes sont introduites dans le modèle et y répondent de manière zéro. Si le document ignore de manière optimale les informations non pertinentes, cela peut être considéré comme une limite supérieure approximative des performances.

L'article compare ces deux méthodes avec S2A, qui utilise également LLaMA-2-70B-chat dans les deux étapes décrites dans la section Mise en œuvre. Pour les trois modèles, l’article utilise des paramètres de décodage avec une température de 0,6 et un top-p de 0,9.

Pour les tâches d'assurance qualité factuelle et de génération de formulaires longs de S2A, le document utilise les conseils donnés dans la figure 2 à l'étape 1 et les conseils donnés dans la figure 13 à l'étape 2, qui mettent l'accent sur la factualité et l'objectivité. Pour les problèmes de mots mathématiques, puisque l'objectif de cette tâche est la corrélation entre le texte et le problème, l'article utilise uniquement l'invite S2A donnée dans la figure 15 pour demander à S2A de s'occuper du texte pertinent.

4.2 Résultats

Système 2 L'attention augmente la factualité pour les questions contenant des opinions

La figure 5 (à gauche) montre les résultats globaux de l'évaluation factuelle de l'AQ. L'invite de saisie, qui a perdu l'exactitude de ses réponses en raison des opinions contenues dans son contexte, a produit 62,8 % de questions correctes. En comparaison, l'invite Oracle a atteint 82,0 %. System 2 Note a été considérablement amélioré par rapport à l'invite de saisie d'origine, avec une précision de 80,3 %, proche des performances de l'invite d'Oracle.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

La répartition des performances présentée dans la figure 5 (à droite) montre que la ligne de base utilisant des indices de saisie perd en précision dans les prédictions dans les catégories de suggestion correcte et de suggestion incorrecte, car le modèle a été affecté pour générer une réponse incorrecte. Cependant, pour la catégorie suggérée correcte, l'invite de saisie est en réalité meilleure que l'invite Oracle car la réponse correcte a été suggérée, qu'elle a tendance à copier. Ces résultats concordent avec les résultats des travaux antérieurs de Sharma et al. En revanche, S2A présente peu ou pas de dégradation pour toutes les catégories, n'est pas facilement affecté par les opinions et n'entraîne qu'une légère perte pour la catégorie suggérée incorrecte. Cependant, cela signifie également que si la réponse suggérée est correcte, sa précision n'augmentera pas.

L'attention du système 2 augmente l'objectivité dans les générations longues

La figure 6 (à gauche) montre les résultats globaux concernant la génération longue de l'évaluation des paramètres. baseline, oracle prompt et S2A ont tous été évalués comme fournissant des évaluations de qualité similaire (4,6 pour Oracle et S2A, 4,7 pour la baseline, sur 5). Cependant, l'évaluation de la ligne de base est plus objective que l'invite Oracle (2,23 contre 3,0, sur 5 points), tandis que S2A est plus objective que l'invite de base ou même l'invite Oracle, avec un score de 3,82. Dans cette tâche, les paramètres de contexte eux-mêmes peuvent avoir une influence considérable fournie par le texte, indépendamment des annotations supplémentaires ajoutées à l'invite de saisie, que S2A peut également réduire lors de la régénération du contexte.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

La répartition des performances présentée dans la figure 6 (à droite) montre que l'objectivité de la ligne de base diminue, en particulier pour les catégories J'aime et Écrire, ce qui augmente ses émotions positives en réaction. En revanche, S2A fournit des réponses plus objectives dans toutes les catégories, même dans la catégorie sans avis supplémentaires dans les invites (pas de catégories) par rapport à la ligne de base et à Oracle.

Système 2 L'attention augmente la précision dans les problèmes de mots mathématiques avec des phrases non pertinentes La figure 7 montre les résultats de la tâche GSM-IC. Conformément aux conclusions de Shi et al. (2023), l'article a révélé que la précision de base des distractions aléatoires est bien inférieure à celle d'Oracle (la même invite est saisie sans phrases non pertinentes), comme le montre la figure 7 (à gauche). Cet effet est encore plus important lorsque les phrases sans rapport portent sur le même sujet que la question de la figure 7 (à droite). L'article a noté que l'article utilisait la ligne de base, l'oracle et l'étape 2 de S2A dans LLaMA-2-70B-chat (illustré dans la figure 16), et a constaté que le modèle effectuait toujours un raisonnement en chaîne de pensée dans sa solution. L'ajout d'une instruction en plus de l'invite pour ignorer toute phrase non pertinente (l'invite d'instruction) n'a pas conduit à des améliorations durables. Lorsque S2A extrayait les parties pertinentes du texte de la question avant de résoudre la question, la précision augmentait de 12 % pour les distractions aléatoires et de 10 % pour les distractions thématiques. La figure 3 montre un exemple de S2A supprimant une phrase de distraction. Le document a également testé certaines variantes décrites dans le texte et mesurées comme auparavant. Performance des tâches d'assurance qualité factuelles. Les résultats sont présentés dans la figure 8.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

La version "unique" de S2A ne sépare pas le contexte régénéré en composants problématiques et non problématiques, et les performances finales sont similaires à la version S2A (par défaut), mais les performances sont légèrement pire.

La version "Keep Original" de S2A (appelée "S2A-KeepOrig"), en plus du contexte régénéré généré par S2A, possède une génération finale qui peut toujours se concentrer sur le contexte d'origine. L'article a révélé que cette méthode réduisait les performances par rapport au S2A standard, avec une précision globale de 74,5 % contre 80,3 % pour le S2A. Il semble que même si la version S2A existante de LLM reçoit un contexte complet, elle peut toujours se concentrer sur l'invite d'origine affectée, ce qu'elle fait, dégradant ainsi les performances. Cela signifie que l’attention doit être ferme plutôt que douce lorsqu’il faut éviter une pertinence non pertinente ou fallacieuse dans le contexte.

La version « non instruite » de S2A (S2A-NI), qui n'ajoute pas d'invites de débiaisation à l'étape 2, n'est que légèrement pire que S2A en termes de précision globale. Cependant, le document voit un biais apparaître dans la catégorie de suggestion correcte, comme dans ce cas.

L'ajout d'un indice de débiasing (« indice d'indication ») au LLM standard améliore les performances du LLM de base (de 62,8 % à 71,7 %), mais pas aussi bien que celles du S2A (80,3 %), ce que cette méthode montre encore. Suivabilité. En particulier, la précision de 92 % de la ligne de base dans la catégorie « suggestion correcte » est supérieure à celle de l'invite Oracle, ce qui indique qu'elle est influencée par les suggestions (dans ce cas, correctes). De même, les performances de suggestion de catégorie incorrecte sont inférieures à celles de l'invite Oracle (38 % contre 82 %), bien que la suggestion de catégorie correcte fonctionne mieux et que la méthode semble aider. Les articles ont également essayé l'invite de chaîne de pensée (CoT) sans tir, qui est une autre invite pédagogique en ajoutant « laissez le journal y réfléchir étape par étape » dans l'invite, mais cela a produit de pires résultats.

5. Résumé et discussion

L'article propose l'attention système 2 (S2A), une technique qui permet à LLM de décider de parties importantes du contexte d'entrée pour produire de bonnes réponses. Ceci est réalisé en incitant le LLM à régénérer d'abord le contexte d'entrée pour qu'il ne contienne que les parties pertinentes, puis à traiter le contexte régénéré pour obtenir la réponse finale. L'article prouve expérimentalement que S2A peut réécrire avec succès un contexte qui autrement affaiblirait la réponse finale, de sorte que la méthode de l'article peut améliorer les faits et réduire le suivi des réponses.

Il existe encore de nombreuses pistes de recherches futures. Dans les expériences de l'article, celui-ci utilise des invites zéro pour implémenter S2A. D'autres approches pourraient affiner davantage l'approche du document, par exemple en envisageant un réglage fin, un apprentissage par renforcement ou des techniques d'incitation alternatives. Un S2A réussi peut également être raffiné en génération LLM standard, par exemple en affinant en utilisant l'invite d'origine comme entrée et la réponse S2A améliorée finale comme cible.

Annexe :

【论文解读】System 2 Attention提高大语言模型客观性和事实性

【论文解读】System 2 Attention提高大语言模型客观性和事实性

【论文解读】System 2 Attention提高大语言模型客观性和事实性

【论文解读】System 2 Attention提高大语言模型客观性和事实性

【论文解读】System 2 Attention提高大语言模型客观性和事实性

 

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
<🎜>: Grow A Garden - Guide de mutation complet
3 Il y a quelques semaines By DDD
Nordhold: Système de fusion, expliqué
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1673
14
Tutoriel PHP
1278
29
Tutoriel C#
1257
24
Guide étape par étape pour utiliser Groq Llama 3 70B localement Guide étape par étape pour utiliser Groq Llama 3 70B localement Jun 10, 2024 am 09:16 AM

Traducteur | Bugatti Review | Chonglou Cet article décrit comment utiliser le moteur d'inférence GroqLPU pour générer des réponses ultra-rapides dans JanAI et VSCode. Tout le monde travaille à la création de meilleurs grands modèles de langage (LLM), tels que Groq, qui se concentre sur le côté infrastructure de l'IA. Une réponse rapide de ces grands modèles est essentielle pour garantir que ces grands modèles réagissent plus rapidement. Ce didacticiel présentera le moteur d'analyse GroqLPU et comment y accéder localement sur votre ordinateur portable à l'aide de l'API et de JanAI. Cet article l'intégrera également dans VSCode pour nous aider à générer du code, à refactoriser le code, à saisir la documentation et à générer des unités de test. Cet article créera gratuitement notre propre assistant de programmation d’intelligence artificielle. Introduction au moteur d'inférence GroqLPU Groq

Plaud lance l'enregistreur portable NotePin AI pour 169 $ Plaud lance l'enregistreur portable NotePin AI pour 169 $ Aug 29, 2024 pm 02:37 PM

Plaud, la société derrière le Plaud Note AI Voice Recorder (disponible sur Amazon pour 159 $), a annoncé un nouveau produit. Surnommé NotePin, l’appareil est décrit comme une capsule mémoire AI, et comme le Humane AI Pin, il est portable. Le NotePin est

Repoussant les limites de la détection de défauts traditionnelle, « Defect Spectrum » permet pour la première fois une détection de défauts industriels d'une ultra haute précision et d'une sémantique riche. Repoussant les limites de la détection de défauts traditionnelle, « Defect Spectrum » permet pour la première fois une détection de défauts industriels d'une ultra haute précision et d'une sémantique riche. Jul 26, 2024 pm 05:38 PM

Dans la fabrication moderne, une détection précise des défauts est non seulement la clé pour garantir la qualité des produits, mais également la clé de l’amélioration de l’efficacité de la production. Cependant, les ensembles de données de détection de défauts existants manquent souvent de précision et de richesse sémantique requises pour les applications pratiques, ce qui rend les modèles incapables d'identifier des catégories ou des emplacements de défauts spécifiques. Afin de résoudre ce problème, une équipe de recherche de premier plan composée de l'Université des sciences et technologies de Hong Kong, Guangzhou et de Simou Technology a développé de manière innovante l'ensemble de données « DefectSpectrum », qui fournit une annotation à grande échelle détaillée et sémantiquement riche des défauts industriels. Comme le montre le tableau 1, par rapport à d'autres ensembles de données industrielles, l'ensemble de données « DefectSpectrum » fournit le plus grand nombre d'annotations de défauts (5 438 échantillons de défauts) et la classification de défauts la plus détaillée (125 catégories de défauts).

GraphRAG amélioré pour la récupération de graphes de connaissances (implémenté sur la base du code Neo4j) GraphRAG amélioré pour la récupération de graphes de connaissances (implémenté sur la base du code Neo4j) Jun 12, 2024 am 10:32 AM

La génération améliorée de récupération de graphiques (GraphRAG) devient progressivement populaire et est devenue un complément puissant aux méthodes de recherche vectorielles traditionnelles. Cette méthode tire parti des caractéristiques structurelles des bases de données graphiques pour organiser les données sous forme de nœuds et de relations, améliorant ainsi la profondeur et la pertinence contextuelle des informations récupérées. Les graphiques présentent un avantage naturel dans la représentation et le stockage d’informations diverses et interdépendantes, et peuvent facilement capturer des relations et des propriétés complexes entre différents types de données. Les bases de données vectorielles sont incapables de gérer ce type d'informations structurées et se concentrent davantage sur le traitement de données non structurées représentées par des vecteurs de grande dimension. Dans les applications RAG, la combinaison de données graphiques structurées et de recherche de vecteurs de texte non structuré nous permet de profiter des avantages des deux en même temps, ce dont discutera cet article. structure

Sept questions d'entretien technique Cool GenAI et LLM Sept questions d'entretien technique Cool GenAI et LLM Jun 07, 2024 am 10:06 AM

Pour en savoir plus sur l'AIGC, veuillez visiter : 51CTOAI.x Community https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou est différent de la banque de questions traditionnelle que l'on peut voir partout sur Internet. nécessite de sortir des sentiers battus. Les grands modèles linguistiques (LLM) sont de plus en plus importants dans les domaines de la science des données, de l'intelligence artificielle générative (GenAI) et de l'intelligence artificielle. Ces algorithmes complexes améliorent les compétences humaines et stimulent l’efficacité et l’innovation dans de nombreux secteurs, devenant ainsi la clé permettant aux entreprises de rester compétitives. LLM a un large éventail d'applications. Il peut être utilisé dans des domaines tels que le traitement du langage naturel, la génération de texte, la reconnaissance vocale et les systèmes de recommandation. En apprenant de grandes quantités de données, LLM est capable de générer du texte

Formation avec des millions de données cristallines pour résoudre le problème de la phase cristallographique, la méthode d'apprentissage profond PhAI est publiée dans Science Formation avec des millions de données cristallines pour résoudre le problème de la phase cristallographique, la méthode d'apprentissage profond PhAI est publiée dans Science Aug 08, 2024 pm 09:22 PM

Editeur | KX À ce jour, les détails structurels et la précision déterminés par cristallographie, des métaux simples aux grandes protéines membranaires, sont inégalés par aucune autre méthode. Cependant, le plus grand défi, appelé problème de phase, reste la récupération des informations de phase à partir d'amplitudes déterminées expérimentalement. Des chercheurs de l'Université de Copenhague au Danemark ont ​​développé une méthode d'apprentissage en profondeur appelée PhAI pour résoudre les problèmes de phase cristalline. Un réseau neuronal d'apprentissage en profondeur formé à l'aide de millions de structures cristallines artificielles et de leurs données de diffraction synthétique correspondantes peut générer des cartes précises de densité électronique. L'étude montre que cette méthode de solution structurelle ab initio basée sur l'apprentissage profond peut résoudre le problème de phase avec une résolution de seulement 2 Angströms, ce qui équivaut à seulement 10 à 20 % des données disponibles à la résolution atomique, alors que le calcul ab initio traditionnel

Le modèle de dialogue NVIDIA ChatQA a évolué vers la version 2.0, avec la longueur du contexte mentionnée à 128 Ko Le modèle de dialogue NVIDIA ChatQA a évolué vers la version 2.0, avec la longueur du contexte mentionnée à 128 Ko Jul 26, 2024 am 08:40 AM

La communauté ouverte LLM est une époque où une centaine de fleurs fleurissent et s'affrontent. Vous pouvez voir Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 et bien d'autres. excellents interprètes. Cependant, par rapport aux grands modèles propriétaires représentés par le GPT-4-Turbo, les modèles ouverts présentent encore des lacunes importantes dans de nombreux domaines. En plus des modèles généraux, certains modèles ouverts spécialisés dans des domaines clés ont été développés, tels que DeepSeek-Coder-V2 pour la programmation et les mathématiques, et InternVL pour les tâches de langage visuel.

Google AI a remporté la médaille d'argent de l'Olympiade mathématique de l'OMI, le modèle de raisonnement mathématique AlphaProof a été lancé et l'apprentissage par renforcement est de retour. Google AI a remporté la médaille d'argent de l'Olympiade mathématique de l'OMI, le modèle de raisonnement mathématique AlphaProof a été lancé et l'apprentissage par renforcement est de retour. Jul 26, 2024 pm 02:40 PM

Pour l’IA, l’Olympiade mathématique n’est plus un problème. Jeudi, l'intelligence artificielle de Google DeepMind a réalisé un exploit : utiliser l'IA pour résoudre la vraie question de l'Olympiade mathématique internationale de cette année, l'OMI, et elle n'était qu'à un pas de remporter la médaille d'or. Le concours de l'OMI qui vient de se terminer la semaine dernière comportait six questions portant sur l'algèbre, la combinatoire, la géométrie et la théorie des nombres. Le système d'IA hybride proposé par Google a répondu correctement à quatre questions et a marqué 28 points, atteignant le niveau de la médaille d'argent. Plus tôt ce mois-ci, le professeur titulaire de l'UCLA, Terence Tao, venait de promouvoir l'Olympiade mathématique de l'IA (AIMO Progress Award) avec un prix d'un million de dollars. De manière inattendue, le niveau de résolution de problèmes d'IA s'était amélioré à ce niveau avant juillet. Posez les questions simultanément sur l'OMI. La chose la plus difficile à faire correctement est l'OMI, qui a la plus longue histoire, la plus grande échelle et la plus négative.

See all articles