Le modèle linguistique planifiera-t-il les futurs jetons ? Cet article vous donne la réponse.
"Ne laissez pas Yann LeCun le voir."
Yann LeCun a dit que c'était trop tard, il l'avait déjà vu. La question abordée dans l'article « LeCun à lire absolument » que je présenterai aujourd'hui est la suivante : Transformer est-il un modèle de langage réfléchi ? Lorsqu’il effectue une inférence à un certain emplacement, anticipe-t-il les emplacements suivants ?
La conclusion de cette étude est la suivante : Transformer a la capacité de le faire, mais ne le fait pas dans la pratique.
Nous savons tous que les humains réfléchissent avant de parler. Dix années de recherche linguistique montrent que lorsque les humains utilisent le langage, ils prédisent mentalement la saisie linguistique, les mots ou les phrases à venir.
Contrairement aux humains, les modèles de langage actuels allouent une quantité fixe de calcul à chaque jeton lorsqu'il « parle ». Nous ne pouvons donc nous empêcher de nous demander : les modèles linguistiques penseront-ils à l’avance comme les humains ?
Selon certaines recherches récentes, il a été démontré que le prochain jeton peut être prédit en sondant l'état caché du modèle de langage. Il est intéressant de noter qu'en utilisant des sondes linéaires sur les états cachés du modèle, les résultats du modèle sur les futurs jetons peuvent être prédits dans une certaine mesure et les résultats futurs peuvent être modifiés de manière prévisible. Certaines recherches récentes ont montré qu'il est possible de prédire le prochain jeton en sondant les états cachés d'un modèle de langage. Il est intéressant de noter qu'en utilisant des sondes linéaires sur les états cachés du modèle, les résultats du modèle sur les futurs jetons peuvent être prédits dans une certaine mesure et les résultats futurs peuvent être modifiés de manière prévisible.
Ces résultats suggèrent que l’activation du modèle à un pas de temps donné est au moins partiellement prédictif de la production future.
Cependant, nous ne savons pas encore pourquoi : s’agit-il simplement d’une propriété accidentelle des données, ou est-ce parce que le modèle prépare délibérément les informations pour les pas de temps futurs (mais cela affecte les performances du modèle à l’emplacement actuel) ?
Afin de répondre à cette question, trois chercheurs de l'Université du Colorado à Boulder et de l'Université Cornell ont récemment publié un article intitulé « Les modèles linguistiques planifieront-ils les futurs jetons ? "Thèse.
Titre de l'article : Les modèles linguistiques planifient-ils les futurs jetons ?
Adresse de l'article : https://arxiv.org/pdf/2404.00859.pdf
Aperçu de la recherche
Ils ont observé que pendant la formation, le gradient non seulement optimiser le poids pour la perte de la position actuelle du jeton, mais également optimiser les jetons plus tard dans la séquence. Ils ont en outre demandé : dans quelle proportion le poids actuel du transformateur allouera-t-il des ressources au jeton actuel et aux futurs jetons ?
Ils ont envisagé deux possibilités : l'hypothèse de la pré-mise en cache et l'hypothèse du fil d'Ariane.
L'hypothèse de pré-cache signifie que le transformateur calculera des caractéristiques au pas de temps t qui ne sont pas pertinentes pour la tâche d'inférence du pas de temps actuel mais peuvent être utiles pour les pas de temps futurs t + τ, tandis que l'hypothèse du fil d'Ariane signifie que les caractéristiques les plus pertinentes pour le pas de temps t Les caractéristiques de sont déjà équivalentes aux caractéristiques qui seront les plus utiles au pas de temps t + τ.
Pour évaluer quelle hypothèse est correcte, l'équipe a proposé un schéma d'entraînement myope qui ne propage pas le gradient de perte à la position actuelle vers l'état caché à la position précédente.
Veuillez vous référer à l'article original pour la définition mathématique et la description théorique des hypothèses et solutions ci-dessus.
Résultats expérimentaux
Pour comprendre s'il est possible pour les modèles de langage d'implémenter directement la précache, ils ont conçu un scénario synthétique dans lequel la tâche ne peut être accomplie que via une précache explicite. Ils ont configuré une tâche dans laquelle le modèle devait précalculer les informations pour le prochain jeton, sinon il ne serait pas en mesure de calculer avec précision la bonne réponse en un seul passage.的 Définition des jeux de données synthétiques construits par l'équipe.
Dans cette scène synthétique, l'équipe a trouvé des preuves claires que les transformateurs peuvent apprendre à pré-mettre en cache. Les modèles de séquence basés sur des transformateurs le font lorsqu'ils doivent précalculer des informations pour minimiser les pertes.Ensuite, ils ont exploré si les modèles de langage naturel (variantes GPT-2 pré-entraînées) présenteraient l'hypothèse du fil d'Ariane ou l'hypothèse de la pré-cache. Leurs expériences avec des programmes de formation pour myopes montrent que la pré-cache se produit beaucoup moins souvent dans ce contexte, de sorte que les résultats sont plus biaisés en faveur de l'hypothèse du fil d'Ariane.
La perte d'entropie croisée et la différence entre le GPT-2 original modèle basé sur la position du jeton et le modèle GPT-2 à courte vue.原 GPT-2 Vérification de la perte d'entropie croisée obtenue grâce à une formation primitive et de courte durée.
Ainsi, l'équipe affirme : sur des données linguistiques réelles, les modèles linguistiques ne préparent pas les informations futures dans une mesure significative. Il s’agit plutôt de fonctionnalités informatiques utiles pour prédire le prochain jeton – qui s’avéreront également utiles pour les étapes futures.
L'équipe a déclaré : "Dans les données linguistiques, nous observons qu'il n'y a pas de compromis significatif entre l'optimisation avide de la prochaine perte de jetons et la garantie des performances de prédiction futures Nous pouvons donc probablement voir sortir, la question de savoir si le Transformer peut être prévoyant semble être essentiellement une question de données.
Il est concevable qu'à l'avenir, nous puissions utiliser des méthodes de traitement de données appropriées pour donner aux modèles de langage la capacité de penser à l'avance comme les humains.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!