Table des matières
Entraînement et tests de tâches inversées
Prophétie il y a 36 ans
Maison Périphériques technologiques IA Brisez la malédiction il y a 36 ans ! Meta lance une méthode d'entraînement inversé pour éliminer la « malédiction d'inversion » des grands modèles

Brisez la malédiction il y a 36 ans ! Meta lance une méthode d'entraînement inversé pour éliminer la « malédiction d'inversion » des grands modèles

Apr 09, 2024 pm 03:40 PM
ai 训练

La « malédiction du renversement » du grand modèle de langage a été résolue !

Cette malédiction a été découverte pour la première fois en septembre de l'année dernière, ce qui a immédiatement provoqué les exclamations de LeCun, Karpathy, Marcus et d'autres grands.

Brisez la malédiction il y a 36 ans ! Meta lance une méthode dentraînement inversé pour éliminer la « malédiction dinversion » des grands modèles

Parce que le grand modèle sans précédent et arrogant a en fait un "talon d'Achille" : un modèle de langage formé sur "A est B" ne peut pas répondre correctement "Est B A".

Par exemple, l'exemple suivant : LLM sait clairement que "la mère de Tom Cruise est Mary Lee Pfeiffer", mais ne peut pas répondre "L'enfant de Mary Lee Pfeiffer est Tom Cruise".

Brisez la malédiction il y a 36 ans ! Meta lance une méthode dentraînement inversé pour éliminer la « malédiction dinversion » des grands modèles

——C'était le GPT-4 le plus avancé à l'époque, en conséquence, même les enfants pouvaient avoir une pensée logique normale, mais LLM ne pouvait pas le faire.

Basé sur des données massives, il a mémorisé des connaissances qui surpassent presque tous les êtres humains, et pourtant il se comporte si bêtement. Il a obtenu le feu de la sagesse, mais est à jamais emprisonné dans cette malédiction.

Brisez la malédiction il y a 36 ans ! Meta lance une méthode dentraînement inversé pour éliminer la « malédiction dinversion » des grands modèles

Adresse papier : https://arxiv.org/pdf/2309.12288v1.pdf

Dès que cet incident est sorti, tout le réseau était en émoi.

D'un côté, les internautes ont dit que le grand mannequin est vraiment stupide, vraiment. Sachant seulement « A est B » mais ne sachant pas « B est A », j'ai finalement conservé ma dignité d'être humain.

D'autre part, les chercheurs ont également commencé à étudier cela et travaillent dur pour résoudre ce défi majeur.

Récemment, des chercheurs de Meta FAIR ont lancé une méthode de formation inversée pour résoudre d'un seul coup la « malédiction du renversement » du LLM.

Brisez la malédiction il y a 36 ans ! Meta lance une méthode dentraînement inversé pour éliminer la « malédiction dinversion » des grands modèles

Adresse papier : https://arxiv.org/pdf/2403.13799.pdf

Les chercheurs ont d'abord observé que les LLM sont formés de manière autorégressive de gauche à droite - c'est possible, c'est ce qui cause le renversement de la malédiction.

Donc, si vous entraînez le LLM (reverse training) dans le sens de droite à gauche, il est possible que le modèle voie les faits dans le sens inverse.

Le texte inversé peut être traité comme une seconde langue, en exploitant plusieurs sources différentes grâce au multitâche ou à une pré-formation multilingue.

Les chercheurs ont considéré 4 types d'inversion : l'inversion de jeton, l'inversion de mot, l'inversion préservant l'entité et l'inversion de segment aléatoire.

Inversion des jetons et des mots, en divisant la séquence en jetons ou en mots respectivement et en inversant leur ordre pour former une nouvelle séquence.

Entity Preserving Reverse, trouve les noms d'entités dans une séquence et préserve l'ordre des mots de gauche à droite tout en effectuant l'inversion des mots.

L'inversion de segment aléatoire divise la séquence tokenisée en blocs de longueur aléatoire, puis préserve l'ordre de gauche à droite dans chaque bloc.

Les chercheurs ont testé l'efficacité de ces types d'inversion sur des échelles de paramètres de 1,4B et 7B, et les résultats ont montré qu'un entraînement à l'inversion par morceaux aléatoire et préservant l'entité peut atténuer la malédiction de l'inversion, voire l'éliminer complètement dans certains cas.

De plus, les chercheurs ont également découvert que l'inversion avant l'entraînement améliorait les performances du modèle par rapport à l'entraînement standard de gauche à droite - l'entraînement inversé peut donc être utilisé comme méthode d'entraînement générale.

Méthode d'entraînement inverse

L'entraînement inverse comprend l'obtention d'un ensemble de données d'entraînement avec N échantillons et la construction d'un ensemble d'échantillons inversés REVERSE (x).

La fonction REVERSE est chargée d'inverser une chaîne donnée, comme suit :

Inversion de mots : Chaque exemple est d'abord divisé en mots, puis la chaîne est inversée au niveau du mot, en utilisant des espaces reliés entre eux.

Inversion de préservation d'entité : exécutez un détecteur d'entité sur un échantillon d'entraînement donné, en divisant également les non-entités en mots. Ensuite, les mots non-entités sont inversés, tandis que les mots représentant les entités conservent leur ordre d'origine.

Inversion de segments aléatoires : au lieu d'utiliser un détecteur d'entités, nous essayons d'utiliser un échantillonnage uniforme pour diviser aléatoirement la séquence en segments de tailles comprises entre 1 et k jetons, puis inverser ces segments, mais garder chacun l'ordre des mots dans un segment, après quoi les segments sont connectés à l'aide du jeton spécial [REV].

Brisez la malédiction il y a 36 ans ! Meta lance une méthode dentraînement inversé pour éliminer la « malédiction dinversion » des grands modèles

Le tableau ci-dessus donne des exemples de différents types d'inversion sur une chaîne donnée.

À l'heure actuelle, le modèle de langage est toujours entraîné de gauche à droite. Dans le cas de l'inversion de mots, cela équivaut à prédire des phrases de droite à gauche.

La formation inverse implique une formation sur des exemples standard et inversés, de sorte que le nombre de jetons de formation est doublé, tandis que les échantillons de formation avant et arrière sont mélangés.

La transformation inverse peut être considérée comme une seconde langue que le modèle doit apprendre. Notez que lors de l'inversion, la relation entre les faits reste inchangée et le modèle peut juger à partir de la grammaire s'il s'agit d'une langue directe ou inversée. modèle de prédiction.

Une autre perspective de l'entraînement inverse peut être expliquée par la théorie de l'information : le but de la modélisation du langage est d'apprendre la distribution de probabilité du langage naturel

Entraînement et tests de tâches inversées

Cartographie de paires d'entités

Commencez par créer un simple ensemble de données basé sur des symboles pour étudier la malédiction d'inversion dans un environnement contrôlé.

Associez aléatoirement les entités a et b de manière individuelle. Les données d'entraînement contiennent toutes les paires de mappages (a→b), mais seulement la moitié des mappages (b→a), et l'autre moitié sert de données de test.

Le modèle doit déduire la règle a→b ⇔ b→a à partir des données d'entraînement puis la généraliser aux paires dans les données de test.

Brisez la malédiction il y a 36 ans ! Meta lance une méthode dentraînement inversé pour éliminer la « malédiction dinversion » des grands modèles

Le tableau ci-dessus montre la précision du test (%) de la tâche d'inversion de signe. Malgré la simplicité de la tâche, la formation du modèle de langage standard échoue complètement, ce qui suggère qu’il est peu probable que la mise à l’échelle à elle seule puisse la résoudre.

En revanche, la formation inversée peut presque résoudre le problème des entités à deux mots, mais ses performances diminuent rapidement à mesure que les entités s'allongent.

L'inversion de mots fonctionne bien pour les entités plus courtes, mais pour les entités contenant plus de mots, l'inversion préservant l'entité est nécessaire. L'inversion aléatoire de segment fonctionne bien lorsque la longueur maximale du segment k est au moins aussi longue que l'entité.

Récupération des noms des personnes

Brisez la malédiction il y a 36 ans ! Meta lance une méthode dentraînement inversé pour éliminer la « malédiction dinversion » des grands modèles

Le tableau ci-dessus montre la tâche d'inversion consistant à déterminer le nom complet d'une personne. L'exactitude de la tâche d'inversion lorsque seule la date de naissance est donnée pour déterminer le nom complet d'une personne. le nom complet est toujours proche de zéro, car dans la méthode de détection d'entité adoptée dans cet article, les dates sont traitées comme trois entités, leur ordre n'est donc pas conservé lors de l'inversion.

Si la tâche d'inversion se réduit à la simple détermination du nom de famille d'une personne, l'inversion au niveau des mots est suffisante.

Un autre phénomène qui peut surprendre est que la méthode de rétention d'entité peut déterminer le nom complet de la personne, mais pas son nom de famille.

C'est un phénomène connu : les modèles de langage peuvent être complètement incapables de récupérer des jetons tardifs de fragments de connaissances (tels que les noms de famille).

Faits du monde réel

Ici, l'auteur a formé un modèle Llama-2 de 1,4 milliard de paramètres, entraînant un modèle de base de 2 000 milliards de jetons dans la direction de gauche à droite.

En revanche, l'entraînement inverse n'utilise que 1 000 milliards de jetons, mais utilise le même sous-ensemble de données pour s'entraîner dans deux directions, de gauche à droite et de droite à gauche - les deux directions combinées représentent 2 000 milliards de jetons, garantissant l'équité et la justice en termes de ressources informatiques.

Pour tester l'inversion des faits du monde réel, les chercheurs ont utilisé une tâche de célébrité, qui comprenait des questions telles que « Qui est la mère d'une célébrité ? » ainsi que des questions d'inversion plus difficiles, par exemple « Qui sont les enfants d'un certain ». les parents d'une célébrité ?"

Brisez la malédiction il y a 36 ans ! Meta lance une méthode dentraînement inversé pour éliminer la « malédiction dinversion » des grands modèles

Les résultats sont présentés dans le tableau ci-dessus. Les chercheurs ont échantillonné les modèles plusieurs fois pour chaque question et considéraient que c'était un succès si l'un d'entre eux contenait la bonne réponse.

En général, la précision est généralement relativement faible car le modèle est petit en termes de nombre de paramètres, a un pré-entraînement limité et manque de réglage fin. Cependant, l’entraînement inversé a donné de meilleurs résultats.

Prophétie il y a 36 ans

En 1988, Fodor et Pylyshyn ont publié un article sur la nature systématique de la pensée dans la revue "Cognition".

Brisez la malédiction il y a 36 ans ! Meta lance une méthode dentraînement inversé pour éliminer la « malédiction dinversion » des grands modèles

Si vous comprenez vraiment ce monde, alors vous devriez être capable de comprendre la relation entre a et b, et la relation entre b et a.

Même les créatures cognitives non verbales devraient être capables de le faire.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

GO Language Slice: Pourquoi ne signale-t-il pas une erreur lorsque l'indice de tranche à élément unique 1 interception? GO Language Slice: Pourquoi ne signale-t-il pas une erreur lorsque l'indice de tranche à élément unique 1 interception? Apr 02, 2025 pm 02:24 PM

GO Language Slice Index: Pourquoi une tranche à élément unique intercepte-t-elle de l'index 1 sans erreur? En langue GO, les tranches sont une structure de données flexible qui peut se référer au bas ...

Pourquoi est-il nécessaire de passer des pointeurs lors de l'utilisation de bibliothèques Go et Viper? Pourquoi est-il nécessaire de passer des pointeurs lors de l'utilisation de bibliothèques Go et Viper? Apr 02, 2025 pm 04:00 PM

GO POINTER SYNTAXE ET ATTENDRE DES PROBLÈMES DANS LA BIBLIOTHÈQUE VIPER Lors de la programmation en langage Go, il est crucial de comprendre la syntaxe et l'utilisation des pointeurs, en particulier dans ...

Existe-t-il un outil gratuit XML à PDF pour les téléphones mobiles? Existe-t-il un outil gratuit XML à PDF pour les téléphones mobiles? Apr 02, 2025 pm 09:12 PM

Il n'y a pas d'outil XML à PDF simple et direct sur mobile. Le processus de visualisation des données requis implique une compréhension et un rendu complexes des données, et la plupart des outils dits "gratuits" sur le marché ont une mauvaise expérience. Il est recommandé d'utiliser des outils côté informatique ou d'utiliser des services cloud, ou de développer vous-même des applications pour obtenir des effets de conversion plus fiables.

Pourquoi toutes les valeurs deviennent-elles le dernier élément lors de l'utilisation de la plage dans le langage GO pour traverser les tranches et stocker des cartes? Pourquoi toutes les valeurs deviennent-elles le dernier élément lors de l'utilisation de la plage dans le langage GO pour traverser les tranches et stocker des cartes? Apr 02, 2025 pm 04:09 PM

Pourquoi l'itération de la carte dans GO fait-elle que toutes les valeurs deviennent le dernier élément? En langue go, face à des questions d'entrevue, vous rencontrez souvent des cartes ...

Comment faire la distinction entre le mode de débogage et le mode de fonctionnement normal lorsque le programme Go est en cours d'exécution? Comment faire la distinction entre le mode de débogage et le mode de fonctionnement normal lorsque le programme Go est en cours d'exécution? Apr 02, 2025 pm 01:45 PM

Lorsque le programme GO Language est en cours d'exécution, comment faire la distinction entre le mode de débogage et le mode de fonctionnement normal? De nombreux développeurs veulent développer des programmes GO selon différents modes de fonctionnement ...

GO Language Slice Index: Pourquoi l'interception de la tranche à élément unique ne va-t-elle pas au-delà des limites? GO Language Slice Index: Pourquoi l'interception de la tranche à élément unique ne va-t-elle pas au-delà des limites? Apr 02, 2025 pm 02:36 PM

Exploration du problème de l'indice de tranchage GO de GO: tranche à élément unique interceptant dans GO, les tranches sont une structure de données flexible qui peut être utilisée pour les tableaux ou autres ...

Comment importer correctement les packages personnalisés sous les modules GO? Comment importer correctement les packages personnalisés sous les modules GO? Apr 02, 2025 pm 03:42 PM

Dans le développement du langage GO, l'introduction correctement des packages personnalisés est une étape cruciale. Cet article ciblera "Golang ...

See all articles