L'académicien E Weinan dirige les nouveaux travaux : les grands modèles disposent non seulement de RAG et de stockage de paramètres, mais également d'un troisième type de mémoire.-IA-php.cn

2,4 B de mémoire³ permet d'obtenir de meilleures performances que les modèles LLM et RAG plus grands.

Ces dernières années, les grands modèles de langage (LLM) ont reçu une attention sans précédent en raison de leurs performances extraordinaires. Cependant, la formation et la déduction du LLM coûtent cher, et les gens ont essayé de réduire les coûts grâce à diverses méthodes d'optimisation.

Dans cet article, des chercheurs du Shanghai Algorithm Innovation Research Institute, de l'Université de Pékin et d'autres institutions se sont inspirés de la hiérarchie de la mémoire du cerveau humain. Ils ont équipé le LLM d'une mémoire explicite (un format de mémoire moins cher que les paramètres du modèle et). RAG). ) pour réduire ce coût. Conceptuellement, les LLM peuvent bénéficier de tailles de paramètres, de coûts de formation et de coûts d'inférence plus petits puisque la plupart de leurs connaissances sont externalisées dans la mémoire explicite. Adresse du papier T : https://arxiv.org/pdf/2407.01178

Lacadémicien E Weinan dirige les nouveaux travaux : les grands modèles disposent non seulement de RAG et de stockage de paramètres, mais également dun troisième type de mémoire.

Titre de la thèse : Mémoire

: Modélisation du langage avec mémoire explicite
comme preuve de concept préliminaire, les chercheurs ont formé un 2,4B LLM à partir de zéro, qui a obtenu de meilleures performances que les modèles LLM et RAG plus grands, et a atteint une vitesse de décodage plus élevée que RAG. Ce modèle est nommé Memory
3

Plus précisément, cet article présente un nouveau format de mémoire, la mémoire explicite, qui se caractérise par des coûts d'écriture et des coûts de lecture relativement faibles. Comme le montre la figure 1, le modèle convertit d'abord la base de connaissances (ou tout ensemble de données textuelles) en mémoires explicites implémentées sous forme de valeurs-clés d'attention clairsemées, puis appelle ces mémoires lors de l'inférence et les intègre dans la couche intermédiaire d'auto-attention.

Le nouveau format de mémoire définit une nouvelle hiérarchie de mémoire :

De plus, cet article présente également une théorie des circuits de mémoire qui prend en charge l'externalisation des connaissances et propose une rareté de la mémoire qui peut rendre le stockage traitable. protocole de pré-entraînement pour favoriser la formation de la mémoire.

En résumé :

Mémoire

Utilise la mémoire explicite pendant le processus d'inférence, ce qui réduit la charge de mémorisation des connaissances spécifiques pour les paramètres du modèle

La mémoire explicite est construite à partir de l'encodage ; la base de connaissances, où le format de mémoire clairsemé maintient la véritable taille de stockage
Les chercheurs ont formé un modèle Memory
à partir de zéro avec 2,4 B de paramètres non intégrés, et ses performances ont dépassé celles d'un modèle SOTA à plus grande échelle. Il a également de meilleures performances et une inférence plus rapide que RAG
De plus, Memory
3^{améliore la factualité et atténue les hallucinations, et permet une adaptation rapide aux tâches professionnelles.}
Introduction à la méthode

La théorie des circuits mémoire aide à déterminer quelles connaissances peuvent être stockées en tant que mémoire explicite et quelle architecture de modèle est adaptée à la lecture et à l'écriture de la mémoire explicite.

Les chercheurs considèrent la relation entrée-sortie comme le mécanisme interne du circuit et définissent la connaissance comme la relation entrée-sortie et son circuit. En manipulant ces circuits, on peut isoler une grande partie des connaissances du LLM tout en gardant intactes ses fonctionnalités.

Mémoire

: En termes d'architecture, le but de cet article est de concevoir un mécanisme de mémoire explicite pour Transformer LLM afin que son coût d'écriture et son coût de lecture soient relativement faibles. De plus, cet article espère limiter les modifications de l'architecture Transformer à la plus petite portée possible sans ajouter de nouveaux paramètres pouvant être entraînés, de sorte que la plupart des LLM Transformer existants puissent être convertis en mémoire sans presque aucun réglage fin

modèles. Le processus de conception simple est le suivant :

Coût d'écriture : avant l'inférence, LLM écrit chaque référence dans la mémoire explicite, qui est enregistrée sur le lecteur.Les souvenirs sont sélectionnés parmi les vecteurs clés de la couche d'auto-attention, de sorte que le processus d'écriture n'implique pas de formation. Chaque référence est traitée indépendamment, évitant ainsi le coût d'une longue attention contextuelle.

Coût de lecture : lors de l'inférence, la mémoire explicite est récupérée du lecteur et lue par l'auto-attention avec les valeurs clés contextuelles habituelles. Chaque mémoire se compose d'un très petit nombre de valeurs clés provenant d'un petit nombre de têtes d'attention, ce qui réduit considérablement les calculs supplémentaires, le stockage GPU, le stockage sur disque et le temps de chargement. Il permet à LLM de récupérer fréquemment de nombreuses références avec un impact limité sur la vitesse de décodage.

Le processus de raisonnement est illustré à la figure 9. Chaque fois que LLM génère 64 jetons, il supprime la mémoire actuelle, utilise ces 64 jetons comme texte de requête pour récupérer 5 nouvelles mémoires et continue d'utiliser ces mémoires. De même, lors du traitement des signaux, LLM récupère 5 mémoires pour chaque bloc de 64 jetons. Chaque bloc se concentre sur sa propre mémoire et la mémoire peut varier d'un bloc à l'autre.

Écriture et lecture de souvenirs : Lors de l'inférence, LLM peut lire directement les souvenirs explicites récupérés via sa couche d'auto-attention en les concaténant avec des valeurs clés contextuelles (Figure 9). Plus précisément, pour chaque tête d'attention h de la l-ième couche, si elle est sélectionnée comme tête de mémoire, alors sa sortie Y^(l,h) changera :

De plus, cette étude La mémoire explicite utilise des codage de position, c'est-à-dire que toutes les positions clés sont situées dans le même intervalle de longueur 128, comme le montre la figure 9.

Pré-entraînement en deux étapes : Le pré-entraînement se compose de deux étapes, un échauffement et un entraînement continu. Seule la phase d'entraînement continu fait appel à la mémoire explicite, tandis que la phase d'échauffement utilise le même format que le pré-entraînement normal.

La figure 13 représente le calendrier de perte d'entraînement et de taux d'apprentissage pendant la phase d'échauffement.

La figure 14 représente le calendrier des pertes d'entraînement et du taux d'apprentissage pendant la phase de formation continue.

Résultats expérimentaux

Les chercheurs ont évalué les capacités générales du modèle Memory³ (tâches de référence), les capacités conversationnelles, les capacités professionnelles (droit et médecine) et les hallucinations. En outre, les chercheurs ont également mesuré la vitesse de décodage de Memory³ et l'ont comparée à des modèles SOTA LLM et RAG similaires et plus grands.

Les résultats de l'évaluation des capacités générales sont présentés ci-dessous, et les résultats montrent que la mémoire explicite a augmenté le score moyen de 2,51 %. En comparaison, la différence de score entre Llama2-7B et 13B est de 4,91 %. La mémoire explicite peut augmenter la « taille effective du modèle » de 2,51/4,91 ≈ 51,1 %.

Ensuite, les auteurs ont évalué les compétences de dialogue de Memory³, et les résultats sont répertoriés dans le tableau 18, montrant que le modèle surpasse Vicuna-7B, Falcon-40B-Instruct et ChatGLM2-6B avec moins de paramètres.

Actuellement, LLM est toujours confronté à des problèmes d'hallucinations. Conceptuellement, Memory³ devrait être moins sensible aux hallucinations car sa mémoire explicite correspond directement au texte de référence. Pour évaluer les hallucinations, les chercheurs ont sélectionné deux ensembles de données anglais pour évaluation. Les résultats sont présentés dans le tableau 19. Memory³ obtient les scores les plus élevés dans la plupart des tâches.

L'un des avantages de l'utilisation de la mémoire explicite est que LLM peut facilement s'adapter à de nouveaux domaines et tâches en mettant à jour sa base de connaissances. Importez simplement les références liées aux tâches dans la base de connaissances de Memory³ et convertissez-les éventuellement en mémoire explicite en cas de démarrage à chaud.Le modèle peut ensuite exploiter ces nouvelles connaissances à des fins d'inférence, en évitant le processus de réglage fin, plus coûteux et potentiellement générateur de pertes, et en fonctionnant plus rapidement que RAG. Cette réduction des coûts a été démontrée dans la figure 4 et pourrait faciliter le déploiement rapide du LLM dans diverses industries.