


Vitesse de génération 3 fois supérieure et coûts de mémoire réduits, un cadre de décodage efficace qui surpasse Medusa2 est enfin là
Décodez efficacement les séquences de jetons n, cadre de décodage CLLM + Jacobi.
Traditionnellement, les grands modèles linguistiques (LLM) sont considérés comme des décodeurs séquentiels, décodant chaque jeton un par un.
Une équipe de recherche de l'Université Jiao Tong de Shanghai et de l'Université de Californie montre que les LLM pré-entraînés peuvent être facilement enseignés pour devenir des décodeurs parallèles efficaces et présente une nouvelle famille de décodeurs parallèles appelés Consistent Large Language Models (CLLM), capables de réduire latence d'inférence en décodant efficacement une séquence de jetons n à chaque étape d'inférence.
Dans cet article, la recherche montre que : « Imiter le processus cognitif que les humains utilisent pour exprimer des expressions mot à mot après avoir formé des phrases complètes dans leur tête peut être appris efficacement en ajustant simplement les LLM pré-entraînés
. » Plus précisément, les CLLM produisent des séquences décodées avec les mêmes résultats que le décodage autorégressif (AR) en mappant toute séquence de n jetons initialisée de manière aléatoire en aussi peu d'étapes que possible. De cette manière, un entraînement au décodage parallèle peut être effectué.
Les résultats expérimentaux montrent que les CLLM obtenus à l'aide de la méthode proposée par l'équipe de recherche sont très efficaces, montrant que la méthode permet d'obtenir une amélioration de 2,4x à 3,4x de la vitesse de génération et est comparable à d'autres techniques d'inférence rapide telles que Medusa2 et Eagle. et ne nécessite aucun coût de mémoire supplémentaire pour accueillir les composants auxiliaires du modèle pendant l'inférence.
Nom de l'article : "CLLM : Consistency Large Language Models"
Lien de l'article : https://arxiv.org/pdf/2403.00835
Figure 1 : Dans GSM8K Ci-dessus, une démonstration de CLLM-ABEL-7B-001 étant environ 3 fois plus rapide que l'ABEL-7B-001 de base lors de l'utilisation du décodage Jacobi.
Jacobi Decoding
Les grands modèles de langage (LLM) changent le visage de la vie humaine, de la programmation à la fourniture de conseils juridiques et de santé.
Cependant, lors de l'inférence, les LLM utilisent le décodage autorégressif pour générer des réponses jeton par jeton, comme le montre la figure 1, ce qui entraîne une latence élevée pour des réponses plus longues. L'utilisation du décodage autorégressif nécessite souvent des modifications architecturales, des composants auxiliaires ou des premières ébauches de modèles pour accélérer l'inférence en générant plusieurs jetons à la fois.
.
Le décodage Jacobi est dérivé des méthodes itératives à virgule fixe de Jacobi et Gauss-Seidel pour résoudre des équations non linéaires et s'avère être exactement le même que la génération autorégressive utilisant le décodage glouton.
Le décodage Jacobi reconstruit le processus de génération séquentielle en un système de n équations non linéaires contenant n variables, et peut être résolu en parallèle sur la base de l'itération Jacobi.
Chaque étape d'itération peut prédire plusieurs jetons corrects (les moyens dits « corrects » alignés sur les résultats du décodage autorégressif dans le cadre de la stratégie d'échantillonnage glouton), accélérant ainsi potentiellement le décodage autorégressif.
.
Plus précisément, la méthode de décodage Jacobi devine d'abord au hasard le prochain jeton de la séquence à partir de l'invite de saisie (ci-après dénommée la séquence de jetons n, sauf indication contraire).
Ensuite, la séquence n-token est introduite dans le LLM avec les astuces pour les mises à jour itératives. Ce processus se poursuivra jusqu'à ce que la séquence de jeton n se stabilise, ne change plus et atteigne un point fixe.
Il est à noter que le décodage Jacobi ne nécessite pas plus de requêtes au LLM que le décodage autorégressif (AR). Finalement, la séquence de n -jetons convergera vers la sortie générée par le décodage AR dans le cadre de la stratégie gloutonne. Le processus depuis la supposition aléatoire initiale jusqu'au résultat final généré par l'AR est appelé « trajectoire Jacobi ».
Un exemple du processus d'itération de décodage de Jacobi et de la trajectoire de Jacobi est illustré dans la figure 2.
Limitations du décodage Jacobi :
Cependant, en pratique, le décodage Jacobi ordinaire n'apporte qu'une faible amélioration de l'effet d'accélération des LLM, par exemple, le rapport d'accélération moyen n'est que de 1,05 fois. En effet, il est difficile pour LLM de générer des jetons corrects lorsqu'il y a des erreurs dans les jetons précédents.
Ainsi, la plupart des itérations de Jacobi ne peuvent obtenir qu'une seule correction pour une séquence de n-jetons, ce qui entraîne la trajectoire plus longue indiquée sur le côté gauche de la figure 3.
Les méthodes de décodage anticipé et de décodage spéculatif tentent d'atténuer les inefficacités du décodage Jacobi et du décodage autorégressif traditionnel, mais entraînent des coûts de mémoire supplémentaires lors de l'inférence.
Les CLLM ne nécessitent pas ces coûts de mémoire supplémentaires.
Consistent Large Language Models (CLLM)
Décodage préliminaire de Jacobi :
À partir d'une invite x et d'un LLM p(·|x) pré-entraîné, les chercheurs utiliseront généralement la norme L'autorégressif (AR) obtient la réponse du modèle selon la stratégie gloutonne, à savoir :
Le décodage Jacobi recadre le processus d'inférence LLM en tant que processus de résolution d'un système d'équations non linéaires pour transformer le processus de décodage en une forme réalisable de calcul parallèle . Considérant :
Le chercheur peut réécrire l'équation ci-dessus sous la forme d'un système d'équations non linéaire :
Il convient de noter que :
Le processus se termine à une certaine valeur k telle que :
Ensuite, définir comme le point fixe et
comme le lieu de Jacobi.
Pour résoudre ce problème, l'équipe de recherche propose d'ajuster les LLM pré-entraînés afin qu'ils puissent systématiquement cartographier n'importe quel point y sur la trajectoire de Jacobi J à un point fixe y* .
Étonnamment, ils ont découvert qu'un tel objectif est similaire à celui du modèle de cohérence, une méthode d'accélération majeure pour les modèles de diffusion.
Dans la méthode proposée par l'équipe, le modèle est entraîné à l'aide des trajectoires Jacobi collectées à partir du modèle cible, et une fonction de perte est utilisée qui encourage la convergence en une seule étape lors des itérations Jacobi.
Pour chaque modèle cible p à régler sur CLLM, la formation se compose de deux parties :
(1) Préparation de la trajectoire Jacobi :
Pour chaque invite, l'auteur exécute Jacobi sur chaque troncature de jeton afin de décoder jusqu'à toute la séquence de réponse l est générée, ce qui équivaut à la concaténation de tous les points fixes consécutifs.
Chaque séquence générée le long de la trajectoire est comptée comme une saisie de données.
Il est important de noter ici que pour les réponses longues contenant des jetons N(N ≫ n), cette troncature évite une évaluation lente du modèle sur des entrées longues. (2) Formation utilisant la cohérence et la perte AR : L'auteur optimise conjointement deux pertes pour ajuster les CLLM. La perte de cohérence garantit que plusieurs jetons sont prédits en même temps, tandis que la perte AR empêche le CLLM de s'écarter du LLM cible vers. maintenir la qualité de la génération.
Figure 4 : Diagramme schématique d'un entraînement à la cohérence de convergence en une étape : ajustement du LLM cible pour toujours prédire le point fixe lorsqu'un état sur la trajectoire de Jacobi est pris en entrée.
Perte de cohérence et AR :
(1) Perte de cohérence Soit
p
représente le LLM cible. Soit représenté comme un CLLM avec des paramètres
θ initialisés à p. Pour l'invite x et la trajectoire Jacobi correspondante
J, soit y et y* représentent respectivement des états aléatoires et des points fixes sur la trajectoire. peut être invité à afficher y lorsque l'entrée est
y* en minimisant la perte suivante, appelée perte de cohérence globale (GC) : L'auteur utilise largement des symboles pour représenter un échantillonnage uniforme de l'ensemble de données. D(·||·) représente la distance entre deux distributions, et le choix est discuté dans la méthode GKD. Dans cet article, le KL direct est principalement utilisé. Vous pouvez également utiliser la perte de cohérence locale (LC) selon la formule du modèle de cohérence. où les états adjacents : (2) Perte AR : Pour éviter de s'écarter de la distribution du LLM cible, le l'auteur combine la distribution basée sur la perte AR traditionnelle pour la génération l du LLM cible p : En combinant les deux pertes ensemble, en utilisant quelques poids ω, la perte totale pour l'entraînement le CLLM est : Expérience Résultats : Dans l'ensemble, cette expérience couvre trois tâches spécifiques au domaine : (1) Spider (Text to SQL) (2) Human-Eval (achèvement du code Python) et GSM8k (mathématiques) (3) Défi de session de domaine ouvert plus large MT-bench. Les expériences rapportées utilisent l'encodeur affiné LLM, Deepseek-coder-7B-instruct, LLaMA-2-7B ou ABEL-7B-001 comme modèle cible, en fonction de la tâche. La formation et l'évaluation sont effectuées sur le serveur NVIDIA A100 40 Go. Figure 5 : Effet d'accélération du CLLM sur différentes tâches en aval. Les résultats montrent : "CLLM est beaucoup plus rapide que le modèle pré-entraîné et atteint une accélération comparable à celle de Medusa, mais sans frais supplémentaires lors de l'inférence." de benchmarks sur des tâches de domaine spécifiques (Spider, CSN-Python, GSM8k) et MT-bench. CLLM atteint des accélérations similaires, voire meilleures, par rapport à Medusa2 tout en n'introduisant aucun coût d'inférence supplémentaire (à en juger par les FLOPS et la consommation de mémoire). À partir de la figure 5, nous pouvons voir que les CLLM atteignent l'accélération la plus significative par rapport à d'autres lignes de base, y compris le modèle cible d'origine, Medusa2 et le décodage des suppositions. Open Domain Session Challenge (MT-bench) : CLLM formé à partir de LLaMA2-7B à l'aide de l'ensemble de données ShareGPT, lorsqu'il est combiné avec le décodage anticipé, atteint à peu près la même accélération que Medusa2 et obtient de meilleures performances sur MT. Obtenez des scores comparables sur -banc. Coût de la formation : N = montant moyen de la trajectoire de chaque invite × longueur moyenne de la trajectoire × nombre d'invites. Figure 7 : Comparaison de trajectoire Jacobi entre la cible LLM et CLLM sur Spider. Chaque point de la trajectoire Jacobi est une séquence codée par couleur : les correspondances correctes avec les résultats AR sont marquées en bleu, les correspondances inexactes sont marquées en rouge. CLLM présente une efficacité améliorée, convergeant vers le point fixe 2 fois plus rapidement que le LLM cible. Cette efficacité accrue de CLLM peut être attribuée à la perte de cohérence, qui facilite l'apprentissage de la structure de la séquence de n jetons pour chaque préfixe donné. Le côté gauche de la figure 6 montre que le LLM cible ne génère généralement qu'un seul jeton correct en une seule itération. En revanche, dans les CLLM, les auteurs ont découvert un phénomène d’avancement rapide, dans lequel plusieurs jetons consécutifs sont correctement prédits en une seule itération de Jacobi. De plus, dans le LLM cible, les jetons correctement générés à l'avance (tels que « pays » et « H » aux index 6 et 7 sur le côté gauche de la figure 7) sont souvent remplacés de manière inexacte dans les itérations suivantes. D'autre part, les CLLM ont montré leur capacité à prédire le bon jeton, garantissant que le jeton reste inchangé même en présence d'un précédent jeton incorrect. L'auteur appelle un tel jeton un « jeton fixe ». Ces deux phénomènes contribuent ensemble à la convergence rapide des CLLM dans le décodage Jacobi, permettant ainsi des améliorations considérables de la vitesse de génération. L'équipe de recherche a également observé que grâce à la formation, les CLLM ont acquis un concept linguistique clé : la collocation : « une séquence de mots ou de termes qui apparaissent ensemble plus fréquemment que prévu par hasard. Le langage n'est pas seulement composé d'isolement de mots. » , mais s'appuie également fortement sur des paires de mots spécifiques. Les exemples de collocations sont abondants dans les langages naturels et de programmation. Ils comprennent : Combinaisons verbe + préposition (par exemple, "parler à", "rappeler... de...") Structures verbe + nom (par exemple "prendre une décision", "attraper un cold") De nombreuses structures syntaxiques spécifiques au domaine (telles que "SELECT ... FROM ...", "if ... else" pour la programmation). L'objectif de génération de cohérence permet aux CLLM de déduire de telles structures à partir de n'importe quel point de la trajectoire de Jacobi, permettant ainsi aux CLLM de maîtriser un grand nombre de collocations et ainsi de prédire plusieurs mots simultanément pour minimiser les étapes d'itération. Lien de référence : https://hao-ai-lab.github.io/blogs/cllm/Dans cette formule,
Dans la trajectoire de Jacobi J , sont amenés à produire le même résultat :
Domaine d'expertise :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

Le 21 août, la Conférence mondiale sur les robots 2024 s'est tenue en grande pompe à Pékin. La marque de robots domestiques de SenseTime, "Yuanluobot SenseRobot", a dévoilé toute sa famille de produits et a récemment lancé le robot de jeu d'échecs Yuanluobot AI - Chess Professional Edition (ci-après dénommé "Yuanluobot SenseRobot"), devenant ainsi le premier robot d'échecs au monde pour le maison. En tant que troisième produit robot jouant aux échecs de Yuanluobo, le nouveau robot Guoxiang a subi un grand nombre de mises à niveau techniques spéciales et d'innovations en matière d'IA et de machines d'ingénierie. Pour la première fois, il a réalisé la capacité de ramasser des pièces d'échecs en trois dimensions. grâce à des griffes mécaniques sur un robot domestique et effectuer des fonctions homme-machine telles que jouer aux échecs, tout le monde joue aux échecs, réviser la notation, etc.

La rentrée scolaire est sur le point de commencer, et ce ne sont pas seulement les étudiants qui sont sur le point de commencer le nouveau semestre qui doivent prendre soin d’eux-mêmes, mais aussi les grands modèles d’IA. Il y a quelque temps, Reddit était rempli d'internautes se plaignant de la paresse de Claude. « Son niveau a beaucoup baissé, il fait souvent des pauses et même la sortie devient très courte. Au cours de la première semaine de sortie, il pouvait traduire un document complet de 4 pages à la fois, mais maintenant il ne peut même plus produire une demi-page. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dans un post intitulé "Totalement déçu par Claude", plein de

Lors de la World Robot Conference qui se tient à Pékin, l'exposition de robots humanoïdes est devenue le centre absolu de la scène. Sur le stand Stardust Intelligent, l'assistant robot IA S1 a réalisé trois performances majeures de dulcimer, d'arts martiaux et de calligraphie. un espace d'exposition, capable à la fois d'arts littéraires et martiaux, a attiré un grand nombre de publics professionnels et de médias. Le jeu élégant sur les cordes élastiques permet au S1 de démontrer un fonctionnement fin et un contrôle absolu avec vitesse, force et précision. CCTV News a réalisé un reportage spécial sur l'apprentissage par imitation et le contrôle intelligent derrière "Calligraphy". Le fondateur de la société, Lai Jie, a expliqué que derrière les mouvements soyeux, le côté matériel recherche le meilleur contrôle de la force et les indicateurs corporels les plus humains (vitesse, charge). etc.), mais du côté de l'IA, les données réelles de mouvement des personnes sont collectées, permettant au robot de devenir plus fort lorsqu'il rencontre une situation forte et d'apprendre à évoluer rapidement. Et agile

Les contributeurs ont beaucoup gagné de cette conférence ACL. L'ACL2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande. ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL s'est toujours classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A. La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, il y a 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards. La conférence a également décerné 3 Resource Paper Awards (ResourceAward) et Social Impact Award (

Intégration profonde de la vision et de l'apprentissage des robots. Lorsque deux mains de robot travaillent ensemble en douceur pour plier des vêtements, verser du thé et emballer des chaussures, associées au robot humanoïde 1X NEO qui a fait la une des journaux récemment, vous pouvez avoir le sentiment : nous semblons entrer dans l'ère des robots. En fait, ces mouvements soyeux sont le produit d’une technologie robotique avancée + d’une conception de cadre exquise + de grands modèles multimodaux. Nous savons que les robots utiles nécessitent souvent des interactions complexes et exquises avec l’environnement, et que l’environnement peut être représenté comme des contraintes dans les domaines spatial et temporel. Par exemple, si vous souhaitez qu'un robot verse du thé, le robot doit d'abord saisir la poignée de la théière et la maintenir verticalement sans renverser le thé, puis la déplacer doucement jusqu'à ce que l'embouchure de la théière soit alignée avec l'embouchure de la tasse. , puis inclinez la théière selon un certain angle. ce

Introduction à la conférence Avec le développement rapide de la science et de la technologie, l'intelligence artificielle est devenue une force importante dans la promotion du progrès social. À notre époque, nous avons la chance d’être témoins et de participer à l’innovation et à l’application de l’intelligence artificielle distribuée (DAI). L’intelligence artificielle distribuée est une branche importante du domaine de l’intelligence artificielle, qui a attiré de plus en plus d’attention ces dernières années. Les agents basés sur de grands modèles de langage (LLM) ont soudainement émergé. En combinant les puissantes capacités de compréhension du langage et de génération des grands modèles, ils ont montré un grand potentiel en matière d'interaction en langage naturel, de raisonnement par connaissances, de planification de tâches, etc. AIAgent reprend le grand modèle de langage et est devenu un sujet brûlant dans le cercle actuel de l'IA. Au

Cet après-midi, Hongmeng Zhixing a officiellement accueilli de nouvelles marques et de nouvelles voitures. Le 6 août, Huawei a organisé la conférence de lancement de nouveaux produits Hongmeng Smart Xingxing S9 et Huawei, réunissant la berline phare intelligente panoramique Xiangjie S9, le nouveau M7Pro et Huawei novaFlip, MatePad Pro 12,2 pouces, le nouveau MatePad Air, Huawei Bisheng With de nombreux nouveaux produits intelligents tous scénarios, notamment la série d'imprimantes laser X1, FreeBuds6i, WATCHFIT3 et l'écran intelligent S5Pro, des voyages intelligents, du bureau intelligent aux vêtements intelligents, Huawei continue de construire un écosystème intelligent complet pour offrir aux consommateurs une expérience intelligente du Internet de tout. Hongmeng Zhixing : Autonomisation approfondie pour promouvoir la modernisation de l'industrie automobile intelligente Huawei s'associe à ses partenaires de l'industrie automobile chinoise pour fournir
