Les étudiants de la classe Tsinghua Yao ont publié deux ouvrages consécutifs, la plus grande amélioration en dix ans : la multiplication matricielle est proche de l'optimum théorique-IA-php.cn

Maison

Les étudiants de la classe Tsinghua Yao ont publié deux ouvrages consécutifs, la plus grande amélioration en dix ans : la multiplication matricielle est proche de l'optimum théorique

王林

Mar 08, 2024 pm 09:52 PM

工程 Magazine quantique

En éliminant les « inefficacités cachées », les informaticiens ont mis au point une nouvelle façon de multiplier de grandes matrices plus rapidement que jamais.

En tant qu'opération de base de nombreux opérateurs GPU, la multiplication matricielle joue un rôle important dans le calcul haute performance et est également un élément clé d'applications telles que l'IA. Bien que l’algorithme lui-même soit relativement simple, des efforts ont été déployés pour l’optimiser au fil des années afin d’atteindre des vitesses plus élevées. Cependant, le degré d'optimisation a été quelque peu limité.

Dans le dernier numéro de Quantum Magazine, nous avons trouvé deux articles qui peuvent accélérer la multiplication matricielle. Un étudiant de premier cycle de la classe Yao de l'Université Tsinghua a participé activement à la rédaction de ces deux articles, ce qui a ouvert de nouvelles perspectives d'amélioration des algorithmes dans ce domaine.

Les étudiants de la classe Tsinghua Yao ont publié deux ouvrages consécutifs, la plus grande amélioration en dix ans : la multiplication matricielle est proche de loptimum théorique

Une nouvelle "singularité" apparaît dans l'amélioration de la multiplication matricielle

Les informaticiens sont un groupe de personnes très exigeants. Leur objectif n’est pas seulement de résoudre des problèmes, mais également d’atteindre leurs objectifs de la manière la plus efficace possible.

Prenons l'exemple de la multiplication de matrices ou de tableaux de nombres. En 1812, le mathématicien français Jacques Philippe Marie Binet a proposé un ensemble de règles de base qui sont encore enseignées aux étudiants aujourd'hui. Cet ensemble de règles est largement utilisé, mais ces dernières années, certains mathématiciens ont découvert des moyens de simplifier et d'accélérer le processus. Mathématicien français Jacques Philippe Marie Binet.

Actuellement, l'accélération du processus de multiplication matricielle est devenue une intersection des mathématiques et de l'informatique. Les chercheurs ont travaillé pour améliorer ce processus, même si les progrès ont été limités au cours des dernières décennies. François Le Gall, informaticien à l'université de Nagoya, souligne que les améliorations numériques de la multiplication matricielle sont lentes et insaisissables depuis 1987. Il estime que dans les circonstances actuelles, améliorer encore l'efficacité de la multiplication matricielle se heurte à d'énormes défis et nécessite davantage d'innovation et de percées. Malgré les difficultés, les scientifiques continuent de travailler sans relâche pour rechercher des percées, dans l'espoir de trouver de nouvelles méthodes et techniques pour améliorer la vitesse de calcul et l'efficacité de la multiplication matricielle. Cela montre que l'optimisation de la multiplication matricielle est toujours un sujet difficile et nécessite les efforts collectifs de

Ran Duan et Renfei Zhou de l'Université Tsinghua et de Hongxun Wu de l'Université de Californie à Berkeley pour résoudre ce problème de longue date. réalisés, et les résultats de leurs recherches sont présentés en détail dans un article de 87 pages. Le Gall a fait l'éloge du travail de ces trois chercheurs. Il estime que, même si l'amélioration est relativement faible, il s'agit d'une avancée conceptuelle sans précédent. Cet article a été accepté par FOCS 2023, la plus grande conférence dans le domaine de l'informatique.

Paper v1 sortira en octobre 2022, la v5 en novembre 2023. Adresse de l'article : https://arxiv.org/abs/2210.10173

Parmi eux, Duan Ran est professeur agrégé à l'Institut d'information croisée de l'Université Tsinghua. Ses principaux domaines de recherche sont les algorithmes de théorie des graphes, les structures de données et l'informatique. théorie. Hongxun Wu est doctorant en deuxième année à l'Université de Californie à Berkeley et diplômé de la classe Yao de l'Université Tsinghua.

Zhou Renfei est un étudiant de premier cycle de la classe Yao de 2020 à l'Université Tsinghua, avec spécialisation en informatique théorique (TCS). Il travaille principalement sur les structures de données (concises) et la multiplication matricielle rapide, et s'intéresse largement à d'autres domaines du TCS tels que les algorithmes de streaming, la théorie des jeux et les algorithmes en ligne. Les étudiants de la classe Tsinghua Yao ont publié deux ouvrages consécutifs, la plus grande amélioration en dix ans : la multiplication matricielle est proche de loptimum théorique

Auparavant, Zhou Renfei a publié de nombreux articles à FOCS/SODA, la plus grande conférence théorique en informatique.

L'article de trois chercheurs révèle des sources potentielles d'amélioration jusqu'alors inconnues et inexploitées qui portent déjà leurs fruits. Un deuxième article publié en janvier 2024 (également co-écrit par Renfei Zhou) s'appuie sur ce point et montre comment la multiplication matricielle peut être encore améliorée.

Adresse papier : https://epubs.siam.org/doi/10.1137/1.9781611977912.134

William Kuszmaul, informaticien théoricien à l'Université Harvard, a déclaré qu'il s'agissait d'une avancée technologique majeure, plus de dix La plus grande amélioration que nous ayons vue depuis des années pour la multiplication matricielle.

Quel problème devrait être amélioré dans la multiplication matricielle

La multiplication matricielle peut sembler un problème obscur, mais il s'agit d'une opération informatique de base. Il est intégré à la plupart des algorithmes que les gens utilisent quotidiennement pour diverses tâches, depuis l'affichage d'infographies plus claires jusqu'à la résolution de problèmes logistiques dans la théorie des réseaux. Tout comme dans d’autres domaines de l’informatique, la vitesse est essentielle. Même de petites améliorations pourraient à terme réduire considérablement le temps, la puissance de calcul et l’argent nécessaires. Mais pour l’instant, les théoriciens s’intéressent principalement à la rapidité avec laquelle le processus peut se dérouler.

La méthode traditionnelle de multiplication de deux matrices n×n, c'est-à-dire multiplier les nombres de chaque ligne de la première matrice par les nombres de chaque colonne de la deuxième matrice, nécessite n³ opérations de multiplication indépendantes. Pour une matrice 2 par 2, cela signifie 2³, soit 8 multiplications.

En 1969, le mathématicien Volker Strassen a découvert une méthode plus élégante permettant de réaliser la multiplication de matrices 2×2 en seulement 7 étapes de multiplication et 18 étapes d'addition. Deux ans plus tard, l’informaticien Shmuel Winograd démontrait que la multiplication en 7 étapes était bien le minimum absolu pour une matrice 2×2.

Strassen a utilisé la même idée pour montrer que toutes les matrices n×n plus grandes peuvent également être multipliées en moins de n3 étapes. Un élément clé de cette stratégie implique une procédure appelée décomposition : décomposer une grande matrice en sous-matrices plus petites, qui peuvent finir par être aussi petites que 2×2 ou même 1×1 (juste un seul nombre).

La raison pour laquelle on divise des tableaux géants en petits morceaux est assez simple, Virginia Vassilevska Williams, informaticienne au MIT, a déclaré : « Pour une grande matrice (comme une matrice 100×100), il est difficile pour les humains d'y penser. le meilleur algorithme. » Même la matrice 3 par 3 n’est pas encore complètement résolue. "Cependant, on peut utiliser des algorithmes rapides développés pour de petites matrices pour obtenir des algorithmes rapides pour des matrices plus grandes."

Les chercheurs ont déterminé que la clé de la vitesse est de réduire le nombre d'étapes de multiplication, en déplaçant autant l'exposant de n3. autant que possible (méthode traditionnelle) réduire. La valeur n² la plus basse possible correspond essentiellement au temps nécessaire pour rédiger la réponse. Les informaticiens appellent cet exposant Ω, ou ω. nω est le nombre minimum d'étapes nécessaires pour réussir à multiplier deux matrices n×n à mesure que n grandit. Zhou Renfei, qui est également co-auteur de l'article de janvier 2024, a déclaré : « L'objectif de ce travail est de voir à quel point vous pouvez vous rapprocher de 2 et si cela peut être atteint théoriquement

Méthode laser

. »

En 1986, Strassen a obtenu une autre avancée majeure lorsqu'il a introduit la méthode laser de multiplication matricielle. Strassen a utilisé cela pour déterminer une valeur limite supérieure pour ω de 2,48. Bien que la méthode ne soit qu’une étape dans la multiplication matricielle à grande échelle, elle est l’une des plus importantes car les chercheurs l’améliorent constamment.

Un an plus tard, Winograd et Don Coppersmith introduisent un nouvel algorithme qui complète parfaitement la méthode laser. Cette combinaison d’outils a été utilisée dans presque toutes les recherches ultérieures sur l’accélération de la multiplication matricielle.

Voici une manière simplifiée de voir comment ces différents éléments s’articulent. Commençons par deux grandes matrices A et B et multiplions-les. Tout d’abord, vous les divisez en plusieurs sous-matrices plus petites, parfois appelées blocs. Ensuite, vous pouvez utiliser les algorithmes de Coppersmith et Winograd comme guide pour le traitement et finalement l'assemblage de ces blocs. "Cela me dit quoi multiplier, quoi ajouter et quels éléments se trouvent à quel endroit dans la matrice du produit C", a déclaré Vassilevska Williams. "C'est juste une" recette "pour construire C à partir de A et B."

Cependant, il y a un problème : parfois vous obtenez des blocs avec des éléments communs. Conserver ces éléments communs équivaudrait à compter ces éléments deux fois, donc à un moment donné, ces chevauchements doivent être éliminés. Les chercheurs ont résolu ce problème en « tuant » les blocs dans lesquels ils se trouvaient – en mettant leurs composants à zéro pour les supprimer du calcul. # Virginia Vassilevska Williams fait partie des membres de l'équipe qui ont amélioré la nouvelle méthode de multiplication matricielle, et elle est venue avec la méthode la plus rapide actuellement.

C’est là que la méthode laser de Strassen entre enfin en jeu. "La méthode laser est généralement très efficace et permet souvent d'éliminer les sous-blocs qui se chevauchent", a déclaré Le Gall. Une fois que le laser a éliminé tout chevauchement, vous pouvez construire la matrice de produit final C.

La combinaison de ces différentes techniques aboutit à un algorithme qui multiplie deux matrices avec le moins de multiplications totales possible, du moins en théorie. La méthode laser n’est pas destinée à des applications pratiques ; c’est simplement une façon idéale de penser la multiplication matricielle. Zhou Renfei a déclaré : « Nous n'avons jamais appliqué cette méthode sur un ordinateur, nous l'analysons. » C'est cette analyse qui a contribué à la plus grande amélioration de ω depuis plus de dix ans.

La « perte cachée » découverte

Dans le premier article « Multiplication matricielle plus rapide via un hachage asymétrique » de Duan Ran, Zhou Renfei et Hongxun Wu, ils ont montré que le processus de l'algorithme de Strassen peut être considérablement accéléré. Tout cela est dû à un concept qu’ils appellent « perte cachée ». Zhou Renfei a déclaré que le concept était profondément caché dans l'analyse précédente et était le résultat de l'élimination par inadvertance d'un trop grand nombre de blocs.

La méthode laser fonctionne en marquant les blocs qui se chevauchent comme des déchets et en planifiant leur traitement, tandis que les autres blocs sont considérés comme précieux et seront sauvegardés. Cependant, le processus de sélection est quelque peu aléatoire. En fait, les blocs marqués comme étant des déchets peuvent finir par être utiles.

Ce n’est pas tout à fait surprenant, mais en examinant de nombreuses sélections aléatoires, l’équipe de Duan Ran a déterminé que la méthode laser sous-estime systématiquement la valeur des blocs, donc plus de blocs devraient être conservés et moins jetés. Et comme c’est souvent le cas, moins de gaspillage se traduit par une plus grande efficacité.

Concernant l'approche de l'équipe de Duan Ran, Le Gall estime que « plus de blocs peuvent être conservés sans se chevaucher.

Après avoir prouvé l'existence de cette perte, l'équipe de Duan Ran a modifié la façon dont le laser. La méthode marque les blocs, réduisant considérablement les déchets. Ils ont fixé un nouveau plafond sur ω autour de 2,371866, ce qui représente une amélioration par rapport au plafond de 2,3728596 fixé par Josh Alman et Vassilevska Williams en 2020.

Cela peut sembler un petit changement,

abaisser la limite supérieure d'environ 0,001, mais c'est la plus grande amélioration que les scientifiques aient vue depuis 2010

. En comparaison, les résultats de Vassilevska Williams et Alman en 2020 ne se sont améliorés que de 0,00001 par rapport à leurs résultats précédents.

Bien sûr, la chose la plus excitante pour les chercheurs n'était pas seulement le nouveau record lui-même, qui n'a pas duré longtemps. En fait, cet article révèle une nouvelle piste d’amélioration qui était auparavant complètement inaperçue.

Selon Le Gall, tout le monde s'appuie sur la même méthode laser depuis près de quatre décennies. Avec l’émergence des articles de trois chercheurs, dont Duan Ran, nous pouvons faire mieux.

Par conséquent, l'article de janvier 2024 co-écrit par Zhou Renfei a amélioré cette nouvelle méthode et réduit encore les pertes cachées. Ils ont encore augmenté la limite supérieure de ω, la ramenant à 2,371552

Les chercheurs ont également utilisé la même méthode pour améliorer le processus de multiplication de matrices rectangulaires (n × m), largement utilisé dans la théorie des graphes, l'apprentissage automatique et d'autres domaines. Les étudiants de la classe Tsinghua Yao ont publié deux ouvrages consécutifs, la plus grande amélioration en dix ans : la multiplication matricielle est proche de loptimum théorique

Des progrès supplémentaires dans ce sens sont presque certains, mais il y a des limites. En 2015, Le Gall et deux co-auteurs ont montré que la méthode actuelle, à savoir la méthode laser, couplée à la méthode de Coppersmith et Winograd, ne permettait pas d'obtenir ω inférieur à 2,3078.

Le Gall a déclaré : « Si vous voulez vous améliorer encore, vous devez améliorer la méthode originale de Coppersmith et Winograd, qui n'a pas vraiment changé depuis 1987. Mais jusqu'à présent, personne ne l'a proposé de meilleure manière. Peut-être pas du tout.

Zhou Renfei a déclaré : « Améliorer ω fait en fait partie de la compréhension de ce problème. Si nous pouvons bien comprendre ce problème, nous pouvons concevoir de meilleurs algorithmes. Cependant, la compréhension des gens de cet ancien problème est encore à un niveau très rudimentaire. 》

Lien original :

https://www.quantamagazine.org/new-breakthrough-brings-matrix-multiplication-closer-to-ideal-20240307/

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7467

Tutoriel CakePHP

1376

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours Jul 17, 2024 am 01:56 AM

Il s'agit également d'une vidéo Tusheng, mais PaintsUndo a emprunté une voie différente. L'auteur de ControlNet, LvminZhang, a recommencé à vivre ! Cette fois, je vise le domaine de la peinture. Le nouveau projet PaintsUndo a reçu 1,4kstar (toujours en hausse folle) peu de temps après son lancement. Adresse du projet : https://github.com/lllyasviel/Paints-UNDO Grâce à ce projet, l'utilisateur saisit une image statique et PaintsUndo peut automatiquement vous aider à générer une vidéo de l'ensemble du processus de peinture, du brouillon de ligne au suivi du produit fini. . Pendant le processus de dessin, les changements de lignes sont étonnants. Le résultat vidéo final est très similaire à l’image originale : jetons un coup d’œil à un dessin complet.

Du RLHF au DPO en passant par TDPO, les algorithmes d'alignement des grands modèles sont déjà « au niveau des jetons » Jun 24, 2024 pm 03:04 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Dans le processus de développement de l'intelligence artificielle, le contrôle et le guidage des grands modèles de langage (LLM) ont toujours été l'un des principaux défis, visant à garantir que ces modèles sont à la fois puissant et sûr au service de la société humaine. Les premiers efforts se sont concentrés sur les méthodes d’apprentissage par renforcement par feedback humain (RL

En tête de liste des ingénieurs logiciels d'IA open source, la solution sans agent de l'UIUC résout facilement les problèmes de programmation réels du banc SWE. Jul 17, 2024 pm 10:02 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Les auteurs de cet article font tous partie de l'équipe de l'enseignant Zhang Lingming de l'Université de l'Illinois à Urbana-Champaign (UIUC), notamment : Steven Code repair ; doctorant en quatrième année, chercheur

Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Jul 19, 2024 am 01:29 AM

Si la réponse donnée par le modèle d’IA est incompréhensible du tout, oseriez-vous l’utiliser ? À mesure que les systèmes d’apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats, et quand ne pas leur faire confiance. Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger que le système produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire entièrement compréhensible au point que toute erreur possible puisse être trouvé. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions. Pour les grands modèles de langage, nous pouvons également adopter une approche similaire. Cependant, lorsque vous adoptez cette approche, assurez-vous que le modèle de langage génère

La formation Axiom permet au LLM d'apprendre le raisonnement causal : le modèle à 67 millions de paramètres est comparable au niveau de mille milliards de paramètres GPT-4. Jul 17, 2024 am 10:14 AM

Montrez la chaîne causale à LLM et il pourra apprendre les axiomes. L'IA aide déjà les mathématiciens et les scientifiques à mener des recherches. Par exemple, le célèbre mathématicien Terence Tao a partagé à plusieurs reprises son expérience de recherche et d'exploration à l'aide d'outils d'IA tels que GPT. Pour que l’IA soit compétitive dans ces domaines, des capacités de raisonnement causal solides et fiables sont essentielles. La recherche présentée dans cet article a révélé qu'un modèle Transformer formé sur la démonstration de l'axiome de transitivité causale sur de petits graphes peut se généraliser à l'axiome de transitivité sur de grands graphes. En d’autres termes, si le Transformateur apprend à effectuer un raisonnement causal simple, il peut être utilisé pour un raisonnement causal plus complexe. Le cadre de formation axiomatique proposé par l'équipe est un nouveau paradigme pour l'apprentissage du raisonnement causal basé sur des données passives, avec uniquement des démonstrations.

Les articles arXiv peuvent être publiés sous forme de 'barrage', la plateforme de discussion alphaXiv de Stanford est en ligne, LeCun l'aime Aug 01, 2024 pm 05:18 PM

acclamations! Qu’est-ce que ça fait lorsqu’une discussion sur papier se résume à des mots ? Récemment, des étudiants de l'Université de Stanford ont créé alphaXiv, un forum de discussion ouvert pour les articles arXiv qui permet de publier des questions et des commentaires directement sur n'importe quel article arXiv. Lien du site Web : https://alphaxiv.org/ En fait, il n'est pas nécessaire de visiter spécifiquement ce site Web. Il suffit de remplacer arXiv dans n'importe quelle URL par alphaXiv pour ouvrir directement l'article correspondant sur le forum alphaXiv : vous pouvez localiser avec précision les paragraphes dans. l'article, Phrase : dans la zone de discussion sur la droite, les utilisateurs peuvent poser des questions à l'auteur sur les idées et les détails de l'article. Par exemple, ils peuvent également commenter le contenu de l'article, tels que : "Donné à".

Une avancée significative dans l'hypothèse de Riemann ! Tao Zhexuan recommande fortement les nouveaux articles du MIT et d'Oxford, et le lauréat de la médaille Fields, âgé de 37 ans, a participé Aug 05, 2024 pm 03:32 PM

Récemment, l’hypothèse de Riemann, connue comme l’un des sept problèmes majeurs du millénaire, a réalisé une nouvelle avancée. L'hypothèse de Riemann est un problème mathématique non résolu très important, lié aux propriétés précises de la distribution des nombres premiers (les nombres premiers sont les nombres qui ne sont divisibles que par 1 et par eux-mêmes, et jouent un rôle fondamental dans la théorie des nombres). Dans la littérature mathématique actuelle, il existe plus d'un millier de propositions mathématiques basées sur l'établissement de l'hypothèse de Riemann (ou sa forme généralisée). En d’autres termes, une fois que l’hypothèse de Riemann et sa forme généralisée seront prouvées, ces plus d’un millier de propositions seront établies sous forme de théorèmes, qui auront un impact profond sur le domaine des mathématiques et si l’hypothèse de Riemann s’avère fausse, alors parmi eux ; ces propositions qui en font partie perdront également de leur efficacité. Une nouvelle percée vient du professeur de mathématiques du MIT, Larry Guth, et de l'Université d'Oxford

Génération vidéo illimitée, planification et prise de décision, diffusion, intégration forcée de la prédiction du prochain jeton et diffusion de la séquence complète Jul 23, 2024 pm 02:05 PM

Actuellement, les modèles linguistiques autorégressifs à grande échelle utilisant le prochain paradigme de prédiction de jetons sont devenus populaires partout dans le monde. Dans le même temps, un grand nombre d'images et de vidéos synthétiques sur Internet nous ont déjà montré la puissance des modèles de diffusion. Récemment, une équipe de recherche de MITCSAIL (dont Chen Boyuan, doctorant au MIT) a intégré avec succès les puissantes capacités du modèle de diffusion en séquence complète et du prochain modèle de jeton, et a proposé un paradigme de formation et d'échantillonnage : le forçage de diffusion (DF ). Titre de l'article : DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion Adresse de l'article : https://

See all articles