NeurIPS23 | « Brain Reading » décode l'activité cérébrale et reconstruit le monde visuel-IA-php.cn

Maison

Périphériques technologiques

NeurIPS23 | « Brain Reading » décode l'activité cérébrale et reconstruit le monde visuel

PHPz

Jan 10, 2024 pm 02:54 PM

工程

Dans cet article NeurIPS23, des chercheurs de l'Université de Louvain, de l'Université nationale de Singapour et de l'Institut d'automatisation de l'Académie chinoise des sciences ont proposé une « technologie de lecture cérébrale » visuelle capable d'analyser l'activité cérébrale humaine à haute résolution. image que vous voyez de vos propres yeux.

Dans le domaine des neurosciences cognitives, les gens se rendent compte que la perception humaine n'est pas seulement affectée par des stimuli objectifs, mais aussi profondément affectée par les expériences passées. Ces facteurs agissent ensemble pour créer une activité complexe dans le cerveau. Par conséquent, décoder les informations visuelles issues de l’activité cérébrale devient une tâche importante. Parmi eux, l'imagerie par résonance magnétique fonctionnelle (IRMf), en tant que technologie non invasive efficace, joue un rôle clé dans la récupération et l'analyse des informations visuelles, en particulier les catégories d'images, en raison des caractéristiques de bruit des signaux IRMf et de la vision cérébrale. complexité de la représentation, cette tâche se heurte à des défis considérables. Pour résoudre ce problème, cet article propose un cadre d'apprentissage de la représentation IRMf en deux étapes, qui vise à identifier et à éliminer le bruit dans l'activité cérébrale, et se concentre sur l'analyse des modèles d'activation neuronale qui sont cruciaux pour la reconstruction visuelle, en reconstruisant avec succès des images de haut niveau du cerveau. activité. résolution et images sémantiquement précises.

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 Lien article : https://arxiv.org/abs/2305.17214

Lien projet : https://github.com/soinx0629/vis_dec_neurips/

La méthode proposée dans l'article est basée sur un double apprentissage contrastif , modèle croisé Le modèle de croisement et de diffusion des informations d'état a obtenu une amélioration de près de 40 % des indicateurs d'évaluation sur les ensembles de données IRMf pertinents par rapport aux meilleurs modèles précédents. La qualité, la lisibilité et la pertinence sémantique des images générées sont toutes supérieures aux méthodes existantes. Amélioration perceptible. Ce travail aide à comprendre le mécanisme de perception visuelle du cerveau humain et contribue à promouvoir la recherche sur la technologie d’interface visuelle cerveau-ordinateur. Les codes pertinents sont open source.

Bien que l'imagerie par résonance magnétique fonctionnelle (IRMf) soit largement utilisée pour analyser les réponses neuronales, la reconstruction précise des images visuelles à partir de ses données reste un défi, principalement parce que les données IRMf contiennent du bruit provenant de sources multiples, ce qui peut masquer les modèles d'activation neuronale. De plus, le processus de réponse neuronale déclenché par la stimulation visuelle est complexe et en plusieurs étapes, ce qui fait que le signal IRMf présente une superposition complexe non linéaire difficile à inverser et à décoder.

Les méthodes de décodage neuronal traditionnelles, telles que la régression des crêtes, bien qu'utilisées pour associer les signaux IRMf aux stimuli correspondants, ne parviennent souvent pas à capturer efficacement la relation non linéaire entre les stimuli et les réponses neuronales. Récemment, des techniques d'apprentissage profond, telles que les réseaux contradictoires génératifs (GAN) et les modèles de diffusion latente (LDM), ont été adoptées pour modéliser cette relation complexe avec plus de précision. Cependant, isoler l’activité cérébrale liée à la vision du bruit et la décoder avec précision reste l’un des principaux défis dans ce domaine.

Pour relever ces défis, ce travail propose un cadre d'apprentissage de la représentation IRMf en deux étapes, capable d'identifier et de supprimer efficacement le bruit dans les activités cérébrales et de se concentrer sur l'analyse des modèles d'activation neuronale qui sont essentiels à la reconstruction visuelle. Cette méthode génère des images haute résolution et sémantiquement précises avec une précision Top-1 de 39,34 % pour 50 catégories, dépassant la technologie de pointe existante.

Un aperçu de la méthode est une brève description d'une série d'étapes ou de processus. Il est utilisé pour expliquer comment atteindre un objectif spécifique ou accomplir une tâche spécifique. Le but d’un aperçu de la méthode est de fournir au lecteur ou à l’utilisateur une compréhension globale de l’ensemble du processus afin qu’il puisse mieux comprendre et suivre les étapes. Dans un aperçu de la méthode, vous incluez généralement la séquence d'étapes, le matériel ou les outils nécessaires, ainsi que les problèmes ou défis qui peuvent être rencontrés. En décrivant l'aperçu de la méthode de manière claire et concise, le lecteur ou l'utilisateur peut plus facilement comprendre et accomplir avec succès la tâche requise

Apprentissage de la représentation IRMf (FRL)

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 Phase 1 : Pré-entraîner l'encodeur automatique des masques à double contraste ( DC-MAE)

Afin de distinguer les modèles d'activité cérébrale partagée et le bruit individuel parmi différents groupes de personnes, cet article présente la technologie DC-MAE pour pré-entraîner les représentations IRMf à l'aide de données non étiquetées. DC-MAE se compose d'un encodeur NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 et d'un décodeur , où NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel prend le signal IRMf masqué en entrée et est entraîné pour prédire le signal IRMf non masqué. Ce que l'on appelle le « double contraste » signifie que le modèle optimise la perte de contraste dans l'apprentissage de la représentation IRMf et participe à deux processus de contraste différents.

Dans la première étape de l'apprentissage contrastif, les échantillons NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 de chaque lot contenant n échantillons IRMf v sont masqués au hasard deux fois, générant deux versions masquées différentes et sous forme de paires d'échantillons positifs à des fins de comparaison. Par la suite, les couches convolutionnelles 1D convertissent ces deux versions en représentations intégrées, qui sont respectivement introduites dans l'encodeur fMRI NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel . Le décodeur reçoit ces représentations latentes codées et produit des prédictions NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 et . Optimisez le modèle grâce à la première perte de contraste calculée par la fonction de perte InfoNCE, c'est-à-dire la perte de contraste croisé :

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

Dans la deuxième étape de l'apprentissage contrastif, chaque image originale non masquée NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 et son image masquée correspondante forment une paire d'échantillons positifs naturels. Le représente ici l'image prédite par le décodeur NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel . La deuxième perte de contraste, qui est la perte de contraste propre, est calculée selon la formule suivante :

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

Optimiser la perte de contraste propre NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 peut réaliser une reconstruction d'occlusion. Qu'il s'agisse de ou de NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel , l'échantillon négatif provient du même lot d'instances. et sont optimisés conjointement comme suit : NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 , où les hyperparamètres et sont utilisés pour ajuster le poids de chaque terme de perte.

Deuxième étape : réglage à l'aide d'un guidage intermodal

Étant donné le faible rapport signal/bruit et la nature hautement convolutionnelle des enregistrements IRMf, il est important que les apprenants des fonctionnalités IRMf se concentrent sur celles les plus pertinentes pour le traitement visuel Et il est crucial de reconstruire le schéma d’activation cérébrale le plus informatif

Après la première étape de pré-formation, l'auto-encodeur IRMf est ajusté avec l'assistance d'image pour réaliser la reconstruction IRMf, et la deuxième étape suit également ce processus. Plus précisément, un échantillon NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 et sa réponse neuronale correspondante enregistrée par IRMf sont sélectionnés parmi un lot de n échantillons. et NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel sont traités par blocage et masquage aléatoire, transformés respectivement en NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 et , puis entrés dans l'encodeur d'image et l'encodeur IRMf NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel respectivement pour générer et . Pour reconstruire l'IRMf, le module d'attention croisée permet de fusionner NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 et :

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

W et b représentent respectivement le poids et le biais de la couche linéaire correspondante. NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 est le facteur d'échelle et est la dimension du vecteur clé. CA est l'abréviation de attention croisée. Une fois ajouté à NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel , il est entré dans le décodeur IRMf pour reconstruire , et nous obtenons NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 :

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

Des calculs similaires sont également effectués dans l'auto-encodeur d'image, et la sortie NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel de l'encodeur d'image NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 est combinée avec le module d'attention croisée Les sorties de sont combinées puis utilisées pour décoder l'image NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel , donnant NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 :

Les auto-encodeurs IRMf et d'image sont entraînés conjointement en optimisant la fonction de perte suivante :

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

Lors de la génération d'images, un modèle de diffusion latente peut être utilisé (LDM)

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

Après avoir terminé les première et deuxième étapes de la formation FRL, utilisez l'encodeur de la fonctionnalité IRMf NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel pour piloter un modèle de diffusion latente (MLD) afin de générer des images à partir de l'activité cérébrale. Comme le montre la figure, le modèle de diffusion comprend un processus de diffusion directe et un processus de débruitage inverse. Le processus direct dégrade progressivement l'image en bruit gaussien normal en introduisant progressivement un bruit gaussien avec une variance variable.

Cette étude génère des images en extrayant des connaissances visuelles à partir d'un modèle de diffusion latente étiquette-image (LDM) pré-entraîné et en utilisant les données IRMf comme condition. Un mécanisme d’attention croisée est utilisé ici pour incorporer les informations IRMf dans le LDM, suite aux recommandations d’études de diffusion stable. Afin de renforcer le rôle de l’information conditionnelle, les méthodes d’attention croisée et de conditionnement par pas de temps sont utilisées ici. Dans la phase d'entraînement, l'encodeur VQGAN NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 et l'encodeur IRMf formés par les première et deuxième étapes de FRL NeurIPS23 | « Brain Reading » décode lactivité cérébrale et reconstruit le monde visuel sont utilisés pour traiter l'image u et fMRI v, et l'encodeur IRMf est affiné tout en gardant le LDM inchangé. la fonction est : NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

où, NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 est le schéma de bruit du modèle de diffusion. Dans la phase d'inférence, le processus commence avec un bruit gaussien standard au pas de temps T, et le LDM suit séquentiellement le processus inverse pour supprimer progressivement le bruit de la représentation cachée, en fonction des informations IRMf fournies. Lorsque le pas de temps zéro est atteint, la représentation cachée est convertie en image à l'aide du décodeur VQGAN NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 .

Expérience

Résultats de reconstruction

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

Par comparaison avec des études précédentes telles que DC-LDM, IC-GAN et SS-AE, et dans l'évaluation sur les ensembles de données GOD et BOLD5000, cette étude montre que Le modèle proposé surpasse considérablement ces modèles en termes de précision, avec une amélioration de 39,34 % et 66,7 % par rapport à DC-LDM et IC-GAN respectivement

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

L'évaluation sur quatre autres sujets de l'ensemble de données GOD montre, même lorsque DC-LDM est autorisé à être ajusté sur l'ensemble de tests, le modèle proposé dans cette étude est nettement meilleur que le DC-LDM dans la précision de classification Top-1 de 50 façons, prouvant que le modèle proposé est efficace dans différents sujets. Fiabilité et supériorité dans la reconstruction des sujets. ' activité cérébrale.

Les résultats de la recherche montrent que l'utilisation du cadre d'apprentissage de la représentation IRMf proposé et du LDM pré-entraîné peut mieux reconstruire l'activité visuelle du cerveau, dépassant de loin le niveau de base actuel. Ce travail permet d'explorer davantage le potentiel des modèles de décodage neuronal

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7467

Tutoriel CakePHP

1376

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours Jul 17, 2024 am 01:56 AM

Il s'agit également d'une vidéo Tusheng, mais PaintsUndo a emprunté une voie différente. L'auteur de ControlNet, LvminZhang, a recommencé à vivre ! Cette fois, je vise le domaine de la peinture. Le nouveau projet PaintsUndo a reçu 1,4kstar (toujours en hausse folle) peu de temps après son lancement. Adresse du projet : https://github.com/lllyasviel/Paints-UNDO Grâce à ce projet, l'utilisateur saisit une image statique et PaintsUndo peut automatiquement vous aider à générer une vidéo de l'ensemble du processus de peinture, du brouillon de ligne au suivi du produit fini. . Pendant le processus de dessin, les changements de lignes sont étonnants. Le résultat vidéo final est très similaire à l’image originale : jetons un coup d’œil à un dessin complet.

Du RLHF au DPO en passant par TDPO, les algorithmes d'alignement des grands modèles sont déjà « au niveau des jetons » Jun 24, 2024 pm 03:04 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Dans le processus de développement de l'intelligence artificielle, le contrôle et le guidage des grands modèles de langage (LLM) ont toujours été l'un des principaux défis, visant à garantir que ces modèles sont à la fois puissant et sûr au service de la société humaine. Les premiers efforts se sont concentrés sur les méthodes d’apprentissage par renforcement par feedback humain (RL

En tête de liste des ingénieurs logiciels d'IA open source, la solution sans agent de l'UIUC résout facilement les problèmes de programmation réels du banc SWE. Jul 17, 2024 pm 10:02 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Les auteurs de cet article font tous partie de l'équipe de l'enseignant Zhang Lingming de l'Université de l'Illinois à Urbana-Champaign (UIUC), notamment : Steven Code repair ; doctorant en quatrième année, chercheur

Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Jul 19, 2024 am 01:29 AM

Si la réponse donnée par le modèle d’IA est incompréhensible du tout, oseriez-vous l’utiliser ? À mesure que les systèmes d’apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats, et quand ne pas leur faire confiance. Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger que le système produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire entièrement compréhensible au point que toute erreur possible puisse être trouvé. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions. Pour les grands modèles de langage, nous pouvons également adopter une approche similaire. Cependant, lorsque vous adoptez cette approche, assurez-vous que le modèle de langage génère

La formation Axiom permet au LLM d'apprendre le raisonnement causal : le modèle à 67 millions de paramètres est comparable au niveau de mille milliards de paramètres GPT-4. Jul 17, 2024 am 10:14 AM

Montrez la chaîne causale à LLM et il pourra apprendre les axiomes. L'IA aide déjà les mathématiciens et les scientifiques à mener des recherches. Par exemple, le célèbre mathématicien Terence Tao a partagé à plusieurs reprises son expérience de recherche et d'exploration à l'aide d'outils d'IA tels que GPT. Pour que l’IA soit compétitive dans ces domaines, des capacités de raisonnement causal solides et fiables sont essentielles. La recherche présentée dans cet article a révélé qu'un modèle Transformer formé sur la démonstration de l'axiome de transitivité causale sur de petits graphes peut se généraliser à l'axiome de transitivité sur de grands graphes. En d’autres termes, si le Transformateur apprend à effectuer un raisonnement causal simple, il peut être utilisé pour un raisonnement causal plus complexe. Le cadre de formation axiomatique proposé par l'équipe est un nouveau paradigme pour l'apprentissage du raisonnement causal basé sur des données passives, avec uniquement des démonstrations.

Les articles arXiv peuvent être publiés sous forme de 'barrage', la plateforme de discussion alphaXiv de Stanford est en ligne, LeCun l'aime Aug 01, 2024 pm 05:18 PM

acclamations! Qu’est-ce que ça fait lorsqu’une discussion sur papier se résume à des mots ? Récemment, des étudiants de l'Université de Stanford ont créé alphaXiv, un forum de discussion ouvert pour les articles arXiv qui permet de publier des questions et des commentaires directement sur n'importe quel article arXiv. Lien du site Web : https://alphaxiv.org/ En fait, il n'est pas nécessaire de visiter spécifiquement ce site Web. Il suffit de remplacer arXiv dans n'importe quelle URL par alphaXiv pour ouvrir directement l'article correspondant sur le forum alphaXiv : vous pouvez localiser avec précision les paragraphes dans. l'article, Phrase : dans la zone de discussion sur la droite, les utilisateurs peuvent poser des questions à l'auteur sur les idées et les détails de l'article. Par exemple, ils peuvent également commenter le contenu de l'article, tels que : "Donné à".

Une avancée significative dans l'hypothèse de Riemann ! Tao Zhexuan recommande fortement les nouveaux articles du MIT et d'Oxford, et le lauréat de la médaille Fields, âgé de 37 ans, a participé Aug 05, 2024 pm 03:32 PM

Récemment, l’hypothèse de Riemann, connue comme l’un des sept problèmes majeurs du millénaire, a réalisé une nouvelle avancée. L'hypothèse de Riemann est un problème mathématique non résolu très important, lié aux propriétés précises de la distribution des nombres premiers (les nombres premiers sont les nombres qui ne sont divisibles que par 1 et par eux-mêmes, et jouent un rôle fondamental dans la théorie des nombres). Dans la littérature mathématique actuelle, il existe plus d'un millier de propositions mathématiques basées sur l'établissement de l'hypothèse de Riemann (ou sa forme généralisée). En d’autres termes, une fois que l’hypothèse de Riemann et sa forme généralisée seront prouvées, ces plus d’un millier de propositions seront établies sous forme de théorèmes, qui auront un impact profond sur le domaine des mathématiques et si l’hypothèse de Riemann s’avère fausse, alors parmi eux ; ces propositions qui en font partie perdront également de leur efficacité. Une nouvelle percée vient du professeur de mathématiques du MIT, Larry Guth, et de l'Université d'Oxford

Génération vidéo illimitée, planification et prise de décision, diffusion, intégration forcée de la prédiction du prochain jeton et diffusion de la séquence complète Jul 23, 2024 pm 02:05 PM

Actuellement, les modèles linguistiques autorégressifs à grande échelle utilisant le prochain paradigme de prédiction de jetons sont devenus populaires partout dans le monde. Dans le même temps, un grand nombre d'images et de vidéos synthétiques sur Internet nous ont déjà montré la puissance des modèles de diffusion. Récemment, une équipe de recherche de MITCSAIL (dont Chen Boyuan, doctorant au MIT) a intégré avec succès les puissantes capacités du modèle de diffusion en séquence complète et du prochain modèle de jeton, et a proposé un paradigme de formation et d'échantillonnage : le forçage de diffusion (DF ). Titre de l'article : DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion Adresse de l'article : https://

See all articles