Nouvelle version révélée : principes mathématiques de Transformer que vous n'avez jamais vus auparavant-IA-php.cn

Maison

Périphériques technologiques

Nouvelle version révélée : principes mathématiques de Transformer que vous n'avez jamais vus auparavant

王林

Jan 12, 2024 pm 11:48 PM

理论 arxiv

Récemment, un article a été publié sur arxiv, qui fournit une nouvelle interprétation des principes mathématiques de Transformer. Le contenu est très long et il y a beaucoup de connaissances. Je recommande fortement de lire l'article original.

En 2017, « L'attention est tout ce dont vous avez besoin » publié par Vaswani et al. est devenu une étape importante dans le développement de l'architecture des réseaux neuronaux. La principale contribution de cet article est le mécanisme d'auto-attention, qui est l'innovation qui distingue les Transformers des architectures traditionnelles et joue un rôle important dans ses excellentes performances pratiques.

En fait, cette innovation est devenue un catalyseur clé pour l'avancement de l'intelligence artificielle dans des domaines tels que la vision par ordinateur et le traitement du langage naturel, tout en jouant également un rôle clé dans l'émergence de grands modèles de langage. Par conséquent, comprendre les transformateurs, et en particulier les mécanismes par lesquels l’attention personnelle traite les données, est un domaine crucial mais largement sous-étudié.

Nouvelle version révélée : principes mathématiques de Transformer que vous navez jamais vus auparavant

Adresse papier : https://arxiv.org/pdf/2312.10794.pdf

Les réseaux de neurones profonds (DNN) ont une caractéristique commune : les données d'entrée sont traitées couche par couche dans l'ordre, formant un Système dynamique discret temporel (pour un contenu spécifique, veuillez vous référer au « Deep Learning » publié par le MIT, également connu sous le nom de « Flower Book » en Chine). Cette perspective a été utilisée avec succès pour modéliser des réseaux résiduels sur des systèmes dynamiques continus dans le temps, appelés équations différentielles ordinaires neuronales (ODE neuronales). Dans l'équation différentielle constante divine, l'image d'entrée Nouvelle version révélée : principes mathématiques de Transformer que vous navez jamais vus auparavant

Nouvelle version révélée : principes mathématiques de Transformer que vous navez jamais vus auparavant

évoluera en fonction du champ de vitesse variable dans le temps donné Nouvelle version révélée : principes mathématiques de Transformer que vous navez jamais vus auparavant

sur l'intervalle de temps (0, T). Par conséquent, le DNN peut être considéré comme une Flow Map Nouvelle version révélée : principes mathématiques de Transformer que vous navez jamais vus auparavant

d’un

à un autre Nouvelle version révélée : principes mathématiques de Transformer que vous navez jamais vus auparavant

. Il existe une forte similitude entre les cartes de flux même dans les champs de vitesse Nouvelle version révélée : principes mathématiques de Transformer que vous navez jamais vus auparavant

sous les contraintes des architectures DNN classiques.

Les chercheurs ont découvert que les transformateurs sont en fait des mappages de flux sur Nouvelle version révélée : principes mathématiques de Transformer que vous navez jamais vus auparavant

, c'est-à-dire des mappages entre des espaces de mesures de probabilité à d dimensions (l'espace des mesures de probabilité). Afin de mettre en œuvre cette cartographie de flux qui convertit entre les espaces métriques, les Transformers doivent établir un système de particules interagissant en champ moyen.

Plus précisément, chaque particule (qui peut être comprise comme un jeton dans le contexte de l'apprentissage profond) suit le flux du champ vectoriel, et le flux dépend de la mesure empirique de toutes les particules. À leur tour, les équations déterminent l’évolution des mesures empiriques des particules, un processus qui peut durer longtemps et nécessiter une attention soutenue.

Le principal constat des chercheurs est que les particules ont tendance à finir par s'agglutiner. Ce phénomène est particulièrement évident dans les tâches d'apprentissage telles que la dérivation unidirectionnelle (c'est-à-dire prédire le mot suivant dans une séquence). La métrique de sortie code la distribution de probabilité du jeton suivant, et un petit nombre de résultats possibles peuvent être filtrés en fonction des résultats de regroupement.

Les résultats de recherche de cet article montrent que la distribution limite est en fait une masse ponctuelle et qu'il n'y a ni diversité ni caractère aléatoire, mais cela n'est pas cohérent avec les résultats d'observation réels. Cet apparent paradoxe est résolu par le fait que les particules existent dans des états variables pendant de longues périodes. Comme le montrent les figures 2 et 4, les transformateurs ont deux échelles de temps différentes : dans la première étape, tous les jetons forment rapidement plusieurs clusters, tandis que dans la deuxième étape (beaucoup plus lente que la première étape), pendant le processus de fusion par paires de clusters, tous les jetons finissent par s'effondrer en un seul point.

Nouvelle version révélée : principes mathématiques de Transformer que vous navez jamais vus auparavant

L'objectif de cet article est double. D'une part, Cet article vise à fournir un cadre général et facile à comprendre pour étudier les Transformers d'un point de vue mathématique. En particulier, la structure de ces systèmes de particules en interaction permet aux chercheurs d’établir des liens concrets avec des sujets mathématiques établis, notamment les équations de transport non linéaires, les flux gradients de Wasserstein, les modèles de comportement collectif et les configurations optimales de points sur une sphère. D’autre part, cet article décrit plusieurs directions de recherche prometteuses, avec un accent particulier sur les phénomènes de clustering sur de longues périodes. Les principales mesures de résultats proposées par les chercheurs sont nouvelles et soulèvent également tout au long de l’article des questions ouvertes qu’ils jugent intéressantes.

Les principales contributions de cet article sont divisées en trois parties.

Nouvelle version révélée : principes mathématiques de Transformer que vous navez jamais vus auparavant

Partie 1 : Modélisation. Cet article définit un modèle idéal de l'architecture Transformer qui traite le nombre de couches comme une variable temporelle continue. Cette approche de l'abstraction n'est pas nouvelle et est similaire à l'approche adoptée par les architectures classiques telles que ResNets. Le modèle de cet article se concentre uniquement sur deux composants clés de l'architecture Transformer : le mécanisme d'auto-attention et la normalisation des couches. La normalisation des couches confine efficacement les particules à l'espace de la sphère unitaire Nouvelle version révélée : principes mathématiques de Transformer que vous navez jamais vus auparavant

, tandis que le mécanisme d'auto-attention réalise un couplage non linéaire entre les particules grâce à des mesures empiriques. À son tour, la mesure empirique évolue selon une équation aux dérivées partielles de continuité. Cet article présente également un modèle alternatif plus simple et plus facile à utiliser pour l'attention personnelle, un flux gradient de Wasserstein d'une fonction énergétique. Il existe déjà des méthodes de recherche matures pour la configuration optimale des points sur la sphère de la fonction énergétique.

Partie 2 : Clustering. Dans cette partie, les chercheurs proposent de nouveaux résultats mathématiques sur le clustering de jetons sur une période plus longue. Comme le montre le théorème 4.1, dans un espace de grande dimension, un groupe de n particules initialisées aléatoirement sur la boule unité se rassemblera en un point en Nouvelle version révélée : principes mathématiques de Transformer que vous navez jamais vus auparavant

. La description précise par les chercheurs du taux de retrait des amas de particules complète ce résultat. Plus précisément, les chercheurs ont tracé des histogrammes des distances entre toutes les particules, ainsi que les moments où toutes les particules étaient sur le point de terminer leur regroupement (voir la section 4 de l'article original). Les chercheurs ont également obtenu des résultats de regroupement sans supposer une grande dimension d (voir la section 5 de l'article original).

Partie 3 : Regarder vers l'avenir. Cet article propose des pistes potentielles de recherche future en posant principalement des questions sous la forme de questions ouvertes et en les étayant par des observations numériques. Les chercheurs se concentrent d’abord sur le cas de la dimension d = 2 (voir la section 6 de l’article original) et établissent le lien avec l’oscillateur de Kuramoto. Il est ensuite brièvement montré comment des problèmes difficiles liés à l'optimisation sphérique peuvent être résolus en apportant des modifications simples et naturelles au modèle (voir la section 7 de l'article original). Les chapitres suivants explorent les systèmes de particules en interaction qui permettent d'ajuster les paramètres de l'architecture du Transformer, ce qui pourra ultérieurement conduire à des applications pratiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7467

Tutoriel CakePHP

1376

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Repoussant les limites de la détection de défauts traditionnelle, « Defect Spectrum » permet pour la première fois une détection de défauts industriels d'une ultra haute précision et d'une sémantique riche. Jul 26, 2024 pm 05:38 PM

Dans la fabrication moderne, une détection précise des défauts est non seulement la clé pour garantir la qualité des produits, mais également la clé de l’amélioration de l’efficacité de la production. Cependant, les ensembles de données de détection de défauts existants manquent souvent de précision et de richesse sémantique requises pour les applications pratiques, ce qui rend les modèles incapables d'identifier des catégories ou des emplacements de défauts spécifiques. Afin de résoudre ce problème, une équipe de recherche de premier plan composée de l'Université des sciences et technologies de Hong Kong, Guangzhou et de Simou Technology a développé de manière innovante l'ensemble de données « DefectSpectrum », qui fournit une annotation à grande échelle détaillée et sémantiquement riche des défauts industriels. Comme le montre le tableau 1, par rapport à d'autres ensembles de données industrielles, l'ensemble de données « DefectSpectrum » fournit le plus grand nombre d'annotations de défauts (5 438 échantillons de défauts) et la classification de défauts la plus détaillée (125 catégories de défauts).

Le modèle de dialogue NVIDIA ChatQA a évolué vers la version 2.0, avec la longueur du contexte mentionnée à 128 Ko Jul 26, 2024 am 08:40 AM

La communauté ouverte LLM est une époque où une centaine de fleurs fleurissent et s'affrontent. Vous pouvez voir Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 et bien d'autres. excellents interprètes. Cependant, par rapport aux grands modèles propriétaires représentés par le GPT-4-Turbo, les modèles ouverts présentent encore des lacunes importantes dans de nombreux domaines. En plus des modèles généraux, certains modèles ouverts spécialisés dans des domaines clés ont été développés, tels que DeepSeek-Coder-V2 pour la programmation et les mathématiques, et InternVL pour les tâches de langage visuel.

Google AI a remporté la médaille d'argent de l'Olympiade mathématique de l'OMI, le modèle de raisonnement mathématique AlphaProof a été lancé et l'apprentissage par renforcement est de retour. Jul 26, 2024 pm 02:40 PM

Pour l’IA, l’Olympiade mathématique n’est plus un problème. Jeudi, l'intelligence artificielle de Google DeepMind a réalisé un exploit : utiliser l'IA pour résoudre la vraie question de l'Olympiade mathématique internationale de cette année, l'OMI, et elle n'était qu'à un pas de remporter la médaille d'or. Le concours de l'OMI qui vient de se terminer la semaine dernière comportait six questions portant sur l'algèbre, la combinatoire, la géométrie et la théorie des nombres. Le système d'IA hybride proposé par Google a répondu correctement à quatre questions et a marqué 28 points, atteignant le niveau de la médaille d'argent. Plus tôt ce mois-ci, le professeur titulaire de l'UCLA, Terence Tao, venait de promouvoir l'Olympiade mathématique de l'IA (AIMO Progress Award) avec un prix d'un million de dollars. De manière inattendue, le niveau de résolution de problèmes d'IA s'était amélioré à ce niveau avant juillet. Posez les questions simultanément sur l'OMI. La chose la plus difficile à faire correctement est l'OMI, qui a la plus longue histoire, la plus grande échelle et la plus négative.

Le point de vue de la nature : les tests de l'intelligence artificielle en médecine sont dans le chaos. Que faut-il faire ? Aug 22, 2024 pm 04:37 PM

Editeur | ScienceAI Sur la base de données cliniques limitées, des centaines d'algorithmes médicaux ont été approuvés. Les scientifiques se demandent qui devrait tester les outils et comment le faire au mieux. Devin Singh a vu un patient pédiatrique aux urgences subir un arrêt cardiaque alors qu'il attendait un traitement pendant une longue période, ce qui l'a incité à explorer l'application de l'IA pour réduire les temps d'attente. À l’aide des données de triage des salles d’urgence de SickKids, Singh et ses collègues ont construit une série de modèles d’IA pour fournir des diagnostics potentiels et recommander des tests. Une étude a montré que ces modèles peuvent accélérer les visites chez le médecin de 22,3 %, accélérant ainsi le traitement des résultats de près de 3 heures par patient nécessitant un examen médical. Cependant, le succès des algorithmes d’intelligence artificielle dans la recherche ne fait que le vérifier.

Formation avec des millions de données cristallines pour résoudre le problème de la phase cristallographique, la méthode d'apprentissage profond PhAI est publiée dans Science Aug 08, 2024 pm 09:22 PM

Editeur | KX À ce jour, les détails structurels et la précision déterminés par cristallographie, des métaux simples aux grandes protéines membranaires, sont inégalés par aucune autre méthode. Cependant, le plus grand défi, appelé problème de phase, reste la récupération des informations de phase à partir d'amplitudes déterminées expérimentalement. Des chercheurs de l'Université de Copenhague au Danemark ont développé une méthode d'apprentissage en profondeur appelée PhAI pour résoudre les problèmes de phase cristalline. Un réseau neuronal d'apprentissage en profondeur formé à l'aide de millions de structures cristallines artificielles et de leurs données de diffraction synthétique correspondantes peut générer des cartes précises de densité électronique. L'étude montre que cette méthode de solution structurelle ab initio basée sur l'apprentissage profond peut résoudre le problème de phase avec une résolution de seulement 2 Angströms, ce qui équivaut à seulement 10 à 20 % des données disponibles à la résolution atomique, alors que le calcul ab initio traditionnel

Les articles arXiv peuvent être publiés sous forme de 'barrage', la plateforme de discussion alphaXiv de Stanford est en ligne, LeCun l'aime Aug 01, 2024 pm 05:18 PM

acclamations! Qu’est-ce que ça fait lorsqu’une discussion sur papier se résume à des mots ? Récemment, des étudiants de l'Université de Stanford ont créé alphaXiv, un forum de discussion ouvert pour les articles arXiv qui permet de publier des questions et des commentaires directement sur n'importe quel article arXiv. Lien du site Web : https://alphaxiv.org/ En fait, il n'est pas nécessaire de visiter spécifiquement ce site Web. Il suffit de remplacer arXiv dans n'importe quelle URL par alphaXiv pour ouvrir directement l'article correspondant sur le forum alphaXiv : vous pouvez localiser avec précision les paragraphes dans. l'article, Phrase : dans la zone de discussion sur la droite, les utilisateurs peuvent poser des questions à l'auteur sur les idées et les détails de l'article. Par exemple, ils peuvent également commenter le contenu de l'article, tels que : "Donné à".

Afin de fournir un nouveau système de référence et d'évaluation de questions-réponses scientifiques et complexes pour les grands modèles, l'UNSW, Argonne, l'Université de Chicago et d'autres institutions ont lancé conjointement le cadre SciQAG. Jul 25, 2024 am 06:42 AM

L'ensemble de données ScienceAI Question Answering (QA) joue un rôle essentiel dans la promotion de la recherche sur le traitement du langage naturel (NLP). Des ensembles de données d'assurance qualité de haute qualité peuvent non seulement être utilisés pour affiner les modèles, mais également évaluer efficacement les capacités des grands modèles linguistiques (LLM), en particulier la capacité à comprendre et à raisonner sur les connaissances scientifiques. Bien qu’il existe actuellement de nombreux ensembles de données scientifiques d’assurance qualité couvrant la médecine, la chimie, la biologie et d’autres domaines, ces ensembles de données présentent encore certaines lacunes. Premièrement, le formulaire de données est relativement simple, et la plupart sont des questions à choix multiples. Elles sont faciles à évaluer, mais limitent la plage de sélection des réponses du modèle et ne peuvent pas tester pleinement la capacité du modèle à répondre aux questions scientifiques. En revanche, les questions et réponses ouvertes

Identifiez automatiquement les meilleures molécules et réduisez les coûts de synthèse. Le MIT développe un cadre d'algorithme de prise de décision en matière de conception moléculaire. Jun 22, 2024 am 06:43 AM

Éditeur | L’utilisation de Ziluo AI pour rationaliser la découverte de médicaments explose. Ciblez des milliards de molécules candidates pour détecter celles qui pourraient posséder les propriétés nécessaires au développement de nouveaux médicaments. Il y a tellement de variables à prendre en compte, depuis le prix des matériaux jusqu’au risque d’erreur, qu’évaluer les coûts de synthèse des meilleures molécules candidates n’est pas une tâche facile, même si les scientifiques utilisent l’IA. Ici, les chercheurs du MIT ont développé SPARROW, un cadre d'algorithme de prise de décision quantitative, pour identifier automatiquement les meilleurs candidats moléculaires, minimisant ainsi les coûts de synthèse tout en maximisant la probabilité que les candidats possèdent les propriétés souhaitées. L’algorithme a également identifié les matériaux et les étapes expérimentales nécessaires à la synthèse de ces molécules. SPARROW prend en compte le coût de synthèse d'un lot de molécules à la fois, puisque plusieurs molécules candidates sont souvent disponibles

See all articles