Nous sommes en 2024, y a-t-il quelqu'un qui ne comprend toujours pas comment fonctionne Transformer ? Venez essayer cet outil interactif.
En 2017, Google a proposé Transformer dans l'article "L'attention est tout ce dont vous avez besoin", qui est devenu une avancée majeure dans le domaine de l'apprentissage profond. Le nombre de citations de cet article a atteint près de 130 000. Tous les modèles ultérieurs de la famille GPT sont également basés sur l'architecture Transformer, ce qui montre sa large influence. En tant qu'architecture de réseau neuronal, Transformer est très populaire dans une variété de tâches allant du texte à la vision, en particulier dans le domaine actuellement brûlant des chatbots IA.
Cependant, pour de nombreux non-professionnels, le fonctionnement interne de Transformer est encore opaque, ce qui entrave leur compréhension et leur participation. Il est donc particulièrement nécessaire de démystifier cette architecture. Mais de nombreux blogs, didacticiels vidéo et visualisations 3D ont tendance à mettre l’accent sur la complexité mathématique et la mise en œuvre des modèles, ce qui peut prêter à confusion pour les débutants. Les efforts de visualisation également conçus pour les praticiens de l’IA se concentrent sur l’interprétabilité neuronale et hiérarchique et constituent un défi pour les non-experts. Par conséquent, plusieurs chercheurs du Georgia Institute of Technology et d'IBM Research ont développé Un outil de visualisation interactif open source basé sur le Web "Transformer Explainer" pour aider les non-professionnels à comprendre la structure du modèle de haut niveau et les mathématiques de bas niveau de Fonctionnement du transformateur . Comme le montre la figure 1 ci-dessous.
Transformer Explainer explique le fonctionnement interne de Transformer via la génération de texte, à l'aide d'une Conception de visualisation de diagramme Sankey inspirée des travaux récents sur Transformer en tant que système dynamique, mettant l'accent sur la façon dont les données d'entrée circulent à travers les composants du modèle. À partir des résultats, le diagramme de Sankey illustre efficacement la manière dont les informations sont transmises à travers le modèle et montre comment les entrées sont traitées et transformées via les opérations Transformer. En termes de contenu, Transformer Explainer intègre étroitement un aperçu du modèle qui résume la structure du Transformer et permet aux utilisateurs de passer en douceur entre plusieurs niveaux d'abstraction pour visualiser l'interaction entre les opérations mathématiques de bas niveau et la structure du modèle de haut niveau. pour les aider à comprendre pleinement les concepts complexes de Transformer. Fonctionnellement, Transformer Explainer fournit non seulement une implémentation basée sur le Web, mais a également la fonction de raisonnement en temps réel. Contrairement à de nombreux outils existants qui nécessitent l'installation d'un logiciel personnalisé ou manquent de capacités d'inférence, il intègre un modèle GPT-2 en temps réel qui s'exécute de manière native dans le navigateur à l'aide d'un framework frontal moderne. Les utilisateurs peuvent expérimenter de manière interactive le texte saisi et observer en temps réel comment les composants et paramètres internes de Transformer fonctionnent ensemble pour prédire le prochain jeton. Transformer Explainer étend l'accès aux technologies modernes d'IA générative sans nécessiter de ressources informatiques avancées, de compétences d'installation ou de programmation. GPT-2 a été choisi parce que le modèle est bien connu, a une vitesse d'inférence rapide et est architecturalement similaire à des modèles plus avancés tels que GPT-3 et GPT-4.
- Adresse papier : https://arxiv.org/pdf/2408.04619
- Adresse GitHub : http://poloclub.github.io/transformer-explainer/
- Adresse de l'expérience en ligne : https:// t.co/jyBlJTMa7m
Puisqu'il prend en charge votre propre contribution, ce site a également essayé "quelle belle journée" et les résultats sont présentés dans la figure ci-dessous.
Pour Transformer Explainer, de nombreux internautes ont fait l'éloge. Certaines personnes disent que c'est un outil interactif très sympa.
Certaines personnes disent qu'elles attendaient un outil intuitif pour expliquer l'attention personnelle et l'encodage positionnel, qui est Transformer Explainer. Ce sera un outil qui changera la donne.
Quelqu'un a également fait une traduction en chinois.
Adresse affichée : http://llm-viz-cn.iiiai.com/llm
Conception et mise en œuvre du système Transformer ExplainerTransformer Explainer montre visuellement comment le modèle GPT-2 basé sur Transformer est formé pour traiter la saisie de texte et prédire le prochain jeton. Le front-end utilise Svelte et D3 pour implémenter la visualisation interactive, et le back-end utilise le runtime ONNX et la bibliothèque Transformers de HuggingFace pour exécuter le modèle GPT-2 dans le navigateur. Dans le processus de conception de Transformer Explainer, un défi majeur était de savoir comment gérer la complexité de l'architecture sous-jacente, car afficher tous les détails en même temps détournerait l'attention du sujet. Pour résoudre ce problème, les chercheurs ont accordé une grande attention à deux principes de conception clés. Premièrement, les chercheurs réduisent la complexité grâce à l'abstraction à plusieurs niveaux. Ils structurent leurs outils pour présenter des informations à différents niveaux d'abstraction. Cela évite la surcharge d'informations en permettant aux utilisateurs de commencer avec une vue d'ensemble de haut niveau et d'accéder aux détails selon leurs besoins. Au plus haut niveau, l'outil affiche le flux de traitement complet : depuis la réception du texte fourni par l'utilisateur en entrée (Figure 1A), son intégration, son traitement via plusieurs blocs Transformer et l'utilisation des données traitées pour prédire la prochaine prédiction de jeton la plus probable. est trié. Opérations intermédiaires, telles que le calcul de la matrice d'attention (Figure 1C), qui sont réduites par défaut pour afficher visuellement l'importance des résultats du calcul, l'utilisateur peut choisir de développer et de visualiser son processus de dérivation à travers une animation séquence . Les chercheurs ont adopté un langage visuel cohérent, tel que l'empilement des têtes d'attention et la réduction des blocs Transformer répétés, pour aider les utilisateurs à identifier les modèles répétitifs dans l'architecture tout en maintenant un flux de données de bout en bout. Deuxièmement, les chercheurs améliorent la compréhension et la participation grâce à l'interactivité. Le paramètre de température est crucial pour contrôler la distribution de probabilité de sortie du transformateur, qui affecte la certitude (à basses températures) ou le caractère aléatoire (à hautes températures) de la prochaine prédiction de jeton. Mais les ressources pédagogiques existantes sur Transformers ont tendance à ignorer cet aspect. Les utilisateurs peuvent désormais utiliser ce nouvel outil pour ajuster les paramètres de température en temps réel (Figure 1B) et visualiser leur rôle essentiel dans le contrôle de la certitude des prévisions (Figure 2).
Additionally, users can select from provided examples or enter their own text (Figure 1A). Supporting custom input text can allow users to participate more deeply. By analyzing the behavior of the model under different conditions and interactively testing their own assumptions based on different text inputs, the user's sense of participation is enhanced. So what are the practical application scenarios? Professor Rousseau is modernizing the course content of his Natural Language Processing course to highlight recent advances in generative AI. She noticed that some students viewed Transformer-based models as elusive "magic," while others wanted to understand how the models worked but weren't sure where to start. To solve this problem, she guided students to use Transformer Explainer, which provides an interactive overview of Transformer (Figure 1) and encourages students to actively experiment and learn. Her class has more than 300 students, and Transformer Explainer's ability to run entirely within students' browsers, with no software or special hardware to install, is a significant advantage and eliminates students' worries about managing software or hardware setup. This tool introduces students to complex mathematical operations such as attention calculations through animated and interactive reversible abstractions (Figure 1C). This approach helps students gain both a high-level understanding of operations and a deep understanding of the underlying details that produce these results. Professor Rousseau also realizes that the Transformer's technical capabilities and limitations are sometimes personified (e.g., viewing the temperature parameter as a "creativity" control). By encouraging students to experiment with the temperature slider (Figure 1B), she showed students how temperature actually modifies the probability distribution of the next token (Figure 2), thereby controlling the randomness of predictions in a deterministic and more creative way strike a balance between outputs. In addition, when the system visualizes the token processing process, students can see that there is no so-called "magic" here - no matter what the input text is (Figure 1A), the model follows a well-defined sequence of operations , using the Transformer architecture, only samples one token at a time, and then repeats the process. Researchers are enhancing interactive explanations of tools to improve the learning experience. At the same time, they are also improving inference speed through WebGPU and reducing model size through compression technology. They also plan to conduct user studies to evaluate the efficacy and usability of Transformer Explainer, observe how AI novices, students, educators, and practitioners use the tool, and gather feedback on additional features they would like to support. What are you waiting for? Try it out and break the "magic" fantasy about Transformer and truly understand the principles behind it. Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!