Transformer est à l'origine de l'essor de l'IA : de l'innovation algorithmique à l'application industrielle, comprenez l'avenir de l'intelligence artificielle en un seul article-IA-php.cn

Table des matières

1. Introduction

2. Brève analyse du principe de Transformer

Connaissances de base

Proposition de Transformer

Architecture du transformateur

Mécanisme d'auto-attention

3. Application de Transformer

Traitement du langage naturel

Vision par ordinateur

4. Les progrès de la recherche en Chine dans le domaine du Transformer

La recherche universitaire

Application industrielle

5. Statut actuel de l'application et tendances de développement futures de Transformer dans l'industrie

Statut de l'application

Maison

Périphériques technologiques

Transformer est à l'origine de l'essor de l'IA : de l'innovation algorithmique à l'application industrielle, comprenez l'avenir de l'intelligence artificielle en un seul article

PHPz

Apr 03, 2024 am 11:46 AM

算法自然语言

Transformer est à lorigine de lessor de lIA : de linnovation algorithmique à lapplication industrielle, comprenez lavenir de lintelligence artificielle en un seul article

1. Introduction

Ces dernières années, la technologie de l'intelligence artificielle a obtenu des résultats de renommée mondiale, parmi lesquels la recherche dans les domaines du traitement du langage naturel (NLP) et de la vision par ordinateur occupe une place particulièrement importante. Dans ces domaines, un modèle appelé Transformer est progressivement devenu un point chaud de la recherche, et des résultats innovants autour de ce modèle émergent les uns après les autres. Cet article explorera comment Transformer mène l'épanouissement de la technologie de l'IA sous des aspects tels que ses principes, ses applications et ses pratiques industrielles.

2. Brève analyse du principe de Transformer

Connaissances de base

Avant d'introduire Transformer, vous devez comprendre ses connaissances de base - Réseau neuronal récurrent (RNN) et Réseau de mémoire à long terme (LSTM). RNN présente des problèmes de disparition de gradient et d'explosion de gradient lors du traitement des données de séquence, ce qui le rend peu performant dans les tâches de longue séquence. Afin de résoudre ce problème, le LSTM a vu le jour et a efficacement atténué les problèmes de disparition et d'explosion des gradients en introduisant un mécanisme de déclenchement. Afin de résoudre ce problème, le LSTM a vu le jour et a efficacement atténué les problèmes de disparition et d'explosion des gradients en introduisant un mécanisme de déclenchement.

Proposition de Transformer

En 2017, l'équipe de Google a lancé un tout nouveau modèle - Transformer. Son idée principale est d'utiliser le mécanisme d'auto-attention (Self-Attention) pour remplacer le réseau neuronal récurrent traditionnel. Transformer a obtenu des résultats remarquables dans le domaine du NLP, notamment dans les tâches de traduction automatique, et ses performances dépassent de loin le LSTM. Ce modèle a été largement utilisé dans les tâches de traitement du langage naturel telles que la traduction automatique et les systèmes de questions-réponses.

Architecture du transformateur

Le transformateur se compose de deux parties : l'encodeur (Encoder) et le décodeur (Decoder). L'encodeur est responsable du mappage de la séquence d'entrée en une série de vecteurs, et le décodeur est basé sur la sortie de l'encodeur et du pièces connues. Sortie, prédisez la prochaine sortie. Dans les tâches séquence à séquence, telles que la traduction automatique, l'encodeur mappe la phrase en langue source en une série de vecteurs, et le décodeur génère la phrase en langue cible sur la base de la sortie de l'encodeur et de la sortie partielle connue.

« (1) Encodeur : l'encodeur se compose de plusieurs couches identiques, et chaque couche comprend deux sous-couches : un mécanisme d'auto-attention multi-têtes et un réseau de rétroaction positionnel entièrement connecté. » Remarque : le paragraphe de cet article concerne la structure de l'encodeur dans le réseau neuronal. La signification originale doit être conservée après modification et le nombre de mots ne doit pas dépasser 114.

Le décodeur est composé de plusieurs couches identiques, chaque couche comprenant trois sous-couches : un mécanisme d'attention multi-têtes, un mécanisme d'attention codeur-décodeur et un réseau de transmission directe. Le mécanisme d'auto-attention multi-têtes, le mécanisme d'attention du codeur-décodeur et l'encodeur de position sont ses composants clés, qui peuvent mettre en œuvre le mécanisme d'attention du décodeur tout en couvrant la position et les réseaux de rétroaction entièrement connectés. De plus, le mécanisme d'attention et l'encodeur de position du décodeur peuvent également améliorer ses performances grâce à des connexions réseau, qui peuvent être utilisées sur tout le réseau.

Mécanisme d'auto-attention

Le mécanisme d'auto-attention est au cœur de Transformer, et son calcul Le processus est le suivant :

(1) Calculer trois matrices de Requête, Clé et Valeur Ces trois matrices sont obtenues par transformation linéaire du vecteur d'entrée.

(2) Calculez le score d'attention, qui est le produit scalaire de Query et Key.

(3) Divisez le score d'attention par une constante pour obtenir le poids d'attention.

(4) Multipliez le poids d'attention et la valeur pour obtenir le résultat pondéré.

(5) Effectuez une transformation linéaire sur la sortie pondérée pour obtenir la sortie finale.

3. Application de Transformer

Traitement du langage naturel

Transformer a obtenu des résultats remarquables dans le domaine de la PNL, comprenant principalement les aspects suivants :

(1) Traduction automatique : Transformer a obtenu des résultats remarquables dans le cadre du WMT2014 anglais-allemand tâche de traduction Meilleur résultat du moment.

(2) Classification de texte : Transformer fonctionne bien dans les tâches de classification de texte, en particulier dans les tâches de classification de texte long, ses performances dépassent de loin le LSTM.

(3) Analyse des sentiments : Transformer est capable de capturer les dépendances à longue distance et a donc une grande précision dans les tâches d'analyse des sentiments.

Vision par ordinateur

Avec le succès de Transformer dans le domaine de la PNL, les chercheurs ont commencé à l'appliquer au domaine de la vision par ordinateur et ont obtenu les résultats suivants :

(1) Classification d'image : modèle basé sur un transformateur dans l'image ImageNet tâche de classification A obtenu de bons résultats.

(2) Détection de cible : le transformateur fonctionne bien dans les tâches de détection de cible, telles que le modèle DETR (Detection Transformer).

(3) Génération d'images : les modèles basés sur des transformateurs tels que GPT-3 ont obtenu des résultats impressionnants dans les tâches de génération d'images.

4. Les progrès de la recherche en Chine dans le domaine du Transformer

La recherche universitaire

Des universitaires chinois ont obtenu des résultats fructueux dans le domaine du Transformer, tels que :

(1) Le modèle ERNIE proposé par l'Université Tsinghua, grâce à l'amélioration des connaissances. , Amélioration des performances des modèles de langage pré-entraînés.

(2) Le modèle BERT-wwm proposé par l'Université Jiao Tong de Shanghai améliore les performances du modèle sur les tâches chinoises en améliorant les objectifs de pré-formation.

Application industrielle

Les entreprises chinoises ont également obtenu des résultats remarquables dans le domaine des transformateurs, tels que :

(1) Le modèle ERNIE proposé par Baidu est utilisé dans les moteurs de recherche, la reconnaissance vocale et d'autres domaines.

(2) Le modèle M6 proposé par Alibaba est utilisé dans la recommandation e-commerce, la prédiction publicitaire et d'autres activités.

5. Statut actuel de l'application et tendances de développement futures de Transformer dans l'industrie

Statut de l'application

Transformer est de plus en plus largement utilisé dans l'industrie, incluant principalement les aspects suivants :

(1) Moteur de recherche : utiliser Transformer pour la compréhension sémantique , améliorez la qualité de la recherche.

(2) Reconnaissance vocale : Grâce au modèle Transformer, une reconnaissance vocale plus précise est obtenue.

(3) Système de recommandation : modèle de recommandation basé sur un transformateur pour améliorer la précision des recommandations et l'expérience utilisateur.

Tendances de développement futures

(1) Compression et optimisation du modèle : à mesure que l'échelle du modèle continue de s'étendre, la manière de compresser et d'optimiser le modèle Transformer est devenue un point chaud de la recherche.

(2) Apprentissage multimodal : Transformer présente des avantages dans le traitement des données multimodales et devrait faire des percées dans le domaine de l'apprentissage multimodal à l'avenir.

(3) Développement de modèles de pré-formation : à mesure que la puissance de calcul augmente, les modèles de pré-formation continueront à se développer.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

3 Il y a quelques semaines By DDD

<🎜>: Dead Rails - Comment relever chaque défi

3 Il y a quelques semaines By DDD

Guide de l'atomfall: emplacements des articles, guides de quête et conseils

4 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7648

Tutoriel CakePHP

1392

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT MINI RÉPONSES DE MOTS CROSS

110

Afficher plus

Related knowledge

CLIP-BEVFormer : superviser explicitement la structure BEVFormer pour améliorer les performances de détection à longue traîne Mar 26, 2024 pm 12:41 PM

Écrit ci-dessus et compréhension personnelle de l'auteur : À l'heure actuelle, dans l'ensemble du système de conduite autonome, le module de perception joue un rôle essentiel. Le véhicule autonome roulant sur la route ne peut obtenir des résultats de perception précis que via le module de perception en aval. dans le système de conduite autonome, prend des jugements et des décisions comportementales opportuns et corrects. Actuellement, les voitures dotées de fonctions de conduite autonome sont généralement équipées d'une variété de capteurs d'informations de données, notamment des capteurs de caméra à vision panoramique, des capteurs lidar et des capteurs radar à ondes millimétriques pour collecter des informations selon différentes modalités afin d'accomplir des tâches de perception précises. L'algorithme de perception BEV basé sur la vision pure est privilégié par l'industrie en raison de son faible coût matériel et de sa facilité de déploiement, et ses résultats peuvent être facilement appliqués à diverses tâches en aval.

Introduction à cinq méthodes d'échantillonnage dans les tâches de génération de langage naturel et l'implémentation du code Pytorch Feb 20, 2024 am 08:50 AM

Dans les tâches de génération de langage naturel, la méthode d'échantillonnage est une technique permettant d'obtenir du texte à partir d'un modèle génératif. Cet article abordera 5 méthodes courantes et les implémentera à l'aide de PyTorch. 1. GreedyDecoding Dans le décodage gourmand, le modèle génératif prédit les mots de la séquence de sortie en fonction du temps de la séquence d'entrée pas à pas. À chaque pas de temps, le modèle calcule la distribution de probabilité conditionnelle de chaque mot, puis sélectionne le mot avec la probabilité conditionnelle la plus élevée comme sortie du pas de temps actuel. Ce mot devient l'entrée du pas de temps suivant et le processus de génération se poursuit jusqu'à ce qu'une condition de fin soit remplie, telle qu'une séquence d'une longueur spécifiée ou un marqueur de fin spécial. La caractéristique de GreedyDecoding est qu’à chaque fois la probabilité conditionnelle actuelle est la meilleure

Implémentation d'algorithmes d'apprentissage automatique en C++ : défis et solutions courants Jun 03, 2024 pm 01:25 PM

Les défis courants rencontrés par les algorithmes d'apprentissage automatique en C++ incluent la gestion de la mémoire, le multithread, l'optimisation des performances et la maintenabilité. Les solutions incluent l'utilisation de pointeurs intelligents, de bibliothèques de threads modernes, d'instructions SIMD et de bibliothèques tierces, ainsi que le respect des directives de style de codage et l'utilisation d'outils d'automatisation. Des cas pratiques montrent comment utiliser la bibliothèque Eigen pour implémenter des algorithmes de régression linéaire, gérer efficacement la mémoire et utiliser des opérations matricielles hautes performances.

Explorez les principes sous-jacents et la sélection d'algorithmes de la fonction de tri C++ Apr 02, 2024 pm 05:36 PM

La couche inférieure de la fonction de tri C++ utilise le tri par fusion, sa complexité est O(nlogn) et propose différents choix d'algorithmes de tri, notamment le tri rapide, le tri par tas et le tri stable.

L'intelligence artificielle peut-elle prédire la criminalité ? Explorez les capacités de CrimeGPT Mar 22, 2024 pm 10:10 PM

La convergence de l’intelligence artificielle (IA) et des forces de l’ordre ouvre de nouvelles possibilités en matière de prévention et de détection de la criminalité. Les capacités prédictives de l’intelligence artificielle sont largement utilisées dans des systèmes tels que CrimeGPT (Crime Prediction Technology) pour prédire les activités criminelles. Cet article explore le potentiel de l’intelligence artificielle dans la prédiction de la criminalité, ses applications actuelles, les défis auxquels elle est confrontée et les éventuelles implications éthiques de cette technologie. Intelligence artificielle et prédiction de la criminalité : les bases CrimeGPT utilise des algorithmes d'apprentissage automatique pour analyser de grands ensembles de données, identifiant des modèles qui peuvent prédire où et quand les crimes sont susceptibles de se produire. Ces ensembles de données comprennent des statistiques historiques sur la criminalité, des informations démographiques, des indicateurs économiques, des tendances météorologiques, etc. En identifiant les tendances qui pourraient échapper aux analystes humains, l'intelligence artificielle peut donner du pouvoir aux forces de l'ordre.

Algorithme de détection amélioré : pour la détection de cibles dans des images de télédétection optique haute résolution Jun 06, 2024 pm 12:33 PM

01Aperçu des perspectives Actuellement, il est difficile d'atteindre un équilibre approprié entre efficacité de détection et résultats de détection. Nous avons développé un algorithme YOLOv5 amélioré pour la détection de cibles dans des images de télédétection optique haute résolution, en utilisant des pyramides de caractéristiques multicouches, des stratégies de têtes de détection multiples et des modules d'attention hybrides pour améliorer l'effet du réseau de détection de cibles dans les images de télédétection optique. Selon l'ensemble de données SIMD, le mAP du nouvel algorithme est 2,2 % meilleur que YOLOv5 et 8,48 % meilleur que YOLOX, permettant ainsi d'obtenir un meilleur équilibre entre les résultats de détection et la vitesse. 02 Contexte et motivation Avec le développement rapide de la technologie de télédétection, les images de télédétection optique à haute résolution ont été utilisées pour décrire de nombreux objets à la surface de la Terre, notamment des avions, des voitures, des bâtiments, etc. Détection d'objets dans l'interprétation d'images de télédétection

Pratique et réflexion sur la plateforme multimodale de grands modèles Jiuzhang Yunji DataCanvas Oct 20, 2023 am 08:45 AM

1. Le développement historique des grands modèles multimodaux. La photo ci-dessus est le premier atelier sur l'intelligence artificielle organisé au Dartmouth College aux États-Unis en 1956. Cette conférence est également considérée comme le coup d'envoi du développement de l'intelligence artificielle. pionniers de la logique symbolique (à l'exception du neurobiologiste Peter Milner au milieu du premier rang). Cependant, cette théorie de la logique symbolique n’a pas pu être réalisée avant longtemps et a même marqué le début du premier hiver de l’IA dans les années 1980 et 1990. Il a fallu attendre la récente mise en œuvre de grands modèles de langage pour découvrir que les réseaux de neurones portent réellement cette pensée logique. Les travaux du neurobiologiste Peter Milner ont inspiré le développement ultérieur des réseaux de neurones artificiels, et c'est pour cette raison qu'il a été invité à y participer. dans ce projet.

Application d'algorithmes dans la construction de 58 plateformes de portraits May 09, 2024 am 09:01 AM

1. Contexte de la construction de la plateforme 58 Portraits Tout d'abord, je voudrais partager avec vous le contexte de la construction de la plateforme 58 Portraits. 1. La pensée traditionnelle de la plate-forme de profilage traditionnelle ne suffit plus. La création d'une plate-forme de profilage des utilisateurs s'appuie sur des capacités de modélisation d'entrepôt de données pour intégrer les données de plusieurs secteurs d'activité afin de créer des portraits d'utilisateurs précis. Elle nécessite également l'exploration de données pour comprendre le comportement et les intérêts des utilisateurs. et besoins, et fournir des capacités côté algorithmes ; enfin, il doit également disposer de capacités de plate-forme de données pour stocker, interroger et partager efficacement les données de profil utilisateur et fournir des services de profil. La principale différence entre une plate-forme de profilage d'entreprise auto-construite et une plate-forme de profilage de middle-office est que la plate-forme de profilage auto-construite dessert un seul secteur d'activité et peut être personnalisée à la demande. La plate-forme de mid-office dessert plusieurs secteurs d'activité et est complexe ; modélisation et offre des fonctionnalités plus générales. 2.58 Portraits d'utilisateurs de l'arrière-plan de la construction du portrait sur la plate-forme médiane 58

See all articles