


Comment les réseaux résiduels profonds surmontent-ils le problème du gradient de disparition ?
Le réseau résiduel est un modèle d'apprentissage profond populaire qui résout le problème du gradient de disparition en introduisant des blocs résiduels. Cet article part de la cause essentielle du problème du gradient de disparition et explique en détail la solution au réseau résiduel.
1. La raison essentielle du problème du gradient de disparition
Dans un réseau neuronal profond, la sortie de chaque couche est calculée en multipliant l'entrée de la couche précédente avec la matrice de poids et en la calculant via la fonction d'activation . À mesure que le nombre de couches réseau augmente, la sortie de chaque couche sera affectée par la sortie des couches précédentes. Cela signifie que même de petits changements dans la matrice de pondération et la fonction d’activation auront un impact sur la production de l’ensemble du réseau. Dans l'algorithme de rétropropagation, les gradients sont utilisés pour mettre à jour les poids du réseau. Le calcul du dégradé nécessite de transmettre le dégradé du calque suivant au calque précédent via la règle de chaîne. Par conséquent, les dégradés des couches précédentes affecteront également le calcul des dégradés. Cet effet s'accumule à mesure que les poids sont mis à jour et propagés dans tout le réseau pendant la formation. Par conséquent, chaque couche d’un réseau neuronal profond est interconnectée et leurs sorties et gradients s’influencent mutuellement. Cela nous oblige à examiner attentivement la sélection des poids et des fonctions d'activation de chaque couche, ainsi que les méthodes de calcul et de transmission des gradients lors de la conception et de la formation du réseau, afin de garantir que le réseau puisse apprendre et s'adapter efficacement aux différentes tâches et données.
Dans les réseaux de neurones profonds, lorsqu'il existe de nombreuses couches de réseau, les gradients « disparaissent » ou « explosent » souvent. La raison pour laquelle le gradient disparaît est que lorsque la dérivée de la fonction d'activation est inférieure à 1, le gradient diminuera progressivement, ce qui rendra le gradient de la couche précédente plus petit et finira par ne plus pouvoir être mis à jour, ce qui empêchera le réseau de se mettre à jour. apprendre. La raison de l'explosion du gradient est que lorsque la dérivée de la fonction d'activation est supérieure à 1, le gradient augmente progressivement, ce qui entraîne un élargissement du gradient des couches ultérieures, provoquant finalement un débordement du poids du réseau et provoquant également une explosion du réseau. être incapable d'apprendre.
2. Solution du réseau résiduel
Le réseau résiduel résout le problème de la disparition du gradient en introduisant des blocs résiduels. Entre chaque couche réseau, le bloc résiduel ajoute l'entrée directement à la sortie, facilitant ainsi l'apprentissage du mappage d'identité par le réseau. Cette conception de connexion entre couches permet aux gradients de mieux se propager et atténue efficacement le phénomène de disparition des gradients. Une telle solution peut améliorer l’efficacité de la formation et les performances du réseau.
Plus précisément, la structure x du bloc résiduel représente l'entrée, F(x) représente le mappage obtenu par apprentissage en réseau, et H(x) représente le mappage d'identité. La sortie du bloc résiduel est H(x)+F(x), qui est l'entrée plus le mappage appris.
L'avantage est que lorsque le réseau apprend un mappage d'identité, F(x) vaut 0 et la sortie du bloc résiduel est égale à l'entrée, c'est-à-dire H(x)+0=H( X ). Cela évite le problème du gradient de disparition car même si le gradient de F(x) est égal à 0, le gradient de H(x) peut toujours être transmis à la couche précédente via la connexion entre couches, obtenant ainsi un meilleur flux de gradient.
De plus, le réseau résiduel utilise également des technologies telles que la « normalisation par lots » et la « pré-activation » pour améliorer encore les performances et la stabilité du réseau. Parmi eux, la normalisation par lots est utilisée pour résoudre les problèmes de disparition et d'explosion de gradient, tandis que la pré-activation peut mieux introduire la non-linéarité et améliorer la capacité d'expression du réseau.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Écrit précédemment, nous discutons aujourd'hui de la manière dont la technologie d'apprentissage profond peut améliorer les performances du SLAM (localisation et cartographie simultanées) basé sur la vision dans des environnements complexes. En combinant des méthodes d'extraction de caractéristiques approfondies et de correspondance de profondeur, nous introduisons ici un système SLAM visuel hybride polyvalent conçu pour améliorer l'adaptation dans des scénarios difficiles tels que des conditions de faible luminosité, un éclairage dynamique, des zones faiblement texturées et une gigue importante. Notre système prend en charge plusieurs modes, notamment les configurations étendues monoculaire, stéréo, monoculaire-inertielle et stéréo-inertielle. En outre, il analyse également comment combiner le SLAM visuel avec des méthodes d’apprentissage profond pour inspirer d’autres recherches. Grâce à des expériences approfondies sur des ensembles de données publiques et des données auto-échantillonnées, nous démontrons la supériorité du SL-SLAM en termes de précision de positionnement et de robustesse du suivi.

Dans la vague actuelle de changements technologiques rapides, l'intelligence artificielle (IA), l'apprentissage automatique (ML) et l'apprentissage profond (DL) sont comme des étoiles brillantes, à la tête de la nouvelle vague des technologies de l'information. Ces trois mots apparaissent fréquemment dans diverses discussions de pointe et applications pratiques, mais pour de nombreux explorateurs novices dans ce domaine, leurs significations spécifiques et leurs connexions internes peuvent encore être entourées de mystère. Alors regardons d'abord cette photo. On constate qu’il existe une corrélation étroite et une relation progressive entre l’apprentissage profond, l’apprentissage automatique et l’intelligence artificielle. Le deep learning est un domaine spécifique du machine learning, et le machine learning

Près de 20 ans se sont écoulés depuis que le concept d'apprentissage profond a été proposé en 2006. L'apprentissage profond, en tant que révolution dans le domaine de l'intelligence artificielle, a donné naissance à de nombreux algorithmes influents. Alors, selon vous, quels sont les 10 meilleurs algorithmes pour l’apprentissage profond ? Voici les meilleurs algorithmes d’apprentissage profond, à mon avis. Ils occupent tous une position importante en termes d’innovation, de valeur d’application et d’influence. 1. Contexte du réseau neuronal profond (DNN) : Le réseau neuronal profond (DNN), également appelé perceptron multicouche, est l'algorithme d'apprentissage profond le plus courant lorsqu'il a été inventé pour la première fois, jusqu'à récemment en raison du goulot d'étranglement de la puissance de calcul. années, puissance de calcul, La percée est venue avec l'explosion des données. DNN est un modèle de réseau neuronal qui contient plusieurs couches cachées. Dans ce modèle, chaque couche transmet l'entrée à la couche suivante et

Convolutional Neural Network (CNN) et Transformer sont deux modèles d'apprentissage en profondeur différents qui ont montré d'excellentes performances sur différentes tâches. CNN est principalement utilisé pour les tâches de vision par ordinateur telles que la classification d'images, la détection de cibles et la segmentation d'images. Il extrait les caractéristiques locales de l'image via des opérations de convolution et effectue une réduction de dimensionnalité des caractéristiques et une invariance spatiale via des opérations de pooling. En revanche, Transformer est principalement utilisé pour les tâches de traitement du langage naturel (NLP) telles que la traduction automatique, la classification de texte et la reconnaissance vocale. Il utilise un mécanisme d'auto-attention pour modéliser les dépendances dans des séquences, évitant ainsi le calcul séquentiel dans les réseaux neuronaux récurrents traditionnels. Bien que ces deux modèles soient utilisés pour des tâches différentes, ils présentent des similitudes dans la modélisation des séquences.

Le modèle LSTM bidirectionnel est un réseau neuronal utilisé pour la classification de texte. Vous trouverez ci-dessous un exemple simple montrant comment utiliser le LSTM bidirectionnel pour les tâches de classification de texte. Tout d'abord, nous devons importer les bibliothèques et modules requis : importosimportnumpyasnpfromkeras.preprocessing.textimportTokenizerfromkeras.preprocessing.sequenceimportpad_sequencesfromkeras.modelsimportSequentialfromkeras.layersimportDense,Em

Le réseau neuronal siamois est une structure de réseau neuronal artificiel unique. Il se compose de deux réseaux de neurones identiques partageant les mêmes paramètres et poids. Dans le même temps, les deux réseaux partagent également les mêmes données d’entrée. Cette conception a été inspirée par des jumeaux, car les deux réseaux de neurones sont structurellement identiques. Le principe du réseau neuronal siamois est d'accomplir des tâches spécifiques, telles que la correspondance d'images, la correspondance de textes et la reconnaissance de visages, en comparant la similitude ou la distance entre deux données d'entrée. Pendant la formation, le réseau tente de mapper des données similaires vers des régions adjacentes et des données différentes vers des régions distantes. De cette manière, le réseau peut apprendre à classer ou à faire correspondre différentes données pour obtenir des résultats correspondants.

Le réseau neuronal convolutif causal est un réseau neuronal convolutif spécial conçu pour les problèmes de causalité dans les données de séries chronologiques. Par rapport aux réseaux de neurones convolutifs conventionnels, les réseaux de neurones convolutifs causals présentent des avantages uniques en ce qu'ils conservent la relation causale des séries chronologiques et sont largement utilisés dans la prédiction et l'analyse des données de séries chronologiques. L'idée centrale du réseau neuronal convolutionnel causal est d'introduire la causalité dans l'opération de convolution. Les réseaux neuronaux convolutifs traditionnels peuvent percevoir simultanément les données avant et après le point temporel actuel, mais dans la prévision des séries chronologiques, cela peut entraîner des problèmes de fuite d'informations. Parce que le résultat de la prédiction à l’heure actuelle sera affecté par les données à l’heure future. Le réseau neuronal convolutionnel causal résout ce problème. Il ne peut percevoir que le point temporel actuel et les données précédentes, mais ne peut pas percevoir les données futures.

Editeur | Radis Skin Depuis la sortie du puissant AlphaFold2 en 2021, les scientifiques utilisent des modèles de prédiction de la structure des protéines pour cartographier diverses structures protéiques dans les cellules, découvrir des médicaments et dresser une « carte cosmique » de chaque interaction protéique connue. Tout à l'heure, Google DeepMind a publié le modèle AlphaFold3, capable d'effectuer des prédictions de structure conjointe pour des complexes comprenant des protéines, des acides nucléiques, de petites molécules, des ions et des résidus modifiés. La précision d’AlphaFold3 a été considérablement améliorée par rapport à de nombreux outils dédiés dans le passé (interaction protéine-ligand, interaction protéine-acide nucléique, prédiction anticorps-antigène). Cela montre qu’au sein d’un cadre unique et unifié d’apprentissage profond, il est possible de réaliser
