Table des matières
Juste la bonne histoire
Perspective évolutive
Une suggestion
Maison Périphériques technologiques IA L'éclat de SGD apporte l'importance de l'apprentissage profond

L'éclat de SGD apporte l'importance de l'apprentissage profond

Oct 16, 2023 am 08:21 AM
机器学习 深度学习

SGD 的光辉,带来深度学习的意义

Produit par Big Data Digest

En juillet, Naomi Saphra, boursière postdoctorale de l'Université de New York (NYU), a écrit un article intitulé "Interprétabilité créationnisme", expliquant la relation entre la descente de gradient stochastique (SGD) et l'apprentissage profond dans une perspective évolutive. . relation, et la perspective d’interprétation suscite la réflexion.

Par exemple : "Tout comme le coccyx humain, certains phénomènes peuvent avoir perdu leur rôle d'origine au cours du processus de formation du modèle et devenir semblables à des organes dégénérés."

"Qu'il s'agisse d'étudier le comportement parasitaire des poussins ou les réseaux neuronaux. Performance interne , si vous ne considérez pas comment le système évolue, il sera difficile de distinguer ce qui constitue une information précieuse. »

Ce qui suit est le texte original, qui a été compilé sans changer le sens original.

SGD 的光辉,带来深度学习的意义

Il y a des siècles, les Européens considéraient la présence d'œufs de coucou dans les nids comme un honneur pour les oiseaux nicheurs. Car l'oiseau nicheur nourrit avec enthousiasme ses « saints invités » avec encore plus de diligence que ses propres poussins (expulsés), un comportement conforme à l'esprit d'hospitalité chrétienne.

En 1859, Charles Darwin remet en question la notion optimiste et coopérative du comportement des oiseaux en étudiant le pinson, un autre pinson occasionnellement parasite.

SGD 的光辉,带来深度学习的意义

Sans considérer le rôle du coucou dans une perspective évolutive, il est difficile de se rendre compte que l'oiseau nicheur n'est pas un généreux propriétaire des poussins du coucou, mais une malheureuse victime.

Comme l'a dit le biologiste évolutionniste Theodosius Dobzhansky : « Sans la lumière de l'évolution, rien en biologie n'est compréhensible.

Bien que la descente de gradient stochastique ne soit pas une véritable forme d'évolution biologique, l'analyse post hoc en apprentissage automatique présente de nombreuses similitudes. » la méthode scientifique en biologie, qui nécessite souvent de comprendre l'origine du comportement d'un modèle.

Que l'on étudie le comportement des poussins parasites ou les performances internes des réseaux de neurones, il est difficile de distinguer ce qui constitue une information précieuse sans considérer la manière dont le système se développe.

Par conséquent, lors de l'analyse d'un modèle, il est important de prêter attention non seulement à l'état en fin de formation, mais également aux multiples points de contrôle intermédiaires au cours de la formation. De telles expériences sont peu coûteuses mais peuvent conduire à des résultats significatifs qui aident à mieux comprendre et expliquer le comportement du modèle.

Juste la bonne histoire

Les humains sont des penseurs causals et aiment rechercher des relations causales entre les choses, même s'il peut y avoir un manque de base scientifique.

Dans le domaine de la PNL, les chercheurs ont également tendance à fournir une explication causale explicable du comportement observé, mais cette explication peut ne pas vraiment révéler le fonctionnement interne du modèle. Par exemple, on pourrait prêter une attention particulière aux artefacts d’interprétabilité tels que les distributions d’attention syntaxique ou les neurones sélectifs, mais en réalité, nous ne pouvons pas être certains que le modèle utilise réellement ces modèles comportementaux.

Pour résoudre ce problème, la modélisation causale peut aider. Lorsque nous essayons d'intervenir (modifier ou manipuler) certaines caractéristiques et modèles d'un modèle pour tester leur impact sur le comportement du modèle, cette intervention peut cibler uniquement certains types de comportement évidents et spécifiques. En d’autres termes, lorsque nous essayons de comprendre comment un modèle utilise des caractéristiques et des modèles spécifiques, nous pouvons uniquement observer certains de ces comportements et ignorer d’autres comportements potentiels, moins évidents.

Ainsi, en pratique, nous ne pouvons effectuer que certains types d'interventions mineures sur des unités spécifiques de la représentation, sans parvenir à refléter correctement les interactions entre les entités.

Lorsque nous essayons d'intervenir (modifier ou manipuler) certaines caractéristiques et modèles du modèle pour tester leur impact sur le comportement du modèle, nous pouvons introduire des changements de distribution. Des changements de distribution importants peuvent conduire à un comportement erratique, alors pourquoi ne conduiraient-ils pas à de faux artefacts d’interprétabilité ?

Note du traducteur : le décalage de distribution fait référence à la différence entre les règles statistiques établies par le modèle sur les données d'entraînement et les données après intervention. Cette différence peut empêcher le modèle de s'adapter à la nouvelle distribution de données et ainsi présenter un comportement erratique.

Heureusement, les méthodes d'étude de l'évolution biologique peuvent nous aider à comprendre certains des phénomènes produits dans le modèle. Tout comme le coccyx humain, certains phénomènes peuvent avoir perdu leur rôle d'origine au cours du processus de formation du modèle et se transformer en quelque chose de similaire à un organe vestigial. Certains phénomènes peuvent être interdépendants, par exemple l’émergence de certaines caractéristiques au début de l’entraînement peut affecter le développement ultérieur d’autres caractéristiques, tout comme les animaux ont besoin de capacités de base de détection de la lumière avant de développer des yeux complexes.

Certains phénomènes peuvent également être dus à une compétition entre caractéristiques. Par exemple, les animaux dotés de fortes capacités odorantes peuvent ne pas s'appuyer beaucoup sur la vision, leurs capacités visuelles peuvent donc être affaiblies. De plus, certains phénomènes peuvent n’être que des effets secondaires du processus d’entraînement, semblables à l’ADN indésirable de notre génome. Ils occupent une grande partie du génome mais n’affectent pas directement notre apparence et notre fonctionnement.

Pendant le processus d'entraînement du modèle, certains phénomènes inutilisés peuvent apparaître, et nous avons de nombreuses théories pour expliquer ce phénomène. Par exemple, l’hypothèse du goulot d’étranglement des informations prédit qu’au début de la formation, les informations d’entrée seront mémorisées puis compressées dans le modèle, ne conservant que les informations pertinentes pour la sortie. Ces premières mémoires ne sont pas toujours utiles lors du traitement de données invisibles, mais elles sont très importantes pour éventuellement apprendre une représentation de sortie spécifique.

Nous pouvons également envisager la possibilité de caractéristiques dégénérées, car les comportements précoces et tardifs du modèle entraîné sont très différents. Les premiers modèles étaient plus simples. En prenant les modèles de langage comme exemple, les premiers modèles sont similaires aux modèles n-grammes simples, tandis que les modèles ultérieurs peuvent exprimer des modèles de langage plus complexes. Ce mélange dans le processus de formation peut avoir des effets secondaires qui peuvent facilement être confondus avec un élément essentiel de la formation du modèle.

Perspective évolutive

Il est très difficile de comprendre la tendance à l'apprentissage d'un modèle basé uniquement sur les fonctionnalités après l'entraînement. Selon les travaux de Lovering et al., observer la facilité d'extraction des fonctionnalités au début de la formation et analyser les données de réglage fin a un impact beaucoup plus profond sur la compréhension des performances de réglage fin que la simple analyse à la fin de la formation.

Le comportement en couches du langage est une explication typique basée sur des modèles statiques analytiques. Il a été avancé que les mots proches les uns des autres dans la structure de la phrase seront représentés plus près dans le modèle, tandis que les mots structurellement plus éloignés seront représentés plus éloignés. Alors, comment savons-nous que le modèle regroupe les mots en fonction de leur proximité dans la structure des phrases ?

En fait, nous pouvons affirmer avec plus de certitude que certains modèles de langage sont hiérarchiques car les premiers modèles codent davantage d'informations locales dans des réseaux de mémoire à long terme (LSTM) et des transformateurs, et lorsque ces dépendances peuvent être superposées à des composants courts familiers, elles apprendre plus facilement les dépendances plus éloignées.

Un cas concret a été rencontré en traitant du problème du créationnisme interprétatif. Lors de la formation plusieurs fois d’un classificateur de texte en utilisant différentes graines aléatoires, on peut observer que le modèle est distribué dans plusieurs clusters différents. Il a également été constaté que le comportement de généralisation d'un modèle peut être prédit en observant dans quelle mesure le modèle se connecte à d'autres modèles sur la surface de perte. En d’autres termes, selon l’endroit où la perte apparaît en surface, les performances de généralisation du modèle peuvent varier. Ce phénomène peut être lié aux graines aléatoires utilisées lors de l'entraînement.

Mais peut-on vraiment le dire ? Et si un cluster correspondait effectivement à une étape précoce du modèle ? Si un cluster ne représente en réalité qu'une première étape du modèle, ces modèles peuvent éventuellement passer à un cluster offrant de meilleures performances de généralisation. Par conséquent, dans ce cas, les phénomènes observés indiquent simplement que certains processus de réglage fin sont plus lents que d’autres.

Doit montrer que les trajectoires d'entraînement peuvent tomber dans un bassin sur la surface de perte, expliquant ainsi la diversité des comportements de généralisation dans les modèles entraînés. En fait, après avoir examiné plusieurs points de contrôle lors de la formation, il a été constaté qu'un modèle au centre d'un cluster développe des connexions plus fortes avec d'autres modèles de son cluster pendant la formation. Cependant, certains modèles parviennent toujours à passer avec succès à un meilleur cluster.

SGD 的光辉,带来深度学习的意义

Une suggestion

Pour répondre à la question de recherche, il ne suffit pas d'observer le processus de formation. Dans la recherche de relations causales, une intervention est nécessaire. Prenons par exemple l’étude de la résistance aux antibiotiques en biologie. Les chercheurs doivent délibérément exposer les bactéries aux antibiotiques et ne peuvent pas s’appuyer sur des expériences naturelles. Par conséquent, les déclarations basées sur des observations de la dynamique de formation nécessitent une confirmation expérimentale.

Toutes les déclarations ne nécessitent pas l'observation du processus de formation. Aux yeux des anciens humains, de nombreux organes avaient des fonctions évidentes, comme les yeux pour voir et le cœur pour pomper le sang. Dans le domaine du traitement du langage naturel (NLP), en analysant des modèles statiques, nous pouvons faire des interprétations simples, comme par exemple que des neurones spécifiques se déclenchent en présence d'attributs spécifiques, ou que certains types d'informations sont toujours disponibles dans le modèle.

Cependant, les observations du processus de formation peuvent encore clarifier le sens de nombreuses observations réalisées dans des modèles statiques. Cela signifie que, même si tous les problèmes ne nécessitent pas l'observation du processus de formation, dans de nombreux cas, il est utile de comprendre le processus de formation pour comprendre les observations.

Le conseil est simple : lorsque vous étudiez et analysez un modèle entraîné, ne vous concentrez pas uniquement sur les résultats finaux pendant le processus d'entraînement. Au lieu de cela, l'analyse doit être appliquée à plusieurs points de contrôle intermédiaires pendant la formation ; lors du réglage fin du modèle, vérifiez plusieurs points au début et à la fin de la formation. Il est important d'observer les changements dans le comportement du modèle pendant la formation, ce qui peut aider les chercheurs à mieux comprendre si la stratégie du modèle est raisonnable et à évaluer la stratégie du modèle après avoir observé ce qui se passe au début de la formation.

Lien de référence : https://thegradient.pub/interpretability-creationism/

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Cet article vous amènera à comprendre SHAP : explication du modèle pour l'apprentissage automatique Cet article vous amènera à comprendre SHAP : explication du modèle pour l'apprentissage automatique Jun 01, 2024 am 10:58 AM

Dans les domaines de l’apprentissage automatique et de la science des données, l’interprétabilité des modèles a toujours été au centre des préoccupations des chercheurs et des praticiens. Avec l'application généralisée de modèles complexes tels que l'apprentissage profond et les méthodes d'ensemble, la compréhension du processus décisionnel du modèle est devenue particulièrement importante. Explainable AI|XAI contribue à renforcer la confiance dans les modèles d'apprentissage automatique en augmentant la transparence du modèle. L'amélioration de la transparence des modèles peut être obtenue grâce à des méthodes telles que l'utilisation généralisée de plusieurs modèles complexes, ainsi que les processus décisionnels utilisés pour expliquer les modèles. Ces méthodes incluent l'analyse de l'importance des caractéristiques, l'estimation de l'intervalle de prédiction du modèle, les algorithmes d'interprétabilité locale, etc. L'analyse de l'importance des fonctionnalités peut expliquer le processus de prise de décision du modèle en évaluant le degré d'influence du modèle sur les fonctionnalités d'entrée. Estimation de l’intervalle de prédiction du modèle

Au-delà d'ORB-SLAM3 ! SL-SLAM : les scènes de faible luminosité, de gigue importante et de texture faible sont toutes gérées Au-delà d'ORB-SLAM3 ! SL-SLAM : les scènes de faible luminosité, de gigue importante et de texture faible sont toutes gérées May 30, 2024 am 09:35 AM

Écrit précédemment, nous discutons aujourd'hui de la manière dont la technologie d'apprentissage profond peut améliorer les performances du SLAM (localisation et cartographie simultanées) basé sur la vision dans des environnements complexes. En combinant des méthodes d'extraction de caractéristiques approfondies et de correspondance de profondeur, nous introduisons ici un système SLAM visuel hybride polyvalent conçu pour améliorer l'adaptation dans des scénarios difficiles tels que des conditions de faible luminosité, un éclairage dynamique, des zones faiblement texturées et une gigue importante. Notre système prend en charge plusieurs modes, notamment les configurations étendues monoculaire, stéréo, monoculaire-inertielle et stéréo-inertielle. En outre, il analyse également comment combiner le SLAM visuel avec des méthodes d’apprentissage profond pour inspirer d’autres recherches. Grâce à des expériences approfondies sur des ensembles de données publiques et des données auto-échantillonnées, nous démontrons la supériorité du SL-SLAM en termes de précision de positionnement et de robustesse du suivi.

Identifier le surapprentissage et le sous-apprentissage grâce à des courbes d'apprentissage Identifier le surapprentissage et le sous-apprentissage grâce à des courbes d'apprentissage Apr 29, 2024 pm 06:50 PM

Cet article présentera comment identifier efficacement le surajustement et le sous-apprentissage dans les modèles d'apprentissage automatique grâce à des courbes d'apprentissage. Sous-ajustement et surajustement 1. Surajustement Si un modèle est surentraîné sur les données de sorte qu'il en tire du bruit, alors on dit que le modèle est en surajustement. Un modèle surajusté apprend chaque exemple si parfaitement qu'il classera mal un exemple inédit/inédit. Pour un modèle surajusté, nous obtiendrons un score d'ensemble d'entraînement parfait/presque parfait et un score d'ensemble/test de validation épouvantable. Légèrement modifié : "Cause du surajustement : utilisez un modèle complexe pour résoudre un problème simple et extraire le bruit des données. Parce qu'un petit ensemble de données en tant qu'ensemble d'entraînement peut ne pas représenter la représentation correcte de toutes les données."

L'évolution de l'intelligence artificielle dans l'exploration spatiale et l'ingénierie des établissements humains L'évolution de l'intelligence artificielle dans l'exploration spatiale et l'ingénierie des établissements humains Apr 29, 2024 pm 03:25 PM

Dans les années 1950, l’intelligence artificielle (IA) est née. C’est à ce moment-là que les chercheurs ont découvert que les machines pouvaient effectuer des tâches similaires à celles des humains, comme penser. Plus tard, dans les années 1960, le Département américain de la Défense a financé l’intelligence artificielle et créé des laboratoires pour poursuivre son développement. Les chercheurs trouvent des applications à l’intelligence artificielle dans de nombreux domaines, comme l’exploration spatiale et la survie dans des environnements extrêmes. L'exploration spatiale est l'étude de l'univers, qui couvre l'ensemble de l'univers au-delà de la terre. L’espace est classé comme environnement extrême car ses conditions sont différentes de celles de la Terre. Pour survivre dans l’espace, de nombreux facteurs doivent être pris en compte et des précautions doivent être prises. Les scientifiques et les chercheurs pensent qu'explorer l'espace et comprendre l'état actuel de tout peut aider à comprendre le fonctionnement de l'univers et à se préparer à d'éventuelles crises environnementales.

Implémentation d'algorithmes d'apprentissage automatique en C++ : défis et solutions courants Implémentation d'algorithmes d'apprentissage automatique en C++ : défis et solutions courants Jun 03, 2024 pm 01:25 PM

Les défis courants rencontrés par les algorithmes d'apprentissage automatique en C++ incluent la gestion de la mémoire, le multithread, l'optimisation des performances et la maintenabilité. Les solutions incluent l'utilisation de pointeurs intelligents, de bibliothèques de threads modernes, d'instructions SIMD et de bibliothèques tierces, ainsi que le respect des directives de style de codage et l'utilisation d'outils d'automatisation. Des cas pratiques montrent comment utiliser la bibliothèque Eigen pour implémenter des algorithmes de régression linéaire, gérer efficacement la mémoire et utiliser des opérations matricielles hautes performances.

Cinq écoles d'apprentissage automatique que vous ne connaissez pas Cinq écoles d'apprentissage automatique que vous ne connaissez pas Jun 05, 2024 pm 08:51 PM

L'apprentissage automatique est une branche importante de l'intelligence artificielle qui donne aux ordinateurs la possibilité d'apprendre à partir de données et d'améliorer leurs capacités sans être explicitement programmés. L'apprentissage automatique a un large éventail d'applications dans divers domaines, de la reconnaissance d'images et du traitement du langage naturel aux systèmes de recommandation et à la détection des fraudes, et il change notre façon de vivre. Il existe de nombreuses méthodes et théories différentes dans le domaine de l'apprentissage automatique, parmi lesquelles les cinq méthodes les plus influentes sont appelées les « Cinq écoles d'apprentissage automatique ». Les cinq grandes écoles sont l’école symbolique, l’école connexionniste, l’école évolutionniste, l’école bayésienne et l’école analogique. 1. Le symbolisme, également connu sous le nom de symbolisme, met l'accent sur l'utilisation de symboles pour le raisonnement logique et l'expression des connaissances. Cette école de pensée estime que l'apprentissage est un processus de déduction inversée, à travers les connaissances existantes.

IA explicable : Expliquer les modèles IA/ML complexes IA explicable : Expliquer les modèles IA/ML complexes Jun 03, 2024 pm 10:08 PM

Traducteur | Revu par Li Rui | Chonglou Les modèles d'intelligence artificielle (IA) et d'apprentissage automatique (ML) deviennent aujourd'hui de plus en plus complexes, et le résultat produit par ces modèles est une boîte noire – impossible à expliquer aux parties prenantes. L'IA explicable (XAI) vise à résoudre ce problème en permettant aux parties prenantes de comprendre comment fonctionnent ces modèles, en s'assurant qu'elles comprennent comment ces modèles prennent réellement des décisions et en garantissant la transparence des systèmes d'IA, la confiance et la responsabilité pour résoudre ce problème. Cet article explore diverses techniques d'intelligence artificielle explicable (XAI) pour illustrer leurs principes sous-jacents. Plusieurs raisons pour lesquelles l’IA explicable est cruciale Confiance et transparence : pour que les systèmes d’IA soient largement acceptés et fiables, les utilisateurs doivent comprendre comment les décisions sont prises

Flash Attention est-il stable ? Meta et Harvard ont constaté que les écarts de poids de leur modèle fluctuaient de plusieurs ordres de grandeur. Flash Attention est-il stable ? Meta et Harvard ont constaté que les écarts de poids de leur modèle fluctuaient de plusieurs ordres de grandeur. May 30, 2024 pm 01:24 PM

MetaFAIR s'est associé à Harvard pour fournir un nouveau cadre de recherche permettant d'optimiser le biais de données généré lors de l'apprentissage automatique à grande échelle. On sait que la formation de grands modèles de langage prend souvent des mois et utilise des centaines, voire des milliers de GPU. En prenant comme exemple le modèle LLaMA270B, sa formation nécessite un total de 1 720 320 heures GPU. La formation de grands modèles présente des défis systémiques uniques en raison de l’ampleur et de la complexité de ces charges de travail. Récemment, de nombreuses institutions ont signalé une instabilité dans le processus de formation lors de la formation des modèles d'IA générative SOTA. Elles apparaissent généralement sous la forme de pics de pertes. Par exemple, le modèle PaLM de Google a connu jusqu'à 20 pics de pertes au cours du processus de formation. Le biais numérique est à l'origine de cette imprécision de la formation,

See all articles