Principe de descente de gradient
Les trois éléments de l'idée de la méthode du gradient : le point de départ, la direction de la descente et la taille du pas de descente.
L'expression de mise à jour du poids couramment utilisée dans l'apprentissage automatique est (apprentissage recommandé : Tutoriel vidéo Python)
:, λ voici le taux d'apprentissage. Cet article part de cette formule pour expliquer clairement les différentes méthodes de descente "gradient" en apprentissage automatique.
Les fonctions objectives du Machine Learning sont généralement des fonctions convexes. Qu'est-ce qu'une fonction convexe ?
En raison du manque d'espace, nous n'entrerons pas dans les détails. Ici, nous utiliserons une métaphore vivante pour résoudre le problème de la fonction convexe. Vous pouvez imaginer la fonction de perte cible comme un pot pour trouver le fond de la. pot. L'idée très intuitive est que nous descendons dans la direction du gradient de la fonction à un certain point initial (c'est-à-dire la descente du gradient). Ici, faisons une autre analogie frappante. Si nous comparons ce mouvement à une force, alors les trois éléments complets sont la longueur du pas (la quantité de mouvement à déplacer), la direction et le point de départ. Cette métaphore vivante nous permet de résoudre plus facilement le gradient. Problème. Joyeux, le point de départ est très important et est la clé à prendre en compte lors de l'initialisation, et la direction et la taille du pas sont la clé. En fait, la différence entre les différents dégradés réside dans ces deux points !
La direction du dégradé est
, et la taille du pas est définie sur un Δ constant. que s'il est utilisé lorsque le gradient est grand, il est loin de la solution optimale, et W est mis à jour plus rapidement, cependant, lorsque le gradient est petit, c'est-à-dire lorsqu'il est plus proche de la solution optimale, W est mis à jour en même temps ; taux comme avant. Cela entraînera une sur-mise à jour facile de W et un éloignement de la solution optimale, puis une oscillation d'avant en arrière près de la solution optimale. Par conséquent, puisque le gradient est grand lorsqu’on s’éloigne de la solution optimale et petit lorsqu’on s’en rapproche, nous laissons la longueur du pas suivre ce rythme, nous utilisons donc λ|W| pour remplacer Δ, Finalement nous obtenons Le formule que nous connaissons :
Donc le λ à cet instant change avec la raideur et la douceur de la pente, même s'il s'agit d'une constante.
Pour plus d'articles techniques liés à Python, veuillez visiter la colonne Tutoriel Python pour apprendre !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)
