Les réseaux de neurones n'ont peut-être plus besoin de fonctions d'activation ? La normalisation des calques a également une expression non linéaire !-IA-php.cn

Les réseaux de neurones n'ont peut-être plus besoin de fonctions d'activation ? La normalisation des calques a également une expression non linéaire !

王林

Libérer： 2024-07-03 14:11:33

original

1017 Les gens l'ont consulté

神经网络可能不再需要激活函数？Layer Normalization也具有非线性表达！

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Les auteurs de cet article sont tous issus de l'équipe du professeur agrégé Huang Lei, École d'intelligence artificielle, Université de Beihang et Laboratoire national clé des logiciels critiques complexes. Environnement. Le premier auteur, Ni Yunhao, est un étudiant diplômé de première année, le deuxième auteur, Guo Yuxin, est un étudiant diplômé de troisième année et le troisième auteur, Jia Junlong, est un étudiant diplômé de deuxième année. L'auteur correspondant est. Professeur agrégé Huang Lei (Page d'accueil : https://huangleibuaa.github.io/)

Les réseaux de neurones sont généralement composés de trois en partie composés : une couche linéaire, une couche non linéaire (fonction d'activation) et une couche de normalisation. La couche linéaire est l'emplacement principal où existent les paramètres du réseau. La couche non linéaire améliore la capacité d'expression du réseau neuronal, tandis que la couche de normalisation (normalisation) est principalement utilisée pour stabiliser et accélérer la formation du réseau neuronal. Il y a peu de travaux pour étudier leur expressivité. Par exemple, avec la normalisation par lots, elle peut être considérée comme une transformation linéaire dans l'étape de prédiction et n'introduit pas de non-linéarité dans l'expression. Par conséquent, les chercheurs pensent généralement que la normalisation ne peut pas améliorer la capacité d’expression du modèle.

Cependant, l'article « Sur la non-linéarité de la normalisation des couches » récemment publié à l'ICML2024 par l'équipe du professeur Huang Lei de l'École d'intelligence artificielle de l'Université de Beihang a souligné que la normalisation des couches (Layer Normlisation, LN) et sa version dégradée informatiquement RMSNorm est une capacité d'expression non linéaire, et la capacité de classification approximative universelle de LN est discutée en détail.

神经网络可能不再需要激活函数？Layer Normalization也具有非线性表达！

Adresse papier : https://arxiv.org/abs/2406.01255

Cet article prouve mathématiquement la non-linéarité de LN. Et un simple réseau neuronal LN-Net contenant uniquement des couches linéaires et LN est proposé. S'il est suffisamment profond, en théorie, des échantillons et des catégories d'échantillons donnés peuvent être arbitrairement classés. Cette découverte brise l'inertie des gens qui considèrent diverses normalisations comme des transformations linéaires sans capacités d'ajustement, et la couche non linéaire et la couche de normalisation ne sont plus des modules de réseau neuronal disjoints.

Actuellement, avec l'utilisation généralisée des transformateurs, le LN, en tant que composant fixe, est devenu une technologie couramment utilisée. Cette recherche pourrait fournir une nouvelle base théorique pour l'architecture des réseaux neuronaux dans cette direction à l'avenir. revêt une importance révolutionnaire.

Découverte mathématique de la non-linéarité du LN

Pour la recherche non linéaire, l'article ne discute pas directement des propriétés analytiques du LN lui-même, mais explore la relation entre le LN et les données d'une manière plus pratique. .

L'auteur a d'abord proposé la statistique SSR (Sum of Squares Ratio) pour décrire la séparabilité linéaire des échantillons sous deux catégories. Lorsqu'un échantillon est transformé linéairement, le SSR change également. Par conséquent, le SSR minimum correspondant à l'échantillon sous toutes les transformations linéaires est défini comme LSSR. L'article souligne que lorsque le LSSR est plus petit, la séparabilité linéaire entre les échantillons est plus forte.

Cependant, lorsque le changement linéaire imposé à l'échantillon est remplacé par la structure de "transformation linéaire-LN-transformation linéaire", on constate que le nouveau SSR obtenu peut être inférieur au LSSR, qui vérifie le non-linéaire expression de LN— —Si LN est linéaire, alors la « transformation linéaire-LN-transformation linéaire » est également linéaire et le nouveau SSR résultant ne peut pas être inférieur au LSSR.

Séparabilité arbitraire du LN dans les problèmes de classification

Pour des recherches plus approfondies, l'auteur divise le LN en deux étapes : le centrage et la mise à l'échelle. La centralisation est mathématiquement une transformation linéaire, donc la non-linéarité de LN existe principalement dans l'opération de mise à l'échelle (également appelée projection sphérique dans l'article, qui est l'opération effectuée par RMSNorm). L'auteur a pris comme exemple les données XOR linéairement inséparables les plus simples et a correctement classé ces quatre points par transformation linéaire et projection sphérique.

神经网络可能不再需要激活函数？Layer Normalization也具有非线性表达！

Plus généralement, l'auteur propose un algorithme pour classer correctement n'importe quel nombre d'échantillons à l'aide de couches LN et linéaires, explorant la capacité d'approximation universelle de LN-Net.

神经网络可能不再需要激活函数？Layer Normalization也具有非线性表达！

En construisant des étapes d'algorithme, la transformation couche par couche du réseau neuronal est convertie en un problème de fusion d'échantillons similaire, et le problème de classification approximative universelle est converti en un problème de fusion d'échantillons, et a souligné que - pour m échantillons avec n'importe quelle étiquette, vous pouvez construire une couche O(m) LN-Net pour classer correctement ces m échantillons. Cette méthode de construction apporte également de nouvelles idées pour calculer la dimension VC des réseaux de neurones. L'auteur a souligné que sur cette base, on peut en déduire que le LN-Net avec L couches de normalisation a une dimension VC d'au moins L+2. "Amélioration non linéaire du LN et application pratique" G). L'auteur prédit mathématiquement que le regroupement peut renforcer la non-linéarité du LN du point de vue de la matrice de Hesse, et explore de manière préliminaire la capacité d'expression du LN-G de manière expérimentale.

神经网络可能不再需要激活函数？Layer Normalization也具有非线性表达！

L'auteur a souligné que sur l'ensemble de données d'étiquettes aléatoires CIFAR-10, pour le modèle de couche linéaire habituel, la précision ne dépasse pas 20 % en utilisant le réseau neuronal composé de couche linéaire et de LN-G (sans en introduisant la fonction d'activation traditionnelle en tant qu'unité non linéaire) peut atteindre une précision de 55,85 %.

L'auteur a exploré plus en détail l'effet de classification du LN-G dans le réseau neuronal convolutif sans fonction d'activation et a prouvé expérimentalement que ce réseau neuronal sans fonction d'activation possède une puissante capacité d'ajustement. De plus, l'auteur a proposé LN-G-Position par analogie avec MLP où GN agit sur l'ensemble de l'échantillon (en étirant un seul échantillon en un vecteur unidimensionnel puis en effectuant GN). L’utilisation de la méthode LN-G-Position sur le réseau ResNet sans couches non linéaires peut atteindre une précision de 86,66 % sur l’ensemble de données CIFAR-10, ce qui reflète la puissante capacité d’expression de LN-G-Position.

L'auteur a ensuite mené une étude expérimentale sur Transformer, remplaçant le LN d'origine par LN-G. Selon les résultats expérimentaux, il a été constaté que la standardisation des couches de groupe peut améliorer efficacement les performances du réseau Transformer, prouvant que dans. des réseaux réels, cette faisabilité de la théorie.

Conclusion et perspectives 神经网络可能不再需要激活函数？Layer Normalization也具有非线性表达！

Dans l'article "Sur la non-linéarité de la normalisation des couches", l'auteur a théoriquement prouvé pour la première fois la capacité de classification universelle d'un modèle contenant uniquement des couches linéaires et LN et étant donné une profondeur spécifique La limite inférieure de la dimension VC du modèle La signification la plus importante ici est que l'analyse de la capacité d'expression des réseaux neuronaux profonds traditionnels a fait un grand pas vers les réseaux réels modernes largement utilisés. Cela peut fournir de nouvelles idées pour l'avenir. idées de conception de structure de réseau neuronal.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!