신경망에는 더 이상 활성화 기능이 필요하지 않을 수 있습니까? 레이어 정규화에는 비선형 표현도 있습니다!-일체 포함-php.cn

신경망에는 더 이상 활성화 기능이 필요하지 않을 수 있습니까? 레이어 정규화에는 비선형 표현도 있습니다!

王林

풀어 주다： 2024-07-03 14:11:33

원래의

1177명이 탐색했습니다.

神经网络可能不再需要激活函数？Layer Normalization也具有非线性表达！

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

이 기사의 저자는 모두 Beihang University 인공 지능 학교 및 National Key Laboratory of Complex Critical Software의 부교수 팀 출신입니다. 환경. 제1저자 Ni Yunhao는 대학원 1년생, 제2저자 Guo Yuxin은 대학원 3년생, 제3저자 Jia Junlong은 대학원 2년생이다. Huang Lei 부교수 (홈페이지: https://huangleibuaa.github.io/)

신경망은 일반적으로 선형 계층, 비선형 계층(활성화 기능) 및 정규화 계층의 세 부분으로 구성됩니다. 선형 계층은 네트워크 매개변수가 존재하는 주요 위치입니다. 비선형 계층은 신경망의 표현 능력을 향상시키는 반면, 정규화 계층(Normalization)은 신경망 훈련을 안정화하고 가속화하는 데 주로 사용됩니다. 예를 들어 배치 정규화(Batch Normalization)는 예측 단계에서 선형 변환으로 간주될 수 있으며 표현에 비선형성을 도입하지 않습니다. 따라서 연구자들은 일반적으로 정규화가 모델의 표현 능력을 향상시킬 수 없다고 생각합니다.

그러나 최근 ICML2024에서 베이항대학교 인공지능대학 황레이(Huang Lei) 교수팀이 발표한 논문 "On the Nonlinearity of Layer Normalization"에서는 레이어 정규화(Layer Normlization, LN)와 그 계산적으로 저하된 버전을 지적했습니다. RMSNorm은 비선형 발현 능력이며 LN의 보편적인 근사 분류 능력에 대해 자세히 논의합니다.

神经网络可能不再需要激活函数？Layer Normalization也具有非线性表达！

논문 주소: https://arxiv.org/abs/2406.01255

이 논문은 LN의 비선형성을 수학적으로 증명합니다. 그리고 선형 레이어와 LN만 포함하는 간단한 신경망 LN-Net이 제안됩니다. 이론적으로 충분히 깊다면 주어진 샘플과 샘플 카테고리를 임의로 분류할 수 있습니다. 이 발견은 다양한 정규화를 피팅 기능이 없는 선형 변환으로 간주하는 사람들의 관성을 깨뜨렸고, 비선형 계층과 정규화 계층은 더 이상 분리된 신경망 모듈이 아닙니다.

현재 변압기가 널리 사용됨에 따라 LN은 고정 부품으로 일반적으로 사용되는 기술이 되었습니다. 이 연구는 향후 이러한 방향의 신경망 아키텍처에 대한 새로운 이론적 기반을 제공할 수 있습니다. 획기적인 의미를 지닌다.

LN 비선형성의 수학적 발견

이 기사에서는 비선형 연구의 경우 LN 자체의 분석적 특성을 직접 논의하지 않고 LN과 데이터 간의 관계를 보다 실용적인 방식으로 탐색합니다. 상호 작용.

저자는 두 범주에서 표본의 선형 분리성을 설명하기 위해 먼저 통계적 SSR(Sum of Squares Ratio)을 제안했습니다. 샘플이 선형 변환되면 SSR도 변경됩니다. 따라서 모든 선형 변환에서 샘플에 해당하는 최소 SSR을 LSSR로 정의합니다. 기사에서는 LSSR이 작을수록 샘플 간의 선형 분리성이 더 강하다고 지적합니다.

그러나 표본에 부과된 선형변화를 "선형변환-LN-선형변환"의 구조로 대체하면, 새로 얻어지는 SSR이 비선형을 검증하는 LSSR보다 낮을 수 있음을 알 수 있다. LN의 표현 — —LN이 선형이면 "선형 변환-LN-선형 변환"도 선형이며 결과로 생성되는 새 SSR은 LSSR보다 낮을 수 없습니다.

분류 문제에서 LN의 임의 분리 가능성

추가 연구를 위해 저자는 LN을 센터링과 스케일링의 두 단계로 나눕니다. 중앙화는 수학적으로 선형 변환이므로 LN의 비선형성은 주로 스케일 조정 작업(RMSNorm에서 수행하는 작업인 기사에서는 구형 투영이라고도 함)에 존재합니다. 저자는 가장 간단한 선형 분리 불가능한 XOR 데이터를 예로 들어 선형 변환과 구형 투영을 통해 이 네 가지 점을 올바르게 분류했습니다.

神经网络可能不再需要激活函数？Layer Normalization也具有非线性表达！

보다 일반적으로 저자는 LN-Net의 보편적 근사 기능을 탐색하면서 LN 및 선형 레이어를 사용하여 임의 개수의 샘플을 올바르게 분류하는 알고리즘을 제안합니다.

神经网络可能不再需要激活函数？Layer Normalization也具有非线性表达！

알고리즘 단계를 구성하여 신경망의 레이어별 변환은 유사한 샘플 병합 문제로 변환하고, 보편적 근사 분류 문제는 샘플 병합 문제로 변환하여 다음과 같이 지적했습니다. - 임의의 레이블이 있는 m개 샘플의 경우 O(m) 레이어 LN-Net을 구성하여 이러한 m개 샘플을 올바르게 분류할 수 있습니다. 이 구성 방법은 또한 신경망의 VC 차원을 계산하기 위한 새로운 아이디어를 제공합니다. 저자는 이를 기반으로 L개의 정규화 레이어를 갖춘 LN-Net이 최소 L+2의 VC 차원을 갖는다고 추론할 수 있다고 지적했습니다.

神经网络可能不再需要激活函数？Layer Normalization也具有非线性表达！

LN 비선형 향상 및 실제 응용

저자는 LN의 비선형성 증명을 바탕으로 실제 응용을 위해 LN의 비선형성을 더욱 향상시키기 위한 그룹화 계층 표준화 기술을 제안했습니다. G). 저자는 그룹화가 LN의 비선형성을 강화할 수 있음을 헤시안 행렬의 관점에서 수학적으로 예측하고, LN-G의 표현 능력을 실험적으로 사전 탐색한다.

저자는 CIFAR-10 랜덤 라벨 데이터 세트에서 일반적인 선형 레이어 모델의 경우 선형 레이어와 LN-G로 구성된 신경망을 사용하는 동안 정확도가 20%를 초과하지 않는다고 지적했습니다. 비선형 단위로 전통적인 활성화 기능을 도입하면 55.85%의 정확도를 달성할 수 있습니다.

저자는 활성화 함수가 없는 컨벌루션 신경망에서 LN-G의 분류 효과를 추가로 탐색했으며, 활성화 함수가 없는 이 신경망이 강력한 피팅 능력을 가지고 있음을 실험적으로 증명했습니다. 또한 저자는 GN이 전체 샘플에 작용하는 MLP와 유사하게 LN-G-Position을 제안했습니다(단일 샘플을 1차원 벡터로 늘린 다음 GN을 수행함). 비선형 레이어가 없는 ResNet 네트워크에서 LN-G-Position 방법을 사용하면 CIFAR-10 데이터 세트에서 86.66%의 정확도를 얻을 수 있으며 이는 LN-G-Position의 강력한 표현 능력을 반영합니다.

저자는 원래 LN을 LN-G로 대체하여 Transformer에 대한 실험적 연구를 수행했으며, 실험 결과에 따르면 그룹 계층 표준화가 Transformer 네트워크의 성능을 효과적으로 향상시킬 수 있음을 발견했습니다. 실제 네트워크, 이론의 타당성.

결론 및 전망

저자는 "On the Nonlinearity of Layer Normalization" 논문에서 선형 레이어와 LN만 포함하는 모델의 보편적인 분류 능력을 이론적으로 처음으로 입증했으며, 특정 깊이 모델의 VC 차원 하한. 여기서 가장 중요한 의미는 전통적인 심층 신경망의 표현 능력에 대한 분석이 널리 사용되는 현대 실제 네트워크를 향해 큰 진전을 이루었다는 것입니다. 이는 미래에 대한 새로운 아이디어를 제공할 수 있습니다. 신경망 구조 디자인.

위 내용은 신경망에는 더 이상 활성화 기능이 필요하지 않을 수 있습니까? 레이어 정규화에는 비선형 표현도 있습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!