논문에서는 과매개변수화된 신경망 모델이 왜 좋은 일반화 성능을 가질 수 있는지에 대해 주로 논의합니다. 즉, 단순히 훈련 세트를 암기하는 것이 아니라 훈련 세트의 일반적인 규칙을 요약하여 테스트 세트에 적용할 수 있도록 하는 것(일반화 능력)입니다.
클래식 의사결정 트리 모델을 예로 들어보겠습니다. 트리 모델이 데이터 세트의 일반 규칙을 학습하면 트리가 먼저 노드를 분할하면 서로 다른 레이블이 있는 샘플을 잘 구별할 수 있는 것이 좋습니다. , 깊이가 매우 작고 각 리프의 해당 샘플 수가 충분하면(즉, 통계 규칙을 기반으로 한 데이터의 양도 상대적으로 많음) 얻은 규칙이 다른 데이터로 일반화될 가능성이 더 높습니다. . (즉: 좋은 적합성과 일반화 능력).
또 다른 더 나쁜 상황은 트리가 몇 가지 일반 규칙을 학습할 수 없는 경우 이 데이터 세트를 학습하기 위해 트리가 점점 더 깊어지고 각 리프 노드가 적은 수의 샘플에 해당할 수 있다는 것입니다. 데이터가 가져온 통계 정보는 단지 노이즈일 수도 있음), 결국 모든 데이터를 기계적으로 기억하게 됩니다(예: 과적합 및 일반화 능력 없음). 너무 깊은 트리 모델은 쉽게 과적합될 수 있음을 알 수 있습니다.
그렇다면 과도하게 매개변수화된 신경망이 어떻게 좋은 일반화를 달성할 수 있을까요?
이 기사는 간단하고 일반적인 관점에서 설명합니다 - 신경망의 경사하강법 최적화 과정에서 일반화 능력에 대한 이유를 탐구합니다:
우리는 경사 일관성 이론을 요약했습니다. 서로 다른 샘플의 기울기는 일관성을 생성하므로 신경망은 일반화 기능이 뛰어납니다. 훈련 중에 서로 다른 샘플의 경사가 잘 정렬되면, 즉 일관성이 있으면 경사하강법이 안정적이고 빠르게 수렴할 수 있으며 결과 모델이 잘 일반화될 수 있습니다. 그렇지 않고, 샘플이 너무 적거나 훈련 시간이 너무 길면 일반화되지 않을 수 있습니다.
이 이론을 바탕으로 다음과 같은 설명을 할 수 있습니다.
더 넓은 신경망 모델은 일반화 기능이 뛰어납니다. 이는 더 넓은 네트워크가 더 많은 하위 네트워크를 갖고 더 작은 네트워크보다 경사 일관성을 생성할 가능성이 더 높기 때문에 더 나은 일반화가 가능하기 때문입니다. 즉, 경사하강법은 일반화(일관성) 경사를 우선시하는 특성 선택기이며, 더 넓은 네트워크에는 단순히 특성이 더 많기 때문에 더 나은 특성을 가질 수 있습니다.
하지만 개인적으로는 여전히 네트워크 입력 레이어/히든 레이어의 너비를 구분해야 한다고 생각합니다. 특히 데이터 마이닝 작업의 입력 계층의 경우 입력 기능이 일반적으로 수동으로 설계되므로 기능 선택을 고려해야 합니다(즉, 입력 레이어의 너비를 줄임). 그렇지 않으면 기능 노이즈를 직접 입력하면 그래디언트 일관성이 방해됩니다. .
네트워크가 깊을수록 그래디언트 일관성 현상이 증폭되어 일반화 능력이 향상됩니다.
Deep 모델에서는 레이어 간 피드백이 Coherent Gradient를 강화하기 때문에 학습 과정에서 Coherent Gradient(W6)의 특성과 Incoherent Gradient(W1)의 특성 간에 상대적인 차이가 기하급수적으로 발생합니다. 증폭. 이로 인해 더 깊은 네트워크가 일관된 기울기를 선호하게 되어 일반화 기능이 향상됩니다.
조기 중지를 통해 일관되지 않은 기울기의 과도한 영향을 줄이고 일반화를 향상할 수 있습니다.
훈련 중에 일부 쉬운 샘플은 다른 샘플(하드 샘플)보다 먼저 맞습니다. 훈련 초기 단계에서는 이러한 쉬운 샘플의 상관 관계 기울기가 지배적이고 적합하기 쉽습니다. 학습 후반부에서는 어려운 샘플의 비일관적 기울기가 평균 기울기 g(wt)를 지배하므로 일반화 능력이 저하되므로 조기에 중지해야 합니다.
우리는 완전 경사하강법도 좋은 일반화 능력을 가질 수 있다는 것을 발견했습니다. 더욱이, 신중한 실험에 따르면 확률적 경사 하강법이 반드시 더 나은 일반화로 이어지는 것은 아니지만 확률적 경사도가 로컬 최소값에서 벗어나 정규화 등에서 역할을 할 가능성이 더 높다는 가능성을 배제하지는 않습니다.
학습률이 낮을수록 반복 횟수가 더 많아지기 때문에 학습률이 낮을수록 일반화 오류가 줄어들 수 없다고 생각합니다(반대) 조기 중단).
목적 함수에 L2 및 L1 정규화를 추가하고 해당 기울기 계산에서 L1 정규화 항에 추가해야 하는 기울기는 부호( w), L2 기울기는 w입니다. L2 정규화를 예로 들면 해당 그래디언트 W(i+1) 업데이트 공식은 다음과 같습니다. 그림
"L2 정규화(가중치 감쇠)"를 "배경 힘"으로 간주할 수 있으며 각 매개 변수가 푸시됩니다. 데이터 독립적인 0 값에 가까우므로(L1은 희소 솔루션을 얻기 쉽고, L2는 0에 접근하는 매끄러운 솔루션을 얻기 쉽습니다) 약한 기울기 방향의 영향을 제거합니다. 일관된 경사 방향의 경우에만 매개변수가 "배경 힘"에서 상대적으로 분리될 수 있으며 경사 업데이트는 데이터를 기반으로 완료될 수 있습니다.
Momentum, Adam 및 기타 경사 하강 알고리즘에서 매개변수 W 업데이트 방향은 현재 경사에 의해 결정될 뿐만 아니라 이전에 누적된 기울기에 의해 기울기 방향이 관련됩니다(즉, 누적된 응집성 기울기의 효과가 보존됩니다). 이를 통해 그라디언트 방향이 약간 변경되는 차원에서는 매개변수가 더 빠르게 업데이트되고, 그라디언트 방향이 크게 변경되는 차원에서는 업데이트 진폭이 줄어들어 수렴을 가속화하고 진동을 줄이는 효과가 있습니다.
일괄 경사 하강 알고리즘을 최적화하여 약한 경사 방향의 경사 업데이트를 억제하고 일반화 기능을 더욱 향상시킬 수 있습니다. 예를 들어, Winsorized Gradient Descent를 사용하여 Gradient Outlier를 제외하고 평균을 구할 수 있습니다. 또는 평균 대신 기울기의 중앙값을 사용하여 기울기 이상값의 영향을 줄입니다.
글 끝부분에 있는 몇 문장을 통해 딥러닝 이론에 관심이 있으시면 논문에 언급된 관련 연구를 읽어보실 수 있습니다.
위 내용은 딥러닝의 일반화 능력에 대해 간략하게 설명하는 기사의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!