목차
1. DNN 일반화 능력의 문제
2. DNN의 일반화 능력에 대한 이유
2.1 폭 신경망의 일반화
2.2 심층 신경망의 일반화
2.3 조기 중지
2.4 전체 그래디언트 하강 VS 학습 속도
2.5 L2 및 L1 정규화
2.6 경사 하강 알고리즘의 발전
Summary
기술 주변기기 일체 포함 딥러닝의 일반화 능력에 대해 간략하게 설명하는 기사

딥러닝의 일반화 능력에 대해 간략하게 설명하는 기사

Apr 13, 2023 am 09:19 AM
신경망 딥러닝

딥러닝의 일반화 능력에 대해 간략하게 설명하는 기사

1. DNN 일반화 능력의 문제

논문에서는 과매개변수화된 신경망 모델이 왜 좋은 일반화 성능을 가질 수 있는지에 대해 주로 논의합니다. 즉, 단순히 훈련 세트를 암기하는 것이 아니라 훈련 세트의 일반적인 규칙을 요약하여 테스트 세트에 적용할 수 있도록 하는 것(일반화 능력)입니다.

딥러닝의 일반화 능력에 대해 간략하게 설명하는 기사

클래식 의사결정 트리 모델을 예로 들어보겠습니다. 트리 모델이 데이터 세트의 일반 규칙을 학습하면 트리가 먼저 노드를 분할하면 서로 다른 레이블이 있는 샘플을 잘 구별할 수 있는 것이 좋습니다. , 깊이가 매우 작고 각 리프의 해당 샘플 수가 충분하면(즉, 통계 규칙을 기반으로 한 데이터의 양도 상대적으로 많음) 얻은 규칙이 다른 데이터로 일반화될 가능성이 더 높습니다. . (즉: 좋은 적합성과 일반화 능력).

딥러닝의 일반화 능력에 대해 간략하게 설명하는 기사

또 다른 더 나쁜 상황은 트리가 몇 가지 일반 규칙을 학습할 수 없는 경우 이 데이터 세트를 학습하기 위해 트리가 점점 더 깊어지고 각 리프 노드가 적은 수의 샘플에 해당할 수 있다는 것입니다. 데이터가 가져온 통계 정보는 단지 노이즈일 수도 있음), 결국 모든 데이터를 기계적으로 기억하게 됩니다(예: 과적합 및 일반화 능력 없음). 너무 깊은 트리 모델은 쉽게 과적합될 수 있음을 알 수 있습니다.

그렇다면 과도하게 매개변수화된 신경망이 어떻게 좋은 일반화를 달성할 수 있을까요?

2. DNN의 일반화 능력에 대한 이유

이 기사는 간단하고 일반적인 관점에서 설명합니다 - 신경망의 경사하강법 최적화 과정에서 일반화 능력에 대한 이유를 탐구합니다:

우리는 경사 일관성 이론을 요약했습니다. 서로 다른 샘플의 기울기는 일관성을 생성하므로 신경망은 일반화 기능이 뛰어납니다. 훈련 중에 서로 다른 샘플의 경사가 잘 정렬되면, 즉 일관성이 있으면 경사하강법이 안정적이고 빠르게 수렴할 수 있으며 결과 모델이 잘 일반화될 수 있습니다. 그렇지 않고, 샘플이 너무 적거나 훈련 시간이 너무 길면 일반화되지 않을 수 있습니다.

딥러닝의 일반화 능력에 대해 간략하게 설명하는 기사

이 이론을 바탕으로 다음과 같은 설명을 할 수 있습니다.

2.1 폭 신경망의 일반화

더 넓은 신경망 모델은 일반화 기능이 뛰어납니다. 이는 더 넓은 네트워크가 더 많은 하위 네트워크를 갖고 더 작은 네트워크보다 경사 일관성을 생성할 가능성이 더 높기 때문에 더 나은 일반화가 가능하기 때문입니다. 즉, 경사하강법은 일반화(일관성) 경사를 우선시하는 특성 선택기이며, 더 넓은 네트워크에는 단순히 특성이 더 많기 때문에 더 나은 특성을 가질 수 있습니다.

  • 원본 논문: 일반화 및 너비 Neyshabur 외 [2018b]에서는 더 넓은 네트워크가 더 잘 일반화된다는 사실을 발견했습니다. 이제 직관적으로 더 넓은 네트워크가 특정 수준에서 더 많은 하위 네트워크를 갖습니다. 더 넓은 네트워크에서 최대 일관성을 갖는 것은 더 얇은 네트워크의 것보다 더 일관성이 있을 수 있으므로 더 잘 일반화할 수 있습니다. 즉, 섹션 10에서 논의한 것처럼 경사하강법은 잘 일반화(일관성)를 우선시하는 특성 선택기입니다. 이와 관련하여 복권 가설 [Frankle and Carbin, 2018]
  • 문서 링크: https://github.com/aialgorithm/Blog도 참조하세요.

하지만 개인적으로는 여전히 네트워크 입력 레이어/히든 레이어의 너비를 구분해야 한다고 생각합니다. 특히 데이터 마이닝 작업의 입력 계층의 경우 입력 기능이 일반적으로 수동으로 설계되므로 기능 선택을 고려해야 합니다(즉, 입력 레이어의 너비를 줄임). 그렇지 않으면 기능 노이즈를 직접 입력하면 그래디언트 일관성이 방해됩니다. .

2.2 심층 신경망의 일반화

네트워크가 깊을수록 그래디언트 일관성 현상이 증폭되어 일반화 능력이 향상됩니다.

딥러닝의 일반화 능력에 대해 간략하게 설명하는 기사

Deep 모델에서는 레이어 간 피드백이 Coherent Gradient를 강화하기 때문에 학습 과정에서 Coherent Gradient(W6)의 특성과 Incoherent Gradient(W1)의 특성 간에 상대적인 차이가 기하급수적으로 발생합니다. 증폭. 이로 인해 더 깊은 네트워크가 일관된 기울기를 선호하게 되어 일반화 기능이 향상됩니다.

딥러닝의 일반화 능력에 대해 간략하게 설명하는 기사

2.3 조기 중지

조기 중지를 통해 일관되지 않은 기울기의 과도한 영향을 줄이고 일반화를 향상할 수 있습니다.

훈련 중에 일부 쉬운 샘플은 다른 샘플(하드 샘플)보다 먼저 맞습니다. 훈련 초기 단계에서는 이러한 쉬운 샘플의 상관 관계 기울기가 지배적이고 적합하기 쉽습니다. 학습 후반부에서는 어려운 샘플의 비일관적 기울기가 평균 기울기 g(wt)를 지배하므로 일반화 능력이 저하되므로 조기에 중지해야 합니다.

딥러닝의 일반화 능력에 대해 간략하게 설명하는 기사

  • (참고: 단순 샘플은 데이터 세트에서 공통적으로 많은 그래디언트를 갖는 샘플입니다. 이러한 이유로 대부분의 그래디언트는 이에 유리하고 더 빠르게 수렴됩니다.)

2.4 전체 그래디언트 하강 VS 학습 속도

우리는 완전 경사하강법도 좋은 일반화 능력을 가질 수 있다는 것을 발견했습니다. 더욱이, 신중한 실험에 따르면 확률적 경사 하강법이 반드시 더 나은 일반화로 이어지는 것은 아니지만 확률적 경사도가 로컬 최소값에서 벗어나 정규화 등에서 역할을 할 가능성이 더 높다는 가능성을 배제하지는 않습니다.

  • 우리 이론에 따르면 유한 학습률과 미니 배치 확률은 일반화에 필요하지 않습니다.

학습률이 낮을수록 반복 횟수가 더 많아지기 때문에 학습률이 낮을수록 일반화 오류가 줄어들 수 없다고 생각합니다(반대) 조기 중단).

  • 학습률이 충분히 작다고 가정하면 훈련이 진행됨에 따라 일반화 격차는 줄어들 수 없습니다. 이는 훈련의 반복 안정성 분석에 따른 것입니다. 40단계가 추가되면 안정성이 저하될 뿐입니다. 이론의 흥미로운 한계를 지적합니다

2.5 L2 및 L1 정규화

목적 함수에 L2 및 L1 정규화를 추가하고 해당 기울기 계산에서 L1 정규화 항에 추가해야 하는 기울기는 부호( w), L2 기울기는 w입니다. L2 정규화를 예로 들면 해당 그래디언트 W(i+1) 업데이트 공식은 다음과 같습니다. 그림

딥러닝의 일반화 능력에 대해 간략하게 설명하는 기사

"L2 정규화(가중치 감쇠)"를 "배경 힘"으로 간주할 수 있으며 각 매개 변수가 푸시됩니다. 데이터 독립적인 0 값에 가까우므로(L1은 희소 솔루션을 얻기 쉽고, L2는 0에 접근하는 매끄러운 솔루션을 얻기 쉽습니다) 약한 기울기 방향의 영향을 제거합니다. 일관된 경사 방향의 경우에만 매개변수가 "배경 힘"에서 상대적으로 분리될 수 있으며 경사 업데이트는 데이터를 기반으로 완료될 수 있습니다.

딥러닝의 일반화 능력에 대해 간략하게 설명하는 기사

2.6 경사 하강 알고리즘의 발전

  • Momentum, Adam 및 기타 경사 하강 알고리즘

Momentum, Adam 및 기타 경사 하강 알고리즘에서 매개변수 W 업데이트 방향은 현재 경사에 의해 결정될 뿐만 아니라 이전에 누적된 기울기에 의해 기울기 방향이 관련됩니다(즉, 누적된 응집성 기울기의 효과가 보존됩니다). 이를 통해 그라디언트 방향이 약간 변경되는 차원에서는 매개변수가 더 빠르게 업데이트되고, 그라디언트 방향이 크게 변경되는 차원에서는 업데이트 진폭이 줄어들어 수렴을 가속화하고 진동을 줄이는 효과가 있습니다.

  • 약한 경사 방향의 경사 하강 억제

일괄 경사 하강 알고리즘을 최적화하여 약한 경사 방향의 경사 업데이트를 억제하고 일반화 기능을 더욱 향상시킬 수 있습니다. 예를 들어, Winsorized Gradient Descent를 사용하여 Gradient Outlier를 제외하고 평균을 구할 수 있습니다. 또는 평균 대신 기울기의 중앙값을 사용하여 기울기 이상값의 영향을 줄입니다.

딥러닝의 일반화 능력에 대해 간략하게 설명하는 기사

Summary

글 끝부분에 있는 몇 문장을 통해 딥러닝 이론에 관심이 있으시면 논문에 언급된 관련 연구를 읽어보실 수 있습니다.

위 내용은 딥러닝의 일반화 능력에 대해 간략하게 설명하는 기사의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Python에서 BERT를 사용한 감정 분석 방법 및 단계 Python에서 BERT를 사용한 감정 분석 방법 및 단계 Jan 22, 2024 pm 04:24 PM

BERT는 Google이 2018년에 제안한 사전 훈련된 딥러닝 언어 모델입니다. 전체 이름은 BidirectionEncoderRepresentationsfromTransformers이며 Transformer 아키텍처를 기반으로 하며 양방향 인코딩의 특성을 가지고 있습니다. 기존 단방향 코딩 모델과 비교하여 BERT는 텍스트를 처리할 때 상황 정보를 동시에 고려할 수 있으므로 자연어 처리 작업에서 잘 수행됩니다. 양방향성을 통해 BERT는 문장의 의미 관계를 더 잘 이해할 수 있어 모델의 표현 능력이 향상됩니다. 사전 훈련 및 미세 조정 방법을 통해 BERT는 감정 분석, 이름 지정 등 다양한 자연어 처리 작업에 사용될 수 있습니다.

YOLO는 불멸이다! YOLOv9 출시: 성능과 속도 SOTA~ YOLO는 불멸이다! YOLOv9 출시: 성능과 속도 SOTA~ Feb 26, 2024 am 11:31 AM

오늘날의 딥러닝 방법은 모델의 예측 결과가 실제 상황에 가장 가깝도록 가장 적합한 목적 함수를 설계하는 데 중점을 두고 있습니다. 동시에 예측을 위한 충분한 정보를 얻을 수 있도록 적합한 아키텍처를 설계해야 합니다. 기존 방법은 입력 데이터가 레이어별 특징 추출 및 공간 변환을 거치면 많은 양의 정보가 손실된다는 사실을 무시합니다. 이 글에서는 딥 네트워크를 통해 데이터를 전송할 때 중요한 문제, 즉 정보 병목 현상과 가역 기능을 살펴보겠습니다. 이를 바탕으로 다중 목표를 달성하기 위해 심층 네트워크에서 요구되는 다양한 변화에 대처하기 위해 PGI(Programmable Gradient Information) 개념을 제안합니다. PGI는 목적 함수를 계산하기 위해 대상 작업에 대한 완전한 입력 정보를 제공할 수 있으므로 네트워크 가중치를 업데이트하기 위한 신뢰할 수 있는 기울기 정보를 얻을 수 있습니다. 또한 새로운 경량 네트워크 프레임워크가 설계되었습니다.

ORB-SLAM3를 넘어! SL-SLAM: 저조도, 심한 흔들림, 약한 텍스처 장면을 모두 처리합니다. ORB-SLAM3를 넘어! SL-SLAM: 저조도, 심한 흔들림, 약한 텍스처 장면을 모두 처리합니다. May 30, 2024 am 09:35 AM

이전에 작성했던 오늘은 딥 러닝 기술이 복잡한 환경에서 비전 기반 SLAM(동시 위치 파악 및 매핑)의 성능을 향상할 수 있는 방법에 대해 논의합니다. 심층 특징 추출과 깊이 일치 방법을 결합하여 저조도 조건, 동적 조명, 질감이 약한 영역 및 심한 지터와 같은 까다로운 시나리오에서 적응을 향상하도록 설계된 다목적 하이브리드 시각적 SLAM 시스템을 소개합니다. 우리 시스템은 확장 단안, 스테레오, 단안 관성 및 스테레오 관성 구성을 포함한 여러 모드를 지원합니다. 또한 시각적 SLAM을 딥러닝 방법과 결합하여 다른 연구에 영감을 주는 방법도 분석합니다. 공개 데이터 세트 및 자체 샘플링 데이터에 대한 광범위한 실험을 통해 위치 정확도 및 추적 견고성 측면에서 SL-SLAM의 우수성을 입증합니다.

잠재 공간 임베딩: 설명 및 시연 잠재 공간 임베딩: 설명 및 시연 Jan 22, 2024 pm 05:30 PM

잠재 공간 임베딩(LatentSpaceEmbedding)은 고차원 데이터를 저차원 공간에 매핑하는 프로세스입니다. 기계 학습 및 딥 러닝 분야에서 잠재 공간 임베딩은 일반적으로 고차원 입력 데이터를 저차원 벡터 표현 세트로 매핑하는 신경망 모델입니다. 이 벡터 세트를 "잠재 벡터" 또는 "잠재 벡터"라고 합니다. 인코딩". 잠재 공간 임베딩의 목적은 데이터의 중요한 특징을 포착하고 이를 보다 간결하고 이해하기 쉬운 형식으로 표현하는 것입니다. 잠재 공간 임베딩을 통해 저차원 공간에서 데이터를 시각화, 분류, 클러스터링하는 등의 작업을 수행하여 데이터를 더 잘 이해하고 활용할 수 있습니다. 잠재 공간 임베딩은 이미지 생성, 특징 추출, 차원 축소 등과 같은 다양한 분야에서 폭넓게 응용됩니다. 잠재공간 임베딩이 핵심

하나의 기사로 이해하기: AI, 머신러닝, 딥러닝 간의 연결과 차이점 하나의 기사로 이해하기: AI, 머신러닝, 딥러닝 간의 연결과 차이점 Mar 02, 2024 am 11:19 AM

오늘날 급속한 기술 변화의 물결 속에서 인공지능(AI), 머신러닝(ML), 딥러닝(DL)은 정보기술의 새로운 물결을 이끄는 밝은 별과도 같습니다. 이 세 단어는 다양한 최첨단 토론과 실제 적용에 자주 등장하지만, 이 분야를 처음 접하는 많은 탐험가들에게는 그 구체적인 의미와 내부 연관성이 여전히 수수께끼에 싸여 있을 수 있습니다. 그럼 먼저 이 사진을 보시죠. 딥러닝, 머신러닝, 인공지능 사이에는 밀접한 상관관계와 진보적인 관계가 있음을 알 수 있습니다. 딥러닝은 머신러닝의 특정 분야이며, 머신러닝은

매우 강하다! 딥러닝 알고리즘 상위 10개! 매우 강하다! 딥러닝 알고리즘 상위 10개! Mar 15, 2024 pm 03:46 PM

2006년 딥러닝이라는 개념이 제안된 지 거의 20년이 지났습니다. 딥러닝은 인공지능 분야의 혁명으로 많은 영향력 있는 알고리즘을 탄생시켰습니다. 그렇다면 딥러닝을 위한 상위 10가지 알고리즘은 무엇이라고 생각하시나요? 다음은 제가 생각하는 딥 러닝을 위한 최고의 알고리즘입니다. 이들은 모두 혁신, 애플리케이션 가치 및 영향력 측면에서 중요한 위치를 차지하고 있습니다. 1. 심층 신경망(DNN) 배경: 다층 퍼셉트론이라고도 불리는 심층 신경망(DNN)은 가장 일반적인 딥 러닝 알고리즘으로 처음 발명되었을 때 최근까지 컴퓨팅 성능 병목 현상으로 인해 의문을 제기했습니다. 20년, 컴퓨팅 파워, 데이터의 폭발적인 증가로 돌파구가 찾아왔습니다. DNN은 여러 개의 숨겨진 레이어를 포함하는 신경망 모델입니다. 이 모델에서 각 레이어는 입력을 다음 레이어로 전달하고

1.3ms는 1.3ms가 걸립니다! Tsinghua의 최신 오픈 소스 모바일 신경망 아키텍처 RepViT 1.3ms는 1.3ms가 걸립니다! Tsinghua의 최신 오픈 소스 모바일 신경망 아키텍처 RepViT Mar 11, 2024 pm 12:07 PM

논문 주소: https://arxiv.org/abs/2307.09283 코드 주소: https://github.com/THU-MIG/RepViTRepViT는 모바일 ViT 아키텍처에서 잘 작동하며 상당한 이점을 보여줍니다. 다음으로, 본 연구의 기여를 살펴보겠습니다. 기사에서는 경량 ViT가 일반적으로 시각적 작업에서 경량 CNN보다 더 나은 성능을 발휘한다고 언급했는데, 그 이유는 주로 모델이 전역 표현을 학습할 수 있는 MSHA(Multi-Head Self-Attention 모듈) 때문입니다. 그러나 경량 ViT와 경량 CNN 간의 아키텍처 차이점은 완전히 연구되지 않았습니다. 본 연구에서 저자는 경량 ViT를 효과적인

CNN 및 Transformer 하이브리드 모델을 사용하여 성능을 향상시키는 방법 CNN 및 Transformer 하이브리드 모델을 사용하여 성능을 향상시키는 방법 Jan 24, 2024 am 10:33 AM

CNN(Convolutional Neural Network)과 Transformer는 다양한 작업에서 뛰어난 성능을 보여준 두 가지 딥 러닝 모델입니다. CNN은 주로 이미지 분류, 타겟 감지, 이미지 분할과 같은 컴퓨터 비전 작업에 사용됩니다. 컨볼루션 연산을 통해 이미지의 국소적 특징을 추출하고, 풀링 연산을 통해 특징 차원 축소 및 공간 불변성을 수행합니다. 반면 Transformer는 기계 번역, 텍스트 분류, 음성 인식 등 자연어 처리(NLP) 작업에 주로 사용됩니다. 이는 self-attention 메커니즘을 사용하여 시퀀스의 종속성을 모델링하고 기존 순환 신경망의 순차적 계산을 피합니다. 이 두 모델은 서로 다른 작업에 사용되지만 시퀀스 모델링에는 유사점이 있으므로

See all articles