모듈식 기계 학습 시스템으로 충분합니까? 벤지오 선생님과 학생들이 답을 알려드립니다
딥 러닝 연구자들은 신경과학과 인지 과학에서 영감을 얻습니다. 숨겨진 단위와 입력 방법부터 네트워크 연결 및 네트워크 아키텍처 설계에 이르기까지 많은 획기적인 연구가 뇌 작동 전략을 모방하는 데 기반을 두고 있습니다. 최근 몇 년 동안 인공 네트워크에서 모듈성과 주의가 결합되어 자주 사용되어 인상적인 결과를 얻었음에는 의심의 여지가 없습니다.
사실, 인지 신경과학 연구에 따르면 대뇌 피질은 모듈 방식으로 지식을 표현하고, 서로 다른 모듈 간에 통신하며, 주의 메커니즘이 위에서 언급한 모듈성과 주의를 결합하여 사용합니다. 최근 연구에서는 뇌의 이러한 의사소통 방식이 심층 네트워크의 귀납적 편향에 영향을 미칠 수 있다고 제안되었습니다. 이러한 상위 수준 변수 간의 종속성이 희박하여 지식을 가능한 한 독립적인 재조합 가능한 조각으로 분해하여 학습을 더욱 효율적으로 만듭니다.
최근의 많은 연구가 이러한 모듈식 아키텍처에 의존하고 있지만, 연구자들은 수많은 트릭과 아키텍처 수정을 사용하므로 실제 사용 가능한 아키텍처 원리를 구문 분석하기가 어렵습니다.
머신 러닝 시스템은 점점 더 희소하고 모듈화된 아키텍처의 장점을 보여주고 있습니다. 모듈식 아키텍처는 우수한 일반화 성능을 제공할 뿐만 아니라 더 나은 OoD(배포 외) 일반화 및 확장성을 제공합니다. 해석 가능성. 이러한 시스템의 성공의 열쇠는 실제 환경에서 사용되는 데이터 생성 시스템이 드물게 상호 작용하는 부분으로 구성되어 있다는 점이며, 모델에 유사한 귀납적 편향을 제공하는 것이 도움이 될 것입니다. 그러나 이러한 실제 데이터의 분포는 복잡하고 알려지지 않았기 때문에 해당 분야에서는 이러한 시스템에 대한 엄격한 정량적 평가가 부족했습니다.
간단하고 알려진 모듈식 데이터 배포를 통해 공통 모듈식 아키텍처에 대한 종합적인 평가를 수행한 몬트리올 대학의 Sarthak Mittal, Yoshua Bengio 및 Guillaume Lajoie 연구원 3명이 작성한 논문입니다. 이 연구는 모듈성과 희소성의 이점을 강조하고 모듈식 시스템을 최적화할 때 직면하는 과제에 대한 통찰력을 보여줍니다. 제1저자이자 교신저자인 Sarthak Mittal은 Bengio와 Lajoie의 석사과정 학생입니다.
- 문서 주소: https://arxiv.org/pdf/2206.02713.pdf
- GitHub 주소: https://github.com/sarthmit/Mod_Arch
특별히 , 이 이 연구는 Rosenbaum et al.의 분석을 확장하고 모듈식 아키텍처의 공통 구성 요소를 평가, 정량화 및 분석하는 방법을 제안합니다. 이를 위해 연구에서는 모듈식 네트워크의 효율성을 조사하기 위해 설계된 일련의 벤치마크와 측정 기준을 개발했습니다. 이를 통해 현재 접근 방식이 성공하는 부분뿐만 아니라 이러한 접근 방식이 언제 어떻게 실패하는지 파악하는 데 도움이 되는 귀중한 통찰력을 얻을 수 있습니다.
이 연구의 기여는 다음과 같이 요약될 수 있습니다.
- 이 연구는 확률적 선택 규칙을 기반으로 벤치마크 작업과 측정항목을 개발하고 벤치마크와 측정항목을 사용하여 모듈식 시스템의 두 가지 중요한 현상인 붕괴와 전문화 전문화를 정량화합니다.
- 본 연구에서는 일반적으로 사용되는 모듈러 유도 바이어스를 추출하고, 일반적으로 사용되는 아키텍처 속성을 추출하기 위해 설계된 일련의 모델(Monolithic, Modular, Modular-op, GT-Modular 모델)을 통해 이를 체계적으로 평가합니다.
- 연구에 따르면 모듈식 시스템의 전문화는 작업에 잠재 규칙이 많을 때 모델 성능을 크게 향상시킬 수 있지만 그 수가 적을 때는 그렇지 않습니다.
- 연구에 따르면 표준 모듈형 시스템은 올바른 정보에 집중하는 능력과 전문화 능력 모두에서 차선책인 경향이 있으며, 이는 추가적인 귀납적 편견이 필요함을 시사합니다.
정의/용어
이 백서에서는 일련의 모듈식 시스템이 규칙 데이터라고 부르는 합성 데이터 생성 프로세스에 의해 공식화된 공통 작업을 수행하는 방법을 살펴봅니다. (1) 규칙과 이러한 규칙이 작업을 형성하는 방법, (2) 모듈과 이러한 모듈이 다양한 모델 아키텍처를 채택하는 방법, (3) 전문화 및 모델 평가 방법을 포함한 주요 구성 요소의 정의를 소개합니다. 자세한 설정은 아래 그림 1과 같습니다.
규칙. 모듈식 시스템을 제대로 이해하고 장단점을 분석하기 위해 연구원들은 다양한 작업 요구 사항을 세밀하게 제어할 수 있는 포괄적인 설정을 고려했습니다. 특히, 규칙이라고 부르는 연산은 아래 방정식 1-3에 표시된 데이터 생성 분포에서 학습되어야 합니다.
위의 분포를 고려하여 연구자는 전문가가 되기 위한 규칙을 정의합니다. 즉, 규칙 r은 p_y(·|x, c = r)로 정의됩니다. 여기서 c는 다음을 나타내는 분류입니다. 컨텍스트 변수, x는 입력 시퀀스입니다.
미션. 작업은 방정식 1-3에 표시된 일련의 규칙(데이터 생성 분포)으로 설명됩니다. {p_y(· | x, c)}_c의 다른 세트는 다른 작업을 의미합니다. 주어진 수의 규칙에 대해 모델은 작업별 편향을 제거하기 위해 여러 작업에 대해 훈련됩니다.
모듈. 모듈형 시스템은 일련의 신경망 모듈로 구성되며, 각 모듈은 전체 출력에 기여합니다. 이는 다음의 함수형을 통해 알 수 있다.
여기서 y_m은 출력을 나타내고 p_m은 m^번째 모듈의 활성화를 나타냅니다.
모델 아키텍처. 모델 아키텍처는 모듈식 시스템의 각 모듈 또는 모놀리식 시스템의 개별 모듈에 대해 어떤 아키텍처가 선택되는지 설명합니다. 본 논문에서 연구자들은 다층 퍼셉트론(MLP), 다중 헤드 주의(MHA) 및 순환 신경망(RNN)의 사용을 고려합니다. MLP 기반 규칙과 같은 모델 아키텍처에 맞게 규칙(또는 데이터 생성 분포)을 조정하는 것이 중요합니다.
데이터 생성 프로세스
연구원들은 합성 데이터를 통해 모듈형 시스템을 탐색하는 것을 목표로 하므로 위에서 설명한 규칙 체계를 기반으로 데이터 생성 프로세스를 자세히 설명합니다. 특히 연구원들은 다양한 모듈이 규칙의 다양한 전문가를 위해 특화될 수 있기를 바라면서 단순한 전문가 혼합(MoE) 스타일 데이터 생성 프로세스를 사용했습니다.
MLP, MHA 및 RNN의 세 가지 모델 아키텍처에 대한 데이터 생성 프로세스를 설명합니다. 또한 각 작업 아래에는 회귀와 분류라는 두 가지 버전이 있습니다.
MLP. 연구진은 모듈형 MLP 시스템을 기반으로 학습에 적합한 데이터 체계를 정의했습니다. 이 합성 데이터 생성 체계에서 데이터 샘플은 두 개의 독립적인 숫자와 일부 분포에서 샘플링된 정규 선택으로 구성됩니다. 서로 다른 규칙은 두 숫자의 서로 다른 선형 조합을 생성하여 출력을 제공합니다. 즉, 선형 조합의 선택은 아래 방정식 4-6에 표시된 것처럼 규칙에 따라 동적으로 인스턴스화됩니다.
MHA. 이제 연구자들은 모듈식 MHA 시스템에서 학습을 위해 조정된 데이터 체계를 정의했습니다. 따라서 그들은 다음 속성을 가진 데이터 생성 분포를 설계했습니다. 각 규칙은 서로 다른 검색 및 검색 개념과 검색된 정보의 최종 선형 조합으로 구성됩니다. 연구자들은 아래의 방정식 7-11에서 이 과정을 수학적으로 설명합니다.
RNN. 순환 시스템의 경우 연구원들은 여러 규칙 중 하나가 언제든지 트리거될 수 있는 선형 동적 시스템에 대한 규칙을 정의했습니다. 수학적으로 이 프로세스는 아래의 방정식 12-15에 나와 있습니다.
Model
일부 이전 연구에서는 엔드투엔드 훈련 모듈 시스템이 특히 분산 환경에서 모놀리식 시스템보다 우수하다고 주장했습니다. 그러나 이러한 모듈형 시스템의 이점과 데이터 생성 분포를 기반으로 실제로 특화되는지에 대한 상세하고 심층적인 분석은 없습니다.
따라서 연구원들은 다양한 수준의 전문화를 허용하는 네 가지 모델 범주, 즉 모놀리식(단일), 모듈형(모듈형), Modular-op 및 GT-Modular를 고려했습니다. 아래 표 1은 이러한 모델을 보여줍니다.
모놀리식. 모놀리식 시스템은 전체 데이터 세트(x, c)를 입력으로 사용하고 이를 기반으로 y^를 예측하는 대규모 신경망입니다. 시스템에서 명시적으로 구운 시스템의 모듈성 또는 희소성은 귀납적 편견을 겪지 않으며 전적으로 역전파에 의존하여 작업을 해결하는 데 필요한 기능적 형태를 학습합니다.
모듈식. 모듈형 시스템은 여러 모듈로 구성되며 각 모듈은 특정 아키텍처 유형(MLP, MHA 또는 RNN)의 신경망입니다. 각 모듈 m은 데이터 (x, c)를 입력으로 사용하고 출력 yˆ_m과 신뢰도 점수를 계산합니다. 이는 모듈 전체에서 활성화 확률 p_m으로 정규화됩니다.
모듈식 작동. 모듈식 운영 체제는 한 가지 차이점을 제외하면 모듈식 시스템과 매우 유사합니다. 모듈 m의 활성화 확률 p_m을 (x, c)의 함수로 정의하는 대신 연구원들은 활성화가 규칙 컨텍스트 C에 의해서만 결정된다는 것을 확인했습니다.
GT-모듈러. 진정한 가치의 모듈형 시스템은 Oracle 벤치마크, 즉 완벽하게 특화된 모듈형 시스템 역할을 합니다.
연구원들은 모놀리식에서 GT-모듈형에 이르기까지 모델에 모듈성과 희박성을 위한 귀납적 편견이 점점 더 많이 포함되어 있음을 보여줍니다.
측정항목
모듈형 시스템을 안정적으로 평가하기 위해 연구원들은 이러한 시스템의 성능 이점을 측정할 뿐만 아니라 붕괴와 전문화라는 두 가지 중요한 형태로 평가하는 일련의 측정항목을 제안했습니다.
성능. 첫 번째 평가 지표 세트는 분포 내 및 분포 외(OoD) 설정의 성능을 기반으로 하며 다양한 작업에 대한 다양한 모델의 성능을 반영합니다. 분류 설정의 경우 분류 오류를 보고하고 회귀 설정의 경우 손실을 보고합니다.
충돌. 연구원들은 모듈식 시스템이 직면하는 붕괴의 양(즉, 모듈이 충분히 활용되지 않는 정도)을 정량화하기 위해 Collapse-Avg 및 Collapse-Worst라는 일련의 측정항목을 제안했습니다. 아래 그림 2에서는 모듈 3이 사용되지 않는 것을 볼 수 있는 예를 보여줍니다.
전문화. 붕괴 지표를 보완하기 위해 우리는 모듈식 시스템에 의해 달성된 전문화 정도를 정량화하는 (1) 정렬, (2) 적응 및 (3) 역 상호 정보라는 일련의 지표를 제안합니다.
Experiments
아래 그림은 GT-Modular 시스템이 대부분의 경우 최적이라는 것을 보여주며(왼쪽), 이는 전문화가 유익하다는 것을 보여줍니다. 또한 표준 엔드투엔드 훈련 모듈형 시스템과 모놀리식 시스템 사이에서 전자가 후자보다 성능이 뛰어나지만 그다지 큰 차이는 없다는 것을 알 수 있습니다. 이 두 가지 파이 차트는 현재의 엔드투엔드 교육용 모듈식 시스템이 우수한 전문화를 달성하지 못하여 대체로 차선책임을 보여줍니다.
그런 다음 연구에서는 특정 아키텍처 선택을 살펴보고 점점 더 많은 규칙에 걸쳐 해당 아키텍처의 성능과 추세를 분석합니다.
그림 4는 완벽하게 특화된 시스템(GT-Modular)이 이점을 가져오는 반면, 엔드 투 엔드 교육을 위한 일반적인 모듈형 시스템은 차선책이며 특히 규칙 수가 증가함에 따라 이러한 이점을 얻을 수 없음을 보여줍니다. 또한 이러한 엔드투엔드 모듈식 시스템은 모놀리식 시스템보다 성능이 뛰어난 경우가 많지만 그 이점은 일반적으로 작습니다.
그림 7에서는 다른 모든 설정에서 다양한 모델에 대한 훈련 모드의 평균도 볼 수 있으며, 평균에는 분류 오류와 회귀 손실이 포함됩니다. 보시다시피, 좋은 전문화는 더 나은 성과로 이어질 뿐만 아니라 훈련 속도도 향상시킵니다.
다음 그림은 두 가지 축소 측정항목인 Collapse-Avg 및 Collapse-Worst를 보여줍니다. 또한 아래 그림은 규칙 수가 다른 여러 모델에 대한 세 가지 전문화 지표, 정렬, 적응 및 역상호 정보도 보여줍니다.
위 내용은 모듈식 기계 학습 시스템으로 충분합니까? 벤지오 선생님과 학생들이 답을 알려드립니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











기계 학습 및 데이터 과학 분야에서 모델 해석 가능성은 항상 연구자와 실무자의 초점이었습니다. 딥러닝, 앙상블 방법 등 복잡한 모델이 널리 적용되면서 모델의 의사결정 과정을 이해하는 것이 특히 중요해졌습니다. explainable AI|XAI는 모델의 투명성을 높여 머신러닝 모델에 대한 신뢰와 확신을 구축하는 데 도움이 됩니다. 모델 투명성을 향상시키는 것은 여러 복잡한 모델의 광범위한 사용은 물론 모델을 설명하는 데 사용되는 의사 결정 프로세스와 같은 방법을 통해 달성할 수 있습니다. 이러한 방법에는 기능 중요도 분석, 모델 예측 간격 추정, 로컬 해석 가능성 알고리즘 등이 포함됩니다. 특성 중요도 분석은 모델이 입력 특성에 미치는 영향 정도를 평가하여 모델의 의사결정 과정을 설명할 수 있습니다. 모델 예측 구간 추정

7월 29일, AITO Wenjie의 400,000번째 신차 출시 행사에 Huawei 전무이사이자 Terminal BG 회장이자 Smart Car Solutions BU 회장인 Yu Chengdong이 참석하여 연설을 했으며 Wenjie 시리즈 모델이 출시될 것이라고 발표했습니다. 올해 출시 예정 지난 8월 Huawei Qiankun ADS 3.0 버전이 출시되었으며, 8월부터 9월까지 순차적으로 업그레이드를 추진할 계획입니다. 8월 6일 출시되는 Xiangjie S9에는 화웨이의 ADS3.0 지능형 운전 시스템이 최초로 탑재됩니다. LiDAR의 도움으로 Huawei Qiankun ADS3.0 버전은 지능형 주행 기능을 크게 향상시키고, 엔드투엔드 통합 기능을 갖추고, GOD(일반 장애물 식별)/PDP(예측)의 새로운 엔드투엔드 아키텍처를 채택합니다. 의사결정 및 제어), 주차공간부터 주차공간까지 스마트 드라이빙의 NCA 기능 제공, CAS3.0 업그레이드

이 글에서는 학습 곡선을 통해 머신러닝 모델에서 과적합과 과소적합을 효과적으로 식별하는 방법을 소개합니다. 과소적합 및 과적합 1. 과적합 모델이 데이터에 대해 과도하게 훈련되어 데이터에서 노이즈를 학습하는 경우 모델이 과적합이라고 합니다. 과적합된 모델은 모든 예를 너무 완벽하게 학습하므로 보이지 않거나 새로운 예를 잘못 분류합니다. 과대적합 모델의 경우 완벽/거의 완벽에 가까운 훈련 세트 점수와 형편없는 검증 세트/테스트 점수를 얻게 됩니다. 약간 수정됨: "과적합의 원인: 복잡한 모델을 사용하여 간단한 문제를 해결하고 데이터에서 노이즈를 추출합니다. 훈련 세트로 사용되는 작은 데이터 세트는 모든 데이터를 올바르게 표현하지 못할 수 있기 때문입니다."

일반인의 관점에서 보면 기계 학습 모델은 입력 데이터를 예측된 출력에 매핑하는 수학적 함수입니다. 보다 구체적으로, 기계 학습 모델은 예측 출력과 실제 레이블 사이의 오류를 최소화하기 위해 훈련 데이터로부터 학습하여 모델 매개변수를 조정하는 수학적 함수입니다. 기계 학습에는 로지스틱 회귀 모델, 의사결정 트리 모델, 지원 벡터 머신 모델 등 다양한 모델이 있습니다. 각 모델에는 적용 가능한 데이터 유형과 문제 유형이 있습니다. 동시에, 서로 다른 모델 간에는 많은 공통점이 있거나 모델 발전을 위한 숨겨진 경로가 있습니다. 연결주의 퍼셉트론을 예로 들면, 퍼셉트론의 은닉층 수를 늘려 심층 신경망으로 변환할 수 있습니다. 퍼셉트론에 커널 함수를 추가하면 SVM으로 변환할 수 있다. 이 하나

1950년대에는 인공지능(AI)이 탄생했다. 그때 연구자들은 기계가 사고와 같은 인간과 유사한 작업을 수행할 수 있다는 것을 발견했습니다. 이후 1960년대에 미국 국방부는 인공 지능에 자금을 지원하고 추가 개발을 위해 실험실을 설립했습니다. 연구자들은 우주 탐사, 극한 환경에서의 생존 등 다양한 분야에서 인공지능의 응용 분야를 찾고 있습니다. 우주탐험은 지구를 넘어 우주 전체를 포괄하는 우주에 대한 연구이다. 우주는 지구와 조건이 다르기 때문에 극한 환경으로 분류됩니다. 우주에서 생존하려면 많은 요소를 고려해야 하며 예방 조치를 취해야 합니다. 과학자와 연구자들은 우주를 탐험하고 모든 것의 현재 상태를 이해하는 것이 우주가 어떻게 작동하는지 이해하고 잠재적인 환경 위기에 대비하는 데 도움이 될 수 있다고 믿습니다.

C++의 기계 학습 알고리즘이 직면하는 일반적인 과제에는 메모리 관리, 멀티스레딩, 성능 최적화 및 유지 관리 가능성이 포함됩니다. 솔루션에는 스마트 포인터, 최신 스레딩 라이브러리, SIMD 지침 및 타사 라이브러리 사용은 물론 코딩 스타일 지침 준수 및 자동화 도구 사용이 포함됩니다. 실제 사례에서는 Eigen 라이브러리를 사용하여 선형 회귀 알고리즘을 구현하고 메모리를 효과적으로 관리하며 고성능 행렬 연산을 사용하는 방법을 보여줍니다.

4월 11일, 화웨이는 처음으로 HarmonyOS 4.2 100개 시스템 업그레이드 계획을 공식 발표했습니다. 이번에는 휴대폰, 태블릿, 시계, 헤드폰, 스마트 스크린 및 기타 장치를 포함하여 180개 이상의 장치가 업그레이드에 참여할 것입니다. 지난달 HarmonyOS4.2 100대 업그레이드 계획이 꾸준히 진행됨에 따라 Huawei Pocket2, Huawei MateX5 시리즈, nova12 시리즈, Huawei Pura 시리즈 등을 포함한 많은 인기 모델도 업그레이드 및 적응을 시작했습니다. 더 많은 Huawei 모델 사용자가 HarmonyOS가 제공하는 일반적이고 종종 새로운 경험을 즐길 수 있을 것입니다. 사용자 피드백에 따르면 HarmonyOS4.2를 업그레이드한 후 Huawei Mate60 시리즈 모델의 경험이 모든 측면에서 개선되었습니다. 특히 화웨이 M

머신 러닝은 명시적으로 프로그래밍하지 않고도 컴퓨터가 데이터로부터 학습하고 능력을 향상시킬 수 있는 능력을 제공하는 인공 지능의 중요한 분야입니다. 머신러닝은 이미지 인식, 자연어 처리, 추천 시스템, 사기 탐지 등 다양한 분야에서 폭넓게 활용되며 우리의 삶의 방식을 변화시키고 있습니다. 기계 학습 분야에는 다양한 방법과 이론이 있으며, 그 중 가장 영향력 있는 5가지 방법을 "기계 학습의 5개 학교"라고 합니다. 5개 주요 학파는 상징학파, 연결주의 학파, 진화학파, 베이지안 학파, 유추학파이다. 1. 상징주의라고도 알려진 상징주의는 논리적 추론과 지식 표현을 위해 상징을 사용하는 것을 강조합니다. 이 사고 학교는 학습이 기존을 통한 역연역 과정이라고 믿습니다.
