하룻밤 사이에 머신러닝 패러다임이 바뀔 것입니다!
오늘날 딥 러닝 분야를 지배하는 인프라는 뉴런에 활성화 기능을 배치하는 다층 퍼셉트론(MLP)입니다.
이 외에도 우리가 택할 수 있는 새로운 길은 없을까요?
오늘 MIT, California Institute of Technology, Northeastern University 및 기타 기관의 팀이 새로운 신경망 구조인 Kolmogorov–Arnold Networks(KAN)를 출시했습니다.
연구원들은 MLP에 간단한 변경을 했습니다. 즉, 학습 가능한 활성화 함수를 노드(뉴런)에서 가장자리(가중치)로 이동했습니다!
논문 주소: https://arxiv.org/pdf/2404.19756
이 변화는 언뜻 근거가 없어 보일 수도 있지만, 수학의 '근사 이론'과 관련이 꽤 깊습니다.
Kolmogorov-Arnold 표현은 노드가 아닌 가장자리에 학습 가능한 활성화 기능이 있는 2계층 네트워크에 해당하는 것으로 나타났습니다.
표현 정리에서 영감을 받아 연구원들은 신경망을 사용하여 Kolmogorov-Arnold 표현을 명시적으로 매개변수화했습니다.
KAN이라는 이름의 유래는 두 명의 위대한 故 수학자 안드레이 콜모고로프(Andrey Kolmogorov)와 블라디미르 아놀드(Vladimir Arnold)를 기리기 위해 만들어졌다는 점을 언급할 가치가 있습니다.
실험 결과 KAN은 기존 MLP보다 성능이 뛰어나 신경망의 정확성과 해석 가능성이 향상되는 것으로 나타났습니다.
가장 예상치 못한 점은 KAN의 시각화 및 상호 작용이 과학 연구에서 잠재적인 응용 가치를 제공하고 과학자들이 새로운 수학적 및 물리적 법칙을 발견하는 데 도움이 될 수 있다는 것입니다.
연구에서 저자는 매듭이론의 수학적 법칙을 재발견하기 위해 KAN을 사용했습니다!
더욱이 KAN은 더 작은 네트워크와 자동화로 2021년 DeepMind의 결과를 재현했습니다.
물리학에서 KAN은 물리학자들이 앤더슨 국소화(응축 물질 물리학의 상전이)를 연구하는 데 도움을 줄 수 있습니다.
그런데 연구에 포함된 KAN의 모든 예(매개변수 스캐닝 제외)는 단일 CPU에서 10분 이내에 재현 가능합니다.
KAN의 등장은 항상 머신러닝 분야를 장악하고 네트워크 전체에 소란을 일으키던 MLP 아키텍처에 직접적인 도전을 주었습니다.
어떤 사람들은 머신러닝의 새로운 시대가 시작되었다고 말합니다!
Google DeepMind 연구 과학자는 "Kolmogorov-Arnold가 다시 공격합니다! 잘 알려지지 않은 사실: 이 정리는 순열 불변 신경망(깊이 세트)에 대한 중요한 논문에 나타났습니다. 이 정리는 이 표현을 보여줍니다. 앙상블/ GNN 수집기는 (특별한 경우로) 구축됩니다."
완전히 새로운 신경망 아키텍처가 탄생했습니다! KAN은 인공지능이 훈련되고 미세 조정되는 방식을 획기적으로 변화시킬 것입니다.
AI가 2.0시대에 돌입한 걸까요?
일부 네티즌들은 KAN과 MLP의 차이를 생생하게 비유하기 위해 대중적인 언어를 사용했습니다.
Kolmogorov-Arnold 네트워크(KAN)는 어떤 케이크라도 구울 수 있는 3차원 네트워크와 같습니다. 레이어 케이크 레시피인 반면, MLP(Multi-Layer Perceptron)는 다양한 레이어 수를 갖춘 맞춤형 케이크입니다. MLP는 더 복잡하지만 더 일반적인 반면, KAN은 정적이지만 하나의 작업에 대해 더 간단하고 빠릅니다.
논문의 저자인 MIT 교수인 Max Tegmark는 최신 논문에서 표준 신경망과 완전히 다른 아키텍처가 흥미로운 물리적, 수학적 문제를 다룰 때 더 적은 매개변수로 더 나은 결과를 얻을 수 있다는 것을 보여주었다고 말했습니다. . 높은 정밀도.
다음으로 딥러닝의 미래를 대표하는 KAN이 어떻게 구현되는지 살펴볼까요?
콜모고로프-아놀드 표현 정리(Kolmogorov-Arnold 표현 정리)는 f가 경계 영역에 정의된 경우 다변수 연속 함수, 그러면 함수는 여러 일변수, 덧셈 연속 함수의 유한한 조합으로 표현될 수 있습니다.
머신러닝의 경우 문제는 다음과 같이 설명할 수 있습니다. 고차원 함수를 학습하는 과정이 다항식 양의 1차원 함수를 학습하는 것으로 단순화될 수 있습니다.
그러나 이러한 1차원 함수는 부드럽지 않거나 프랙탈적일 수도 있고 실제로 학습되지 않을 수도 있습니다. 기계 분야에서 Kolmogorov-Arnold 표현 정리가 나타나는 것은 바로 이 "병리학적 행동" 때문입니다. 학습하면 기본적으로 "사망"을 선고받습니다. 즉 이론은 정확하지만 실제로는 쓸모가 없습니다.
이 기사에서 연구자들은 기계 학습 분야에서 이 정리의 적용에 대해 여전히 낙관적이며 두 가지 개선 사항을 제안했습니다.
1 원래 방정식에는 비선형성 및 네트워크를 임의의 너비와 깊이로 일반화할 수 있는 하나의 숨겨진 레이어(2n+1)
2. 과학 및 일상 생활의 대부분의 기능은 대부분 매끄럽고 희박한 조합 구조를 가지므로 원활한 Kolmogorov를 형성하는 데 도움이 될 수 있습니다. 아놀드 대표. 물리학자와 수학자 사이의 차이점과 마찬가지로 물리학자는 일반적인 시나리오에 더 관심이 있는 반면, 수학자들은 최악의 시나리오에 더 관심을 갖습니다.
Kolmogorov-Arnold Network(KAN) 설계의 핵심 아이디어는 다변수 함수의 근사 문제를 단일 변수 함수 집합을 학습하는 문제로 변환하는 것입니다. 이 프레임워크 내에서 모든 일변량 함수는 계수를 학습할 수 있는 로컬 조각별 다항식 곡선인 B-스플라인을 사용하여 매개변수화할 수 있습니다.
원래 정리의 2계층 네트워크를 더 깊고 넓게 확장하기 위해 연구원들은 KAN의 설계를 뒷받침하는 정리의 보다 "일반화된" 버전을 제안했습니다.
MLP의 스택 구조 네트워크의 깊이를 향상시키는 데 영감을 받은 이 기사에서는 유사한 개념인 KAN 계층도 소개합니다. KAN 계층은 1차원 함수 행렬로 구성되며 각 함수에는 훈련 가능한 매개변수가 있습니다.
Kolmogorov-Arnold 정리에 따르면 원래 KAN 레이어는 각각 서로 다른 입력 및 출력 차원에 해당하는 내부 기능과 외부 기능으로 구성됩니다. KAN 레이어를 적층하는 이 설계 방법은 깊이를 향상시킬 뿐만 아니라 깊이도 향상시킵니다. 각 계층은 단일 변수 기능으로 구성되며 기능을 독립적으로 학습하고 이해할 수 있습니다.
f는 다음 수식에서 KAN
과 동일합니다. KAN의 디자인 컨셉은 단순해 보이고 순전히 스태킹에만 의존하지만, 최적화하기가 쉽지 않습니다. 훈련 과정에서 몇 가지 기술을 배웠습니다.
1. 잔차 활성화 함수: 기본 함수 b(x)와 스플라인 함수의 조합을 도입하고, 잔차 연결 개념을 사용하여 활성화 함수 ф(x)를 구성함으로써 훈련의 안정성에 기여합니다. 프로세스.
2. 초기화 스케일(scales) : 활성화 함수의 초기화는 0에 가까운 스플라인 함수로 설정하고, 가중치 w는 Xavier 초기화 방식을 사용하여 그래디언트의 안정성을 유지하는데 도움을 줍니다. 훈련 초기 단계에서.
3. 스플라인 그리드 업데이트: 스플라인 함수는 제한된 간격으로 정의되고 신경망 훈련 과정에서 활성화 값이 이 간격을 초과할 수 있으므로 스플라인 그리드를 동적으로 업데이트하면 스플라인 기능이 항상 작동하도록 보장할 수 있습니다. 적절한 범위 내에서.
1. 네트워크 깊이: L
2. 각 레이어의 너비: N
3. 각 스플라인 기능은 G 간격(G+1 네트워크 그리드 포인트)을 기반으로 합니다. k 차수(보통 k=3)
그래서 KAN의 매개변수 양은 약
입니다. 이에 비해 MLP의 매개변수 양은 O(L*N^2)로, KAN은 더 효율적이지만 KAN은 더 작은 레이어 너비(N)를 사용할 수 있어 일반화 성능을 향상시킬 뿐만 아니라 해석 가능성도 향상시킵니다.
KAN이 MLP보다 나은 점은 무엇인가요?
타당성 확인으로 연구원들은 KAN이 그리드 방식으로 훈련되는 200단계마다 네트워크를 증가시켜 검증 데이터 세트로 원활한 KA(Kolmogorov-Arnold) 표현을 갖는 것으로 알려진 5개의 예를 구성했습니다. , G의 범위를 {3,5,10,20,50,100,200,500,1000}
기본 모델로 깊이와 너비가 다른 MLP를 사용하고 KAN과 MLP 모두 LBFGS 알고리즘을 사용하여 총 1800단계가 되었습니다. 훈련되었으며 RMSE가 비교 지표로 사용되었습니다.
결과에서 볼 수 있듯이 KAN의 곡선은 더 불안정하고 빠르게 수렴할 수 있으며 안정적인 상태에 도달하며 특히 고차원 상황에서 MLP의 스케일링 곡선보다 좋습니다.
또한 3레이어 KAN의 성능이 2레이어 KAN보다 훨씬 강력하다는 것을 알 수 있는데, 이는 기대에 맞게 더 깊은 KAN이 더 강력한 표현력을 가지고 있음을 나타냅니다.
연구원들은 사용자가 KAN과 상호작용하는 동안 가장 해석하기 쉬운 결과를 얻을 수 있음을 보여주기 위해 간단한 회귀 실험을 설계했습니다.
사용자가 기호 공식을 찾는 데 관심이 있다고 가정하면 총 5개의 대화형 단계가 있습니다.
1단계: 희소화를 통한 훈련.
완전히 연결된 KAN에서 시작하여 희소 정규화를 사용한 훈련은 네트워크를 희박하게 만들 수 있으므로 히든 레이어의 5개 뉴런 중 4개는 아무런 효과가 없는 것으로 보입니다.
2단계: 가지치기
자동 가지치기 후 쓸모없는 숨겨진 뉴런을 모두 버리고 KAN 하나만 남기고 활성화 함수를 알려진 부호 함수와 일치시킵니다.
3단계: 기호 함수 설정
사용자가 KAN 차트를 보고 이러한 기호 공식을 올바르게 추측할 수 있다고 가정하면 직접 설정할 수 있습니다.
사용자가 도메인 지식이 없는 경우 또는 활성화 함수가 어떤 기호 함수인지 알지 못하는 경우, 연구자는 기호 후보를 제안하기 위해 presents_symbolic 함수를 제공합니다.
4단계: 추가 교육
네트워크의 모든 활성화 함수가 기호화되면 남은 매개변수는 아핀 매개변수뿐입니다. 손실이 기계 정확도(기계 정밀도)로 떨어지는 것을 확인하면 아핀 매개변수를 계속 교육합니다. , 모델이 올바른 기호 표현을 찾았음을 알게 됩니다.
5단계: 기호식 출력
Sympy를 사용하여 출력 노드의 기호식을 계산하고 정답을 확인합니다.
연구원들은 먼저 감독된 장난감 데이터 세트에서 6개의 샘플을 설계하여 기호 공식에 따라 KAN 네트워크의 조합 구조 기능을 보여주었습니다.
KAN이 올바른 단일변수 함수를 성공적으로 학습한 것을 볼 수 있으며 시각화를 통해 KAN의 사고 과정을 설명할 수 있습니다.
비지도 설정에서 데이터 세트에는 입력 특성 x만 포함됩니다. 특정 변수(x1, x2, x3) 간의 연결을 설계하여 변수 간의 종속성을 찾는 KAN 모델의 기능을 테스트할 수 있습니다.
결과로 볼 때 KAN 모델은 변수 간의 기능적 의존성을 성공적으로 발견했지만, 저자는 여전히 합성 데이터에 대해서만 실험이 수행되고 있어 보다 체계적이고 제어 가능한 방법이 필요하다고 지적했습니다. 완전한 관계를 발견합니다.
특수 기능을 장착하여 저자는 모델 매개변수 수와 RMSE 손실이 포함된 평면에서 KAN 및 MLP의 파레토 프론티어를 보여줍니다.
모든 특수 기능 중에서 KAN은 항상 MLP보다 더 나은 파레토 프론트를 가지고 있습니다.
편미분 방정식을 푸는 작업에서 연구원들은 예측된 솔루션과 실제 솔루션 간의 L2 제곱 및 H1 제곱 손실을 표시했습니다.
아래 그림에서 처음 두 개는 손실의 훈련 역학이고 세 번째와 네 번째는 손실 함수 수의 Sacling Law입니다.
아래 결과에서 볼 수 있듯이 KAN은 MLP에 비해 더 빠르게 수렴하고 손실이 적으며 확장 법칙이 더 가파르게 나타납니다.
우리 모두는 치명적인 망각이 기계 학습에서 심각한 문제라는 것을 알고 있습니다.
인공 신경망과 뇌의 차이점은 뇌에는 공간에서 국부적으로 기능하는 다양한 모듈이 있다는 것입니다. 새로운 과제를 학습할 때 해당 기술을 담당하는 로컬 영역에서만 구조적 재구성이 일어나고 다른 영역은 변경되지 않습니다.
그러나 MLP를 포함한 대부분의 인공 신경망에는 이러한 지역성 개념이 없으므로 치명적인 망각의 원인이 될 수 있습니다.
연구에 따르면 KAN은 국소 가소성을 가지며 스플라인 국소성을 사용하여 치명적인 망각을 피할 수 있음이 입증되었습니다.
아이디어는 매우 간단합니다. 스플라인은 로컬이므로 샘플은 가까운 일부 스플라인 계수에만 영향을 미치고 먼 계수는 변경되지 않습니다.
반면, MLP는 일반적으로 전역 활성화(예: ReLU/Tanh/SiLU)를 사용하므로 로컬 변경 사항이 먼 지역으로 통제할 수 없게 전파되어 그곳에 저장된 정보가 파괴될 수 있습니다.
연구원들은 1차원 회귀 작업(5개의 가우스 피크로 구성)을 채택했습니다. 각 피크 주변의 데이터는 (한 번에 모두가 아닌) 순차적으로 KAN 및 MLP에 제공됩니다.
결과는 아래 그림과 같습니다. KAN은 이전 영역을 변경하지 않고 현재 단계에서 데이터가 존재하는 영역만 재구성합니다.
그리고 MLP는 새로운 데이터 샘플을 본 후 전체 영역을 재구성하여 치명적인 망각으로 이어집니다.
KAN의 탄생이 향후 머신러닝 적용에 어떤 의미를 지니나요?
매듭 이론은 저차원 위상수학의 학문으로, 3차원 다중체와 4차원 다중체의 위상학적 문제를 밝히고 생물학, 위상학적 양자 컴퓨팅과 같은 분야에 폭넓게 응용됩니다.
2021년 DeepMind 팀은 AI를 사용하여 자연에서 처음으로 매듭 이론을 증명했습니다.
논문 주소: https://www.nature.com/articles/s41586-021-04086-x
본 연구에서는 지도 학습과 인간 도메인 전문가를 통해 대수적 및 기하학적 매듭 불변성.
즉, 그래디언트 돌출성은 감독 문제의 주요 불변성을 식별했으며, 이로 인해 도메인 전문가는 나중에 정제되고 입증된 추측을 제안하게 되었습니다.
이와 관련하여 저자는 KAN이 매듭의 시그니처를 예측하기 위해 동일한 문제에 대해 좋은 해석 가능한 결과를 얻을 수 있는지 연구합니다.
DeepMind 실험에서 매듭 이론 데이터 세트 연구의 주요 결과는 다음과 같습니다.
1 네트워크 귀속 방법을 사용하면 시그니처 가 주로 중간 거리 와 세로 거리 λ에 따라 달라지는 것으로 나타났습니다.
2 서명을 출력으로 처리합니다. DeepMind의 설정과 유사하게 서명(짝수)은 원-핫 벡터로 인코딩되며 네트워크는 교차 엔트로피 손실로 훈련됩니다. 결과에 따르면 매우 작은 KAN은 81.6%의 테스트 정확도를 달성할 수 있는 반면 DeepMind의 4레이어 폭 300MLP는 78%의 테스트 정확도를 달성했습니다.
아래 표와 같이 KAN(G = 3, k = 3)은 약 200개의 매개변수를 가지고 있는 반면, MLP는 약 300,000개의 매개변수를 가지고 있습니다.
KAN이 더 정확할 뿐만 아니라; 동시에 매개변수는 MLP보다 더 효율적입니다.
해석 가능성 측면에서 연구자들은 크기에 따라 각 활성화의 투명성을 조정했기 때문에 특성 기여 없이 어떤 입력 변수가 중요한지 즉시 명확해졌습니다.
그런 다음 KAN은 세 가지 중요한 변수에 대해 훈련을 받았고 78.2%의 테스트 정확도를 얻었습니다.
다음과 같이 저자는 KAN을 통해 매듭 데이터셋에서 세 가지 수학적 관계를 재발견했습니다.
물리적 Anderson 현지화가 해결되었습니다
그리고 물리학 응용 분야에서도 KAN이 큰 가치를 발휘했습니다.
앤더슨은 양자 시스템의 장애로 인해 전자 파동 기능이 국지화되어 모든 전송이 중단되는 근본적인 현상입니다.
1차원과 2차원에서 스케일링 논증은 작은 무작위 장애에 대해 모든 전자 고유 상태가 기하급수적으로 국한된다는 것을 보여줍니다.반대로, 3차원에서 임계 에너지는 확장된 상태와 국부적인 상태를 구분하는 위상 경계를 형성하는데, 이를 이동성 가장자리라고 합니다.
이러한 이동성 에지를 이해하는 것은 고체의 금속-절연체 전이, 광소자에서 빛의 국소화 효과와 같은 다양한 기본 현상을 설명하는 데 중요합니다.
저자는 연구를 통해 KAN을 사용하면 수치적으로든 기호적으로든 이동성 가장자리를 매우 쉽게 추출할 수 있다는 사실을 발견했습니다.
분명히 KAN은 과학자들에게 강력한 조력자이자 중요한 협력자가 되었습니다.
대체로 KAN은 정확성, 매개변수 효율성 및 해석 가능성의 장점 덕분에 AI+과학에 유용한 모델/도구가 될 것입니다.
미래에는 과학 분야에서 KAN의 추가 응용이 아직 연구되지 않았습니다.
위 내용은 MLP가 하룻밤 사이에 사망했습니다! MIT Caltech 및 기타 혁신적인 KAN, 기록을 깨고 DeepMind를 무너뜨린 수학적 정리 발견의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!