Hinton의 최신 연구: 신경망의 미래는 순방향 알고리즘입니다.

PHPz
풀어 주다: 2023-04-11 18:55:03
앞으로
1429명이 탐색했습니다.

지난 10년 동안 딥러닝은 놀라운 성공을 거두었고, 수많은 매개변수와 데이터를 사용하는 확률적 경사하강법 방법이 효과적인 것으로 입증되었습니다. 경사하강법은 일반적으로 역전파 알고리즘을 사용하므로 뇌가 역전파를 따르는지, 연결 가중치를 조정하는 데 필요한 경사를 얻는 다른 방법이 있는지와 같은 질문은 항상 많은 관심을 끌었습니다.

역전파 제안자 중 한 명인 Turing Award 수상자이자 딥 러닝 선구자인 Geoffrey Hinton은 최근 몇 년 동안 역전파가 뇌의 작동 방식을 설명할 수 없다고 반복적으로 제안했습니다. 대신 그는 새로운 신경망 학습 방법인 Forward-Forward Algorithm(FF)을 제안합니다.

최근 NeurIPS 2022 컨퍼런스에서 Hinton은 "심층 신경망 훈련을 위한 Forward-Forward 알고리즘"이라는 제목으로 특별 연설을 하면서 역방향 알고리즘에 비해 순방향 알고리즘의 우월성을 논의했습니다. 논문 "The Forward-Forward Algorithm: Some Preliminary Investigations"의 첫 번째 초안이 토론토 대학 홈페이지에 게시되었습니다:

Hinton의 최신 연구: 신경망의 미래는 순방향 알고리즘입니다.

논문 주소: https://www.cs.toronto. edu/~hinton /FFA13.pdf

하나의 순방향 패스 + 하나의 역방향 패스를 사용하는 역전파 알고리즘과 달리 FF 알고리즘에는 두 개의 순방향 패스가 포함되어 있는데, 그 중 하나는 양수(예: 실제) 데이터를 사용하고 다른 하나는 네트워크 자체에서 부정적인 데이터가 생성되었습니다.

Hinton은 FF 알고리즘의 장점은 뇌의 피질 학습을 더 잘 설명할 수 있고 극도로 낮은 전력 소비로 하드웨어를 시뮬레이션할 수 있다는 것이라고 믿습니다.

힌튼은 소프트웨어와 하드웨어를 분리하는 컴퓨터 형식은 버려야 한다고 주장합니다. 미래의 컴퓨터는 "불멸성"으로 설계되어 컴퓨팅 리소스를 크게 절약해야 하며,

FF 알고리즘이 이런 종류에 사용될 수 있습니다. 효율적으로 배우고 실행하는 가장 좋은 방법입니다.

이는 향후 수조 개의 매개변수가 있는 대형 모델의 컴퓨팅 성능 제약을 해결하는 이상적인 방법이 될 수 있습니다.

1

FF 알고리즘은 역방향 알고리즘보다 뇌 설명력이 뛰어나고 에너지 절약적입니다

FF 알고리즘에서는 각 레이어마다 고유한 목적 함수가 있습니다. 즉, positive에 대한 우수성이 높습니다. 데이터, 부정적인 데이터에 대해서는 좋음이 낮습니다. 레이어의 활동 제곱합은 좋음의 척도로 사용될 수 있으며, 활동 제곱합을 빼는 등 다양한 가능성이 포함됩니다.

포지티브 패스와 네거티브 패스를 시간적으로 분리할 수 있다면 네거티브 패스는 오프라인으로 수행할 수 있고 포지티브 패스에 대한 학습은 더 간단해질 것이며 활성 또는 종료된 전파 파생물을 저장할 필요 없이 네트워크를 통해 비디오를 전송할 수 있습니다.

Hinton은 FF 알고리즘이 두 가지 측면에서 역전파보다 낫다고 믿습니다.

첫째,

FF는 대뇌 피질 학습을 설명하는 데 더 나은 모델입니다.

두 번째,

FF는 더 에너지 효율적입니다. ,강화 학습에 의존하지 않고도 극도로 낮은 전력의 시뮬레이션 하드웨어를 사용합니다.

피질이 오류 파생물을 전파하거나 후속 역전파를 위해 신경 활동을 저장한다는 실질적인 증거는 없습니다. 하나의 피질 영역에서 시각 경로의 초기 영역으로의 하향식 연결은 시각 시스템에서 역전파가 사용될 때 예상되는 상향식 연결을 반영하지 않습니다. 대신, 신경 활동이 두 영역, 즉 약 6개의 피질을 통과한 다음 시작된 곳으로 돌아가는 루프를 형성합니다.

순열을 학습하는 방법 중 하나로 시간에 따른 역전파는 그다지 신뢰할 만하지 않습니다. 빈번한 정지 없이 감각 입력의 흐름을 처리하려면 뇌는 다양한 감각 처리 단계를 통해 데이터를 전송해야 하며 즉시 학습할 수 있는 프로세스도 필요합니다. 파이프라인 후반의 표현은 나중에 파이프라인의 초기 단계의 표현에 영향을 미치는 하향식 정보를 제공할 수 있지만, 지각 시스템은 역전파를 위해 중지하는 대신 실시간으로 추론하고 학습해야 합니다.

역전파의 또 다른 심각한 한계는 올바른 도함수를 도출하기 위해 순전파로 수행되는 계산을 완전히 이해해야 한다는 것입니다. 순전파에 블랙박스를 삽입하면 블랙박스의 미분 가능한 모델을 학습하지 않으면 역전파를 수행할 수 없습니다.

그리고 블랙박스는 FF 알고리즘의 학습 과정에 영향을 미치지 않습니다. 왜냐하면 이를 통한 역전파가 필요 없기 때문입니다.

완벽한 순전파 모델이 없는 경우 다양한 강화 학습 방법으로 시작할 수 있습니다. 한 가지 아이디어는 가중치나 신경 활동에 대해 무작위 교란을 수행하고 이러한 교란을 보상 함수의 결과 변화와 연관시키는 것입니다. 그러나 강화학습의 높은 분산 문제로 인해 다른 변수가 동시에 교란되면 단일 변수를 교란하는 효과를 보기가 어렵습니다. 이를 위해 다른 모든 교란으로 인한 노이즈를 평균화하려면 학습 속도가 교란되는 변수의 수에 반비례해야 합니다. 즉, 강화 학습은 수백만 또는 수십억 개의 역전파 경쟁 매개변수를 포함하는 대규모 네트워크로 확장되지 않습니다.

그리고 Hinton의 요점은 알려지지 않은 비선형성이 포함된 신경망은 강화 학습에 의존할 필요가 없다는 것입니다.

FF 알고리즘은 속도 면에서 역전파와 비슷합니다. 순방향 계산의 정확한 세부 사항을 알 수 없는 경우에도 사용할 수 있고, 신경망이 순차적 데이터를 파이프라인으로 처리할 때도 학습할 수 있다는 장점이 있습니다. 신경 활동을 저장하거나 전파된 오류 파생물을 종료해야 합니다.

전력이 제한된 애플리케이션에서는 FF 알고리즘이 아직 역전파를 대체하지 못했습니다. 예를 들어 대규모 데이터 세트에 대해 훈련된 대규모 모델의 경우 역전파가 여전히 주요 방법입니다.

Forward-Forward 알고리즘

Forward-Forward 알고리즘은 Boltzmann 기계와 잡음 대비 추정에서 영감을 받은 탐욕스러운 다층 학습 절차입니다.

역전파의 정방향+역방향 전달을 두 개의 정방향 전달로 대체합니다. 이 전달은 서로 다른 데이터와 반대 대상에 대해 작동하며 서로 정확히 동일한 방식으로 작동합니다. 그 중 순방향 채널은 실제 데이터를 대상으로 동작하며 가중치를 조정해 각 은닉층의 선호도를 높이고, 역방향 채널은 '부정 데이터' 가중치를 조정해 각 은닉층의 선호도를 낮춘다.

이 기사에서는 신경 활동의 제곱합과 부정적인 활동의 제곱합이라는 두 가지 측정항목을 살펴봅니다.

특정 레이어의 좋음 함수가 해당 레이어의 수정된 선형 뉴런 활동의 제곱합이라고 가정합니다. 학습의 목적은 해당 레이어의 좋음을 실제 데이터의 특정 임계값보다 훨씬 높게 만들고 훨씬 낮게 만드는 것입니다. 부정적인 데이터 임계 값입니다. 즉, 입력 벡터가 양수 또는 음수 데이터로 올바르게 분류되었을 때 양수(즉, 참)일 확률은 로지스틱 함수 σ를 측정 양호에서 일부 임계값 θ를 뺀 값에 적용하여 결정할 수 있습니다.

Hinton의 최신 연구: 신경망의 미래는 순방향 알고리즘입니다.

where, Hinton의 최신 연구: 신경망의 미래는 순방향 알고리즘입니다.는 레이어 정규화 전 히든유닛j의 활동입니다. 부정적인 데이터는 신경망의 하향식 연결을 통해 예측하거나 외부에서 제공할 수 있습니다.

레이어별 최적화 함수를 사용하여 다층 표현 학습

양성 데이터에 대해 히든 유닛의 제곱 활동의 합을 높게 만들어 단일 히든 레이어를 학습할 수 있음을 쉽게 알 수 있습니다. 부정적인 데이터의 경우 낮습니다. 하지만 첫 번째 은닉층 활동이 두 번째 은닉층의 입력으로 사용되는 경우에는 새로운 특징을 학습하지 않고 첫 번째 은닉층의 활동 벡터 길이만 적용하여 긍정적인 데이터와 부정적인 데이터를 구분합니다.

이를 방지하기 위해 FF는 은닉 벡터 길이를 다음 계층의 입력으로 사용하기 전에 정규화하여 첫 번째 은닉 계층을 결정하는 데 사용된 모든 정보를 제거하여 다음 계층을 강제합니다. 은닉 계층은 은닉 벡터 길이의 상대적인 활동에 대한 정보를 사용합니다. 레이어 정규화의 영향을 받지 않는 첫 번째 은닉 레이어의 뉴런입니다.

즉, 첫 번째 히든 레이어의 활동 벡터에는 길이와 방향이 있으며, 길이는 레이어의 양성을 정의하는 데 사용되며 방향만 다음 레이어로 전달됩니다.

2

FF 알고리즘 실험

역전파 기준

문서에 있는 대부분의 실험에서는 MNIST 손으로 쓴 숫자 데이터세트를 사용했습니다. 훈련용으로는 50,000, 검색용으로는 10,000입니다. 0,000 이미지는 테스트 오류율을 계산하는 데 사용되었습니다. 여러 개의 숨겨진 레이어로 설계된 컨벌루션 신경망은 약 0.6%의 테스트 오류를 ​​달성할 수 있습니다.

작업의 "순열 불변" 버전에서 신경망은 훈련이 시작되기 전에 모든 훈련 이미지와 테스트 이미지가 동일한 무작위 픽셀 변형의 영향을 받는 경우 픽셀의 공간 레이아웃에 대한 정보를 얻지 못합니다. 신경망의 성능도 마찬가지로 좋을 것입니다.

이 작업의 "순열 불변" 버전의 경우 여러 개의 완전히 연결된 숨겨진 레이어가 있는 ReLU(수정 선형 장치)가 있는 피드포워드 신경망의 테스트 오류는 약 1.4%이며, 이는 훈련하는 데 약 20세대가 걸립니다. 드롭아웃(훈련 속도 저하) 또는 레이블 스무딩(훈련 속도 향상)과 같은 다양한 정규화 도구를 사용하면 테스트 오류를 ​​약 1.1%로 줄일 수 있습니다. 또한, 레이블의 지도 학습과 비지도 학습을 결합하면 테스트 오류를 ​​더욱 줄일 수 있습니다.

복잡한 정규화 도구를 사용하지 않은 작업의 "순열 불변" 버전의 테스트 오류는 1.4%로, 학습 프로세스가 역전파만큼 효과적이라는 것을 보여줍니다.

Hinton의 최신 연구: 신경망의 미래는 순방향 알고리즘입니다.

그림 1: 음수 데이터로 사용되는 혼합 이미지

비지도 FF 알고리즘

FF 대답해야 할 두 가지 주요 질문이 있습니다. 음수 데이터의 좋은 소스가 있다면, 그렇게 합니까? 데이터 구조를 캡처하기 위해 효율적인 다층 표현을 배울 수 있습니까? 부정적인 데이터는 어디에서 오는가?

먼저 수동 부정 데이터를 사용하여 첫 번째 질문에 답하세요. 지도 학습 작업에 대조 학습을 사용하는 일반적인 방법은 레이블에 대한 정보를 사용하지 않고 입력 벡터를 표현 벡터로 변환하고, 확률 분포를 결정하기 위해 소프트맥스를 사용하여 이러한 표현 벡터를 로지트 벡터로 간단히 선형 변환하는 방법을 배우는 것입니다. 라벨의. 명백한 비선형성에도 불구하고 이는 여전히 선형 분류기라고 불리며, 로지트 벡터의 선형 변환 학습이 감독됩니다. 이는 숨겨진 레이어 학습을 포함하지 않고 도함수의 역전파가 필요하지 않기 때문입니다. FF는 실제 데이터 벡터를 긍정적인 예로 사용하고 손상된 데이터 벡터를 부정적인 예로 사용하여 이러한 표현 학습을 수행할 수 있습니다.

FF가 모양 이미지의 장기 상관 관계를 특성화하는 데 집중하려면 다양한 장기 상관 관계가 있지만 매우 유사한 단기 상관 관계가 있는 음수 데이터를 생성해야 합니다. 1과 0 마스크 영역을 완료합니다. 그런 다음 마스크에 디지털 이미지를 추가하고 마스크의 반대편에 다른 디지털 이미지를 곱하여 네거티브 데이터에 대한 하이브리드 이미지가 생성됩니다(그림 1).

임의의 비트맵에서 마스크 만들기를 시작하고 [1/4, 1/2, 1/4] 형식의 필터를 사용하여 가로 및 세로 방향으로 반복적으로 이미지를 흐리게 합니다. 이미지는 0.5 로 설정됩니다. 4개의 히든 레이어(각 히든 레이어에는 2000개의 ReLU가 포함됨)를 사용하여 100 에포크 동안 훈련한 후 마지막 3개의 히든 레이어의 정규화된 활동 벡터를 소프트맥스 입력으로 사용하면 1.37%의 테스트 오류를 ​​얻을 수 있습니다.

또한 완전히 연결된 레이어 대신 로컬 수용 필드(가중치 공유 없음)를 사용하면 성능이 향상될 수 있습니다. 60 에포크에 대한 테스트 오류는 1.16%입니다. 이 아키텍처에서 사용되는 "피어 정규화"는 모든 숨김을 방지할 수 있습니다. 장치가 과도하게 활동적이거나 영구적으로 종료되었습니다.

지도 학습 FF 알고리즘

레이블 정보를 사용하지 않고 숨겨진 표현을 학습합니다. 이는 결국 다양한 작업을 수행할 수 있는 대규모 모델에 매우 스마트합니다. 비지도 학습은 각 작업에 대한 전체 기능을 추출합니다. 그러나 단일 작업에만 관심이 있고 작은 모델을 사용하려는 경우 지도 학습이 더 적합할 것입니다.

지도 학습에서 FF를 사용하는 한 가지 방법은 입력에 레이블을 포함하는 것입니다. 양수 데이터는 올바른 레이블이 있는 이미지로 구성되고 음수 데이터는 잘못된 레이블이 있는 이미지로 구성됩니다. 레이블은 둘 사이의 유일한 차이점이며 FF는 무시합니다. 라벨과 관련되지 않은 이미지의 모든 특징.

MNIST 이미지에는 컨벌루션 신경망 작업을 쉽게 하기 위해 검은색 테두리가 포함되어 있습니다. 첫 번째 숨겨진 레이어 학습 콘텐츠는 처음 10픽셀을 레이블의 N개 표현 중 하나로 대체하면 쉽게 드러납니다. 4개의 숨겨진 레이어가 있는 네트워크에서는 각 숨겨진 레이어에 2000개의 ReLU가 포함됩니다. 60개의 에포크 후에는 MNIST에 의한 완전한 연결 테스트 오류가 약 20개의 에포크에 필요합니다. FF 학습률을 두 배로 늘리고 40세대 동안 훈련하면 테스트 오류가 1.46%로 약간 더 나빠집니다.

FF로 훈련한 후, 테스트 숫자는 테스트 숫자를 포함하는 입력과 10개의 0.1 항목으로 구성된 중립 레이블에서 시작하여 네트워크에 의한 정방향 전달을 통해 분류됩니다. 그 후 첫 번째 숨겨진 외부를 제외하고 계층에서는 다른 모든 숨겨진 활동이 학습 중에 학습된 소프트맥스에 대한 입력으로 사용됩니다. 이는 빠르고 최적이 아닌 이미지 분류 방법입니다. 가장 좋은 방법은 입력의 일부로 특정 레이블을 사용하여 네트워크를 실행하고 첫 번째 숨겨진 레이어를 제외한 모든 레이어의 장점을 누적하는 것입니다. 각 레이블에 대해 개별적으로 수행한 후 누적 장점이 가장 높은 레이블을 선택합니다. 훈련 중에 중립 레이블의 정방향 전달이 하드 네거티브 레이블을 선택하는 데 사용되므로 훈련에는 약 1/3의 에포크가 필요합니다.

각 방향에서 가장 많이 흔들리는 두 개의 픽셀을 사용하여 훈련 데이터를 늘리고 각 이미지에 대해 25개의 서로 다른 오프셋을 얻습니다. 따라서 픽셀 공간 레이아웃에 대한 지식이 사용되므로 더 이상 변경되지 않습니다. 500 epoch 동안 증강 데이터로 동일한 네트워크를 훈련하면 테스트 오류는 역전파로 훈련된 컨벌루션 신경망과 유사하게 0.64%에 도달할 수 있습니다. 그림 2에서 볼 수 있듯이 첫 번째 숨겨진 레이어에서도 흥미로운 로컬 도메인을 얻습니다.

Hinton의 최신 연구: 신경망의 미래는 순방향 알고리즘입니다.

그림 2: 디더링된 MNIST에서 훈련된 네트워크의 첫 번째 히든 레이어에 있는 100개 뉴런의 로컬 필드(각 이미지의 처음 10픽셀에 클래스 레이블 표시됨)

FF를 사용하면 상단 시뮬레이션 -down 지각 효과

현재 모든 이미지 분류 사례는 한 번에 한 레이어씩 학습하는 피드포워드 신경망을 사용하는데, 이는 이후 레이어에서 학습된 내용이 이전 레이어의 학습에 영향을 미치지 않는다는 것을 의미합니다. 이는 역전파에 비해 큰 약점인 것으로 보이며, 이 명백한 한계를 극복하는 열쇠는 정적 이미지를 다층 순환 신경망으로 처리되는 다소 지루한 비디오로 처리하는 것입니다.

FF는 양수 데이터와 음수 데이터 모두에 대해 시간에 맞춰 앞으로 실행되지만 각 레이어의 활동 벡터는 이전 시간 단계에서 이전 및 다음 레이어의 정규화된 활동 벡터에 의해 결정됩니다(그림 3). 이 접근 방식이 작동하는지 예비적으로 확인하기 위해 각 시간 프레임에서 단순히 반복되는 정적 MNIST 이미지로 구성된 "비디오" 입력을 사용할 수 있습니다. 하단에는 픽셀 이미지가 있고 하단에는 숫자 클래스의 N 표현 중 하나가 있습니다. 상단에는 2개 또는 3개의 중간 계층이 있으며 각 계층에는 2000개의 뉴런이 있습니다.

예비 실험에서 순환 네트워크는 10개의 시간 단계에 걸쳐 실행되었으며, 각 시간 단계의 짝수 레이어는 홀수 ​​레이어의 표준화 활동에 따라 업데이트되었으며, 홀수 레이어는 새로운 표준화 활동에 따라 업데이트되었습니다. 교대 업데이트의 목적은 이상 진동을 방지하기 위한 것이었지만 현재는 필요하지 않은 것 같습니다: 이전 시간 단계 정규화 상태를 기반으로 약간의 감쇠를 적용했습니다. 모든 숨겨진 레이어의 동기 업데이트 학습 효과가 약간 더 좋습니다. 이는 불규칙한 아키텍처에 더 좋습니다. 따라서 본 실험에서는 동기 업데이트가 사용되었으며 새로운 사전 정규화 상태는 이전 사전 정규화 상태의 0.3에 계산된 새 상태의 0.7을 더한 값으로 설정되었습니다.

Hinton의 최신 연구: 신경망의 미래는 순방향 알고리즘입니다.

그림 3: 비디오 처리를 위한 순환 네트워크

그림 3에서 볼 수 있듯이 네트워크는 각 이미지의 숨겨진 레이어에 대한 상향식 패스를 사용하여 60세대 동안 MNIST에서 훈련되었습니다. 초기화를 수행합니다.

이후 네트워크는 감쇠를 사용하여 8번의 동시 반복을 실행하고 10개의 레이블 각각에 대해 8번의 반복을 실행하고 반복 3~5에서 평균 우수성이 가장 높은 레이블을 선택하여 네트워크를 평가합니다. 오류는 1.31%이다. 부정적인 데이터는 네트워크를 통해 한 번 전달되어 모든 카테고리의 확률을 얻고, 확률에 비례하여 잘못된 카테고리를 선택하여 생성함으로써 훈련 효율성을 향상시킵니다.

공간적 맥락을 이용한 예측

재귀 네트워크에서는 상위 계층의 양수 데이터 입력과 하위 계층의 입력 사이에 좋은 일관성을 유지하는 것이 목표이지만 음수 데이터의 일관성은 좋지 않습니다. 공간적으로 로컬 연결이 있는 네트워크의 바람직한 속성: 하향식 입력은 이미지의 더 넓은 영역에 의해 결정되고 더 많은 처리 단계의 결과를 가지므로 이미지의 상황별 예측으로 볼 수 있습니다. 이는 로컬 이미지 도메인의 상향식 입력을 기반으로 생성되어야 하는 결과입니다.

시간이 지남에 따라 입력이 변경되면 하향식 입력은 이전 입력 데이터를 기반으로 하므로 상향식 입력을 예측하는 표현을 학습해야 합니다. 목적 함수의 부호를 반전시키고 양수 데이터에 대해 낮은 제곱 활동을 수행하면 하향식 입력은 양수 데이터에 대한 상향식 입력을 상쇄하는 방법을 학습해야 하며 이는 예측 코딩과 매우 유사해 보입니다. 레이어 정규화란 취소가 잘 되더라도 많은 정보가 다음 레이어로 전달되고, 모든 예측 오류가 작을 경우 정규화를 통해 증폭된다는 의미입니다.

상황 예측을 국소적 특징으로 활용하고 학습을 위한 교육 신호를 추출한다는 아이디어는 오래 전부터 있었지만 일방적인 시간적 맥락이 아닌 공간적 맥락을 활용하는 신경망에서 어떻게 작동하는지에 어려움이 있습니다. 하향식 및 상향식 입력의 합의를 하향식 및 상향식 가중치에 대한 교육 신호로 사용하는 것은 명백히 붕괴로 이어지는 접근 방식이며, 다른 이미지의 상황별 예측을 사용하여 음수 쌍을 생성하는 문제도 마찬가지입니다. 해결되었습니다. 그 중에서도 부정적인 내부 표현보다는 부정적인 데이터를 활용하는 것이 핵심인 것 같습니다.

CIFAR-10 데이터 세트 테스트

Hinton은 CIFAR-10 데이터 세트에서 FF 알고리즘의 성능을 테스트하여 FF로 훈련된 네트워크의 성능이 역전파와 비슷하다는 것을 입증했습니다.

이 데이터 세트에는 픽셀당 3개의 색상 채널이 있는 50,000개의 32x32 훈련 이미지가 있으므로 각 이미지의 크기는 3072입니다. 이러한 이미지의 배경은 복잡하고 매우 가변적이며 매우 제한된 훈련 데이터로는 잘 모델링할 수 없기 때문에 숨겨진 레이어가 매우 작지 않으면 2~3개의 숨겨진 레이어가 포함된 완전히 연결된 네트워크를 역전파를 사용하여 사용할 수 있습니다. 훈련할 때 현재의 거의 모든 연구 결과는 컨볼루션 네트워크에 대한 것입니다.

역전파와 FF는 모두 가중치 감소를 사용하여 과적합을 줄였습니다. Hinton은 두 가지 방법으로 훈련된 네트워크의 성능을 비교했습니다. FF 훈련 네트워크의 경우 테스트 방법은 단일 순방향 전파를 사용하거나 네트워크가 이미지와 10개 레이블 각각에 대해 10번 반복을 실행하도록 하고 4~6번 반복에서 레이블의 에너지를 축적하는 것입니다(즉, 오류의 양호가 가장 낮은 시점을 기준으로 함).

결과적으로 FF의 테스트 성능은 역전파보다 나쁘지만 약간만 더 나쁠 뿐입니다. 동시에, 히든 레이어가 증가하더라도 둘 사이의 간격은 증가하지 않습니다. 그러나 역전파는 훈련 오류를 더 빠르게 줄일 수 있습니다.

또한, Hinton은 시퀀스 학습에서 시퀀스의 다음 문자를 예측하는 작업을 통해 FF로 훈련된 네트워크가 역전파보다 우수하다는 것을 증명했습니다. FF로 훈련된 네트워크는 자체적으로 부정적인 데이터를 생성할 수 있으며 생물학적으로 더 일관성이 있습니다.

3

FF 알고리즘과 볼츠만 머신의 관계, GAN, SimCLR

Hinton은 FF 알고리즘을 기존의 다른 대조 학습 방법과 추가로 비교했습니다. 그의 결론은 다음과 같습니다.

FF는 Boltzmann 기계와 간단한 로컬 장점 함수의 조합입니다.

FF는 판별 모델과 생성 모델을 학습하는 데 역전파가 필요하지 않으므로 GAN 특수 사례입니다.

실제 신경망에서 FF는 SimCLR과 같은 자기 지도 비교 방법보다 서로 다른 두 표현 간의 일관성을 더 잘 측정할 수 있습니다.

FF는 볼츠만 머신의 비교 학습을 흡수합니다

1980년대 초 심층 신경망에는 가장 유망한 두 가지 학습 방법이 있었습니다. 하나는 역전파이고 다른 하나는 대조 학습을 위한 비지도 볼츠만 머신이었습니다.

볼츠만 머신은 양방향으로 동일한 가중치를 갖는 쌍 연결을 갖춘 임의의 이진 뉴런 네트워크입니다. 외부 입력 없이 자유롭게 실행될 때 볼츠만 머신은 다른 활성 뉴런에서 수신하는 총 입력과 동일한 확률로 각 이진 뉴런을 켜짐 상태로 설정하여 반복적으로 업데이트합니다. 이 간단한 업데이트 프로세스는 궁극적으로 평형 분포에서 샘플링합니다. 여기서 각 전역 구성(모든 뉴런에 이진 상태를 할당)은 음의 에너지에 비례하는 로그 확률을 갖습니다. 음의 에너지는 단순히 해당 구성의 모든 뉴런 쌍 사이의 가중치의 합입니다.

볼츠만 머신의 뉴런 하위 집합은 "표시"되며, 이진 데이터 벡터는 보이는 뉴런 위에 고정된 다음 나머지 숨겨진 뉴런의 상태를 반복적으로 업데이트하여 네트워크에 표시됩니다. 볼츠만 머신러닝의 목적은 눈에 보이는 뉴런의 이진 벡터 분포가 네트워크가 실행될 때 데이터 분포와 자유롭게 일치하도록 만드는 것입니다.

가장 놀라운 점은 눈에 보이는 뉴런에 표시된 데이터 분포와 모델 분포 사이의 Kullback-Liebler 발산이 매우 간단한 도함수(모든 가중치에 대해)를 갖는다는 것입니다.

Hinton의 최신 연구: 신경망의 미래는 순방향 알고리즘입니다.

여기서 열평형에서의 무작위 변동에 대한 기대와 첫 번째 항에 대한 데이터를 나타냅니다.

이 결과의 흥미로운 점은 오류 도함수를 명시적으로 전파하지 않고 네트워크 깊은 곳에 있는 가중치의 도함수를 제공한다는 것입니다. 이는 각성 및 수면의 두 단계 동안 신경 활동을 확산시킵니다.

그러나 학습 규칙을 수학적으로 가장 간단하게 만드는 데 드는 비용은 매우 높습니다. 평형 분포를 근사화하려면 깊은 볼츠만 머신이 필요하므로 기계 학습 기술로는 비현실적이고 피질 학습 모델로는 믿기 어렵습니다. 대규모 네트워크는 균형 분포를 인식하는 동안 평형 분포를 근사화할 시간이 없습니다. 더욱이 피질 연결의 상세한 대칭에 대한 증거도 없고 서열을 학습하는 확실한 방법도 없습니다. 또한, 가중치에 대한 많은 긍정적인 업데이트와 많은 부정적인 업데이트가 뒤따르고 부정적인 단계가 REM 수면에 해당하는 경우 Boltzmann 기계 학습 절차는 실패합니다.

그러나 위의 단점에도 불구하고 볼츠만 머신은 동일하게 작동하지만 눈에 보이는 뉴런에 대해 서로 다른 경계 조건(즉, 데이터로 제한됨과 무제한으로 제한됨)을 갖는 두 가지 반복 설정을 사용하기 때문에 여전히 매우 스마트한 학습 방법입니다. 역전파의 정방향 및 역방향 전달.

Boltzmann 기계는 두 가지 아이디어의 조합으로 볼 수 있습니다.

  1. 실제 데이터의 자유 에너지를 최소화하고 생성된 음수 데이터의 자유 에너지를 최대화하여 네트워크 자체를 학습합니다.
  2. 홉필드 에너지를 에너지 함수로 사용하고 반복적인 무작위 업데이트를 사용하여 에너지 함수로 정의된 볼츠만 분포에서 전역 구성을 샘플링합니다.

대조 학습에 대한 첫 번째 아이디어는 다른 많은 에너지 기능과 함께 사용될 수 있습니다. 예를 들어, 피드포워드 신경망의 출력은 에너지를 정의하는 데 사용되며, 그런 다음 네트워크를 통해 역전파를 사용하여 가중치 및 가시 상태에 대한 에너지의 도함수를 계산합니다. 그런 다음 가시 상태에 대한 에너지의 미분을 추적하여 음수 데이터가 생성됩니다. 또한, 에너지 함수로 정의된 볼츠만 분포에서 데이터 벡터를 샘플링하여 음수 데이터를 생성할 필요가 없으며, 이는 평형 분포에서 샘플링하지 않고 단일 히든 레이어를 갖는 볼츠만 머신의 학습 효율성도 향상시킬 수 있습니다.

힌튼의 관점에서 수학식 2의 수학적 단순성과 가능한 모든 숨겨진 구성에 대해 베이지안 통합을 수행하는 확률적 업데이트 프로세스는 정말 매우 우아하므로 신경 활동만 전파하는 데 필요한 두 가지 솔루션만 사용한다는 아이디어 역전파 대신 순방향+역전파는 여전히 Markov Chain Monte Carlo의 복잡성과 얽혀 있습니다.

간단한 로컬 선함 함수는 이진 랜덤 뉴런 네트워크의 자유 에너지보다 처리하기 쉽고 FF는 볼츠만 기계의 대조 학습을 이 함수와 결합합니다.

FF는 GAN의 특별한 경우입니다.

GAN(Generative Adversarial Network)은 다층 신경망을 사용하여 데이터를 생성하고, 다층 판별 네트워크를 사용하여 생성 모델을 훈련하여 다음을 제공합니다. 생성 모델 출력에 대한 파생 모델과 파생 모델이 생성된 데이터가 아닌 실제 데이터일 확률

GAN은 차별 모델과 생성 모델이 서로 싸우기 때문에 훈련하기가 어렵습니다. GAN은 매우 아름다운 이미지를 생성할 수 있지만 모드 붕괴 문제가 있습니다. 예를 생성하지 않는 이미지 공간의 넓은 영역이 있을 수 있습니다. 그리고 각 네트워크에 맞게 역전파를 사용하므로 이를 Cortex에서 구현하는 방법을 파악하기가 어렵습니다.

FF는 GAN의 특별한 사례로 볼 수 있습니다. 판별 네트워크의 각 숨겨진 계층은 양수 또는 음수 입력에 대해 탐욕스러운 결정을 내리므로 판별 모델을 학습하기 위해 역전파가 필요하지 않으며 생성 모델은 자신의 숨겨진 표현을 학습하는 대신 판별 모델에서 학습한 표현을 재사용하기 때문입니다.

생성 모델이 배워야 할 유일한 것은 이러한 숨겨진 표현을 생성된 데이터로 변환하는 방법이며 선형 변환을 사용하여 소프트맥스의 로그를 계산하는 경우 역전파가 필요하지 않습니다. 두 모델 모두에 동일한 숨겨진 표현을 사용하면 한 모델이 다른 모델에 비해 너무 빨리 학습할 때 발생하는 문제를 제거하고 모드 붕괴도 방지할 수 있다는 장점이 있습니다.

FF는 SimCLR보다 일관성을 측정하기가 더 쉽습니다.

SimCLR과 같은 자기 감독 비교 방법은 동일한 이미지의 두 가지 잘린 표현 간의 관계를 지원할 수 있는 목적 함수를 최적화하여 학습합니다. 서로 다른 두 이미지의 작물 표현.

이 유형의 접근 방식은 일반적으로 많은 레이어를 사용하여 맞춤형 표현을 추출하고 목적 함수의 도함수를 역전파하여 이러한 레이어를 학습시킵니다. 두 개의 클리핑이 항상 똑같은 방식으로 겹치는 경우에는 작동하지 않습니다. 왜냐하면 공유된 픽셀의 강도를 간단히 보고하고 완벽한 일관성을 얻을 수 있기 때문입니다.

그러나 실제 신경망에서는 서로 다른 두 표현 간의 일관성을 측정하기가 쉽지 않으며, 동일한 가중치를 사용하여 동시에 두 개의 맞춤형 표현을 추출할 방법이 없습니다.

그리고 FF는 일관성을 측정하기 위해 다른 방법을 사용하는데, 이는 실제 신경망에서는 더 쉬워 보입니다.

다양한 정보 소스가 동일한 뉴런 세트에 입력을 제공합니다. 소스가 어떤 뉴런을 활성화할지에 동의하면 긍정적인 간섭이 발생하여 높은 제곱 활동이 발생하고, 발산하는 경우 제곱 활동이 낮아집니다. 포지티브 간섭을 사용하여 일관성을 측정하는 것은 입력을 두 개의 별도 소스로 임의로 분할할 필요가 없기 때문에 두 개의 서로 다른 표현 벡터를 비교하는 것보다 훨씬 더 유연합니다.

SimCLR 이러한 유형의 접근 방식의 주요 약점은 두 이미지 자르기의 표현을 파생하는 데 사용되는 많은 양의 계산이지만 목적 함수는 표현에 대해 적당한 제약만 제공하므로 정보가 표시되는 속도가 제한됩니다. 도메인은 가중치에 주입될 수 있습니다. 잘린 표현이 대체 표현보다 올바른 쌍에 더 가까워지려면 20비트의 정보만 필요합니다. FF의 문제는 긍정적인 예와 부정적인 예를 구별하는 데 1비트만 필요하기 때문에 더 심각합니다.

이러한 제약 조건의 빈곤에 대한 해결책은 각 레이어를 여러 개의 작은 블록으로 분할하고 각 블록이 사전 정규화된 활동 벡터의 길이를 사용하여 긍정적인 사례와 부정적인 사례를 별도로 결정하도록 하는 것입니다. 제약 조건을 충족하는 데 필요한 정보는 블록 수에 따라 선형적으로 확장됩니다. 이는 SimCLR과 같은 방법에서 더 큰 대비 세트를 사용하여 달성한 로그 스케일링보다 훨씬 좋습니다.

스택 대비 학습 문제

다층 표현을 학습하는 비지도 방식은 먼저 데이터의 일부 구조를 캡처하는 숨겨진 레이어를 학습한 다음 해당 레이어의 활동을 결합하는 것입니다. 벡터는 다음과 같이 처리됩니다. 데이터와 동일한 비지도 학습 알고리즘이 다시 적용됩니다. 이는 제한된 볼츠만 머신(RBM) 또는 스택 오토인코더를 사용하여 다층 표현을 학습하는 방법입니다.

하지만 치명적인 단점이 있습니다. 무작위 가중치 행렬을 통해 일부 무작위 노이즈 이미지를 매핑한다고 가정합니다. 결과 활동 벡터는 데이터와 관계없이 가중치 행렬에 의해 생성된 상관 구조를 갖습니다. 비지도 학습이 이러한 활동 벡터에 적용될 때 그 내부의 일부 구조를 발견하지만 이는 시스템에 외부 세계에 대해 아무 것도 알려주지 않습니다.

원래 Boltzmann 기계 학습 알고리즘은 두 가지 다른 외부 경계 조건으로 인해 발생한 통계를 비교하여 이러한 결함을 방지하도록 설계되었습니다. 이는 단순히 네트워크의 다른 부분의 결과인 모든 구조를 취소합니다. 긍정적인 데이터와 부정적인 데이터를 비교할 때 라우팅을 제한할 필요가 없으며 네트워크 부정 행위를 방지하기 위해 클리핑 간의 무작위 공간 관계가 필요하지 않습니다. 이를 통해 각 뉴런 그룹은 긍정적인 데이터와 부정적인 데이터를 구별하려는 목표를 가지고 있는 수많은 상호 연결된 뉴런 그룹을 쉽게 얻을 수 있습니다.

4

미래의 불멸 컴퓨터에 대하여

FF는 최고의 학습 알고리즘입니다

Mortal Computation은 Hinton의 최근 중요한 견해 중 하나입니다(참고: 이 용어는 인정되는 중국어 번역이 없으며 임시 번역은 "불멸의 컴퓨팅"입니다).

Hinton의 최신 연구: 신경망의 미래는 순방향 알고리즘입니다.

그는 현재의 범용 디지털 컴퓨터는 명령을 충실히 따르도록 설계되어 있다고 지적했으며, 범용 컴퓨터가 특정 작업을 수행하도록 하는 유일한 방법은 다음과 같은 프로그램을 작성하는 것이라고 생각했습니다. 무엇을 해야 할지 매우 자세하게 설명되어 있습니다.

주류 아이디어는 여전히 소프트웨어가 하드웨어와 분리되어 동일한 프로그램이나 동일한 가중치 세트가 하드웨어의 서로 다른 물리적 복사본에서 실행될 수 있어야 한다고 주장합니다. 이는 프로그램이나 가중치에 포함된 지식을 "불멸"로 만듭니다. 즉, 하드웨어가 죽더라도 지식은 함께 죽지 않습니다.

그러나 이것은 더 이상 사실이 아니며, 연구 커뮤니티는 컴퓨터 구축 방식에 대한 딥 러닝의 장기적인 영향을 아직 완전히 이해하지 못했습니다.

소프트웨어와 하드웨어의 분리는 컴퓨터 과학의 기초 중 하나입니다. 이는 전기 공학에 대해 걱정할 필요 없이 프로그램의 특성을 연구할 수 있는 능력과 같은 많은 이점을 제공합니다. 프로그램을 한 번 작성하고 이를 데이터에 복사하면 수백만 대의 컴퓨터가 가능해졌습니다. 그러나 Hinton은 다음과 같이 지적합니다.

이 "불멸성"을 기꺼이 포기한다면 계산을 수행하는 데 필요한 에너지와 계산을 수행하는 데 필요한 하드웨어 제조 비용을 크게 절약할 수 있습니다.

이와 같이 동일한 작업을 수행하는 서로 다른 하드웨어 인스턴스는 연결성과 비선형성에 큰 변화가 있을 수 있으며, 각 특정 인스턴스의 알려지지 않은 속성을 효과적으로 활용하는 매개변수 값을 학습 프로세스 하드웨어에서 발견합니다. 이러한 매개변수 값은 특정 하드웨어 인스턴스에만 유용하므로 수행되는 계산은 불멸이 아니며 하드웨어와 함께 사라집니다.

다르게 작동하는 다른 하드웨어에 매개변수 값을 복사하는 것 자체는 실제로 의미가 없지만, 한 하드웨어에서 학습한 내용을 다른 하드웨어로 전송하기 위해 좀 더 생물학적인 접근 방식을 사용할 수 있습니다. 이미지의 객체 분류와 같은 작업에서 우리가 실제로 관심을 갖는 것은 특정 하드웨어에서 해당 기능을 구현하는 매개변수 값이 아니라 픽셀 강도를 클래스 레이블에 연결하는 기능입니다.

기능 자체는 증류를 사용하여 다른 하드웨어로 전송할 수 있습니다. 새 하드웨어를 교육하면 기존 하드웨어와 동일한 답을 제공할 뿐만 아니라 오답이 나올 확률도 동일하게 출력됩니다. 이러한 확률은 가장 가능성이 높다고 생각되는 레이블보다는 기존 모델이 어떻게 일반화되었는지에 대한 더 풍부한 정보를 제공합니다. 그래서 오답 확률과 일치하도록 새 모델을 훈련함으로써 이전 모델과 같은 방식으로 일반화하도록 훈련하고 있습니다. 실제로 일반화를 최적화하는 신경망 훈련의 드문 예입니다.

1조 매개변수의 신경망이 몇 와트만 소비하도록 하려면 불멸 컴퓨팅이 유일한 선택일 수 있습니다. 그 타당성은 정확한 세부 사항이 알려지지 않은 하드웨어에서 효율적으로 실행될 수 있는 학습 프로세스를 찾을 수 있는지 여부에 달려 있습니다. Hinton의 관점에서 FF 알고리즘은 유망한 솔루션이지만 대규모로 확장되고 있습니다. 신경망이 어떻게 작동할지.

문서 끝에서 Hinton은 다음과 같은 공개 질문을 지적합니다.

  • FF 비지도 학습에 필요한 부정적인 데이터를 생성하기에 충분한 이미지 또는 비디오 생성 모델을 생성할 수 있습니까?
  • 수면 중에 음전이가 완료되면 시간적으로 양전이와 음전이가 매우 광범위하게 구분될 수 있나요?
  • 부정적인 측면을 일정 기간 동안 제거하면 그 효과는 심각한 수면 부족으로 인한 피해와 비슷할까요?
  • 어떤 Goodness 기능을 사용하는 것이 가장 좋을까요? 본 논문에서는 대부분의 실험에서 활동 제곱합을 사용하지만, 양의 데이터에 대해서는 활동 제곱합을 최소화하고 음의 데이터에 대해서는 활동 제곱합을 최대화하는 것이 약간 더 잘 작동하는 것으로 보입니다.
  • 어떤 활성화 기능을 사용하는 것이 가장 좋나요? 지금까지 ReLU만 연구되었습니다. 활성화를 t-분포 하에서 밀도의 음의 로그로 만드는 것도 하나의 가능성입니다.
  • 공간 데이터의 경우 FF가 이미지의 다양한 영역에서 수많은 로컬 최적화 기능을 활용할 수 있나요? 효과가 있으면 학습 속도가 빨라집니다.
  • 순차 데이터의 경우 빠른 가중치를 사용하여 단순화된 변환기를 시뮬레이션할 수 있습니까?
  • 활동 제곱을 최대화하려는 특징 탐지기 집합과 활동 제곱을 최소화하려는 제약 조건 위반 탐지기 집합 , FF를 지원할 수 있나요?

위 내용은 Hinton의 최신 연구: 신경망의 미래는 순방향 알고리즘입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿