NeurIPS 2022 컨퍼런스가 한창입니다. 각계각층의 전문가와 학자들이 딥러닝, 컴퓨터 비전, 대규모 머신러닝, 학습 이론, 최적화, 희소성 이론 등 다양한 세분화된 분야에 대해 소통하고 토론하고 있습니다.
이 회의에서 Turing Award 수상자이자 딥 러닝의 선구자인 Geoffrey Hinton은 대학원생 Alex Krizhevsky 및 Ilya와 공동 집필한 "ImageNet Classification with Deep Convolutional Neural Networks" 논문을 인정하는 연설을 하도록 초대되었습니다. 10년 전 Sutskever는 해당 분야에 대한 "엄청난 영향"으로 Time-testing Award를 수상했습니다. 2012년에 발표된 이 작품은 이미지넷(ImageNet) 이미지 인식 대회에서 콘볼루션 신경망이 인간 수준의 성능을 최초로 달성한 작품이자 인공지능의 제3의 물결을 여는 핵심 행사였습니다.
Hinton 이번 연설의 주제는 "심층 신경망 훈련을 위한 Forward-Forward 알고리즘"입니다. Geoffrey Hinton은 연설에서 "머신 러닝 연구 커뮤니티는 딥 러닝이 컴퓨터 구축 방식에 미치는 영향을 깨닫는 데 시간이 많이 걸렸습니다."라고 말했습니다. 그는 머신 러닝 형태의 인공 지능이 컴퓨터 시스템의 변화를 촉발할 것이라고 믿습니다. AI를 "토스터에" 넣는 새로운 소프트 및 하드 조합입니다.
그는 계속해서 "우리는 완전히 다른 종류의 컴퓨터를 보게 될 것이라고 생각합니다. 비록 몇 년 동안은 불가능하겠지만 완전히 다른 컴퓨터에서 작업해야 할 충분한 이유가 있습니다 "라고 말했습니다.
현재까지 모든 디지털 컴퓨터는 동일한 소프트웨어가 어디에서나 실행될 수 있도록 하드웨어가 매우 안정적으로 설계된 "불멸"하도록 제작되었습니다. "우리는 서로 다른 물리적 하드웨어에서 동일한 프로그램을 실행할 수 있으며 지식은 불멸입니다."
Hinton은 이러한 설계 요구 사항은 디지털 컴퓨터가 "하드웨어의 다양한 변수, 무작위성 및 불안정성, 시뮬레이션 및 불안정성을 놓쳤다는 것을 의미합니다."라고 말했습니다. 기능"은 우리에게 매우 유용할 수 있습니다.
힌튼의 관점에서 미래의 컴퓨터 시스템은 다른 접근 방식을 취할 것입니다. 즉, "뉴로모픽"이고 치명적일 것입니다 . 이는 모든 컴퓨터가 불확실성 요소를 포함하고 시간이 지남에 따라 진화할 수 있는 디지털 구성 요소가 아닌 아날로그 구성 요소를 갖는다는 의미에서 신경망 소프트웨어와 분리된 하드웨어의 긴밀한 결합이 될 것임을 의미합니다.
Hinton은 "이제 대안은 하드웨어와 소프트웨어의 분리를 포기하는 것이지만 컴퓨터 과학자들은 이 접근 방식을 정말 좋아하지 않습니다."라고 설명했습니다. 즉, 시스템과 하드웨어에서 학습한 지식은 분리될 수 없습니다. 이러한 일반 컴퓨터는 값비싼 칩 제조 공장에서 "성장"할 수 있습니다.
Hinton은 이렇게 하면 극도로 낮은 전력의 아날로그 계산을 사용할 수 있고 멤리스터 가중치를 사용하여 테라규모 병렬 처리를 수행할 수 있다고 지적합니다. 이는 비선형 회로 구성 요소를 기반으로 한 수십 년 된 실험용 칩을 나타냅니다. 또한 우리는 다양한 하드웨어 비트의 정확한 동작에 대한 정확한 품질을 이해하지 않고도 하드웨어를 발전시킬 수 있습니다.
그러나 Hinton은 또한 새로운 일반 컴퓨터가 기존의 디지털 컴퓨터를 대체하지 않을 것이라고 말했습니다. "그것은 은행 계좌를 제어하는 컴퓨터도 아니고, 돈이 얼마나 있는지도 정확히 알 수 없습니다.
이 컴퓨터는 "GPT-3와 같은 것을 토스터에 넣어" 1달러를 사용하여 자체 토스터 대화와 일치하는 데 몇 와트의 전력만 필요로 하는 것과 같은 다른 것들을 수용(즉, 처리)하는 데 사용됩니다.
이 강연에서 Hinton은 대부분의 강연에서 새로운 신경망 접근 방식에 대해 이야기하며 FF(Forward-Forward) 네트워크라고 불렀습니다. 모든 신경망. Hinton은 역전파를 제거함으로써 순방향 네트워크가 실제 생활에서 뇌에서 일어나는 일과 더 합리적으로 유사할 수 있다고 제안했습니다.
이 초안 논문은 토론토 대학교 Hinton 홈페이지에 게시되어 있습니다:
논문 링크: https://www.cs.toronto.edu/~hinton/FFA13.pdf
Hinton은 FF 방식이 일반 컴퓨팅 하드웨어에 더 적합할 수 있다고 말했습니다. "현재 이와 같은 작업을 수행하려면 독점 하드웨어에서 실행될 학습 프로그램이 있어야 하며, 모든 속성이 무엇인지 알지 못한 채 독점 하드웨어의 특정 속성을 활용하는 방법을 배워야 합니다. 하지만 내 생각에는 순방향 알고리즘은 잠재력이 있는 옵션입니다." 그는 새로운 아날로그 컴퓨터를 구축하는 데 있어 한 가지 장애물은 수백만 개의 장치에서 소프트웨어를 실행하는 신뢰성에 대한 중요성이라고 말했습니다. Hinton은 "이러한 전화기 각각은 아기 전화기로 시작해야 하며 전화기가 되는 방법을 배워야 합니다"라고 말했습니다. "그리고 이것은 매우 고통스럽습니다."
가장 숙련된 엔지니어라도 불확실성에 대한 두려움 때문에 완벽하고 동일한 불멸의 컴퓨터라는 패러다임을 포기하는 것을 꺼릴 것입니다.
힌튼은 "아날로그 컴퓨팅에 관심 있는 사람들 중에도 불멸을 기꺼이 포기하는 사람은 아직 극소수다. 이는 일관성과 예측 가능성에 대한 집착 때문이다. 하지만 원한다면 같은 일이지만 조만간 이 혼란으로 인해 실제 문제에 직면하게 됩니다."
Paper content
논문에서 Hinton은 새로운 신경망 학습 절차를 소개하고 그것이 작동한다는 것을 실험적으로 증명합니다. 몇 가지 작은 작업이 질문에 미치는 영향은 충분합니다. 구체적인 내용은 다음과 같습니다.역전파의 문제점은 무엇인가요?
지난 10년간 딥러닝의 성공으로 수많은 매개변수와 대용량 데이터를 사용하여 확률적 경사하강법을 수행하는 효율성이 확립되었습니다. 기울기는 일반적으로 역전파에 의해 계산되므로 뇌가 역전파를 구현하는지 또는 연결 가중치를 조정하는 데 필요한 기울기를 얻는 다른 방법이 있는지에 대한 관심이 생겼습니다.역전파는 실제 뉴런처럼 구현하려는 상당한 노력에도 불구하고 대뇌 피질이 학습하는 방법에 대한 모델로서 여전히 믿기 어렵습니다. 현재 대뇌 피질이 오류 파생물을 명시적으로 전파하거나 후속 역전파에 사용하기 위해 신경 활동을 저장한다는 설득력 있는 증거는 없습니다. 하나의 피질 영역에서 시각 경로의 초기 영역으로의 하향식 연결은 예상과 달랐습니다. 즉, 시각 시스템에서 역전파가 사용된 경우 상향식 연결이 발생할 것입니다. 대신, 그들은 신경 활동이 두 영역의 약 6개 피질 층을 통과한 다음 시작된 곳으로 돌아가는 루프를 형성합니다.
시간에 따른 역전파는 시퀀스를 학습하는 방법으로 특히 신뢰할 수 없습니다. 빈번한 시간 초과 없이 감각 입력 스트림을 처리하려면 뇌는 다양한 감각 처리 단계를 통해 감각 데이터를 파이프라인으로 연결해야 합니다. 이를 위해서는 "즉시" 학습할 수 있는 학습 프로그램이 필요합니다. 파이프라인 후반 단계의 표현은 후속 시간 단계에서 파이프라인의 초기 단계 표현에 영향을 미치는 하향식 정보를 제공할 수 있지만 인식 시스템은 역전파 수행을 중단하지 않고 실시간으로 추론하고 학습해야 합니다.
역전파의 또 다른 심각한 한계는 올바른 도함수를 계산하려면 순방향 전달에서 수행되는 계산에 대한 완전한 지식이 필요하다는 것입니다. 순방향 패스에 블랙박스를 삽입하면 블랙박스의 미분 가능한 모델을 학습하지 않으면 역전파가 더 이상 불가능합니다. 앞으로 살펴보겠지만 블랙박스는 역전파할 필요가 없기 때문에 FF 알고리즘의 학습 절차를 전혀 변경하지 않습니다.
완벽한 순방향 전달 모델이 없으면 다양한 형태의 강화 학습 중 하나를 사용할 수 있습니다. 아이디어는 가중치나 신경 활동에 대해 무작위 교란을 수행하고 이러한 교란을 보수 함수의 변화와 연관시키는 것입니다. 그러나 강화 학습 프로그램은 높은 가변성으로 인해 어려움을 겪습니다. 즉, 다른 많은 변수가 동시에 교란될 때 하나의 변수를 교란하는 효과를 확인하기 어렵습니다. 다른 모든 교란으로 인해 발생하는 노이즈를 평균화하려면 학습 속도가 교란되는 변수의 수에 반비례해야 합니다. 즉, 강화 학습의 확장성이 낮고 수백만 또는 수십억 개의 대규모 네트워크가 포함된 대규모 네트워크에서는 강화 학습과 역비례를 비교할 수 없습니다. 매개변수.
이 논문의 요점은 알려지지 않은 비선형성을 포함하는 신경망이 강화 학습에 의존할 필요가 없다는 것입니다. FF 알고리즘은 속도 면에서 역전파와 비슷하지만 순방향 계산의 정확한 세부 사항을 알 수 없는 경우에 사용된다는 장점이 있습니다. 또한 신경 활동을 저장하거나 오류 파생 항목 전파를 중지할 필요 없이 신경망을 통해 순차 데이터를 파이프라인하면서 학습할 수 있다는 장점도 있습니다.
일반적으로 FF 알고리즘은 역전파보다 느리고 이 기사에서 연구한 여러 장난감 문제에 대한 일반화는 이상적이지 않으므로 전력 제한이 너무 크지 않은 애플리케이션에서는 역전파를 대체할 가능성이 없습니다. 매우 큰 데이터 세트에 대해 훈련된 매우 큰 모델의 경우 이러한 유형의 탐색은 역전파를 계속 사용합니다. FF 알고리즘은 두 가지 측면에서 역전파보다 더 나을 수 있습니다. 하나는 대뇌 피질의 학습 모델이고, 다른 하나는 강화 학습에 의지하지 않고 매우 낮은 전력의 시뮬레이션 하드웨어를 사용한다는 것입니다.
Forward-Forward 알고리즘은 볼츠만 기계와 잡음 대비 추정에서 영감을 받은 탐욕스러운 다층 학습 절차입니다. 두 개의 정방향 패스를 사용하여 역전파의 정방향 패스와 역방향 패스를 대체하는 아이디어입니다 이 두 가지 정방향 패스는 정확히 동일한 방식으로 서로 작동하지만 서로 다른 데이터에서는 목표도 반대입니다. . 그 중 포지티브 패스(Positive Pass)는 실제 데이터에 대해 가중치를 조정하여 각 은닉 레이어의 좋음을 높이며, 네거티브 패스(Negative Pass)는 네거티브 데이터에 대해 가중치를 조정하여 각 은닉 레이어의 좋음을 줄입니다.
논문에서 Hinton은 CIFAR-10에 대한 실험을 통해 FF 알고리즘의 성능을 시연했습니다.
CIFAR-10에는 픽셀당 3개의 색상 채널이 있는 32 x 32 픽셀 크기의 훈련 이미지 50,000개가 있습니다. 따라서 각 이미지의 크기는 3072입니다. 이러한 이미지의 배경은 복잡하고 가변성이 높으며 제한된 훈련 데이터로는 제대로 모델링할 수 없습니다. 일반적으로 2~3개의 은닉층이 있는 완전 연결 네트워크를 역전파 방법으로 훈련할 때 은닉층이 매우 작지 않은 한 과적합 효과가 매우 낮으므로 보고된 거의 모든 결과는 컨볼루션 네트워크에 대한 것입니다.
FF는 가중치 공유가 불가능한 네트워크에서 사용하도록 고안되었기 때문에 로컬 수용 필드를 사용하여 숨겨진 단위 수를 과도하게 제한하지 않고 가중치 수를 제한하는 역전파 네트워크와 비교되었습니다. 목적은 단순히 많은 수의 숨겨진 단위를 사용하여 FF가 매우 가변적인 배경을 포함하는 이미지에 대한 역전파와 비슷하게 수행된다는 것을 보여주는 것입니다.
표 1은 역전파와 FF로 훈련된 네트워크의 테스트 성능을 보여줍니다. 두 가지 모두 과적합을 줄이기 위해 가중치 감소를 사용합니다.
자세한 연구 내용은 원문을 참고해주세요.
위 내용은 거의 1만 명이 Hinton의 최신 연설을 시청했습니다. 순방향 신경망 훈련 알고리즘, 논문이 공개되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!