최근 LSTM의 아버지 위르겐 슈미트후버가 르쿤과 또 다시 불화를 겪었습니다!
사실 이 심술궂은 남자에 대해 조금 익숙한 학생들은 독보적인 Jurgen Schmidhuber와 기계 학습 커뮤니티의 여러 유명 인사 사이에 불쾌한 감정이 있었다는 것을 알고 있습니다.
특히 "그 세 사람"이 함께 튜링상을 받았지만 슈미트후버가 그렇지 못했을 때 노인은 더욱 화를 냈는데...
결국 슈미트후버는 항상 이 ML들이 현재 다음과 같은 주요 인물이라고 믿었습니다. Bengio, Hinton, LeCun을 비롯하여 "GAN" Goodfellow의 아버지 등 소위 "선구적인 결과" 중 많은 부분이 처음으로 스스로 제안되었으며 이들은 논문에서 그를 전혀 언급하지 않았습니다.
이 때문에 슈미트후버는 2015년 네이처에 벤지오, 힌튼, 르쿤이 게재한 리뷰 기사 '딥 러닝'을 비판하는 특집 기사를 쓴 적이 있습니다.
이번 글에서는 주로 그가 어떤 것을 먼저 언급했는지, 다른 선배들이 어떤 것을 먼저 언급했는지를 주로 이야기했다. 어쨌든 세 작가가 먼저 언급한 것은 아니다.
이번 사건의 원인을 다시 살펴보면, 사실 지난 9월 르쿤이 보낸 트윗이었습니다.
이 내용은 David Chalmers 교수의 질문에 대한 답변입니다. "지난 10년 동안 AI에서 가장 중요한 지적 혁신(새로운 아이디어)은 무엇입니까?"
10월 4일 Schmidhuber는 그의 블로그에 있는 기사는 다음과 같이 화나게 썼습니다. 이 다섯 가지 "최고의 아이디어" 중 대부분은 내 연구실에서 나왔고 "10년" 시점보다 훨씬 일찍 제안되었습니다.
기사에서 슈미트후버는 자신의 주장을 뒷받침하는 6가지 증거를 자세히 나열했습니다.
하지만 본 사람이 너무 적어서인지 슈미트후버는 11월 22일에 다시 트윗을 올려 이 '차가운 밥'을 다시 휘저었습니다.
하지만 지난번에 비해 꽤 열띤 논쟁이 벌어졌던 것에 비해 이번에는 르쿤이 아예 관심조차 두지 않았는데...
1. 신경망(NN)을 통해 자동으로 주석을 생성하는 "자기 지도 학습": 적어도 1990~91년 나의 작업으로 거슬러 올라갑니다.
(I) 예측 코딩을 통해 순환 신경망(RNN)에서 자체 지도 객체 생성을 통해 여러 시간 규모와 추상화 수준에서 데이터 시퀀스를 압축하는 방법을 알아봅니다.
여기서 "자동화" RNN은 "다음 입력 예측"이라는 사전 작업을 학습하고 들어오는 데이터 스트림의 예상치 못한 관찰을 대상으로 "청커" RNN에 보냅니다. 적절한 훈련 목표를 통해 예측 지식을 자동 장치로 다시 획득했습니다.
이를 통해 이전에는 해결할 수 없었던 시퀀스 분류의 다운스트림 딥 러닝 작업이 크게 용이해졌습니다.
(II) 세계 모델 NN이 실험적으로 발명된 적대적이고 주석을 생성하는 컨트롤러 NN의 행동 결과를 예측하는 방법을 학습하는 GAN 유형 내재적 동기 부여를 통한 자체 감독 주석 생성.
그리고 제가 1990년에 발표한 논문 제목에는 이미 "자기 감독"이라는 용어가 등장했습니다.
하지만 이 단어는 이전(1978) 논문에서도 사용되었습니다...
2. "ResNets": 사실 제가 초기에 제안한 것이 Highway Nets입니다. 하지만 LeCun은 ResNets의 지능이 "깊지 않다"고 생각하는데, 이는 나를 매우 슬프게 합니다.
내가 Highway Nets를 제안하기 전에는 피드포워드 네트워크에 최대 수십 개의 레이어(20~30개 레이어)만 있었던 반면, Highway Nets는 수백 개의 레이어가 있는 최초의 진정한 심층 피드포워드 신경망이었습니다.
1990년대에 내 LSTM은 감독 재귀 NN에 본질적으로 무한한 깊이를 가져왔습니다. 2000년대에는 LSTM에서 영감을 받은 Highway Nets가 피드포워드 NN에 깊이를 더했습니다.
그 결과 LSTM은 20세기에 가장 많이 인용된 NN이 되었고, Highway Nets(ResNet)는 21세기에 가장 많이 인용된 NN이 되었습니다.
딥러닝의 본질을 대변한다고 할 수 있고, 딥러닝은 NN의 깊이에 관한 것입니다.
3. "Gating->Attention->Dynamic Connected Graph": 적어도 1991-93년의 Fast Weight 프로그래머와 키-값 메모리 네트워크("키-값"이라고 함)로 거슬러 올라갈 수 있습니다. "에서부터").
1993년에 나는 오늘날 우리가 사용하는 "주의"라는 용어를 도입했습니다.
그러나 NN의 첫 번째 곱셈 게이트는 1965년 Ivakhnenko와 Lapa의 딥 러닝 머신으로 거슬러 올라갈 수 있다는 점은 주목할 가치가 있습니다.
4. "미분 메모리": 1991년의 Fast Weight Programmers 또는 Key-Value Memory Networks까지 거슬러 올라갈 수도 있습니다.
기존 컴퓨터와 같이 별도의 저장 및 제어가 가능하지만 엔드투엔드 차동, 적응형, 완전 신경 방식(하이브리드 방식 아님)을 사용합니다.
5. "다중 헤드 self-attention->Transformer와 같은 대체 등변 모듈": 나는 1991년에 선형화된 self-attention을 갖춘 Transformer를 출판했습니다. "내부 주목"이라는 용어는 1993년으로 거슬러 올라갑니다.
6. "GAN은 지난 10년간 최고의 머신러닝 개념이다"
당신이 언급한 GAN(2014)의 원리는 사실 제가 1990년에 개발한 인공지능의 원리를 올렸습니다. 호기심의 이름으로.
사실 올해 슈미트후버와 르쿤의 분쟁은 이번이 처음은 아닙니다.
2년 6월과 7월, 두 사람은 르쿤이 발간한 '지능형 자율주행의 미래 방향' 전망 보고서를 두고 앞뒤로 말다툼을 벌였다.
6월 27일, 얀 르쿤(Yann LeCun)은 "AI의 미래 발전 방향을 제시하는 작업"이라며 수년간 아껴두었던 "자율 기계 지능을 향한 길(A Path Towards Autonomous Machine Intelligence)"이라는 논문을 출판했습니다.
이 논문은 "어떻게 기계가 동물과 인간처럼 학습할 수 있는가"라는 주제를 체계적으로 이야기하고 있으며 60페이지가 넘습니다.
LeCun은 이 기사가 향후 5~10년 동안 AI 개발의 일반적인 방향에 대한 자신의 생각일 뿐만 아니라 향후 몇 년 동안 연구할 계획이기도 하며, 업계에서 더 많은 사람들에게 영감을 주기를 희망한다고 말했습니다. 함께 공부하는 AI 분야.
그리고 슈미트후버는 그 소식을 열흘쯤 미리 알고 논문을 받아 바로 반박하는 기사를 썼습니다.
Schmidhuber의 블로그 게시물에 따르면 당시 일어난 일은 다음과 같습니다.
2022년 6월 14일, 한 과학 매체에서 르쿤이 6월 27일 보고서를 발표할 것이라는 소식을 전했습니다. 그는 저에게 보고서 초안(당시에는 아직 기밀 유지 기간 중이었습니다)을 보내며 의견을 요청했습니다.
이것은 기본적으로 LeCun의 기사에서 언급되지 않은 이전 작업의 복제품이라고 리뷰를 작성했습니다.
그러나 내 의견은 무시되었습니다.
사실 그의 기사가 출판되기 오래 전에 우리는 이 기사에서 LeCun의 소위 "주요 독창적 기여"의 대부분을 제안했습니다. 주로 다음을 포함합니다:
(1) "인지 아키텍처 모든 모듈은 분리 가능하며 많은 모듈은 훈련 가능합니다."(1990년에 우리가 제안함)
(2) "세계 모델의 계층적 구조를 예측하고, 여러 추상화 수준과 여러 시간 규모에서 표현을 학습합니다"(우리는 1991년에 제안했습니다).
(3) "정보가 풍부하고 예측 가능한 표현을 생성하는 자기 지도 학습 패러다임"(우리 모델은 1997년부터 강화 학습 및 세계 모델링에 사용되었습니다.)
( 4) 계층적 모델을 위한 예측 모델 " 그라디언트 기반 신경 하위 목표 생성기(1990), 추상 개념 공간에서의 추론(1997), "주로 관찰을 통한 행동 학습"을 포함한 불확실성 하에서의 계획" 신경망(2015) 및 사고 학습(2015)은 모두 에 의해 제안되었습니다. 우리 먼저.
7월 14일 Yann LeCun은 토론이 건설적이어야 한다고 답했습니다. 그는 다음과 같이 말했습니다.
"특정 개념을 누가 발명했는가? "라는 의미 없는 논쟁에 끼어들고 싶지 않습니다. 귀하의 답변 기사에 나열된 160개의 참고 문헌을 파헤치고 싶지는 않습니다. 더 건설적인 접근 방식은 제가 나열한 4가지 기여 중 아이디어와 방법이 포함될 수 있다고 생각되는 4가지 출판물을 식별하는 것입니다.
논문 서두에서 말했듯이 오랫동안 존재해 온 많은 개념이 있으며 여러분이나 나는 이러한 개념의 창시자가 아닙니다. 예를 들어 미세 조정 가능한 세계 모델 개념이 있습니다. , 이는 최적화 제어 작업 초기로 거슬러 올라갑니다.
세계 모델 훈련은 신경망을 사용하여 세계 모델의 시스템 인식을 학습하는 것입니다. 이 아이디어는 Michael Jordan, Bernie Widrow, Robinson & Fallside, Kumpathi Narendra, Paul Werbos의 작업을 통해 1980년대 후반으로 거슬러 올라갑니다. 일찍 일해라.
내 생각에는 이 허수아비 대답은 르쿤이 주제를 바꾸고 소위 "주요 독창적 기여"에서 다른 사람의 공로를 인정하는 문제를 피하는 것 같습니다.
7월 14일에 답변했습니다.
"당신도 나도 발명하지 않은 것"에 대해 당신이 말한 내용에 대해: 당신의 논문에서는 시스템 식별을 위해 신경망을 사용한 것이 1990년대 초반으로 거슬러 올라간다고 주장합니다. 그러나 귀하의 이전 답변에서는 이에 대한 첫 번째 논문이 1980년대에 나왔다는 저의 의견에 동의하시는 것 같았습니다.
당신의 "주요 원본 기여"에 관해서는 실제로 제 초기 작업의 결과를 사용했습니다.
(1) 모든 모듈이 차별화 가능하고 많은 모듈이 훈련 가능한 "인지 아키텍처" 및 "행동은 내재적 동기에 의해 주도된다"라고 제안한 "인지 아키텍처"에 관해:
나는 차별화 가능한 아키텍처를 제안했습니다. 이것은 세계 모델을 개선하기 위한 "내재적 동기"를 갖춘 최초의 컨트롤러였습니다. 기사에 인용된 2014 GAN은 이 모델의 파생 버전입니다.
(2) 귀하가 제안한 "여러 추상화 수준 및 시간 척도에서 표현을 학습하는 예측 세계 모델의 계층 구조"에 관해:
이것은 1991년 Compressor가 실현한 신경사에서 나온 것입니다. 예측 코딩을 사용하여 자기 감독 방식으로 긴 시퀀스 데이터의 계층적 내부 표현을 학습하므로 다운스트림 학습이 크게 촉진됩니다. 1991년 신경망 개선 절차를 사용하면 이러한 표현을 단일 순환 신경망(RNN)으로 축소할 수 있습니다.
(3) 제어 측면에서 "유익하고 예측 가능한 표현을 생성하기 위한 자기 지도 학습 패러다임"에 관해:
이것은 제가 1997년에 구축하려고 제안한 시스템에서 이미 제안되었습니다. 미래 입력의 모든 세부 사항을 예측하는 대신 임의의 추상적인 질문을 하고 소위 "표현 공간"에서 계산 가능한 답변을 제공할 수 있습니다. 이 시스템에서는 "좌뇌"와 "우뇌"라는 두 가지 학습 모델이 최대 보상을 가진 상대를 선택하여 제로섬 게임에 참여하고 때로는 이러한 계산 실험 결과에 베팅합니다.
(4) 불확실성 하에서 사용할 수 있는 계층적 계획 예측 미분 가능 모델과 관련하여 귀하의 기사에서는 다음과 같이 말합니다.
"답이 없는 질문은 구성자가 복잡한 작업을 복잡한 작업으로 분해하는 방법을 배우는 방법입니다. 에이전트만으로 완료할 수 있는 하위 목표 시리즈입니다. 이 질문은 향후 조사에 맡기겠습니다. "
미래에 대해 아무 말도 하지 마세요. 사실 저는 30살입니다. 이 기사는 몇 년 전에 게시되었습니다.
컨트롤러 신경망은 (시작, 대상) 형식의 추가 명령 입력을 얻는 역할을 담당합니다. 추정 신경망은 시작부터 목표까지 예상 비용을 예측하는 학습을 담당합니다. 미세 조정 가능한 순환 신경망을 기반으로 하는 하위 목표 생성기는 이(시작, 목표) 입력을 보고 추정 신경망을 사용하여 경사하강법을 통해 최소 비용 중간 하위 목표의 시퀀스를 학습합니다.
(5) “주로 관찰을 통해 행동을 학습하는” 신경망도 강조하셨습니다. 우리는 실제로 2015년 이 기사를 통해 부분적으로 관찰 가능한 환경에서 강화 학습(RL)의 일반적인 문제를 논의하면서 이 문제를 매우 일찍 해결했습니다.
세계 모델 M은 어떤 것들은 잘 예측하지만 어떤 것들은 불확실할 수도 있습니다. 컨트롤러 C는 일련의 자체 창안 질문(활성화 패턴)을 통해 답변(추가 활성화 패턴)을 쿼리하고 해석하는 방법을 학습하여 목적 기능을 극대화합니다.
C는 계층적 계획 및 추론, M에 인코딩된 수동적 관찰 활용 등을 위해 M에서 모든 종류의 알고리즘 정보를 추출하는 방법을 학습함으로써 이점을 얻을 수 있습니다.
위 내용은 LSTM의 아버지는 르쿤에게 다시 한 번 도전했다. 당신의 '혁신' 5가지 포인트는 모두 나의 것이었습니다! 하지만 안타깝게도 '다시 읽을 수 없습니다'의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!