


LSTM의 아버지는 르쿤에게 다시 한 번 도전했다. 당신의 '혁신' 5가지 포인트는 모두 나의 것이었습니다! 하지만 안타깝게도 '다시 읽을 수 없습니다'
최근 LSTM의 아버지 위르겐 슈미트후버가 르쿤과 또 다시 불화를 겪었습니다!
사실 이 심술궂은 남자에 대해 조금 익숙한 학생들은 독보적인 Jurgen Schmidhuber와 기계 학습 커뮤니티의 여러 유명 인사 사이에 불쾌한 감정이 있었다는 것을 알고 있습니다.
특히 "그 세 사람"이 함께 튜링상을 받았지만 슈미트후버가 그렇지 못했을 때 노인은 더욱 화를 냈는데...
결국 슈미트후버는 항상 이 ML들이 현재 다음과 같은 주요 인물이라고 믿었습니다. Bengio, Hinton, LeCun을 비롯하여 "GAN" Goodfellow의 아버지 등 소위 "선구적인 결과" 중 많은 부분이 처음으로 스스로 제안되었으며 이들은 논문에서 그를 전혀 언급하지 않았습니다.
이 때문에 슈미트후버는 2015년 네이처에 벤지오, 힌튼, 르쿤이 게재한 리뷰 기사 '딥 러닝'을 비판하는 특집 기사를 쓴 적이 있습니다.
이번 글에서는 주로 그가 어떤 것을 먼저 언급했는지, 다른 선배들이 어떤 것을 먼저 언급했는지를 주로 이야기했다. 어쨌든 세 작가가 먼저 언급한 것은 아니다.
왜 또 말다툼을 하시나요?
이번 사건의 원인을 다시 살펴보면, 사실 지난 9월 르쿤이 보낸 트윗이었습니다.
이 내용은 David Chalmers 교수의 질문에 대한 답변입니다. "지난 10년 동안 AI에서 가장 중요한 지적 혁신(새로운 아이디어)은 무엇입니까?"
10월 4일 Schmidhuber는 그의 블로그에 있는 기사는 다음과 같이 화나게 썼습니다. 이 다섯 가지 "최고의 아이디어" 중 대부분은 내 연구실에서 나왔고 "10년" 시점보다 훨씬 일찍 제안되었습니다.
기사에서 슈미트후버는 자신의 주장을 뒷받침하는 6가지 증거를 자세히 나열했습니다.
하지만 본 사람이 너무 적어서인지 슈미트후버는 11월 22일에 다시 트윗을 올려 이 '차가운 밥'을 다시 휘저었습니다.
하지만 지난번에 비해 꽤 열띤 논쟁이 벌어졌던 것에 비해 이번에는 르쿤이 아예 관심조차 두지 않았는데...
LSTM의 아버지가 발표한 '6대 작품' 증거"
1. 신경망(NN)을 통해 자동으로 주석을 생성하는 "자기 지도 학습": 적어도 1990~91년 나의 작업으로 거슬러 올라갑니다.
(I) 예측 코딩을 통해 순환 신경망(RNN)에서 자체 지도 객체 생성을 통해 여러 시간 규모와 추상화 수준에서 데이터 시퀀스를 압축하는 방법을 알아봅니다.
여기서 "자동화" RNN은 "다음 입력 예측"이라는 사전 작업을 학습하고 들어오는 데이터 스트림의 예상치 못한 관찰을 대상으로 "청커" RNN에 보냅니다. 적절한 훈련 목표를 통해 예측 지식을 자동 장치로 다시 획득했습니다.
이를 통해 이전에는 해결할 수 없었던 시퀀스 분류의 다운스트림 딥 러닝 작업이 크게 용이해졌습니다.
(II) 세계 모델 NN이 실험적으로 발명된 적대적이고 주석을 생성하는 컨트롤러 NN의 행동 결과를 예측하는 방법을 학습하는 GAN 유형 내재적 동기 부여를 통한 자체 감독 주석 생성.
그리고 제가 1990년에 발표한 논문 제목에는 이미 "자기 감독"이라는 용어가 등장했습니다.
하지만 이 단어는 이전(1978) 논문에서도 사용되었습니다...
2. "ResNets": 사실 제가 초기에 제안한 것이 Highway Nets입니다. 하지만 LeCun은 ResNets의 지능이 "깊지 않다"고 생각하는데, 이는 나를 매우 슬프게 합니다.
내가 Highway Nets를 제안하기 전에는 피드포워드 네트워크에 최대 수십 개의 레이어(20~30개 레이어)만 있었던 반면, Highway Nets는 수백 개의 레이어가 있는 최초의 진정한 심층 피드포워드 신경망이었습니다.
1990년대에 내 LSTM은 감독 재귀 NN에 본질적으로 무한한 깊이를 가져왔습니다. 2000년대에는 LSTM에서 영감을 받은 Highway Nets가 피드포워드 NN에 깊이를 더했습니다.
그 결과 LSTM은 20세기에 가장 많이 인용된 NN이 되었고, Highway Nets(ResNet)는 21세기에 가장 많이 인용된 NN이 되었습니다.
딥러닝의 본질을 대변한다고 할 수 있고, 딥러닝은 NN의 깊이에 관한 것입니다.
3. "Gating->Attention->Dynamic Connected Graph": 적어도 1991-93년의 Fast Weight 프로그래머와 키-값 메모리 네트워크("키-값"이라고 함)로 거슬러 올라갈 수 있습니다. "에서부터").
1993년에 나는 오늘날 우리가 사용하는 "주의"라는 용어를 도입했습니다.
그러나 NN의 첫 번째 곱셈 게이트는 1965년 Ivakhnenko와 Lapa의 딥 러닝 머신으로 거슬러 올라갈 수 있다는 점은 주목할 가치가 있습니다.
4. "미분 메모리": 1991년의 Fast Weight Programmers 또는 Key-Value Memory Networks까지 거슬러 올라갈 수도 있습니다.
기존 컴퓨터와 같이 별도의 저장 및 제어가 가능하지만 엔드투엔드 차동, 적응형, 완전 신경 방식(하이브리드 방식 아님)을 사용합니다.
5. "다중 헤드 self-attention->Transformer와 같은 대체 등변 모듈": 나는 1991년에 선형화된 self-attention을 갖춘 Transformer를 출판했습니다. "내부 주목"이라는 용어는 1993년으로 거슬러 올라갑니다.
6. "GAN은 지난 10년간 최고의 머신러닝 개념이다"
당신이 언급한 GAN(2014)의 원리는 사실 제가 1990년에 개발한 인공지능의 원리를 올렸습니다. 호기심의 이름으로.
마지막이 몇 달 전이군요
사실 올해 슈미트후버와 르쿤의 분쟁은 이번이 처음은 아닙니다.
2년 6월과 7월, 두 사람은 르쿤이 발간한 '지능형 자율주행의 미래 방향' 전망 보고서를 두고 앞뒤로 말다툼을 벌였다.
6월 27일, 얀 르쿤(Yann LeCun)은 "AI의 미래 발전 방향을 제시하는 작업"이라며 수년간 아껴두었던 "자율 기계 지능을 향한 길(A Path Towards Autonomous Machine Intelligence)"이라는 논문을 출판했습니다.
이 논문은 "어떻게 기계가 동물과 인간처럼 학습할 수 있는가"라는 주제를 체계적으로 이야기하고 있으며 60페이지가 넘습니다.
LeCun은 이 기사가 향후 5~10년 동안 AI 개발의 일반적인 방향에 대한 자신의 생각일 뿐만 아니라 향후 몇 년 동안 연구할 계획이기도 하며, 업계에서 더 많은 사람들에게 영감을 주기를 희망한다고 말했습니다. 함께 공부하는 AI 분야.
그리고 슈미트후버는 그 소식을 열흘쯤 미리 알고 논문을 받아 바로 반박하는 기사를 썼습니다.
Schmidhuber의 블로그 게시물에 따르면 당시 일어난 일은 다음과 같습니다.
2022년 6월 14일, 한 과학 매체에서 르쿤이 6월 27일 보고서를 발표할 것이라는 소식을 전했습니다. 그는 저에게 보고서 초안(당시에는 아직 기밀 유지 기간 중이었습니다)을 보내며 의견을 요청했습니다.
이것은 기본적으로 LeCun의 기사에서 언급되지 않은 이전 작업의 복제품이라고 리뷰를 작성했습니다.
그러나 내 의견은 무시되었습니다.
사실 그의 기사가 출판되기 오래 전에 우리는 이 기사에서 LeCun의 소위 "주요 독창적 기여"의 대부분을 제안했습니다. 주로 다음을 포함합니다:
(1) "인지 아키텍처 모든 모듈은 분리 가능하며 많은 모듈은 훈련 가능합니다."(1990년에 우리가 제안함)
(2) "세계 모델의 계층적 구조를 예측하고, 여러 추상화 수준과 여러 시간 규모에서 표현을 학습합니다"(우리는 1991년에 제안했습니다).
(3) "정보가 풍부하고 예측 가능한 표현을 생성하는 자기 지도 학습 패러다임"(우리 모델은 1997년부터 강화 학습 및 세계 모델링에 사용되었습니다.)
( 4) 계층적 모델을 위한 예측 모델 " 그라디언트 기반 신경 하위 목표 생성기(1990), 추상 개념 공간에서의 추론(1997), "주로 관찰을 통한 행동 학습"을 포함한 불확실성 하에서의 계획" 신경망(2015) 및 사고 학습(2015)은 모두 에 의해 제안되었습니다. 우리 먼저.
7월 14일 Yann LeCun은 토론이 건설적이어야 한다고 답했습니다. 그는 다음과 같이 말했습니다.
"특정 개념을 누가 발명했는가? "라는 의미 없는 논쟁에 끼어들고 싶지 않습니다. 귀하의 답변 기사에 나열된 160개의 참고 문헌을 파헤치고 싶지는 않습니다. 더 건설적인 접근 방식은 제가 나열한 4가지 기여 중 아이디어와 방법이 포함될 수 있다고 생각되는 4가지 출판물을 식별하는 것입니다.
논문 서두에서 말했듯이 오랫동안 존재해 온 많은 개념이 있으며 여러분이나 나는 이러한 개념의 창시자가 아닙니다. 예를 들어 미세 조정 가능한 세계 모델 개념이 있습니다. , 이는 최적화 제어 작업 초기로 거슬러 올라갑니다.
세계 모델 훈련은 신경망을 사용하여 세계 모델의 시스템 인식을 학습하는 것입니다. 이 아이디어는 Michael Jordan, Bernie Widrow, Robinson & Fallside, Kumpathi Narendra, Paul Werbos의 작업을 통해 1980년대 후반으로 거슬러 올라갑니다. 일찍 일해라.
내 생각에는 이 허수아비 대답은 르쿤이 주제를 바꾸고 소위 "주요 독창적 기여"에서 다른 사람의 공로를 인정하는 문제를 피하는 것 같습니다.
7월 14일에 답변했습니다.
"당신도 나도 발명하지 않은 것"에 대해 당신이 말한 내용에 대해: 당신의 논문에서는 시스템 식별을 위해 신경망을 사용한 것이 1990년대 초반으로 거슬러 올라간다고 주장합니다. 그러나 귀하의 이전 답변에서는 이에 대한 첫 번째 논문이 1980년대에 나왔다는 저의 의견에 동의하시는 것 같았습니다.
당신의 "주요 원본 기여"에 관해서는 실제로 제 초기 작업의 결과를 사용했습니다.
(1) 모든 모듈이 차별화 가능하고 많은 모듈이 훈련 가능한 "인지 아키텍처" 및 "행동은 내재적 동기에 의해 주도된다"라고 제안한 "인지 아키텍처"에 관해:
나는 차별화 가능한 아키텍처를 제안했습니다. 이것은 세계 모델을 개선하기 위한 "내재적 동기"를 갖춘 최초의 컨트롤러였습니다. 기사에 인용된 2014 GAN은 이 모델의 파생 버전입니다.
(2) 귀하가 제안한 "여러 추상화 수준 및 시간 척도에서 표현을 학습하는 예측 세계 모델의 계층 구조"에 관해:
이것은 1991년 Compressor가 실현한 신경사에서 나온 것입니다. 예측 코딩을 사용하여 자기 감독 방식으로 긴 시퀀스 데이터의 계층적 내부 표현을 학습하므로 다운스트림 학습이 크게 촉진됩니다. 1991년 신경망 개선 절차를 사용하면 이러한 표현을 단일 순환 신경망(RNN)으로 축소할 수 있습니다.
(3) 제어 측면에서 "유익하고 예측 가능한 표현을 생성하기 위한 자기 지도 학습 패러다임"에 관해:
이것은 제가 1997년에 구축하려고 제안한 시스템에서 이미 제안되었습니다. 미래 입력의 모든 세부 사항을 예측하는 대신 임의의 추상적인 질문을 하고 소위 "표현 공간"에서 계산 가능한 답변을 제공할 수 있습니다. 이 시스템에서는 "좌뇌"와 "우뇌"라는 두 가지 학습 모델이 최대 보상을 가진 상대를 선택하여 제로섬 게임에 참여하고 때로는 이러한 계산 실험 결과에 베팅합니다.
(4) 불확실성 하에서 사용할 수 있는 계층적 계획 예측 미분 가능 모델과 관련하여 귀하의 기사에서는 다음과 같이 말합니다.
"답이 없는 질문은 구성자가 복잡한 작업을 복잡한 작업으로 분해하는 방법을 배우는 방법입니다. 에이전트만으로 완료할 수 있는 하위 목표 시리즈입니다. 이 질문은 향후 조사에 맡기겠습니다. "
미래에 대해 아무 말도 하지 마세요. 사실 저는 30살입니다. 이 기사는 몇 년 전에 게시되었습니다.
컨트롤러 신경망은 (시작, 대상) 형식의 추가 명령 입력을 얻는 역할을 담당합니다. 추정 신경망은 시작부터 목표까지 예상 비용을 예측하는 학습을 담당합니다. 미세 조정 가능한 순환 신경망을 기반으로 하는 하위 목표 생성기는 이(시작, 목표) 입력을 보고 추정 신경망을 사용하여 경사하강법을 통해 최소 비용 중간 하위 목표의 시퀀스를 학습합니다.
(5) “주로 관찰을 통해 행동을 학습하는” 신경망도 강조하셨습니다. 우리는 실제로 2015년 이 기사를 통해 부분적으로 관찰 가능한 환경에서 강화 학습(RL)의 일반적인 문제를 논의하면서 이 문제를 매우 일찍 해결했습니다.
세계 모델 M은 어떤 것들은 잘 예측하지만 어떤 것들은 불확실할 수도 있습니다. 컨트롤러 C는 일련의 자체 창안 질문(활성화 패턴)을 통해 답변(추가 활성화 패턴)을 쿼리하고 해석하는 방법을 학습하여 목적 기능을 극대화합니다.
C는 계층적 계획 및 추론, M에 인코딩된 수동적 관찰 활용 등을 위해 M에서 모든 종류의 알고리즘 정보를 추출하는 방법을 학습함으로써 이점을 얻을 수 있습니다.
위 내용은 LSTM의 아버지는 르쿤에게 다시 한 번 도전했다. 당신의 '혁신' 5가지 포인트는 모두 나의 것이었습니다! 하지만 안타깝게도 '다시 읽을 수 없습니다'의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











0. 이 글은 어떤 내용을 담고 있나요? 우리는 다재다능하고 빠른 최첨단 생성 단안 깊이 추정 모델인 DepthFM을 제안합니다. DepthFM은 전통적인 깊이 추정 작업 외에도 깊이 인페인팅과 같은 다운스트림 작업에서 최첨단 기능을 보여줍니다. DepthFM은 효율적이며 몇 가지 추론 단계 내에서 깊이 맵을 합성할 수 있습니다. 이 작품을 함께 읽어보아요~ 1. 논문 정보 제목: DepthFM: FastMoncularDepthEstimationwithFlowMatching 저자: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

AI는 실제로 수학을 변화시키고 있습니다. 최근 이 문제에 주목하고 있는 타오저쉬안(Tao Zhexuan)은 '미국수학회지(Bulletin of the American Mathematical Society)' 최신호를 게재했다. '기계가 수학을 바꿀 것인가?'라는 주제를 중심으로 많은 수학자들이 그들의 의견을 표현했습니다. 저자는 필즈상 수상자 Akshay Venkatesh, 중국 수학자 Zheng Lejun, 뉴욕대학교 컴퓨터 과학자 Ernest Davis 등 업계의 유명 학자들을 포함해 강력한 라인업을 보유하고 있습니다. AI의 세계는 극적으로 변했습니다. 이 기사 중 상당수는 1년 전에 제출되었습니다.

Boston Dynamics Atlas가 공식적으로 전기 로봇 시대에 돌입했습니다! 어제 유압식 Atlas가 역사의 무대에서 "눈물을 흘리며" 물러났습니다. 오늘 Boston Dynamics는 전기식 Atlas가 작동 중이라고 발표했습니다. 상업용 휴머노이드 로봇 분야에서는 보스턴 다이내믹스가 테슬라와 경쟁하겠다는 각오를 다진 것으로 보인다. 새 영상은 공개된 지 10시간 만에 이미 100만 명이 넘는 조회수를 기록했다. 옛 사람들은 떠나고 새로운 역할이 등장하는 것은 역사적 필연이다. 올해가 휴머노이드 로봇의 폭발적인 해라는 것은 의심의 여지가 없습니다. 네티즌들은 “로봇의 발전으로 올해 개막식도 인간처럼 생겼고, 자유도도 인간보다 훨씬 크다. 그런데 정말 공포영화가 아닌가?”라는 반응을 보였다. 영상 시작 부분에서 아틀라스는 바닥에 등을 대고 가만히 누워 있는 모습입니다. 다음은 입이 떡 벌어지는 내용이다

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

지연이 발생하고 iPhone의 모바일 데이터 연결 속도가 느립니까? 일반적으로 휴대폰의 셀룰러 인터넷 강도는 지역, 셀룰러 네트워크 유형, 로밍 유형 등과 같은 여러 요소에 따라 달라집니다. 더 빠르고 안정적인 셀룰러 인터넷 연결을 얻기 위해 할 수 있는 일이 몇 가지 있습니다. 수정 1 – iPhone 강제 다시 시작 때로는 장치를 강제로 다시 시작하면 셀룰러 연결을 포함한 많은 항목이 재설정됩니다. 1단계 – 볼륨 높이기 키를 한 번 눌렀다가 놓습니다. 그런 다음 볼륨 작게 키를 눌렀다가 다시 놓습니다. 2단계 - 프로세스의 다음 부분은 오른쪽에 있는 버튼을 누르는 것입니다. iPhone이 다시 시작되도록 하세요. 셀룰러 데이터를 활성화하고 네트워크 속도를 확인하세요. 다시 확인하세요 수정 2 – 데이터 모드 변경 5G는 더 나은 네트워크 속도를 제공하지만 신호가 약할 때 더 잘 작동합니다

세상은 미친 듯이 큰 모델을 만들고 있습니다. 인터넷의 데이터만으로는 충분하지 않습니다. 훈련 모델은 '헝거게임'처럼 생겼고, 전 세계 AI 연구자들은 이러한 데이터를 탐식하는 사람들에게 어떻게 먹이를 줄지 고민하고 있습니다. 이 문제는 다중 모드 작업에서 특히 두드러집니다. 아무것도 할 수 없던 시기에, 중국 인민대학교 학과의 스타트업 팀은 자체 새로운 모델을 사용하여 중국 최초로 '모델 생성 데이터 피드 자체'를 현실화했습니다. 또한 이해 측면과 생성 측면의 두 가지 접근 방식으로 양측 모두 고품질의 다중 모드 새로운 데이터를 생성하고 모델 자체에 데이터 피드백을 제공할 수 있습니다. 모델이란 무엇입니까? Awaker 1.0은 중관촌 포럼에 최근 등장한 대형 멀티모달 모델입니다. 팀은 누구입니까? 소폰 엔진. 런민대학교 힐하우스 인공지능대학원 박사과정 학생인 Gao Yizhao가 설립했습니다.

테슬라의 로봇 옵티머스(Optimus)의 최신 영상이 공개됐는데, 이미 공장에서 작동이 가능한 상태다. 정상 속도에서는 배터리(테슬라의 4680 배터리)를 다음과 같이 분류합니다. 공식은 또한 20배 속도로 보이는 모습을 공개했습니다. 작은 "워크스테이션"에서 따고 따고 따고 : 이번에 출시됩니다. 영상에는 옵티머스가 공장에서 이 작업을 전 과정에 걸쳐 사람의 개입 없이 완전히 자율적으로 완료하는 모습이 담겨 있습니다. 그리고 Optimus의 관점에서 보면 자동 오류 수정에 중점을 두고 구부러진 배터리를 집어 넣을 수도 있습니다. NVIDIA 과학자 Jim Fan은 Optimus의 손에 대해 높은 평가를 했습니다. Optimus의 손은 세계의 다섯 손가락 로봇 중 하나입니다. 가장 능숙합니다. 손은 촉각적일 뿐만 아니라
