Ilya Sutskever가 공식적으로 OpenAI에서 사임을 발표한 이후, 그의 다음 행보가 모두의 관심의 초점이 되었습니다.
어떤 사람들은 그의 일거수일투족에 세심한 주의를 기울이기도 합니다.
아니요, Ilya는 방금 새 논문을 ❤️ 좋아했습니다 -
- 그리고 네티즌들은 서둘러 좋아했습니다:
이 논문은 MIT에서 나왔고 저자는 가설을 제안했습니다. 다음과 같은 한 문장으로 요약할 수 있습니다.
신경망은 다양한 데이터 및 양식에 대한 다양한 목표로 훈련되며 실제 통계 모델에서 공유 표현 공간을 형성하는 경향이 있습니다 .
그들은 플라톤의 동굴 비유와 이상적인 현실의 본질에 대한 그의 생각을 참조하여 이 추측을 플라톤 표현 가설이라고 명명했습니다.
Ilya의 선택은 여전히 보장됩니다. 일부 네티즌은 그것을 읽은 후 올해 본 최고의 논문이라고 말했습니다.
일부 네티즌은 그것을 읽은 후 정말 재능이 있습니다. 요약하자면, "Karenina"의 첫 문장은 다음과 같습니다. 모든 행복한 언어 모델은 비슷하며 모든 불행한 언어 모델에는 고유한 불행이 있습니다.
화이트헤드의 유명한 말을 바꿔 말하면: 모든 기계 학습은 플라톤의 각주입니다.
저희도 살펴보았는데, 일반적인 내용은 다음과 같습니다.
저자는 AI 시스템의 Representational Convergence(Representational Convergence), 즉 데이터 포인트를 서로 다른 방식으로 표현하는 방식을 분석했습니다. 신경망 모델은 다양한 모델 아키텍처, 교육 목표, 심지어 데이터 양식 전반에 걸쳐 점점 유사해지고 있습니다.
이 융합을 주도하는 것은 무엇입니까? 이런 추세가 계속될 것인가? 최종 목적지는 어디입니까?
일련의 분석과 실험을 거친 후 연구원들은 이러한 수렴에 끝점과 추진 원리가 있다고 추측했습니다. 다양한 모델은 현실을 정확하게 표현하기 위해 노력합니다.
설명할 그림:
이미지 (X)와 텍스트 (Y)는 공통된 기본 현실 (Z)에 대한 서로 다른 투영입니다. 연구자들은 표현 학습 알고리즘이 Z의 통합된 표현으로 수렴할 것이며, 모델 크기의 증가와 데이터 및 작업의 다양성이 이러한 수렴을 이끄는 주요 요인이라고 추측합니다.
정말 일리아가 관심을 갖고 있는 질문이라고 밖에 말할 수 없습니다. 너무 심오해서 우리가 이해하지 못하는 문제입니다. AI에게 해석을 요청하고 모두와 공유해 봅시다~
먼저 저자는 다수의 관련 선행 연구를 분석하고 직접 실험도 진행하여 일련의 융합 증거를 생산하여 서로 다른 융합의 규모와 성능, 교차 모드 융합을 입증했습니다. 모델.
Ps: 이 연구는 벡터 임베딩 표현에 중점을 둡니다. 즉, 데이터가 벡터 형식으로 변환되고 데이터 포인트 간의 유사성이나 거리가 커널 함수로 설명됩니다. 이 문서의 "표현 정렬" 개념은 두 가지 다른 표현 방법이 유사한 데이터 구조를 나타내는 경우 두 표현이 정렬된 것으로 간주된다는 의미입니다.
1. 서로 다른 아키텍처와 목표를 가진 모델의 수렴은 기본 표현에서 일관되는 경향이 있습니다.
사전 훈련된 기본 모델을 기반으로 구축된 시스템의 수가 점차 증가하고 있으며 일부 모델은 멀티 태스킹을 위한 표준 핵심 아키텍처가 되고 있습니다. 다양한 애플리케이션에서의 이러한 광범위한 적용 가능성은 데이터 표현 방법의 특정 다양성을 반영합니다.
이 추세는 AI 시스템이 더 작은 기본 모델 세트로 수렴되고 있음을 시사하지만, 서로 다른 기본 모델이 동일한 표현을 형성한다는 것을 증명하지는 않습니다.
그러나 모델 스티칭(모델 스티칭)과 관련된 일부 최근 연구에 따르면 이미지 분류 모델의 중간 계층 표현은 서로 다른 데이터세트로 학습한 경우에도 잘 정렬될 수 있는 것으로 나타났습니다.
예를 들어, 일부 연구에서는 ImageNet 및 Places365 데이터 세트에서 훈련된 컨벌루션 네트워크의 초기 레이어가 상호 교환될 수 있다는 사실을 발견했습니다. 이는 유사한 초기 시각적 표현을 학습했음을 나타냅니다. "로제타 뉴런", 즉 다양한 시각적 모델에서 매우 유사한 활성화 패턴을 갖는 뉴런을 많이 발견한 연구도 있습니다...
2 모델 크기와 성능이 클수록 표현이 더 좋습니다. 정렬이 높을수록.
연구원들은 Places-365 데이터세트에서 상호 최근접 이웃 방법을 사용하여 78개 모델의 정렬을 측정하고비전 작업 적응 벤치마크 VTAB에서 다운스트림 작업 성능을 평가했습니다.
일반화 능력이 강한 모델 클러스터 간의 표현 정렬이 훨씬 더 높은 것으로 나타났습니다.
이전 연구에서는 더 큰 모델 간의 CKA 커널 정렬이 더 높다는 것을 관찰했습니다. 이론적으로는 출력 성능이 유사한 모델의 내부 활성화도 유사해야 함을 입증하는 연구도 있습니다.
3. 다양한 모드의 모델 표현 수렴.연구원들은 상호 최근접 이웃 방법을 사용하여 Wikipedia 이미지 데이터 세트 WIT의 정렬을 측정했습니다.
결과는 언어-시각적 정렬과 언어 모델링 점수 사이의 선형 관계를 보여 주며, 일반적인 추세는 더 유능한 언어 모델이 더 유능한 시각적 모델과 더 잘 일치한다는 것입니다.
4. 모델과 뇌 표현도 비슷한 데이터와 작업 제약으로 인해 어느 정도 일관성을 보여줍니다.2014년 연구에 따르면 신경망 중간층의 활성화는 뇌의 시각 영역 활성화 패턴과 높은 상관관계가 있는 것으로 나타났습니다. 이는 아마도 유사한 시각적 작업 및 데이터 제약에 직면했기 때문일 수 있습니다.
그 이후로 다양한 훈련 데이터를 사용하면 뇌와 모델 표현의 정렬에 영향을 미친다는 연구 결과가 추가로 나왔습니다. 심리학 연구에서는 인간이 시각적 유사성을 인식하는 방식이 신경망 모델과 매우 일치한다는 사실도 발견했습니다.
5. 모델 표현의 정렬 정도는 다운스트림 작업의 성능과 긍정적인 상관관계가 있습니다.연구원들은 모델의 성능을 평가하기 위해 Hellaswag
(상식 추론)및 GSM8K (수학) 이라는 두 가지 다운스트림 작업을 사용했습니다. 그리고 DINOv2 모델을 참조로 사용하여 다른 언어 모델과 시각적 모델의 정렬을 측정합니다. 실험 결과에 따르면 시각적 모델에 더 잘 맞는 언어 모델이 Hellaswag 및 GSM8K 작업에서도 더 나은 성능을 발휘하는 것으로 나타났습니다. 시각화 결과는 정렬 정도와 다운스트림 작업 성능 사이에 명확한 양의 상관관계가 있음을 보여줍니다.
여기에서는 이전 연구에 대해 논의하지 않습니다. 관심 있는 가족은 원본 논문을 확인하세요.
수렴의 원인
머신러닝 분야에서 모델의 훈련 목표는 훈련 데이터에 대한 예측 오류를 줄이는 것입니다. 모델의 과적합을 방지하기 위해 일반적으로 훈련 과정 중에 정규화 용어가 추가됩니다. 정규화는 암시적이거나 명시적일 수 있습니다.
이 섹션에서 연구원들은 아래 그림의 각 색상 섹션이 이 최적화 프로세스 중에 표현 수렴을 촉진하는 역할을 할 수 있는 방법을 설명합니다.
1. Convergence via Task Generality(Convergence via Task Generality) 모델은 더 많은 작업을 해결하도록 훈련되므로 모든 작업의 요구 사항을 충족할 수 있는 표현을 찾아야 합니다.
역량을 갖추세요. N개 작업에 대한 표현 수는 M(M 비슷한 원칙이 이전에 제안된 바 있습니다. 그림은 다음과 같습니다. 게다가, 쉬운 작업에는 여러 가지 솔루션이 있는 반면, 어려운 작업에는 솔루션이 적습니다. 따라서 작업 난이도가 증가함에 따라 모델의 표현은 더 좋고 더 적은 수의 솔루션으로 수렴되는 경향이 있습니다. 2. 모델 용량이 수렴으로 이어집니다 (모델 용량을 통한 수렴) 연구원들은 용량 가정을 지적했습니다. 전역적으로 최적의 표현이 있다면 충분한 데이터가 있는 조건에서 더 큰 모델이 될 것입니다. 더 효율적으로 이 최적의 솔루션에 접근할 수 있습니다. 따라서 아키텍처에 관계없이 동일한 훈련 목표를 사용하는 더 큰 모델은 이 최적의 솔루션으로 수렴되는 경향이 있습니다. 서로 다른 훈련 목표가 유사한 최소값을 갖는 경우 더 큰 모델은 이러한 최소값을 찾는 데 더 효율적이며 훈련 작업 전체에서 유사한 솔루션을 찾는 경향이 있습니다. 그림은 이렇습니다. 3. Convergence via Simplicity Bias (Convergence via Simplicity Bias) 수렴의 이유에 대해 연구진도 가설을 제시했습니다. 심층 네트워크는 데이터에 대한 단순한 적합성을 찾는 경향이 있습니다. 이러한 고유한 단순성 편향으로 인해 대형 모델의 표현이 단순화되어 수렴되는 경향이 있습니다. 즉, 더 큰 모델은 적용 범위가 더 넓으며 가능한 모든 방법으로 동일한 데이터를 맞출 수 있습니다. 그러나 심층 네트워크의 암묵적인 단순성 선호로 인해 더 큰 모델이 이러한 솔루션 중 가장 단순한 솔루션을 찾도록 장려됩니다. 서두에서 언급했듯이 일련의 분석과 실험을 거친 후, 연구자들은 이 수렴의 끝점을 추측하면서 플라톤 표현 가설을 제안했습니다. 즉, 서로 다른 AI 모델은 서로 다른 데이터와 대상에 대해 훈련되었지만 표현 공간은 우리가 관찰하는 데이터를 생성하는 현실 세계를 나타내는 공통 통계 모델로 수렴됩니다. 그들은 먼저 이상적인 개별 이벤트 세계 모델을 구축했습니다. 세계에는 일련의 이산 이벤트 Z가 포함되어 있으며, 각 이벤트는 알 수 없는 분포 P(Z)에서 샘플링됩니다. 픽셀, 사운드, 텍스트 등 관찰 기능 obs를 통해 각 이벤트를 다양한 방식으로 관찰할 수 있습니다. 다음으로 저자는 fX(xa)와 fX(xb)의 내적이 xa에 근접하도록 표현 fX를 학습하려고 시도하는 대조 학습 알고리즘 클래스와 ) 로그에 대한 의 로그 확률의 비율을 고려합니다. 음수 표본 쌍이 될 확률 (무작위 표본 추출) . (PMI) 지점인 커널 함수로 수렴한다는 것을 발견했습니다. 커널의 표현 fX. 연구원들은 색상에 대한 실증적 연구를 통해 이 이론을 테스트했습니다. 색상 표현을 이미지의 픽셀 동시 발생 통계 또는 텍스트의 단어 동시 발생 통계로부터 학습하면 결과 색상 거리는 인간의 인식과 유사하며 모델 크기가 커질수록 이러한 유사성은 더욱 높아집니다. 이는 이론적 분석과 일치합니다. 즉, 모델 성능이 높을수록 관측 데이터의 통계를 더 정확하게 모델링하여 이상적인 이벤트 표현에 더 가까운 PMI 커널을 얻을 수 있다는 것입니다. 논문 끝부분에서 저자는 표현 융합이 AI 분야에 미칠 잠재적 영향과 향후 연구 방향, 그리고 플라톤적 표현 가정에 대한 잠재적 한계와 예외를 요약합니다. 그들은 모델 크기가 증가함에 따라 표현 수렴의 가능한 효과는 다음을 포함하지만 이에 국한되지는 않는다고 지적했습니다. 저자는 위 영향의 전제는 미래 모델의 훈련 데이터가 실제 세계의 통계 법칙을 반영하는 표현으로 진정으로 수렴할 수 있을 만큼 충분히 다양하고 무손실이어야 한다는 점을 강조합니다. 동시에 저자는 다양한 양식의 데이터에 고유한 정보가 포함될 수 있으며, 이로 인해 모델 크기가 커져도 완전한 표현 수렴을 달성하기 어려울 수 있다고 밝혔습니다. 또한 현재 모든 표현이 수렴되는 것은 아닙니다. 예를 들어 로봇 공학 분야에는 상태를 표현하는 표준화된 방법이 없습니다. 연구자와 커뮤니티의 선호로 인해 모델이 인간 표현으로 수렴되어 다른 가능한 형태의 지능이 무시될 수 있습니다. 그리고 특정 작업을 위해 특별히 설계된 지능형 시스템은 일반 지능과 동일한 표현으로 수렴되지 않을 수도 있습니다. 저자들은 또한 표현 정렬을 측정하는 방법이 논란의 여지가 있으며 측정 방법이 다르면 다른 결론이 나올 수 있다는 점을 강조합니다. 서로 다른 모델의 표현이 유사하더라도 설명할 수 있는 격차가 남아 있으며 현재로서는 이 격차가 중요한지 여부를 판단하는 것이 불가능합니다. 자세한 내용과 논쟁 방법은 여기에 논문을 게시하겠습니다~ 논문 링크: https://arxiv.org/abs/2405.07987수렴의 끝점
몇 가지 최종 생각
위 내용은 일리야가 이직 후 첫 행동: 이 글에 좋아요를 눌러 네티즌들이 몰려들었다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!