


구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.
Google DeepMind가 최근 발견한 새로운 결과는 Transformer 분야에서 광범위한 논란을 불러일으켰습니다.
일반화 능력은 훈련 데이터 이상의 콘텐츠로 확장될 수 없습니다.
현재 이 결론은 더 이상 검증되지 않았지만 많은 유명 인사들을 놀라게 했습니다. 예를 들어 Keras의 아버지인 Francois Chollet은 이 소식이 사실이라면 미국에서 큰 사건이 될 것이라고 말했습니다. 대형 모델 산업.
Google Transformer는 오늘날의 대형 모델 뒤에 있는 인프라이며 우리에게 친숙한 GPT의 "T"는 이를 나타냅니다.
일련의 대형 모델은 강력한 상황별 학습 기능을 보여주며 예를 빠르게 학습하고 새로운 작업을 완료할 수 있습니다.
그러나 이제 구글의 연구자들도 그 치명적인 결함을 지적한 것 같습니다. 즉, 훈련 데이터, 즉 기존 인간 지식을 넘어서는 무력하다는 것입니다.
한동안 많은 실무자들은 AGI가 다시 손에 닿지 않는다고 믿었습니다.
일부 네티즌들은 실험이 GPT-2 규모만 포함하고 훈련 데이터가 충분하지 않은 등 논문에서 무시된 몇 가지 주요 세부 사항이 있다고 지적했습니다.
As 시간이 지날수록 본 논문을 연구한 네티즌들은 연구 결론 자체에는 아무런 문제가 없지만 이를 토대로 과도한 해석을 하고 있다고 지적하고 있다.
논문이 네티즌들 사이에서 열띤 토론을 촉발한 후, 저자 중 한 명이 공개적으로 두 가지 해명도 했습니다.
첫째, 실험에는 "큰" 모델도 언어 모델도 아닌 간단한 Transformer가 사용되었습니다.
둘째, 모델은 새로운 작업을 학습할 수 있지만 새로운 유형의 작업
으로 일반화할 수는 없습니다. 이후 일부 네티즌들은 Colab에서 이 실험을 반복했지만 완전히 다른 결과를 얻었습니다.
그럼 먼저 이 논문과 다른 결과를 제안한 사무엘이 한 말을 살펴보겠습니다.
새로운 기능은 예측이 거의 불가능합니다
이 실험에서 저자는 Jax 기반 기계 학습 프레임워크를 사용하여 디코더 부분만 포함된 GPT-2 크기에 가까운 Transformer 모델을 훈련했습니다.
이 모델은 12개 레이어, 8개의 레이어가 포함되어 있으며 어텐션 헤드가 있고 임베딩 공간 차원은 256개이며 매개 변수 수는 약 950만 개입니다.
저자는 일반화 능력을 테스트하기 위해 함수를 테스트 개체로 선택했습니다. 선형함수와 사인함수를 훈련 데이터로 모델에 입력했는데, 이 두 함수는 현재 모델에 알려져 있으며, 선형함수와 사인함수를 비교해 보면 당연히 예측 결과가 매우 좋습니다. , 볼록한 부분이 결합되면 문제가 발생합니다.
볼록함수 조합은 그다지 신비하지 않습니다. 저자는 f(x)=a·kx+(1-a)sin(x) 형식의 함수를 구성했는데, 이는 단순히 두 함수를 비례적으로 더한 것에 불과합니다. .
우리는 이것을 일반화 능력을 위해 두뇌가 연결되어 있기 때문에 그렇게 생각하지만 대규모 모델은 다릅니다
선형 및 사인 함수만 배운 모델의 경우 간단한 추가가 참신해 보입니다
이 새로운 함수에 대해 Transformer의 예측은 정확도가 거의 없으므로(그림 4c 참조) 저자는 모델에 함수에 대한 일반화 능력이 부족하다고 생각합니다
저자는 자신의 결론을 더욱 검증하기 위해 선형 또는 정현파 함수의 가중치를 조정했지만, 그럼에도 불구하고 Transformer의 예측 성능은 크게 변하지 않았습니다.
한 가지 예외가 있습니다. 항목 중 하나의 가중치가 1에 가까우면 모델의 예측 결과가 실제 상황과 더 일치합니다.
가중치가 1이면 익숙하지 않은 새 함수가 훈련 중에 본 함수가 된다는 의미입니다. 이런 종류의 데이터는 분명히 모델의 일반화 능력에 도움이 되지 않습니다
추가 실험에서도 나타납니다. 트랜스포머 뿐만 아니라 기능 종류에 매우 민감하고, 같은 종류의 기능이라도 생소한 조건이 될 수 있습니다.
연구원들은 단순한 함수 모델이라도 정현파 함수의 주파수를 변경하면 예측 결과가 변경되는 것처럼 보인다는 사실을 발견했습니다.
주파수가 교육 데이터의 함수에 가까울 때만 모델이 더 정확한 예측을 제공할 수 있습니다. , 빈도가 너무 높거나 너무 낮으면 예측 결과에 심각한 편차가 발생하는데… 어떻게 해야 할까요? 이것은 일반적으로 화학적 능력이 좋지 않다는 것을 의미하지 않습니까?
저자는 기사에서 연구의 몇 가지 한계와 기능적 데이터에 대한 관찰을 토큰화된 자연어 문제에 적용하는 방법도 설명했습니다.
일반화할 수 없다면
전체 기사 전체 내용으로 볼 때, 이 기사에서 Quora CEO의 결론은 매우 좁으며 많은 가정이 사실일 때만 확립될 수 있습니다
Sloan 상 수상자이자 UCLA 교수인 Gu Quanquan은 논문 자체의 결론이 다음과 같이 말했습니다. 논란의 여지는 없지만 지나치게 해석해서는 안 된다.
이전 연구에 따르면 Transformer 모델은 사전 훈련 데이터와 크게 다른 콘텐츠에 직면한 경우에만 일반화할 수 없습니다. 사실 대형 모델의 일반화 능력은 대개 작업의 다양성과 복잡성으로 평가됩니다
트랜스포머의 일반화 능력을 찬찬히 조사해보면 한동안 총알이 날아갈까 두렵습니다.
하지만 일반화 능력이 정말 부족하더라도 어떻게 할 수 있나요?
가 애초에 만병통치약이 아니기 때문에
이 현상이 실제로 놀라운 것은 아니라고 말했습니다. 왜냐하면훈련 데이터가 우리가 관심을 갖는 것이기 때문
입니다.Jim은 덧붙였습니다. "이것은 1000억 장의 고양이와 개 사진을 사용하여 시각적 모델을 훈련시킨 다음 모델에게 비행기를 인식하도록 요청한 다음 이를 발견한다는 것과 같습니다. 와, 정말 그렇지 않습니다. 그들을 인식하십시오.
인간이 알 수 없는 작업에 직면하면 대규모 모델뿐만 아니라 솔루션을 찾지 못할 수도 있습니다. 이것은 또한 인간에게 일반화 능력이 부족하다는 것을 의미합니까?
따라서 목표 지향적 과정에서 대형 모델이든 인간이든 궁극적인 목표는 문제 해결이고 일반화는 수단일 뿐입니다
이 표현을 중국어로 바꿔서 일반화 능력이 부족하므로 훈련 샘플 외에는 데이터가 없을 때까지 훈련하세요
그렇다면 이번 연구에 대해 어떻게 생각하시나요?
논문 주소: https://arxiv.org/abs/2311.00871
위 내용은 구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











DeepSeek은 강력한 정보 검색 도구입니다.이 장점은 정보가 느리고 결과 프레젠테이션 방법이 간단하며 데이터베이스 적용 범위는 제한되어 있다는 것입니다 .

DeepSeek은 특정 데이터베이스 나 시스템에서만 더 빠르고 정확한 독점 검색 엔진입니다. 이를 사용할 때 사용자는 문서를 읽고, 다양한 검색 전략을 시도하고, 사용자 경험에 대한 도움을 요청하고 사용자 경험에 대한 피드백을 최대한 활용하는 것이 좋습니다.

이 기사에서는 GATE.IO (GATE.IO) 웹 버전의 등록 프로세스와 GATE 트레이딩 앱의 등록 프로세스를 소개합니다. 웹 등록 또는 앱 등록이든, 공식 웹 사이트 또는 App Store를 방문하여 Genuine 앱을 다운로드 한 다음 사용자 이름, 암호, 이메일, 휴대 전화 번호 및 기타 정보, 완전한 이메일 또는 휴대 전화 확인을 작성해야합니다.

Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Bybit은 사용자에게 거래 서비스를 제공하는 암호 화폐 거래소입니다. Exchange의 모바일 앱은 다음과 같은 이유로 AppStore 또는 GooglePlay를 통해 직접 다운로드 할 수 없습니다. 1. App Store Policy는 Apple과 Google이 App Store에서 허용되는 응용 프로그램 유형에 대한 엄격한 요구 사항을 갖지 않도록 제한합니다. Cryptocurrency Exchange 응용 프로그램은 금융 서비스가 포함되며 특정 규정 및 보안 표준이 필요하기 때문에 이러한 요구 사항을 충족하지 않습니다. 2. 법률 및 규정 준수 준수 많은 국가에서 암호 화폐 거래와 관련된 활동이 규제되거나 제한됩니다. 이러한 규정을 준수하기 위해 BYBIT 응용 프로그램은 공식 웹 사이트 또는 기타 공인 채널을 통해서만 사용할 수 있습니다.

앱을 다운로드하고 계정의 안전을 보장하기 위해 공식 채널을 선택하는 것이 중요합니다.

이 기사에서는 Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, Bydfi 및 Xbit DencentRalized Exchanges를 포함하여주의를 기울여야 할 상위 10 개의 Cryptocurrency 거래 플랫폼을 권장합니다. 이 플랫폼은 거래 통화 수량, 거래 유형, 보안, 규정 준수 및 특수 기능 측면에서 고유 한 이점이 있습니다. 예를 들어 Binance는 전 세계 최대의 거래량과 풍부한 기능으로 유명합니다. 적절한 플랫폼을 선택하려면 자체 거래 경험, 위험 허용 범위 및 투자 선호도를 기반으로 포괄적 인 고려 사항이 필요합니다. 이 기사가 자신에게 가장 적합한 것을 찾는 데 도움이되기를 바랍니다.

Binance 웹 사이트 로그인 포털의 최신 버전에 액세스하려면 다음을 수행하십시오. 공식 웹 사이트로 이동하여 오른쪽 상단의 "로그인"버튼을 클릭하십시오. 기존 로그인 방법을 선택하십시오. 새 사용자 인 경우 "등록하십시오. 등록 된 휴대폰 번호 또는 이메일 및 비밀번호를 입력하고 완전한 인증 (예 : 모바일 확인 코드 또는 Google 인증 자). 성공적인 확인 후 Binance 공식 웹 사이트 로그인 포털의 최신 버전에 액세스 할 수 있습니다.

이 안내서는 Android 및 iOS 시스템에 적합한 공식 Bitget Exchange 앱에 대한 자세한 다운로드 및 설치 단계를 제공합니다. 이 안내서는 공식 웹 사이트, App Store 및 Google Play를 포함한 여러 권위있는 소스의 정보를 통합하고 다운로드 및 계정 관리 중 고려 사항을 강조합니다. 사용자는 App Store, 공식 웹 사이트 APK 다운로드 및 공식 웹 사이트 Jump, 완전한 등록, 신원 확인 및 보안 설정을 포함한 공식 채널에서 앱을 다운로드 할 수 있습니다. 또한 가이드는 자주 묻는 질문과 다음과 같은 고려 사항을 다룹니다.
