뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!-일체 포함-php.cn

Brain Predictive Coding Layered

실험 결과

집

기술 주변기기

일체 포함

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

王林

May 03, 2023 pm 02:37 PM

예측하다 뇌 계층화 된

1000억 개의 뉴런, 각 뉴런에는 약 8,000개의 시냅스가 있습니다. 뇌의 복잡한 구조는 인공지능 연구에 영감을 줍니다.

현재 대부분의 딥 러닝 모델의 아키텍처는 생물학적 뇌 뉴런에서 영감을 받은 인공 신경망입니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

생성 AI의 폭발적인 증가는 딥 러닝 알고리즘이 텍스트 생성, 요약, 번역 및 분류에서 점점 더 강력해지고 있음을 보여줍니다.

그러나 이러한 언어 모델은 여전히 인간의 언어 능력과 일치할 수 없습니다.

예측 코딩 이론은 이러한 차이에 대한 예비 설명을 제공합니다.

언어 모델은 근처에 있는 단어를 예측할 수 있지만 인간의 두뇌는 여러 시간 척도 표현 수준에 걸쳐 지속적으로 단어를 예측합니다.

이 가설을 테스트하기 위해 Meta AI의 과학자들은 단편 소설을 들은 304명의 뇌 fMRI 신호를 분석했습니다.

계층적 예측 코딩이 언어 처리에 중요한 역할을 한다는 결론을 내렸습니다.

한편, 연구에서는 신경과학과 인공 지능의 시너지 효과가 어떻게 인간 인지의 계산 기반을 밝힐 수 있는지 보여줍니다.

Nature 하위 저널인 Nature Human Behavior에 최신 연구가 게재되었습니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

논문 주소: https://www.php.cn/link/7eab47bf3a57db8e440e5a788467c37f

실험 중에 GPT-2가 사용되었다는 점을 언급할 가치가 있습니다. 불확실한 미래 본 연구 OpenAI의 미개봉 모델에 영감을 줄 수 있습니다.

그때쯤이면 ChatGPT가 더욱 강력해지지 않을까요?

Brain Predictive Coding Layered

딥 러닝은 잘 훈련된 알고리즘 덕분에 텍스트 생성, 번역 등에서 3년도 채 되지 않아 상당한 발전을 이루었습니다. 즉 주변 상황을 기반으로 단어를 예측하는 것입니다.

특히 이러한 모델의 활성화는 음성 및 텍스트에 대한 뇌 반응에 선형적으로 매핑되는 것으로 나타났습니다.

또한 이 매핑은 주로 미래 단어를 예측하는 알고리즘의 능력에 달려 있으므로 이 목표가 두뇌와 같은 계산으로 수렴하는 데 충분하다는 것을 암시합니다.

그러나 이러한 알고리즘과 뇌 사이에는 여전히 격차가 존재합니다. 많은 양의 훈련 데이터에도 불구하고 현재 언어 모델은 긴 형식의 스토리 생성, 요약 및 일관된 대화, 정보 검색에서 어려움을 겪고 있습니다.

알고리즘이 일부 구문 구조와 의미적 속성을 포착할 수 없고, 언어에 대한 이해도 매우 피상적이기 때문입니다.

예를 들어, 알고리즘은 중첩된 구문에서 동사를 주어에 잘못 할당하는 경향이 있습니다.

「남자가 갖고 있는 열쇠는 여기에 있습니다」

마찬가지로 텍스트 생성이 다음 단어 예측에만 최적화된 경우 심층 언어 모델은 단조롭고 일관되지 않은 텍스트를 생성하거나 중단됩니다. 무한히 반복되는 루프에서.

현재 예측 코딩 이론은 이 결함에 대한 잠재적인 설명을 제공합니다.

심층 언어 모델은 주로 다음 단어를 예측하도록 설계되었지만 이 프레임워크는 인간의 두뇌가 여러 시간 척도와 피질에서 작동할 수 있음을 보여줍니다. -레벨 표현.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

이전 연구에서는 기능적 자기공명영상(fMRI), 뇌전도검사, 자기뇌파검사 및 뇌전도검사와 상관관계가 있는 뇌의 음성, 즉 단어나 음소를 예측하는 것으로 나타났습니다.

다음 단어나 음소를 예측하도록 훈련된 모델은 출력을 단일 숫자, 즉 다음 기호의 확률로 줄일 수 있습니다.

그러나 예측 표현의 성격과 시간 규모는 거의 알려져 있지 않습니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

이번 연구에서 연구진은 304명의 fMRI 신호를 추출하고 각 사람에게 약 26분 동안 단편 소설(Y)을 들려주고 동일한 내용을 입력하여 언어 알고리즘( 엑스).

그런 다음 X와 Y의 유사성은 최고의 선형 매핑 W 이후의 피어슨 상관 계수(R)인 "브레인 점수"로 정량화됩니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

예측 단어의 표현을 추가하면 이 상관 관계가 향상되는지 테스트하려면 네트워크 활성화(검은색 직사각형 X)를 예측 창(색상 직사각형 ~X)에 연결한 다음 PCA를 사용하여 예측 창을 나눕니다. 의 차원은 X의 차원으로 축소됩니다.

마지막으로 F는 언어 알고리즘으로 이 예측 창의 활성화를 강화하여 얻은 두뇌 점수 이득을 정량화합니다. 우리는 다양한 거리 창을 사용하여 이 분석(d)을 반복합니다.

이러한 알고리즘을 여러 시간 척도에 걸친 예측(예: 장기 예측 및 계층적 예측)으로 보강하면 이 두뇌 매핑을 개선할 수 있는 것으로 나타났습니다.

마지막으로 실험 결과에 따르면 이러한 예측은 계층적으로 구성되어 있습니다. 즉, 전두엽 피질은 측두엽 피질보다 더 높은 수준, 더 큰 규모, 더 맥락에 맞는 표현을 예측합니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

실험 결과

심층 언어 모델은 뇌 활동에 매핑됩니다.

연구원들은 입력 내용이 동일할 때 심층 언어 모델과 뇌의 유사성을 정량적으로 연구했습니다.

Narratives 데이터 세트를 사용하여 단편소설을 청취한 304명의 fMRI(기능적 자기공명영상)를 분석했습니다.

각 복셀 및 각 실험 개인의 결과에 대해 독립적인 선형 능선 회귀를 수행하여 여러 심층 언어 모델 활성화로 인한 fMRI 신호를 예측합니다.

보유된 데이터를 이용하여 해당 "뇌 점수", 즉 fMRI 신호와 지정된 언어 모델 자극을 입력하여 얻은 능선 회귀 예측 결과 간의 상관 관계를 계산했습니다.

먼저 뇌 활동을 가장 잘 예측하는 HuggingFace2로 구동되는 12층 인과 심층 신경망인 GPT-2의 8층 활성화에 집중하세요.

이전 연구와 일관되게 GPT-2 활성화 결과는 양측 뇌 영역의 분포된 세트에 정확하게 매핑되었으며, 뇌 점수는 청각 피질과 전측두엽 및 상측두엽 영역에서 최고조에 달했습니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

뇌의 장거리 예측

그런 다음 Meta 팀은 장거리 예측 기능을 갖춘 언어 모델의 자극을 늘리면 뇌 점수가 높아질 수 있는지 테스트했습니다.

연구원들은 각 단어에 대해 현재 단어의 모델 활성화를 미래 단어로 구성된 '예측 창'에 연결했습니다. 예측 창의 표현 매개변수로는 현재 단어와 창 내 마지막 미래 단어 사이의 거리를 나타내는 d와 연결된 단어의 수를 나타내는 w가 있습니다. 각 d에 대해 예측 표현이 있는 것과 없는 뇌 점수를 비교하고 "예측 점수"를 계산합니다.

결과에 따르면 d=8일 때 예측 점수가 가장 높으며, 언어 처리와 관련된 뇌 영역에서 피크 값이 나타나는 것으로 나타났습니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

d=8은 3.15초의 오디오에 해당하며, 이는 두 번의 연속 fMRI 스캔 시간입니다. 예측 점수는 하전두회와 변연상회를 제외하고 뇌에서 양측으로 분포되었습니다.

팀은 또한 보충 분석을 통해 다음과 같은 결과를 얻었습니다. (1) 현재 단어로부터 0에서 10 사이의 거리를 가진 모든 미래 단어는 예측 결과에 상당한 기여를 합니다. (2) 가장 좋습니다. 약 8개의 예측 표현을 사용합니다. (3) 무작위 예측 표현은 뇌 점수를 향상시킬 수 없습니다. (4) GPT-2에서 생성된 단어는 유사한 결과를 얻을 수 있습니다. 더 낮은 점수로.

뇌의 수준에 따라 예상되는 시간 프레임 변화

해부학적 연구와 기능적 연구 모두 대뇌 피질이 계층적이라는 것을 보여주었습니다. 피질 수준에 따라 예측 시간 창이 동일합니까?

연구원들은 각 복셀의 최고 예측 점수를 추정하고 해당 거리를 d로 표시했습니다.

결과에 따르면 전두엽 영역의 예측 피크에 해당하는 d가 평균적으로 측두엽 영역의 d보다 크고(그림 2e), 하측두이랑의 d가 상측보다 크다는 것을 알 수 있습니다. 일시적인 고랑.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

측두엽-두정엽-전두축을 따라 가장 잘 예측되는 거리의 변화는 기본적으로 뇌의 두 반구에 걸쳐 대칭입니다.

구문적 및 의미론적 예측을 위한 다양한 시간 프레임

각 단어와 그 이전 문맥에 대해 실제 미래 단어의 구문과 일치하는 10개의 가능한 미래 단어가 생성됩니다. 가능한 각 미래 단어에 대해 해당 GPT-2 활성화가 추출되고 평균화됩니다. 이 접근 방식은 주어진 언어 모델 활성화를 구문 및 의미 구성 요소로 분해하여 각각의 예측 점수를 계산할 수 있습니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

결과는 의미론적 예측이 장거리(d = 8)이고 전두엽과 두정엽에서 정점에 이르는 분산 네트워크를 포함하는 반면, 구문론적 예측은 더 짧은 범위(d = 5)를 갖는다는 것을 보여줍니다. 상부 측두엽 영역과 좌측 전두엽 영역에 집중되어 있습니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

이러한 결과는 뇌의 여러 수준의 예측을 보여줍니다. 여기서 우수한 측두엽 피질은 주로 단기적이고 얕은 구문적 표현을 예측하는 반면, 열등한 전두엽 및 두정엽 영역은 주로 장기적이고 상황적이며 높은 수준 및 의미적 표현을 예측합니다. 표현.

예측 배경은 뇌 계층 구조를 따라 더욱 복잡해집니다.

전과 같이 예측 점수를 계산하지만 GPT-2의 사용 레이어를 변경하여 각 복셀에 대해 k를 결정합니다. 예측 점수가 최대화됩니다.

우리의 결과는 최적의 예측 깊이가 예상되는 피질 계층 구조에 따라 달라지며 연관 피질이 하위 수준 언어 영역보다 더 깊은 예측을 위한 최상의 모델을 가지고 있음을 보여줍니다. 지역 간의 차이는 비록 평균적으로는 작지만 개인마다 매우 눈에 띕니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

일반적으로 전두엽 피질의 장기 예측 배경은 뇌 하위 영역의 단기 예측 배경보다 더 복잡하고 수준이 높습니다.

GPT-2를 예측 코딩 구조로 조정

GPT-2의 현재 단어 표현과 미래 단어 표현을 연결하면 특히 전두엽 영역에서 더 나은 뇌 활동 모델을 얻을 수 있습니다.

GPT-2를 미세 조정하여 더 먼 거리, 더 풍부한 맥락, 더 높은 수준에서 표현을 예측하면 이 영역의 뇌 매핑을 향상시킬 수 있나요?

조정에서는 언어 모델링뿐만 아니라 상위 및 장거리 타겟도 사용됩니다. 여기서 상위 레벨 타겟은 사전 훈련된 GPT-2 모델의 8번째 레이어입니다.

결과에 따르면 높은 수준 및 장거리 모델링 쌍을 사용하여 GPT-2를 미세 조정하면 전두엽의 반응이 가장 잘 향상되는 반면 청각 영역과 낮은 수준의 뇌 영역은 이러한 높은 수준의 이점을 얻지 못하는 것으로 나타났습니다. 수준 타겟팅 명백한 이점은 언어의 장거리, 상황별 및 상위 수준 표현을 예측하는 데 있어서 정면 영역의 역할을 추가로 반영합니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

참조: https://www.php.cn/link/7eab47bf3a57db8e440e5a788467c37f

위 내용은 뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7698

자바 튜토리얼

1640

Cakephp 튜토리얼

1393

라라벨 튜토리얼

1287

PHP 튜토리얼

1229

Related knowledge

시계열 확률 예측을 위한 분위수 회귀 May 07, 2024 pm 05:04 PM

원본 내용의 의미를 바꾸지 말고 내용을 미세 조정하고 내용을 다시 작성하고 계속하지 마십시오. "분위수 회귀는 이러한 요구를 충족하여 정량화된 확률로 예측 구간을 제공합니다. 이는 특히 응답 변수의 조건부 분포에 관심이 있는 경우 예측 변수와 응답 변수 간의 관계를 모델링하는 데 사용되는 통계 기술입니다. 기존 회귀와 달리 분위수 회귀는 조건부 평균보다는 반응 변수의 조건부 크기를 추정하는 데 중점을 둡니다. "그림 (A): 분위수 회귀 분위수 회귀의 개념은 추정입니다. 회귀 변수 집합 X와 설명된 변수 Y의 분위수. 기존 회귀모형은 실제로 설명변수와 설명변수의 관계를 연구하기 위한 방법이다. 그들은 설명 변수와 설명 변수 사이의 관계에 중점을 둡니다.

SIMPL: 자율 주행을 위한 간단하고 효율적인 다중 에이전트 동작 예측 벤치마크 Feb 20, 2024 am 11:48 AM

원제목: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 논문 링크: https://arxiv.org/pdf/2402.02519.pdf 코드 링크: https://github.com/HKUST-Aerial-Robotics/SIMPL 저자 단위: Hong Kong University of Science 및 기술 DJI 논문 아이디어: 이 논문은 자율주행차를 위한 간단하고 효율적인 모션 예측 기준선(SIMPL)을 제안합니다. 기존 에이전트 센트와 비교

예측 및 예측 분석을 위해 MySQL 데이터베이스를 사용하는 방법은 무엇입니까? Jul 12, 2023 pm 08:43 PM

예측 및 예측 분석을 위해 MySQL 데이터베이스를 사용하는 방법은 무엇입니까? 개요: 예측 및 예측 분석은 데이터 분석에서 중요한 역할을 합니다. 널리 사용되는 관계형 데이터베이스 관리 시스템인 MySQL은 예측 및 예측 분석 작업에도 사용할 수 있습니다. 이 기사에서는 예측 및 예측 분석에 MySQL을 사용하는 방법을 소개하고 관련 코드 예제를 제공합니다. 데이터 준비: 먼저 관련 데이터를 준비해야 합니다. 판매 예측을 수행하려면 판매 데이터가 포함된 테이블이 필요하다고 가정해 보겠습니다. MySQL에서는 다음을 사용할 수 있습니다.

AI 추론과 훈련의 차이점은 무엇입니까? 당신은 알고 있나요? Mar 26, 2024 pm 02:40 PM

AI 훈련과 추론의 차이를 한 문장으로 요약한다면 '무대 위에서는 1분, 무대 밖에서는 10년의 노력'이 가장 적절하다고 생각한다. 샤오밍은 자신이 오랫동안 존경해 온 여신과 오랫동안 데이트를 해왔고, 그녀에게 데이트 신청을 하는 기술과 요령에 대해서도 많은 경험을 갖고 있지만 여전히 미스터리에 대해 혼란스러워하고 있다. AI 기술의 도움으로 정확한 예측이 가능할까? Xiao Ming은 여신이 초대를 수락하는지 여부에 영향을 미칠 수 있는 변수를 반복해서 생각하고 요약했습니다. 휴일인지, 날씨가 좋지 않은지, 너무 덥거나 추운지, 기분이 좋지 않은지, 아픈지, 다른 약속이 있는지, 친척들이 집에 온다... ..etc. 그림은 이러한 변수에 가중치를 부여하고 합산하여 특정 임계값보다 크면 여신이 초대를 수락해야 합니다. 그렇다면 이러한 변수에는 얼마나 많은 가중치가 있고 임계값은 무엇입니까? 이것은 매우 복잡하고 통과하기 어려운 질문입니다

교차 모드 점유 지식 학습: 렌더링 보조 증류 기술을 사용한 RadOcc Jan 25, 2024 am 11:36 AM

원제: Radocc: LearningCross-ModalityOccupancyKnowledgethroughRenderingAssistedDistillation 논문 링크: https://arxiv.org/pdf/2312.11829.pdf 저자 소속: FNii, CUHK-ShenzhenSSE, CUHK-Shenzhen Huawei Noah's Ark Laboratory 컨퍼런스: AAAI2024 논문 아이디어: 3D Occupancy Prediction은 다중 뷰 이미지를 사용하여 3D 장면의 점유 상태와 의미를 추정하는 것을 목표로 하는 새로운 작업입니다. 그러나 기하학적 사전이 부족하기 때문에 이미지 기반 시나리오는

Microsoft 365를 사용하면 Excel에서 Python을 사용할 수 있습니다. Sep 22, 2023 pm 10:53 PM

1. Excel에서 Python 활성화 Excel에서 Python은 현재 테스트 단계에 있습니다. 이 기능을 사용하려면 Microsoft 365의 Windows 버전인지 확인하고 Microsoft 365 미리 보기 프로그램에 가입한 후 베타 채널을 선택하세요. 엑셀 페이지 좌측 상단의 [파일] > 페이지 왼쪽에서 다음 정보를 확인할 수 있습니다. 위 단계를 완료한 후 빈 통합 문서를 엽니다. [수식] 탭을 클릭하고 [Python 삽입] - [Excel에 Python]을 선택합니다. 팝업 대화 상자에서 [평가판 미리보기 버전]을 클릭하세요. 다음으로 Python의 놀라운 사용법을 경험할 수 있습니다! 2,

Musk는 낙관적이며 OpenAI가 진입하고 있습니다. Tesla의 장기적인 가치는 로봇입니까? May 27, 2023 pm 02:51 PM

기술 전문가 머스크와 그의 테슬라는 항상 글로벌 기술 혁신의 선두에 있었습니다. 최근 Tesla의 2023년 주주총회에서 머스크는 자동차, 에너지 저장 장치, 휴머노이드 로봇을 포함한 미래 개발에 대한 보다 야심찬 계획을 다시 한번 공개했습니다. 머스크는 휴머노이드 로봇에 대해 매우 낙관적인 것으로 보이며 미래 Tesla의 장기적인 가치가 로봇에 있을 수 있다고 믿습니다. ChatGPT의 모회사인 OpenAI도 최초의 상업용 로봇 EVE를 구축할 의도로 노르웨이 로봇 회사에 투자했다는 점을 언급할 가치가 있습니다. Optimus와 EVE 간의 경쟁은 국내 2차 시장에서 휴머노이드 로봇 개념에 대한 열풍을 불러일으켰습니다. 이 개념에 힘입어 휴머노이드 로봇 산업 체인의 어떤 링크가 이익을 얻게 될까요? 투자 대상은 무엇입니까? 자동차, 에너지저장장치, 휴머노이드 로봇을 글로벌 기술로 내세우다

Java를 사용하여 간단한 학생 시험 점수 예측 시스템을 구현하는 방법은 무엇입니까? Nov 04, 2023 am 08:44 AM

Java를 사용하여 간단한 학생 시험 점수 예측 시스템을 구현하는 방법은 무엇입니까? 교육이 발전함에 따라 학생들의 시험 점수는 항상 학생들의 학습 성과를 측정하는 중요한 지표 중 하나로 간주되어 왔습니다. 그러나 학생들의 경우 자신의 시험 점수 예측을 아는 것은 후속 시험에서 어떻게 수행할지 이해하고 그에 따라 학습 전략을 개발하는 데 매우 유용한 도구입니다. 이 기사에서는 Java를 사용하여 간단한 학생 시험 점수 예측 시스템을 구현하는 방법을 소개합니다. 먼저, 학생들의 과거 시험 점수 데이터를 수집해야 합니다. 우리를

See all articles

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

Brain Predictive Coding Layered

실험 결과

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제