뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

王林
풀어 주다: 2023-05-03 14:37:06
앞으로
1593명이 탐색했습니다.

1000억 개의 뉴런, 각 뉴런에는 약 8,000개의 시냅스가 있습니다. 뇌의 복잡한 구조는 인공지능 연구에 영감을 줍니다.

현재 대부분의 딥 러닝 모델의 아키텍처는 생물학적 뇌 뉴런에서 영감을 받은 인공 신경망입니다.


뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

생성 AI의 폭발적인 증가는 딥 러닝 알고리즘이 텍스트 생성, 요약, 번역 및 분류에서 점점 더 강력해지고 있음을 보여줍니다.

그러나 이러한 언어 모델은 여전히 ​​인간의 언어 능력과 일치할 수 없습니다.

예측 코딩 이론은 이러한 차이에 대한 예비 설명을 제공합니다.

언어 모델은 근처에 있는 단어를 예측할 수 있지만 인간의 두뇌는 여러 시간 척도 표현 수준에 걸쳐 지속적으로 단어를 예측합니다.

이 가설을 테스트하기 위해 Meta AI의 과학자들은 단편 소설을 들은 304명의 뇌 fMRI 신호를 분석했습니다.

계층적 예측 코딩이 언어 처리에 중요한 역할을 한다는 결론을 내렸습니다.

한편, 연구에서는 신경과학과 인공 지능의 시너지 효과가 어떻게 인간 인지의 계산 기반을 밝힐 수 있는지 보여줍니다.

Nature 하위 저널인 Nature Human Behavior에 최신 연구가 게재되었습니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

논문 주소: https://www.php.cn/link/7eab47bf3a57db8e440e5a788467c37f

실험 중에 GPT-2가 사용되었다는 점을 언급할 가치가 있습니다. 불확실한 미래 본 연구 OpenAI의 미개봉 모델에 영감을 줄 수 있습니다.

그때쯤이면 ChatGPT가 더욱 강력해지지 않을까요?

Brain Predictive Coding Layered

딥 러닝은 잘 훈련된 알고리즘 덕분에 텍스트 생성, 번역 등에서 3년도 채 되지 않아 상당한 발전을 이루었습니다. 즉 주변 상황을 기반으로 단어를 예측하는 것입니다.

특히 이러한 모델의 활성화는 음성 및 텍스트에 대한 뇌 반응에 선형적으로 매핑되는 것으로 나타났습니다.

또한 이 매핑은 주로 미래 단어를 예측하는 알고리즘의 능력에 달려 있으므로 이 목표가 두뇌와 같은 계산으로 수렴하는 데 충분하다는 것을 암시합니다.

그러나 이러한 알고리즘과 뇌 사이에는 여전히 격차가 존재합니다. 많은 양의 훈련 데이터에도 불구하고 현재 언어 모델은 긴 형식의 스토리 생성, 요약 및 일관된 대화, 정보 검색에서 어려움을 겪고 있습니다.

알고리즘이 일부 구문 구조와 의미적 속성을 포착할 수 없고, 언어에 대한 이해도 매우 피상적이기 때문입니다.

예를 들어, 알고리즘은 중첩된 구문에서 동사를 주어에 잘못 할당하는 경향이 있습니다.

「남자가 갖고 있는 열쇠는 여기에 있습니다」

마찬가지로 텍스트 생성이 다음 단어 예측에만 최적화된 경우 심층 언어 모델은 단조롭고 일관되지 않은 텍스트를 생성하거나 중단됩니다. 무한히 반복되는 루프에서.

현재 예측 코딩 이론은 이 결함에 대한 잠재적인 설명을 제공합니다.

심층 언어 모델은 주로 다음 단어를 예측하도록 설계되었지만 이 프레임워크는 인간의 두뇌가 여러 시간 척도와 피질에서 작동할 수 있음을 보여줍니다. -레벨 표현.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

이전 연구에서는 기능적 자기공명영상(fMRI), 뇌전도검사, 자기뇌파검사 및 뇌전도검사와 상관관계가 있는 뇌의 음성, 즉 단어나 음소를 예측하는 것으로 나타났습니다.

다음 단어나 음소를 예측하도록 훈련된 모델은 출력을 단일 숫자, 즉 다음 기호의 확률로 줄일 수 있습니다.

그러나 예측 표현의 성격과 시간 규모는 거의 알려져 있지 않습니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

이번 연구에서 연구진은 304명의 fMRI 신호를 추출하고 각 사람에게 약 26분 동안 단편 소설(Y)을 들려주고 동일한 내용을 입력하여 언어 알고리즘( 엑스).

그런 다음 X와 Y의 유사성은 최고의 선형 매핑 W 이후의 피어슨 상관 계수(R)인 "브레인 점수"로 정량화됩니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

예측 단어의 표현을 추가하면 이 상관 관계가 향상되는지 테스트하려면 네트워크 활성화(검은색 직사각형 X)를 예측 창(색상 직사각형 ~X)에 연결한 다음 PCA를 사용하여 예측 창을 나눕니다. 의 차원은 X의 차원으로 축소됩니다.

마지막으로 F는 언어 알고리즘으로 이 예측 창의 활성화를 강화하여 얻은 두뇌 점수 이득을 정량화합니다. 우리는 다양한 거리 창을 사용하여 이 분석(d)을 반복합니다.

이러한 알고리즘을 여러 시간 척도에 걸친 예측(예: 장기 예측 및 계층적 예측)으로 보강하면 이 두뇌 매핑을 개선할 수 있는 것으로 나타났습니다.

마지막으로 실험 결과에 따르면 이러한 예측은 계층적으로 구성되어 있습니다. 즉, 전두엽 피질은 측두엽 피질보다 더 높은 수준, 더 큰 규모, 더 맥락에 맞는 표현을 예측합니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

실험 결과

심층 언어 모델은 뇌 활동에 매핑됩니다.

연구원들은 입력 내용이 동일할 때 심층 언어 모델과 뇌의 유사성을 정량적으로 연구했습니다.

Narratives 데이터 세트를 사용하여 단편소설을 청취한 304명의 fMRI(기능적 자기공명영상)를 분석했습니다.

각 복셀 및 각 실험 개인의 결과에 대해 독립적인 선형 능선 회귀를 수행하여 여러 심층 언어 모델 활성화로 인한 fMRI 신호를 예측합니다.

보유된 데이터를 이용하여 해당 "뇌 점수", 즉 fMRI 신호와 지정된 언어 모델 자극을 입력하여 얻은 능선 회귀 예측 결과 간의 상관 관계를 계산했습니다.

먼저 뇌 활동을 가장 잘 예측하는 HuggingFace2로 구동되는 12층 인과 심층 신경망인 GPT-2의 8층 활성화에 집중하세요.

이전 연구와 일관되게 GPT-2 활성화 결과는 양측 뇌 영역의 분포된 세트에 정확하게 매핑되었으며, 뇌 점수는 청각 피질과 전측두엽 및 상측두엽 영역에서 최고조에 달했습니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

뇌의 장거리 예측

그런 다음 Meta 팀은 장거리 예측 기능을 갖춘 언어 모델의 자극을 늘리면 뇌 점수가 높아질 수 있는지 테스트했습니다.

연구원들은 각 단어에 대해 현재 단어의 모델 활성화를 미래 단어로 구성된 '예측 창'에 연결했습니다. 예측 창의 표현 매개변수로는 현재 단어와 창 내 마지막 미래 단어 사이의 거리를 나타내는 d와 연결된 단어의 수를 나타내는 w가 있습니다. 각 d에 대해 예측 표현이 있는 것과 없는 뇌 점수를 비교하고 "예측 점수"를 계산합니다.

결과에 따르면 d=8일 때 예측 점수가 가장 높으며, 언어 처리와 관련된 뇌 영역에서 피크 값이 나타나는 것으로 나타났습니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

d=8은 3.15초의 오디오에 해당하며, 이는 두 번의 연속 fMRI 스캔 시간입니다. 예측 점수는 하전두회와 변연상회를 제외하고 뇌에서 양측으로 분포되었습니다.

팀은 또한 보충 분석을 통해 다음과 같은 결과를 얻었습니다. (1) 현재 단어로부터 0에서 10 사이의 거리를 가진 모든 미래 단어는 예측 결과에 상당한 기여를 합니다. (2) 가장 좋습니다. 약 8개의 예측 표현을 사용합니다. (3) 무작위 예측 표현은 뇌 점수를 향상시킬 수 없습니다. (4) GPT-2에서 생성된 단어는 유사한 결과를 얻을 수 있습니다. 더 낮은 점수로.

뇌의 수준에 따라 예상되는 시간 프레임 변화

해부학적 연구와 기능적 연구 모두 대뇌 피질이 계층적이라는 것을 보여주었습니다. 피질 수준에 따라 예측 시간 창이 동일합니까?

연구원들은 각 복셀의 최고 예측 점수를 추정하고 해당 거리를 d로 표시했습니다.

결과에 따르면 전두엽 영역의 예측 피크에 해당하는 d가 평균적으로 측두엽 영역의 d보다 크고(그림 2e), 하측두이랑의 d가 상측보다 크다는 것을 알 수 있습니다. 일시적인 고랑.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

측두엽-두정엽-전두축을 따라 가장 잘 예측되는 거리의 변화는 기본적으로 뇌의 두 반구에 걸쳐 대칭입니다.

구문적 및 의미론적 예측을 위한 다양한 시간 프레임

각 단어와 그 이전 문맥에 대해 실제 미래 단어의 구문과 일치하는 10개의 가능한 미래 단어가 생성됩니다. 가능한 각 미래 단어에 대해 해당 GPT-2 활성화가 추출되고 평균화됩니다. 이 접근 방식은 주어진 언어 모델 활성화를 구문 및 의미 구성 요소로 분해하여 각각의 예측 점수를 계산할 수 있습니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

결과는 의미론적 예측이 장거리(d = 8)이고 전두엽과 두정엽에서 정점에 이르는 분산 네트워크를 포함하는 반면, 구문론적 예측은 더 짧은 범위(d = 5)를 갖는다는 것을 보여줍니다. 상부 측두엽 영역과 좌측 전두엽 영역에 집중되어 있습니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

이러한 결과는 뇌의 여러 수준의 예측을 보여줍니다. 여기서 우수한 측두엽 피질은 주로 단기적이고 얕은 구문적 표현을 예측하는 반면, 열등한 전두엽 및 두정엽 영역은 주로 장기적이고 상황적이며 높은 수준 및 의미적 표현을 예측합니다. 표현.

예측 배경은 뇌 계층 구조를 따라 더욱 복잡해집니다.

전과 같이 예측 점수를 계산하지만 GPT-2의 사용 레이어를 변경하여 각 복셀에 대해 k를 결정합니다. 예측 점수가 최대화됩니다.

우리의 결과는 최적의 예측 깊이가 예상되는 피질 계층 구조에 따라 달라지며 연관 피질이 하위 수준 언어 영역보다 더 깊은 예측을 위한 최상의 모델을 가지고 있음을 보여줍니다. 지역 간의 차이는 비록 평균적으로는 작지만 개인마다 매우 눈에 띕니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

일반적으로 전두엽 피질의 장기 예측 배경은 뇌 하위 영역의 단기 예측 배경보다 더 복잡하고 수준이 높습니다.

GPT-2를 예측 코딩 구조로 조정

GPT-2의 현재 단어 표현과 미래 단어 표현을 연결하면 특히 전두엽 영역에서 더 나은 뇌 활동 모델을 얻을 수 있습니다.

GPT-2를 미세 조정하여 더 먼 거리, 더 풍부한 맥락, 더 높은 수준에서 표현을 예측하면 이 영역의 뇌 매핑을 향상시킬 수 있나요?

조정에서는 언어 모델링뿐만 아니라 상위 및 장거리 타겟도 사용됩니다. 여기서 상위 레벨 타겟은 사전 훈련된 GPT-2 모델의 8번째 레이어입니다.

결과에 따르면 높은 수준 및 장거리 모델링 쌍을 사용하여 GPT-2를 미세 조정하면 전두엽의 반응이 가장 잘 향상되는 반면 청각 영역과 낮은 수준의 뇌 영역은 이러한 높은 수준의 이점을 얻지 못하는 것으로 나타났습니다. 수준 타겟팅 명백한 이점은 언어의 장거리, 상황별 및 상위 수준 표현을 예측하는 데 있어서 정면 영역의 역할을 추가로 반영합니다.

뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!

참조: ​https://www.php.cn/link/7eab47bf3a57db8e440e5a788467c37f​

위 내용은 뇌 계층적 예측을 통해 대형 모델을 더욱 효율적으로 만들 수 있습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿