앤드류 응이 좋아요! 하버드와 MIT 학자들은 체스를 사용하여 대규모 언어 모델이 실제로 세계를 '이해'한다는 것을 증명했습니다.

王林
풀어 주다: 2023-09-15 11:29:01
앞으로
1447명이 탐색했습니다.

2021년 워싱턴 대학교 언어학자 Emily M. Bender는 대규모 언어 모델이 "확률론적 앵무새"에 불과하다고 주장하는 논문을 발표했습니다. 앵무새처럼 그럴듯해 보이는 단어를 무작위로 생성합니다.

신경망의 해석 불가능성으로 인해 학계에서도 언어 모델이 임의의 앵무새인지 여부가 불분명하며, 다양한 당사자의 의견이 크게 다릅니다.

널리 알려진 테스트가 없기 때문에 모델이 "세상을 이해할" 수 있는지 여부는 과학적 질문이 아닌 철학적 질문이 되었습니다.

최근 하버드 대학교와 MIT 연구진은 간단한 보드게임에서 내부 표현의 유효성을 검증한 새로운 연구 Othello-GPT를 발표했는데, 그들은 언어 모델의 내부 표현이 실제로 확립되어 있다고 믿습니다. 단순한 기억이나 통계뿐만 아니라 그 능력의 근원이 아직 불분명한 세계 모델.

앤드류 응이 좋아요! 하버드와 MIT 학자들은 체스를 사용하여 대규모 언어 모델이 실제로 세계를 이해한다는 것을 증명했습니다.

논문 링크: https://arxiv.org/pdf/2210.13382.pdf

실험 과정은 오델로의 규칙에 대한 사전 지식 없이도 매우 간단합니다. 연구자들은 모델이 예측할 수 있다는 것을 발견했습니다. 매우 높은 정확도로 합법적인 움직임을 포착하고 보드의 상태를 포착합니다.

Andrew Ng는 "Letter" 칼럼에서 이 연구에 대해 높은 인식을 표명했습니다. 그는 이 연구를 바탕으로 대규모 언어 모델이 충분히 복잡한 세계 모델을 구축했다고 믿을 만한 이유가 있다고 믿습니다. 어느 정도 그들은 세상을 이해합니다.

앤드류 응이 좋아요! 하버드와 MIT 학자들은 체스를 사용하여 대규모 언어 모델이 실제로 세계를 이해한다는 것을 증명했습니다.

블로그 링크: https://www.deeplearning.ai/the-batch/does-ai-understand-the-world/

그러나 Andrew Ng도 철학은 중요하지만, 이 논쟁은 아마 영원히 계속될 것입니다. 프로그래밍을 시작하겠습니다!

체스판 세계 모델

체스판을 단순한 "세계"로 상상하고 모델이 게임 중에 지속적인 결정을 내리도록 요구하는 경우 시퀀스 모델이 세계 표현을 학습할 수 있는지 처음에 테스트할 수 있습니다.

앤드류 응이 좋아요! 하버드와 MIT 학자들은 체스를 사용하여 대규모 언어 모델이 실제로 세계를 이해한다는 것을 증명했습니다.

연구원들은 실험 플랫폼으로 간단한 오델로 게임을 선택했습니다. 규칙은 8*8 체스판 중앙에 체스 말 4개(양쪽에 각각 2개씩)를 놓는 것입니다. 직선 또는 대각선 방향에서 자신의 두 조각 사이에 있는 모든 적 조각(공간 제외)은 모두 자신의 조각이 됩니다(캡처 조각이라고 함). , 보드가 가득 차면 아들이 더 많은 사람이 승리합니다.

체스와 비교하면 오델로의 규칙은 훨씬 간단합니다. 동시에 체스 게임의 검색 공간은 모델이 메모리를 통해 시퀀스 생성을 완료할 수 없을 만큼 크기 때문에 세계 표현을 테스트하는 데 매우 적합합니다. 모델의 학습 능력.

Othello 언어 모델

연구원들은 먼저 언어 모델의 GPT 변형 버전(Othello-GPT)을 훈련하여 게임 스크립트(플레이어가 만든 일련의 체스 이동 작업)를 모델에 입력했지만 모델은 게임에 대한 사전 지식 및 관련 규칙에 대한 정보가 없었습니다.

모델은 전략 개선, 게임 승리 등을 추구하도록 명시적으로 훈련되지 않았지만 합법적인 오델로 동작 연산을 생성할 때 상대적으로 높은 정확도를 갖습니다.

Dataset

연구원들은 두 가지 훈련 데이터 세트를 사용했습니다. , 각각 7605개와 132921개의 게임 샘플만 수집되었으며, 두 데이터 세트를 병합한 후 8:2의 비율로 훈련 세트(2천만 샘플)와 검증 세트(3796만 샘플)로 무작위로 나누었습니다. .

Synthetic은 데이터 규모에 더 중점을 두고 무작위적이고 합법적인 이동 작업으로 구성됩니다. 데이터 분포는 챔피언십 데이터 세트와 다르지만 2천만 개의 샘플을 사용하여 Othello 게임 트리에서 균등하게 샘플링됩니다. 훈련 및 검증을 위한 379만 6천 개의 샘플.

각 게임의 설명은 일련의 토큰으로 구성되며, 어휘 크기는 60(8*8-4)입니다.

모델 및 훈련

모델의 아키텍처는 8레이어입니다. 8개의 헤드가 있는 GPT 모델, 숨겨진 차원은 512

모델의 가중치는 단어 임베딩 레이어를 포함하여 완전히 무작위로 초기화됩니다. 비록 체스판 위치를 나타내는 단어 목록에 기하학적 관계가 있지만(예: C4는 B4보다 낮음), 이 귀납적 편향은 명확하게 표현되지 않으며 모델이 학습하도록 남겨둡니다.

적법한 움직임 예측

모델의 주요 평가 지표는 모델이 예측한 움직임 동작이 오델로의 규칙을 준수하는지 여부입니다.

합성 데이터 세트에서 훈련된 Othello-GPT의 오류율은 0.01%이고 챔피언십 데이터 세트의 오류율은 5.17%인 반면, 훈련되지 않은 Othello-GPT의 오류율은 93.29%입니다. , 이 두 데이터 세트를 통해 모델은 게임의 규칙을 어느 정도 학습할 수 있습니다.

한 가지 가능한 설명은 모델이 오델로 게임의 모든 동작 동작을 기억한다는 것입니다.

이 추측을 테스트하기 위해 연구원들은 새로운 데이터 세트를 합성했습니다. 각 게임이 시작될 때 Othello에는 4개의 가능한 오프닝 위치(C5, D6, E3 및 F4)가 있고 모든 C5 오프닝 위치가 있습니다. 훈련 세트로 사용한 후 C5 오프닝 데이터를 테스트로 사용했습니다. 즉, 게임 트리의 거의 1/4이 제거되었으며 모델 오류율은 여전히 ​​0.02%

에 불과한 것으로 나타났습니다. 그래서 Othello-GPT 높은 성능은 메모리 때문이 아닙니다. 훈련 과정에서 테스트 데이터가 전혀 보이지 않기 때문입니다. 그렇다면 모델이 성공적으로 예측하게 만드는 것은 정확히 무엇일까요?

내부 표현 탐색

신경망의 내부 표현을 탐지하는 데 일반적으로 사용되는 도구는 프로브입니다. 각 프로브는 입력이 네트워크의 내부 활성화로 구성되고 관심 있는 기능을 예측하도록 훈련된 분류자 또는 회귀자입니다.

이 작업에서는 Othello-GPT의 내부 활성화에 현재 체스판 상태의 표현이 포함되어 있는지 여부를 감지하기 위해 이동 시퀀스를 입력한 후 내부 활성화 벡터를 사용하여 다음 이동 단계를 예측합니다.

선형 프로브를 사용할 때 훈련된 Othello-GPT 내부 표현은 무작위 추측보다 약간만 더 정확합니다.

앤드류 응이 좋아요! 하버드와 MIT 학자들은 체스를 사용하여 대규모 언어 모델이 실제로 세계를 이해한다는 것을 증명했습니다.

비선형 프로브(2레이어 MLP)를 사용하면 오류율이 크게 떨어지며 이는 보드 상태가 간단한 방법으로 네트워크 활성화에 저장되지 않음을 증명합니다.

앤드류 응이 좋아요! 하버드와 MIT 학자들은 체스를 사용하여 대규모 언어 모델이 실제로 세계를 이해한다는 것을 증명했습니다.

개입 실험

모델 예측과 창발 세계 표현 사이의 인과 관계를 확인하기 위해, 즉 보드 상태가 실제로 네트워크 예측 결과에 영향을 미치는지 여부를 확인하기 위해 연구원들은 일련의 개입 실험을 수행하고 결과를 측정했습니다. 영향.

Othello-GPT의 활성화 세트가 제공되면 프로브를 사용하여 보드 상태를 예측하고 관련 이동 예측을 기록한 다음 프로브가 업데이트된 보드 상태를 예측할 수 있도록 활성화를 수정합니다.

앤드류 응이 좋아요! 하버드와 MIT 학자들은 체스를 사용하여 대규모 언어 모델이 실제로 세계를 이해한다는 것을 증명했습니다.

개입 작업에는 특정 위치의 체스 말을 흰색에서 검은색 등으로 변경하는 작업이 포함됩니다. 약간만 수정하면 모델 결과가 나오고 내부 표현이 예측을 안정적으로 완료할 수 있음을 알 수 있습니다. 내부 표현과 모델 예측 사이에 차이가 있습니다.

Visualization

내부 표현의 타당성을 검증하기 위한 개입 실험 외에도 연구원들은 예측 결과도 시각화했습니다. 예를 들어 체스판의 각 체스 말에 대해 모델에 개입 기술이 적용되었는지 질문할 수 있습니다. 체스 말을 변경하는 데 사용됩니다. 예측 결과가 어떻게 변경되는지는 예측 결과의 중요성에 따라 달라집니다.

그런 다음 현재 체스판 상태의 top1이 예측한 돌출성을 기반으로 카드에 색상을 지정하고 시각화합니다. 그려진 맵은 네트워크의 잠재 공간을 기반으로 입력되므로 잠재 돌출 맵이라고도 할 수 있습니다.

앤드류 응이 좋아요! 하버드와 MIT 학자들은 체스를 사용하여 대규모 언어 모델이 실제로 세계를 이해한다는 것을 증명했습니다.

합성 및 챔피언십 데이터 세트 모두에서 훈련된 Othello-GPT의 상위 1개 예측에 대한 잠재 돌출 맵에 명확한 패턴이 표시되는 것을 볼 수 있습니다.

Othello-GPT의 합성 버전은 합법적인 작업 위치에서 더 높은 중요도를 보여주는 반면, 불법적인 작업의 중요도는 훨씬 낮습니다. 경험이 적은 체스 플레이어라도 모델의 의도를 알 수 있습니다. 토너먼트 버전의 돌출 맵은 상대적으로 높지만, 다른 직위도 전체적인 상황을 더 많이 고려하기 때문일 수 있습니다.

위 내용은 앤드류 응이 좋아요! 하버드와 MIT 학자들은 체스를 사용하여 대규모 언어 모델이 실제로 세계를 '이해'한다는 것을 증명했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!