오늘 이야기의 주인공은 두 명의 과학자, 산지브 아로라(Sanjeev Arora)와 아니루드 고얄(Anirudh Goyal)입니다.
Arora는 프린스턴 대학교 출신이고 Goyal은 Google DeepMind 출신입니다.
그들은 함께 모여 한 가지 질문을 탐구하고 싶었습니다.
즉, LLM은 수다만 하는 무작위 앵무새인가요, 아니면 실제로 뭔가를 배우고 응급 능력을 갖춘 지능형 에이전트로 변한 것인가요?
AI 선구자인 Hinton과 Ng Enda도 이 문제에 대해 이야기했지만 당시에는 명확한 결론을 내리지 못했습니다.
Hinton은 이 문제에 대해 합의에 도달하지 못하면 AI가 가져올 수 있는 잠재적인 피해에 대해서도 합의에 도달하기 어려울 것이라고 지적했습니다.
Arora와 Goyal은 LLM이 단순히 기계적인 반복 학습을 모방하는 것이 아니라고 믿습니다. 그들은 LLM의 출력 콘텐츠가 대량의 훈련 데이터에서 무작위로 생성되는 것이 아니며 이 점에 대해 추가 조사가 필요하다는 점을 지적했습니다.
이를 위해 두 사람이 공동으로 논문을 썼습니다.
문서 주소: https://arxiv.org/abs/2307.15936
사실은 많은 교육을 받은 후에 LLM의 규모가 점점 커지고 관련 역량도 더욱 커질 것입니다. 개선된 개선과 새로운 기능을 개발합니다.
이것은 일반적인 순열과 조합으로는 할 수 없는 일입니다.
우리 모두 알고 있듯이 LLM은 "뉴런"을 하나씩 연결하는 거대한 인공 신경망입니다.
은 실제로 모델의 매개변수를 나타냅니다. 매개변수가 많을수록 LLM이 커집니다.
먼저 LLM 교육의 메커니즘과 링크를 이해해 봅시다.
교육 프로세스에는 다음 링크가 포함됩니다. LLM에 단일 문장을 제공하고 마지막 단어를 숨긴 다음 LLM이 확률을 기반으로 빈 어휘가 누구인지 예측하도록 합니다.
LLM이 1000개의 단어를 알고 있다면 1000의 확률을 생성합니다. 마지막으로 확률이 가장 높은 것을 선택하여 입력하세요.
처음에는 LLM이 올바른 단어를 선택하지 못할 수 있으며 알고리즘은 LLM이 제공한 초기 답변과 원래 문장에 대한 정답 사이의 "거리"인 손실 값을 제공합니다. 특정 고차원 수학적 공간 "(거리)를 설정한 다음 이 값을 사용하여 매개변수를 미세 조정합니다.
이후에는 동일한 문장에 대해 LLM이 보다 정확한 확률 분포를 계산할 수 있으며, 위의 손실 값은 약간 감소합니다.
이런 방식으로 이 프로세스는 LLM의 전체 손실 값이 꽤 좋은 수준으로 줄어들 때까지 훈련 데이터에서 수십억 개의 문장을 통해 실행됩니다.
마찬가지로 LLM 테스트도 이 과정을 따르며 손실 값을 기준으로 테스트 결과를 얻습니다. (물론 테스트에 사용된 문장이 훈련 데이터에 없어야 합니다. 그렇지 않으면 부정행위가 아닙니다.) .
훈련과 테스트를 거친 후 LLM은 새로운 텍스트 프롬프트를 접할 때 가장 정확한 단어를 생성할 가능성이 매우 높습니다. 단어가 나오면 프롬프트에 던져지고 다음 단어가 생성됩니다.
이 천천히 생성되었고 겉보기에 일관적인 답변이 종이에 나타났습니다.
그러나 이 과정에서 추론이 필요한 질문에 대해 더 큰 LLM이 더 나은 성능을 발휘할 것이라는 징후는 없습니다.
생각을 따라가도록 주의하세요. 징후가 없습니다. 이는 이 결과를 지적할 수 있는 실증적 증거가 없다는 것을 의미하지만, 피상적인 사실로 판단하면 이 결론은 정확합니다.
즉, 추론 능력 측면에서 대규모 LLM이 소규모 모델보다 성능이 더 좋습니다. 둘 사이의 훈련 방법에는 차이가 없지만 유일한 차이점은 규모입니다.
아로라는 혼란스러워하는데, 이 능력은 어디서 오는 걸까요?
이것이 Arora와 Goyal의 연구의 출발점입니다. 이러한 새로운 기능이 어떻게 나타나는지 분석하기 위한 이론적 틀을 구축하려는 것입니다.
그래서 그들은 수학 분야로 관심을 돌려 랜덤 그래프라는 것을 목표로 삼았습니다. 간단히 말해서, 이 용어는 그래프 이론과 확률 이론의 교차점에 있습니다.
랜덤 그래프에서는 두 노드 사이를 연결하는 간선이 있는지 여부가 동전 던지기와 마찬가지로 무작위입니다.
동전이 앞면이 나오면 확률 p의 우위가 있습니다.
p 값이 변경되면 전체 랜덤 그래프의 속성이 갑자기 변경될 수 있습니다. 예를 들어 p 값이 특정 임계값을 초과하면 일부 고립된 노드(즉, 다른 노드와 연결되지 않은 지점)가 갑자기 사라지게 됩니다.
두 명의 과학자는 무작위 그래프의 이 기능이 대규모 언어 모델을 시뮬레이션하는 직관적인 방법이 될 수 있다는 것을 깨달았습니다.
신경망의 복잡성은 이루 말할 수 없을 정도로 복잡하고 분석하기가 거의 어렵지만, 무작위 그래프의 개념은 오랫동안 수학자에 의해 연구되어 왔으며 분석을 위한 다양한 도구가 개발되었습니다.
아마도 신경망 연구자들은 관련 랜덤 그래프 이론을 통해 대규모 언어 모델의 몇 가지 특성을 이해하고 분석할 수 있을 것입니다.
여기서 두 연구원은 두 가지 유형의 노드를 포함하는 이분 그래프에 중점을 두었습니다.
모델에서 한 유형의 노드는 텍스트 조각을 나타냅니다. 여기의 단편은 길이 측면에서 최소한 한 문단이어야 하며, 한 단어가 아니라 여러 페이지 길이일 수도 있습니다.
이러한 노드는 직선을 형성합니다.
두 번째 유형의 노드는 위의 텍스트를 이해하는 데 필요한 기술을 나타냅니다. 예를 들어 논리적 관계에 대한 이해, 계산 능력, 더 구체적으로는 풍자를 이해하는 능력 등이다.
이러한 예를 제공하는 목적은 이 두 번째 유형의 노드가 다양한 능력을 나타내며 위의 모든 항목이 계산된다는 점을 분명히 하는 것입니다.
Arora는 LLM이 특정 텍스트에 아이러니가 포함되어 있음을 알 수 있다면 전반적인 이해가 크게 바뀔 수 있다고 말했습니다.
그러나 위에서 언급했듯이 두 번째 유형의 노드로 표시되는 기능은 교육 과정에서 LLM의 목적이 이러한 기능을 달성하는 것임을 의미하지는 않습니다. 즉, LLM은 훈련 중에 다음 가능한 단어를 예측하는 능력만 훈련합니다.
즉, 두 번째 유형의 노드가 나타내는 기능은 LLM이 표시하는 기능을 더 잘 이해하기 위해 Arora와 Goyal이 결과 관점에서 설계한 것입니다.
이제 설정이 완료되었으므로 두 유형의 노드가 서로 연결되기 시작합니다. 연결은 LLM이 텍스트의 특정 단락을 이해하는 데 필요한 기능을 나타냅니다. 일대일일 수도 있고, 일대다일 수도 있고, 다대일일 수도 있습니다.
아이러니 읽기도 예로 들 수 있습니다. 이 스킬 포인트는 아이러니한 요소가 포함된 모든 텍스트와 연결됩니다.
연결은 그렇게 간단하지 않습니다. OpenAI나 DeepMind 같은 대기업은 훈련 데이터나 테스트 데이터를 공개하지 않습니다. 따라서 두 연구자는 이에 의존할 수 없습니다.
또한 그들이 이해하고 싶은 것은 규모, 행동, 능력 사이의 관계입니다.
2021년부터 LLM 및 기타 신경망의 성능을 연구하는 연구자들은 공통된 특징을 관찰했습니다.
모델이 훈련 데이터의 크기와 양 모두에서 커짐에 따라 테스트 데이터(훈련 후 새 텍스트에 대한 예측과 정답의 차이)가 매우 구체적인 방식으로 감소한다는 사실을 발견했습니다.
이러한 관찰은 신경 확장 법칙이라는 방정식으로 인코딩되었습니다.
따라서 Arora와 Goyal은 그들의 이론이 단일 LLM이나 특정 교육 및 테스트 데이터 세트의 경우가 아니라 일종의 보편적인 법칙에 의존한다고 밝혔습니다. 스케일링 법칙 .
추가 연구의 핵심은 위에서 소개한 신경 스케일링 법칙과 이분 그래프 간의 관계입니다.
먼저, 연구원은 테스트 데이터에 LLM의 동작에 해당하는 이분 그래프가 있다고 가정합니다.
테스트 데이터에서 LLM의 손실 변화를 활용하기 위해 LLM이 스킬을 습득하는 방법을 다음과 같이 설명하는 방법을 상상했습니다.
아이러니를 이해하는 스킬을 예로 들어보겠습니다. -
이 개념은 스킬 노드로 표현되므로 연구자들은 이 스킬 노드가 어떤 텍스트 노드에 연결되어 있는지 살펴보았습니다.
연결된 텍스트 노드가 거의 모두 성공한다면(이 특정 기술로 표현되는 텍스트에 대한 LLM의 예측이 매우 정확하다는 의미) LLM은 이 특정 기술에 능숙합니다.
그러나 특정 비율 이상의 스킬 노드가 실패한 텍스트 노드에 연결되면 LLM은 이 스킬에 실패합니다.
이분 그래프와 LLM 사이의 연결을 통해 Arora와 Goyal은 무작위 그래프 이론 도구를 활용하여 LLM의 동작을 분석할 수 있습니다.
이 그래프를 연구하면 노드 간의 특정 관계가 드러납니다. 그런 다음 이러한 관계는 대규모 언어 모델이 예상치 못한 기능을 어떻게 획득하는지 설명하기 위해 논리적이고 테스트 가능한 방법으로 변환됩니다.
여기서 Arora와 Goyal은 먼저 핵심 행동, 즉 규모가 큰 LLM이 상대적으로 작은 모델보다 개별 기술에 더 능숙한 이유를 설명합니다.
신경 확장 법칙에 따라 예측되는 더 낮은 테스트 손실로 시작됩니다.
실패한 테스트 노드가 적다는 것은 실패한 테스트 노드와 스킬 노드 사이의 연결이 적다는 것을 의미합니다. 따라서 성공적인 테스트 노드에 연결된 기술 노드가 많을수록 모델의 기술 역량이 향상되었음을 나타냅니다.
다음으로, 두 연구원은 더 큰 모델에서 얻은 성능을 설명하는 방법을 찾았습니다. LLM의 크기가 증가하고 테스트 손실이 감소함에 따라 스킬 노드의 무작위 조합이 개별 텍스트 노드에 연결되기 시작합니다.
이는 LLM이 여러 기술을 동시에 사용하는 능력이 향상되었으며 이러한 정확한 기술 조합이 훈련 데이터의 텍스트에 나타나지 않았음에도 불구하고 여러 기술을 사용하여 텍스트를 생성하기 시작했음을 보여줍니다.
예를 들어, LLM은 이미 하나의 기술을 사용하여 텍스트를 생성할 수 있으며, LLM의 매개변수 또는 교육 데이터 수를 몇 배로 확장하면 두 기술이 모두 필요한 텍스트를 생성하는 데에도 똑같이 능숙할 것입니다.
비유하자면 LLM은 이제 네 가지 기술이 필요한 작업을 동시에 수행할 수 있습니다! 또한, 각 능력의 숙련도도 동일합니다.
따라서 규모가 큰 LLM은 기술을 결합할 수 있는 방법이 더 많아 LLM 자체의 성과가 크게 향상됩니다.
LLM이 확장됨에 따라 훈련 데이터에서 이러한 모든 기술 조합을 만날 확률은 0까지 점점 작아집니다.
랜덤 그래프 이론의 규칙에 따르면 각 조합은 가능한 기술의 무작위 샘플링에서 나옵니다. 따라서 그래프에 약 1000개의 기본 단일 스킬 노드가 있고 4가지 스킬을 결합한다고 가정하면 약 1000의 4승이 있습니다. 이는 가능한 조합이 1조개에 달하는 것입니다.
즉, LLM이 실제로 1,000가지 기술 중 4가지를 결합하여 이러한 작업을 수행할 수 있다면 모델에 일반화 기능이 있어야 한다는 의미입니다. 또한 이 모델은 더 이상 무작위 앵무새가 아닐 가능성이 높습니다.
그러나 Arora와 Goyal은 이론을 뛰어넘어 LLM이 규모와 훈련 데이터가 증가함에 따라 더 많은 기술을 결합하는 데 더 능숙해지고 결과적으로 일반화에서 더 나은 성능을 발휘한다는 아이디어를 테스트하고 싶었습니다.
그들은 나머지 팀원들과 함께 다양한 기술을 사용하여 텍스트를 생성하는 LLM의 능력을 평가하기 위해 기술 혼합이라는 방법을 설계했습니다.
LLM을 테스트하기 위해 연구팀은 무작위로 선택된 주제에 대해 세 개의 문장을 생성하도록 요청했습니다. 이 문장의 생성은 먼저 LLM의 무작위로 선택된 스킬 포인트를 보여주었습니다.
예를 들어 GPT-4에게 검술에 관한 기사를 작성해 달라고 요청한 다음, 모델에게 자기 편향, 은유, 통계, 물리 능력 숙달이라는 네 가지 영역의 기술을 보여 달라고 요청했습니다.
GPT-4의 출력은 다음과 같습니다.
이 강철과의 춤에서 나의 승리(은유 사용)는 물체의 자유 낙하(물리 사용)만큼 확실합니다.
그리고 유명한 결투사인 저는 대부분의 사람들이 저를 알고 있듯이 천성적으로 유연합니다(통계 이용). 실패하다? 그것은 나의 결점(자기편향) 때문이 아니라 전장이 적 쪽으로 기울어져 있기 때문일 수 있다.
실제 결과는 수학이 예측한 대로 GPT-4가 GPT-3.5보다 훨씬 뛰어난 성능을 발휘한다는 것입니다.
아로라의 과감한 추측, 1년 안에 GPT-4를 훨씬 능가하는 모델이 있을까?
위 내용은 Princeton DeepMind는 수학을 사용하여 다음을 증명했습니다. LLM은 임의의 앵무새가 아닙니다! '규모가 클수록 능력이 강해진다'는 이론적인 근거가 있다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!