ChatGPT는 등장 후 많은 사람들을 놀라게 하거나 깨웠습니다. LLM(Large Language Model)이 이만큼 효과적일 것이라고는 기대하지 않았기 때문에 놀랐습니다. LLM에 대한 우리의 이해와 그 개발 철학이 세계에서 가장 진보된 아이디어와는 거리가 멀다는 것을 갑자기 깨닫게 되었기 때문입니다. 저는 놀라기도 하고 각성하기도 한 그룹에 속하고, 저 또한 전형적인 중국인이기 때문에 반성하기 시작했고, 이 글은 그 반성의 결과입니다.
솔직히 중국의 LLM 모델 관련 기술 측면에서 현시점에서는 최신 기술과의 격차가 더욱 벌어졌습니다. 기술 리더십이나 기술 격차 문제는 개발적 관점에서 동적으로 봐야 한다고 생각합니다. 사실 버트 등장 이후 1~2년 동안 국내 기술의 추격은 여전히 매우 빨랐고, 몇 가지 좋은 개선 모델도 제시됐는데, 격차를 더 벌릴 수 있는 분수령은 GPT 3.0 출시 이후가 될 것이다. 즉, 2020년 중반쯤입니다. 당시에는 GPT 3.0이 단순한 특정 기술이 아니라 실제로 LLM이 가야 할 방향에 대한 개발 개념을 구현한 것이라는 사실을 아는 사람은 극소수였습니다. 그 이후로 격차는 점점 더 벌어졌고, ChatGPT는 이러한 개발 철학의 차이에 따른 자연스러운 결과일 뿐입니다. 따라서 저는 개인적으로 매우 큰 규모의 LLM을 구축할 수 있는 재정적 자원이 있는지 여부라는 요소를 제쳐두고 기술적인 관점에서만 LLM에 대한 이해와 개발 개념의 차이에서 차이가 발생한다고 생각합니다. 앞으로 가세요 .
중국은 외국 기술에 점점 더 뒤처지고 있습니다. 이는 사실이며 인정하지 않아도 괜찮습니다. 얼마 전 인터넷에서는 많은 사람들이 국내 AI가 이제 '생존의 위기 단계'에 이르렀다고 우려했다. 모르시나요? OpenAI가 이렇게 미래 지향적인 비전을 가진 유일한 회사인가요? 실제로 Google을 포함하여 LLM 개발 개념에 대한 이해는 분명히 OpenAI 뒤에 있습니다. 현실은 OpenAI가 너무 좋은 성과를 거두어 국내뿐 아니라 모든 사람을 뒤처지게 만들었다는 것입니다.
OpenAI가 해외에서는 LLM에 대한 개념이나 관련 기술 면에서 Google이나 DeepMind보다 약 반년~1년 정도 앞서고, 중국보다 약 2년 정도 앞서 있다고 생각합니다. LLM에 관해서는 Google이 2위를 차지해야 한다고 생각합니다. Google의 기술 비전을 가장 잘 반영하는 것은 PaLM과 Pathways입니다. 같은 기간에 OpenAI가 출시되었습니다. InstructGPT입니다. 여기에서 Google과 OpenAI의 차이를 알 수 있습니다. 제가 이렇게 말하는 이유는 제 뒤에 있는 텍스트를 읽어 보시면 이해하실 수 있을 것입니다. DeepMind의 이전 초점은 과학을 위한 게임 및 AI를 정복하기 위한 학습 강화에 있었습니다. 실제로는 21년 만에 이 방향에 주목하기 시작했어야 했는데 현재 따라잡고 있습니다. Meta는 말할 것도 없고 LLM에 초점이 맞춰져 있지 않았는데 이제는 따라잡으려는 느낌이 듭니다. 그렇다면 국내는커녕 아직도 최선을 다하고 있는 기관들이죠? 나는 변명의 여지가 있다고 느낀다. LLM에 대한 OpenAI의 철학에 대해서는 이 글의 마지막 부분에서 제가 이해한 내용을 이야기하겠습니다.
이 기사에서는 GPT 3.0 등장 이후 주류 LLM 기술을 요약합니다. 이에 앞서 주류 기술에 대해서는 "바람과 파도를 타는 PTM, 진행 상황에 대한 심층 해석"을 참조할 수 있습니다. 사전 훈련 모델".
이 두 기사를 읽고 나면 LLM 분야의 기술적 맥락, LLM 기술 개발에서 등장한 다양한 개발 개념, 심지어 가능한 미래 개발 동향에 대해 더 명확하게 이해하게 될 것이라고 믿습니다. 물론, 여러 곳에 언급된 내용은 저의 개인적인 의견으로 매우 주관적이므로 오류와 누락이 있을 수 있으니 주의해서 참고하시기 바랍니다.
이 기사는 다음 질문 중 일부에 답하려고 시도합니다. ChatGPT가 NLP 및 심지어 AI 분야의 연구 패러다임 전환을 가져왔나요? 그렇다면 어떤 영향을 미치게 될까요? LLM은 막대한 양의 데이터로부터 무엇을 배우나요? LLM은 이 지식에 어떻게 접근하나요? LLM의 규모가 점차 커지면 어떤 영향을 미칠까요? 맥락 학습이란 무엇입니까? 왜 신비한 기술입니까? Instruct와의 관계는 무엇입니까? LLM에는 추론 기능이 있나요? Thought Chain CoT는 어떻게 작동하나요? 잠깐만요, 이 책을 읽고 나면 이러한 질문에 대한 답을 얻을 수 있을 것이라고 믿습니다.
먼저 LLM 기술의 현황을 이야기하기에 앞서, 거시적인 차원에서 내 마음 속에 있는 연구 패러다임의 전환에 대해 이야기해보겠습니다. 이를 통해 우리는 "나무보다 숲을 볼" 수 있고, 특정 기술이 왜 그렇게 변화했는지 더 명확하게 이해할 수 있습니다.
만약 시간을 더 연장하고 NLP 분야의 딥러닝 시대로 돌아가 기술 변화와 그 영향을 더 긴 시간 안에 관찰한다면, 일부 핵심 노드를 명확하게 보는 것이 더 쉽습니다. 저는 개인적으로 지난 10년 동안 NLP 분야의 기술 발전 과정에서 두 가지 주요 연구 패러다임 전환이 있었다고 믿습니다.
패러다임 전환 1.0: 딥 러닝에서 2단계 사전 학습 모델로
이 패러다임 전환이 적용되는 기간은 대략 NLP 분야에 딥 러닝이 도입된 시점부터(2013년경) )에서 GPT 3.0으로 출시되기 전(2020년 5월경) .
Bert 및 GPT 모델이 등장하기 전에는 NLP 분야에서 인기 있는 기술은 딥러닝 모델이었으며, NLP 분야의 딥러닝은 주로 다음과 같은 핵심 기술에 의존했습니다. 다수의 개선된 LSTM 모델과 소량의 향상된 CNN 모델은 다양한 특정 작업에 대한 일반적인 전체 기술 프레임워크로 Sequence to Sequence(또는 인코더-디코더) + Attention을 사용합니다.
이러한 핵심 기술의 지원을 바탕으로 NLP 분야 딥러닝의 주요 연구 목표를 요약하면 모델 레이어 깊이나 모델 매개변수 용량을 효과적으로 늘리는 것입니다. 즉, 레이어 깊이와 모델 용량을 늘리는 목표를 달성하기 위해 인코더와 디코더에 더 깊은 LSTM 또는 CNN 레이어를 어떻게 지속적으로 추가할 수 있습니까? 이러한 노력이 실제로 모델의 깊이를 지속적으로 증가시켰음에도 불구하고, 전반적으로 특정 작업을 해결하는 효과 측면에서 그다지 성공적이지 않았습니다. 즉, 딥러닝이 아닌 방법에 비해 얻을 수 있는 이점은 그리 크지 않습니다. 엄청난.
딥러닝이 성공하지 못하는 주된 이유는 두 가지 측면에서 비롯된다고 생각합니다. 한편으로는 특정 작업에 대한 훈련 데이터의 총량이 제한되어 있습니다. 모델의 용량이 증가할수록 더 많은 양의 훈련 데이터가 지원되어야 합니다. 그렇지 않으면 깊이를 늘릴 수 있더라도 작업 효과를 얻을 수 없습니다. 사전 훈련 모델이 등장하기 전에는 이것이 NLP 연구 분야에서 심각한 문제라는 것이 분명했습니다. 또 다른 측면은 LSTM/CNN 특징 추출기가 강력한 표현 능력을 갖고 있지 않다는 것입니다. 이는 아무리 많은 데이터가 주어져도 그 데이터에 포함된 지식을 효과적으로 흡수할 수 없기 때문에 쓸모가 없다는 것을 의미합니다. NLP 분야에서 딥러닝의 성공적인 돌파구를 방해하는 것은 주로 이 두 가지 이유입니다.
Bert/GPT 학문적 연구와 산업적 적용의 관점에서 이 두 가지 사전 훈련 모델의 출현은 NLP 분야의 기술적 도약을 나타내며 전체 연구 패러다임의 변화를 가져왔습니다. 필드. . 이러한 패러다임 변화의 영향은 두 가지 측면에서 반영됩니다. 첫째, 일부 NLP 연구 하위 분야의 쇠퇴 및 심지어 점진적인 소멸, 둘째, NLP의 다양한 하위 분야의 기술적 방법 및 기술 프레임워크가 출현한 지 1년이 지나면서 점점 통일되고 있습니다. Bert 이 무렵 기술 스택은 기본적으로 두 가지 기술 모델로 수렴되었습니다. 이 두 가지 사항에 대해 별도로 이야기해 보겠습니다.
영향 1: 중간 작업의 종말
NLP는 관점에서 면밀히 분석하면 다양한 세부 분야와 하위 방향을 갖는 거시 연구 분야의 총칭입니다. 작업의 성격에 따라 작업은 두 가지 범주로 나누어집니다. 하나는 "중간 작업"이고 다른 하나는 "최종 작업"이라고 할 수 있습니다.
일반적인 중간 작업에는 중국어 단어 분할, 품사 태깅, NER, 구문 분석, 참조 분석, 의미 분석기 등이 포함됩니다. 이러한 유형의 작업은 일반적으로 애플리케이션의 실제 요구 사항을 해결하지 못하며 대부분 그 중 실제 요구 사항을 해결하는 데 사용됩니다. 작업의 중간 단계나 보조 단계가 있습니다. 예를 들어 사용자에게 이 문장의 구문 분석 트리를 보여 주는 구문 분석기를 원합니다. 사용자는 이러한 NLP의 중간 단계의 처리 결과를 볼 필요가 없습니다. 그는 단지 특정 작업을 잘 수행했습니까? "최종 작업"에는 텍스트 분류, 텍스트 유사성 계산, 기계 번역, 텍스트 요약 등이 포함됩니다. 이러한 유형의 작업의 특징은 각 하위 필드가 특정 실제 요구 사항을 해결하고 작업 결과가 기본적으로 사용자에게 직접 제시될 수 있다는 것입니다. 예를 들어 사용자는 실제로 영어로 문장을 제공하고 무엇을 말해야 하는지를 알려줍니다. 중국어는.
논리적으로 말하면 "중간 작업"은 나타나서는 안되며, 존재하는 이유는 NLP 기술의 개발 수준이 부족함을 반영합니다. 기술 개발 초기에는 당시의 기술이 상대적으로 낙후되어 있었기 때문에 어려운 최종 작업을 한 번에 완료하는 것이 어려웠습니다. 예를 들어, 기술 초기에는 기계 번역을 잘하기가 매우 어려웠습니다. 따라서 연구자들은 어려운 문제를 나누어서 극복하고 이를 단어 분할, 부분 분할 등 다양한 중간 단계로 분해했습니다. -음성 태깅, 구문 분석 등 각 중간 단계를 먼저 완료하고 최종 미션을 완료하기 위해 함께 협력할 수 있는 방법은 없습니다.
하지만 Bert/GPT가 등장한 이후에는 실제로 이러한 중간 작업을 수행할 필요가 없습니다. 왜냐하면 Bert/GPT는 많은 양의 데이터를 사용한 사전 학습을 통해 이러한 중간 작업을 언어적 특성으로 매개 변수에 흡수했기 때문입니다. 이 시점에서는 이 중간 프로세스를 구체적으로 모델링하지 않고도 최종 작업을 처음부터 끝까지 직접 해결할 수 있습니다. 아마도 여기서 가장 논란이 되는 것은 중국어 단어 분할입니다. 사실 어떤 단어가 단어를 형성해야 할지 걱정할 필요는 없습니다. LLM이 기능으로 익히도록 하세요. 과제를 해결하기 위해 자연스럽게 학습하게 될 것입니다. 본 연구의 합리적인 단어 분할 방법은 우리 인간이 이해하는 단어 분할 규칙과 반드시 동일하지는 않습니다.
위의 이해를 바탕으로 실제로 Bert/GPT가 등장하자마자 이러한 유형의 NLP 중간 단계 작업은 점차 역사 단계에서 물러날 것이라는 결론을 내려야 합니다.
영향 2: 다양한 연구 방향의 기술 경로 통합
구체적인 영향을 설명하기 전에 먼저 NLP 작업을 분할하는 또 다른 방법에 대해 논의합니다. 이는 다음 내용을 이해하는 데 도움이 됩니다. "최종 작업"을 더 분류하면 크게 두 가지 유형의 작업, 즉 자연어 이해 작업과 자연어 생성 작업으로 나눌 수 있습니다. "중간작업"을 제외하면 대표적인 자연어 이해 작업에는 텍스트 분류, 문장 관계 판단, 감정 경향 판단 등이 포함된다. 이러한 작업은 본질적으로 분류 작업, 즉 한 문장(기사)을 입력하거나, A문장 두 개를 입력하고, 모델은 입력된 모든 콘텐츠를 참조하여 최종적으로 어떤 카테고리에 속하는지 판단합니다. 자연어 생성에는 채팅 로봇, 기계 번역, 텍스트 요약, 질문 및 답변 시스템 등과 같은 많은 NLP 연구 하위 방향도 포함됩니다. 생성 작업의 특징은 주어진 입력 텍스트에 따라 모델이 출력 텍스트 문자열을 생성해야 한다는 것입니다. 둘의 차이는 주로 입력과 출력 형태에 반영됩니다
Bert/GPT 모델이 탄생한 이후 기술적인 통일의 추세가 뚜렷해졌습니다. 우선, NLP의 다양한 하위 필드의 특징 추출기가 LSTM/CNN에서 Transformer로 점차 통합됩니다. 사실, Bert가 공개된 직후, 우리는 이것이 필연적으로 기술 트렌드가 될 것임을 깨달았어야 했습니다. 그 이유에 대해서는 제가 몇 년 전에 쓴 글 "장준린: 환상을 버리고 완전히 수용하기 트랜스포머: 자연어 처리를 위한 3대 특징 추출기(CNN/RNN/TF) 비교"에서 설명하고 분석했습니다. 관심있는 학생들은 참고하시면 됩니다.
기사 링크: https://zhuanlan.zhihu.com/p/54743941
Transformer는 NLP의 여러 분야를 통합할 뿐만 아니라 다양한 분야에서 널리 사용되는 이미지 처리 작업을 점차적으로 대체하고 있습니다. CNN과 같은 다른 모델을 사용하는 과정에서 현재 유사한 다중 모드 모델은 기본적으로 Transformer 모델을 사용합니다. 이런 Transformer는 NLP에서 시작하여 점점 더 많은 AI 분야의 트렌드를 통합해 나가고 있으며, 2020년 말에 등장한 Vision Transformer(ViT)를 시작으로 지금까지 큰 성공을 거두고 있습니다. , 더 많은 분야로 계속 확장되고 있으며, 그 확장 속도는 점점 더 빨라질 것입니다.
둘째, 대부분의 NLP 하위 분야의 연구 개발 모델은 모델 사전 훈련 단계 + 애플리케이션 미세 조정(Fine-tuning) 또는 애플리케이션 Zero/Few Shot Prompt 모드의 2단계 모델로 전환되었습니다. 더 정확하게 말하면, 다양한 NLP 작업은 실제로 두 가지 사전 학습 모델 프레임워크로 수렴되었습니다. 자연어 이해 작업의 경우 기술 시스템이 "양방향 언어 모델 사전 학습 + 애플리케이션 미세 조정"으로 통합되었습니다. by Bert." 모드; 자연어 생성 작업을 위해 기술 시스템은 GPT 2.0으로 대표되는 "자동 회귀 언어 모델(즉, 왼쪽에서 오른쪽으로 단방향 언어 모델) + Zero/Few Shot Prompt" 모드로 통합됩니다. 왜 두 가지 기술적 경로로 나뉘는가에 대해서는 나중에 설명하겠습니다.
이 두 모델은 비슷해 보이지만 매우 다른 개발 아이디어를 담고 있으며 향후 개발 방향도 달라집니다. 불행하게도 우리 대부분은 당시 개발 경로로서 GPT의 잠재력을 과소평가했고 Bert와 같은 모델에 비전을 집중했습니다.
패러다임 전환 2.0: 사전 훈련된 모델에서 인공 일반 지능(AGI, Artificial General Intelligence)으로
이 패러다임 전환이 적용되는 시간 범위는 대략 GPT3.0 출현 이후입니다( 20년 6월경), 지금까지 우리는 이러한 패러다임 전환의 한가운데에 있어야 합니다.
ChatGPT는 이러한 패러다임 전환을 촉발하는 핵심 노드이지만 InstructGPT가 등장하기 전에 LLM은 실제로 이러한 패러다임 전환 이전에 전환기에 있었습니다.
전환기: GPT 3.0으로 대표되는 "autoregressive 언어 모델 + Prompting" 모델이 지배적 위치를 점유
앞서 언급한 것처럼 사전 학습 모델 개발 초기에는 기술적 프레임워크가 Bert 모델과 GPT 모델 이들은 서로 다른 두 가지 기술 패러다임이며 사람들은 일반적으로 Bert 모델에 대해 더 낙관적입니다. Bert의 경로에는 상당한 후속 기술 개선이 있습니다. 그러나 기술이 계속 발전함에 따라 현재 가장 큰 LLM 모델은 거의 모두 GPT 3, PaLM, GLaM, Gopher, Chinchilla, MT와 같이 GPT 3.0과 유사한 "자동 회귀 언어 모델 + 프롬프트" 모델을 기반으로 한다는 것을 알게 될 것입니다. -NLG, LaMDA 등도 예외는 없습니다. 왜 그럴까요? 그 이면에는 필연적인 이유가 있을 것입니다. 그 이유는 주로 두 가지 때문일 것입니다.
우선, Google의 T5 모델은 자연어 이해와 자연어 생성 작업의 외부 표현을 공식적으로 통합합니다. 위 그림에서 볼 수 있듯이 빨간색으로 표시된 것은 텍스트 분류 문제이고, 노란색으로 표시된 것은 문장의 유사성을 판단하는 회귀 또는 분류 문제입니다. 이는 전형적인 자연어 이해 문제입니다. T5 모델에서는 이러한 자연어 이해 문제가 입력과 출력 형태의 생성 문제와 일치한다. 즉, 분류 문제를 LLM 모델로 변환하여 해당 카테고리의 문자열을 생성할 수 있으므로 이해와 문제 해결이 가능하다. 세대 과제는 완전한 통일이 달성되는 형태로 표현됩니다.
이는 표현 측면에서 자연어 생성 작업이 자연어 이해 작업과 양립할 수 있음을 보여줍니다. 그 반대라면 이를 달성하기 어려울 것입니다. 이것의 장점은 동일한 LLM 생성 모델이 거의 모든 NLP 문제를 해결할 수 있다는 것입니다. Bert 모드가 여전히 채택된다면 이 LLM 모델은 생성 작업을 잘 처리할 수 없습니다. 그렇다면 우리가 확실히 생성 모델을 사용하는 경향이 있는 한 가지 이유가 있습니다.
두 번째 이유는 제로 샷 프롬프트 또는 소수 샷 프롬프트로 좋은 작업을 수행하려면 GPT 모드를 채택해야 합니다. 다운스트림 작업이 미세 조정 방식으로 해결되면 Bert 모드가 제로 샷/몇 샷 프롬프트인 경우 GPT 모드보다 낫다는 것을 입증한 연구(참조: 언어 모델 사전 훈련에서 양방향성의 역할에 대해)가 있습니다. 이 모드가 다운스트림 작업을 해결하는 경우 Bert 모드보다 GPT 모드의 효과가 더 좋습니다. 이는 생성된 모델이 Zero Shot/Few Shot 프롬프트 모드에서 작업을 수행하는 것이 더 쉽고 Bert 모드는 이러한 방식으로 작업을 수행하는 데 자연스러운 단점이 있음을 보여줍니다. 이것이 두 번째 이유입니다.
하지만 질문이 생깁니다. 왜 우리는 작업을 수행하도록 유도하는 제로 샷/몇 샷을 추구합니까? 이 문제를 명확하게 설명하려면 먼저 다른 질문을 명확히 해야 합니다. 어떤 종류의 LLM 모델이 우리에게 가장 이상적인가?
위 그림은 이상적인 LLM의 모습을 보여줍니다. 첫째, LLM은 강력한 자율 학습 능력을 갖추어야 합니다. 우리가 세상에 존재하는 텍스트나 그림과 같은 다양한 유형의 데이터를 제공한다고 가정하면, 학습 과정에는 인간의 개입이 필요하지 않고 모든 지식 포인트를 자동으로 학습할 수 있어야 합니다. 배운 지식을 유연하게 적용하여 실제 문제를 해결합니다. 데이터가 방대하기 때문에 모든 지식을 흡수하려면 지식을 저장하기 위한 많은 모델 매개변수가 필요하므로 이 모델은 필연적으로 거대한 모델이 될 것입니다.
둘째, LLM은 제한된 분야만 지원하는 것이 아니라 NLP의 모든 하위 분야의 문제를 해결할 수 있어야 하며, NLP 이외의 다른 분야의 문제에도 대응할 수 있어야 합니다. 글쎄요. .
더 나아가 특정 분야의 문제를 해결하기 위해 LLM을 사용할 때는 인간으로서 익숙한 표현을 사용해야 합니다. 즉, LLM은 인간의 명령을 이해해야 합니다. 이는 LLM이 사람들에게 적응하도록 하는 것이 아니라 사람들이 LLM 모델에 적응하도록 하는 것을 반영합니다. LLM에 적응하는 사람들의 전형적인 예는 당면한 문제를 가장 잘 해결할 수 있는 좋은 프롬프트를 찾기 위해 다양한 프롬프트를 시도하기 위해 머리를 쓰는 것입니다. 이 점과 관련하여 위 그림은 사람들이 LLM 모델을 사용하는 데 좋은 인터페이스 형식이 무엇인지 설명하기 위해 인간이 LLM과 상호 작용하는 인터페이스 계층의 몇 가지 예를 제공합니다.
이 이상적인 LLM을 읽은 후 다시 위의 나머지 질문을 설명하겠습니다. 작업 완료를 위해 제로 샷/퓨 샷 프롬프트를 추구해야 하는 이유는 무엇입니까? 두 가지 이유가 있습니다.
먼저, 이 LLM 모델의 규모가 매우 커야 하며, 이 모델을 만들거나 이 모델의 매개변수를 변경할 수 있는 기관이 거의 없을 것입니다. 작업 요구자는 수천 개의 중소 규모 조직이거나 심지어 개인입니다. 모델을 오픈 소스로 제공하더라도 미세 조정 모드를 사용하여 모델 매개변수를 수정하는 것은 물론이고 모델을 배포할 수도 없습니다. 따라서 작업 요구자가 모델 매개변수를 수정하지 않고 작업을 완료할 수 있도록 하는 방법, 즉 Fine-tuning 모드 대신 프롬프트 모드를 사용하여 작업을 완료할 수 있는 방법을 추구해야 합니다(이로부터 알 수 있습니다). 소프트 프롬프트의 기술적 방향은 이러한 개발 추세에 어긋납니다. 모델 제작자는 LLM을 공용 서비스로 전환하고 LLM을 서비스 모드로 실행합니다. 서비스 지원자로서 끊임없이 변화하는 사용자 요구를 고려하여 LLM 모델 제작자는 LLM이 가능한 한 많은 유형의 작업을 완료할 수 있도록 하는 목표를 추구해야 합니다. 이는 부작용이며 슈퍼가 필요한 현실적인 요소이기도 합니다. 대형 모델은 확실히 AGI를 추구할 것입니다.
두 번째, LLM 추론 능력을 촉진하는 것이 제로 샷 프롬프트, 소수 샷 프롬프트, 심지어 연쇄 사고(CoT, Chain of Thought) 프롬프트인지 여부는 위 그림의 기존 인터페이스 레이어입니다. 기술 . 구체적으로 말하면, 제로샷 프롬프팅의 원래 의도는 실제로 인간과 LLM 사이의 이상적인 인터페이스입니다. 인간이 익숙하게 사용하는 작업 표현 방법을 직접 사용하여 LLM이 작업을 수행하도록 하는 것이 LLM이 이를 잘 이해하지 못하는 것으로 나타났습니다. 효과가 좋지 않았어요. 지속적인 연구 끝에 우리는 특정 작업에 대해 LLM에 몇 가지 예를 제공하고 이러한 예를 사용하여 작업 설명을 표현하면 제로 샷 프롬프트보다 효과가 더 좋을 것이라는 사실을 발견했습니다. 따라서 모두가 더 나은 소수 샷 프롬프트 기술을 연구하고 있습니다. 원래 우리는 LLM이 인간이 일반적으로 사용하는 명령을 사용하여 특정 작업을 수행할 수 있기를 바랐지만 현재 기술로는 그렇게 할 수 없기 때문에 차선책을 선택하고 이러한 대체 기술을 사용하여 인간 작업을 표현했다고 이해할 수 있습니다. 요구 사항.
위의 논리를 이해하면 다음과 같은 결론을 내리기 쉽습니다. 몇 번의 샷 프롬프트(In Context Learning이라고도 함)는 단지 과도기적 기술일 뿐입니다. 작업을 보다 자연스럽게 설명할 수 있고 LLM이 이를 이해할 수 있다면 주저 없이 이러한 전환 기술을 포기할 것입니다. 작업 요구 사항을 설명하기 위해 이러한 방법을 사용하는 것은 인간의 습관과 일치하지 않기 때문입니다.
이것이 제가 GPT 3.0+Prompting을 과도기 기술로 나열한 이유이기도 합니다. ChatGPT의 출현으로 이러한 현상이 바뀌고 Prompting이 Instruct로 대체되어 새로운 기술 패러다임 전환을 가져오고 여러 후속 제품이 탄생했습니다. 영향.
영향 1: 사람들을 위한 새로운 대화형 인터페이스에 LLM 적용
이상적인 LLM의 맥락에서 ChatGPT의 기술적 기여를 더 잘 이해해 보겠습니다. ChatGPT는 기존의 모든 기술 중에서 이상적인 LLM에 가장 가까운 기술적 방법이어야 합니다. ChatGPT의 가장 뛰어난 기능을 요약한다면 "강력하고 배려심이 깊습니다"라는 여덟 단어를 사용하겠습니다.
"강력한 기능" 저는 이것이 주로 ChatGPT의 기반이 되는 LLM GPT3.5 기반에 기인한다고 믿습니다. ChatGPT가 수동으로 라벨링된 데이터를 추가했지만 GPT 3.5 모델을 훈련하는 데 사용된 수천억 개의 토큰 수준 데이터에 비해 이 양의 데이터에는 세계 지식(데이터에 포함된 사실)이 포함되어 있지 않습니다. 데이터) 및 상식)은 거의 무시할 수 있는 바다의 물방울로 설명될 수 있으며 기본적으로 GPT 3.5의 기본 기능을 향상시키는 데 아무런 역할을 하지 않습니다. 따라서 강력한 기능은 주로 그 뒤에 숨겨진 GPT 3.5에서 나와야 합니다. GPT 3.5는 이상적인 LLM 모델 중 거대 모델을 벤치마킹합니다.
그렇다면 ChatGPT는 GPT 3.5 모델에 새로운 지식을 주입하는 걸까요? 이 지식은 수동으로 라벨링된 수만 개의 데이터에 포함되어 있지만 주입되는 것은 세계 지식이 아니라 인간의 선호 지식입니다. 소위 '인간 선호'에는 여러 가지 의미가 있습니다. 첫째, 인간이 작업을 표현하는 관습적인 방식입니다. 예를 들어, 사람들은 "기계 번역"의 필요성을 표현하기 위해 "다음 문장을 중국어에서 영어로 번역하세요"라고 말하는 데 익숙합니다. 그러나 LLM은 인간이 아니므로 이 문장이 무엇을 의미하는지 어떻게 이해할 수 있습니까? LLM이 이 명령의 의미를 이해하고 올바르게 실행할 수 있도록 하는 방법을 찾아야 합니다. 따라서 ChatGPT는 데이터의 수동 주석을 통해 이러한 종류의 지식을 GPT 3.5에 주입하여 LLM이 인간 명령을 더 쉽게 이해할 수 있도록 합니다. 이것이 바로 "공감"의 핵심입니다. 둘째, 무엇이 좋은 답이고 무엇이 나쁜 답인지에 대한 기준은 인간마다 다릅니다. 이것이 답변의 질에 대한 인간의 선호입니다. 사람들이 보상 모델을 통해 LLM에 피드백하는 데이터에는 이러한 정보가 포함되어 있습니다. 전반적으로 ChatGPT는 인간의 선호도 지식을 GPT 3.5에 주입하여 인간의 말을 이해하고 더 정중한 LLM을 얻습니다.
ChatGPT의 가장 큰 공헌은 기본적으로 이상적인 LLM의 인터페이스 계층을 실현하여 LLM이 사람들의 습관적인 명령 표현에 적응할 수 있도록 한다는 점이며, 반대로 사람들이 LLM에 적응하고 머리를 쓰게 만드는 것이 아닙니다. 작동할 수 있는 명령을 생성하면(지시 기술이 나오기 전에 프롬프트 기술이 수행했던 작업) LLM의 사용 편의성과 사용자 경험이 향상됩니다. 이 문제를 처음으로 깨닫고 좋은 해결책을 제시한 것은 InstructGPT/ChatGPT였으며, 이는 가장 큰 기술적 공헌이기도 합니다. 이전의 몇 번의 샷 프롬프트와 비교하여 사람들이 LLM과 상호 작용할 수 있는 인간의 표현 습관에 더 부합하는 인간-컴퓨터 인터페이스 기술입니다.
그리고 이는 확실히 후속 LLM 모델에 영감을 줄 것이며 LLM을 더욱 순종적으로 만들기 위해 사용하기 쉬운 인간-기계 인터페이스에 대한 추가 작업을 계속할 것입니다.
영향 2: 많은 NLP 하위 분야가 더 이상 독립적인 연구 가치를 갖지 않습니다
NLP 분야에 관한 한 이러한 패러다임 전환은 현재 독립적으로 존재하는 많은 NLP 연구 분야가 포함된다는 것을 의미합니다. LLM의 기술 시스템은 더 이상 독립적으로 존재하지 않으며 점차 사라집니다. 첫 번째 패러다임 전환 이후에는 NLP의 많은 "중간 작업"이 더 이상 독립적인 연구 분야로 계속 존재할 필요가 없지만 대부분의 "최종 작업"은 여전히 독립적인 연구 분야로 존재하지만 "사전 훈련"으로 전환됩니다. . + 미세 조정” 프레임워크는 현장 고유의 문제에 직면하여 새로운 개선 계획이 차례로 제안되었습니다.
현재 연구에 따르면 많은 NLP 작업의 경우 LLM 모델의 크기가 커질수록 성능이 크게 향상됩니다. 이를 바탕으로 다음과 같은 추론을 할 수 있다고 생각합니다. 특정 분야에서 소위 "특이한" 문제의 대부분은 도메인 지식이 충분하지 않은 한 단지 겉모습일 가능성이 높습니다. , 소위 해당 분야 고유의 문제는 매우 잘 해결될 수 있습니다. 실제로 특정 분야 문제에 집중하고 특별한 솔루션을 찾기 위해 열심히 노력할 필요는 없습니다. 아마도 AGI에 대한 진실은 놀라울 정도로 간단할 것입니다. LLM에 현장에서 더 많은 데이터를 제공하고 LLM이 스스로 더 많은 것을 배우도록 하면 됩니다.
이러한 맥락에서 ChatGPT는 이제 이상적인 LLM 모델을 직접 추구할 수 있음을 입증합니다. 그렇다면 미래 기술 개발 추세는 사전 학습 데이터 수를 늘려 점점 더 큰 LLM 모델을 추구하는 것입니다. 점점 더 많은 분야를 다루기 위해 LLM은 사전 학습 과정을 통해 도메인 데이터로부터 도메인 지식을 자율적으로 학습하며, 모델의 크기가 계속 커지면서 많은 문제가 해결됩니다. 연구의 초점은 특정 분야의 특정 문제를 해결하기보다는 이상적인 LLM 모델을 구축하는 방법에 있습니다. 이러한 방식으로 점점 더 많은 NLP 하위 필드가 LLM 기술 시스템에 포함되고 점차 사라질 것입니다.
특정 분야에 대한 독립적인 연구를 즉시 중단해야 하는지 판단하기 위한 판단 기준은 다음 두 가지 방법 중 하나가 될 수 있다고 생각합니다. 첫째, 특정 작업에 대한 LLM의 연구 효과가 인간의 연구 효과를 초과하는지 여부를 판단합니다. 성과, LLM의 효과가 인간의 효과를 초과하는 연구 분야의 경우 독립적인 연구가 필요하지 않습니다. 예를 들어, GLUE 및 SuperGLUE 테스트 세트의 많은 작업에서 LLM 효과는 현재 인간의 성능을 능가합니다. 실제로 이 데이터 세트와 밀접하게 관련된 연구 분야가 독립적으로 계속 존재할 필요는 없습니다. 둘째, 두 가지 모드의 작업 효과를 비교합니다. 첫 번째 모드는 더 큰 도메인별 데이터를 사용하여 미세 조정하고 두 번째 모드는 몇 번의 프롬프트 또는 지시 기반 방법입니다. 두 번째 방법의 효과가 첫 번째 방법의 효과에 도달하거나 초과하는 경우 해당 분야가 독립적으로 계속 존재할 필요가 없음을 의미합니다. 실제로 이 표준을 사용하면 많은 연구 분야에서 미세 조정의 효과가 여전히 지배적이며(이 모드 분야의 훈련 데이터가 많기 때문에) 독립적으로 존재할 수도 있을 것으로 보입니다. 그러나 모델 크기가 커짐에 따라 많은 작업에 대해 소수의 샷 프롬프트 효과가 계속 커지는 것을 고려하면 더 큰 모델이 등장하면서 이러한 변곡점에 단기적으로 도달할 가능성이 높습니다.
위의 추측이 사실이라면 다음과 같은 잔인한 사실을 의미하게 됩니다. NLP 분야의 많은 연구자들은 해당 분야 고유의 문제를 계속해서 연구해야 할지 선택해야 하는 상황에 직면하게 됩니다. ? 아니면 겉보기에는 전망이 좋지 않은 접근 방식을 버리고 대신 더 나은 LLM을 구축해야 할까요? LLM 구축을 선택한다면 어떤 기관이 이를 수행할 수 있는 능력과 조건을 갖추고 있습니까? 이 질문에 대한 당신의 대답은 무엇입니까?
영향 3: LLM 기술 시스템에 NLP 이외의 더 많은 연구 분야가 포함됩니다
AGI의 관점에서 앞서 설명한 이상적인 LLM 모델을 참고하면 AGI가 수행할 수 있는 작업은 다음과 같습니다. NLP 분야나 한두 가지 주제 영역에 국한되어야 합니다. 이상적인 LLM은 도메인 독립적인 일반 인공지능 모델이어야 하지만, 그렇다고 해서 그것이 가능하다는 의미는 아닙니다. 이 작업만 수행하세요. ChatGPT의 출현은 이 시대에 AGI를 추구하는 것이 가능하다는 것을 증명했으며, 이제는 "현장 규율" 사고의 족쇄를 제쳐두어야 할 때입니다.
ChatGPT는 유창한 대화 형식으로 다양한 NLP 작업을 해결하는 능력을 보여줄 뿐만 아니라 강력한 코딩 기능도 갖추고 있습니다. 점점 더 많은 연구 분야가 LLM 시스템에 포함되어 일반 인공 지능의 일부가 되는 것은 당연합니다.
LLM은 NLP에서 영역을 확장하여 자연스러운 선택이 이미지 처리 및 멀티모달 관련 작업입니다. 다중 모드를 통합하고 LLM을 다중 모드 입력 및 출력을 지원하는 보편적인 인간-기계 인터페이스로 만들려는 노력이 이미 있습니다. 일반적인 예로는 위에 표시된 DeepMind의 Flamingo 및 Microsoft의 "언어 모델은 범용 인터페이스입니다"가 있습니다. 시연된다.
내 판단으로는 이미지이든 다중 양식이든 향후 LLM에 통합되어 유용한 기능이 되기까지는 우리가 생각하는 것보다 느릴 수 있습니다. 주된 이유는 이미지 분야가 지난 2년 동안 Bert의 사전 학습 접근 방식을 모방해 왔지만, 이미지 데이터로부터 독립적으로 지식을 학습하는 모델의 능력을 공개하기 위해 자기 지도 학습을 도입하려고 하기 때문입니다. 학습"과 MAE. 이것은 두 가지 다른 기술 경로입니다. 그러나 현재의 결과로 볼 때, 엄청난 기술 발전에도 불구하고 이 길은 아직 완성되지 않은 것으로 보입니다. 이는 이미지 분야의 사전 훈련된 모델을 다운스트림 작업에 적용하는 데 반영되어 Bert보다 훨씬 적은 이점을 가져옵니다. 또는 GPT는 NLP 다운스트림 작업에 크게 적용됩니다. 따라서 이미지 데이터의 잠재력을 활용하려면 이미지 전처리 모델을 계속 깊이 탐구해야 하며 이로 인해 LLM 대형 모델로의 통합이 지연됩니다. 물론, 언젠가 이 길이 열리면 NLP 분야의 현재 상황이 반복될 가능성이 높다. 즉, 영상처리의 다양한 연구 하위분야가 점차 사라지고 대규모 LLM으로 통합되어 터미널 작업을 직접 완료합니다.
이미지 및 다중 양식 외에도 다른 분야도 점차 이상적인 LLM에 포함될 것이 분명합니다. 이 방향은 상승세에 있으며 가치가 높은 연구 주제입니다.
이상은 패러다임 전환에 대한 개인적인 생각입니다. 다음으로 GPT 3.0 이후 LLM 모델의 주류 기술 발전을 정리하겠습니다. 이상적인 LLM 모델에서 볼 수 있듯이 관련 기술은 실제로 두 가지 주요 범주로 나눌 수 있습니다. 하나는 LLM 모델이 데이터에서 지식을 흡수하는 방법에 관한 것이고 모델 크기의 증가가 LLM의 흡수 능력에 미치는 영향도 포함됩니다. 두 번째 범주는 상황별 학습 및 교육 모드를 포함하여 사람들이 LLM의 고유 기능을 사용하여 작업을 해결하는 방법에 대한 인간-컴퓨터 인터페이스입니다. LLM 추론 기술인 CoT(Chain of Thought) 프롬프트는 본질적으로 In Context Learning에 속합니다. 더 중요하기 때문에 별도로 설명하겠습니다. 학습자: 끝없는 데이터에서 방대한 지식까지
현재 연구 결과에 따르면 Transformer는 충분히 강력한 기능 추출기이며 특별한 개선이 필요하지 않습니다. 그렇다면 Transformer는 사전 학습 과정을 통해 무엇을 배웠을까요? 지식은 어떻게 접근되는가? 잘못된 지식은 어떻게 바로잡나요? 이 섹션에서는 이 분야의 연구 진행 상황을 설명합니다.
지식의 길: LLM은 어떤 지식을 배웠나요
LLM은 방대한 무료 텍스트를 통해 많은 지식을 배웠습니다. 이 지식을 대략적으로 분류하면언어 지식과 세계 지식으로 나눌 수 있습니다. 두 가지 주요 카테고리.
언어 지식은 인간이나 기계가 자연어를 이해하는 데 도움이 되는 어휘, 품사, 구문, 의미 및 기타 지식을 말합니다. LLM이 언어 지식을 포착할 수 있는지에 대한 연구는 오랜 역사를 갖고 있으며, Bert가 등장한 이래로 관련 연구가 계속되어 왔으며, LLM이 다양한 수준의 언어 지식을 학습할 수 있다는 사실이 매우 일찍부터 여러 가지 실험을 통해 충분히 입증되었습니다. 모델을 사전 훈련한 후 가장 중요한 이유 중 하나는 다양한 언어 이해 자연어 작업이 상당한 성능 향상을 달성했다는 것입니다. 또한 형태론, 품사, 구문 및 기타 지식과 같은 얕은 언어 지식은 Transformer의 저수준 및 중간 수준 구조에 저장되는 반면, 의미 지식과 같은 추상적인 언어 지식은 널리 분산되어 있음이 다양한 연구에서도 입증되었습니다. Transformer의 중간 수준 및 상위 수준 구조에 있습니다.
세계 지식은 이 세상에서 일어나는 실제 사건(사실 지식)과 상식 지식(상식 지식)을 의미합니다. 예를 들어, "바이든은 현 미국 대통령이다", "바이든은 미국인이다", "젤렌스키 우크라이나 대통령이 바이든 미국 대통령을 만났다" 등은 바이든과 관련된 사실적 지식이고, "사람은 두 눈을 갖고 있다" 등의 내용이다. 해는 동쪽에서 뜬다'라는 말은 상식이다. LLM 모델이 세계 지식을 학습할 수 있는지에 대한 많은 연구가 있으며 결론은 비교적 일관적입니다. LLM은 훈련 데이터에서 많은 양의 세계 지식을 흡수하며 이러한 종류의 지식은 주로 중간 및 상위 계층에 분산됩니다. Transformer는 특히 중간층에 집중되어 있습니다. 또한, Transformer 모델의 깊이가 증가할수록 학습할 수 있는 지식의 양은 기하급수적으로 증가합니다(참조: BERTnesia: Investigating the Capture and Forgeting of Knowledge in BERT). 사실 LLM을 모델 매개변수에 반영된 암묵적 지식 그래프로 간주하시는데요, 이렇게 이해하시면 전혀 문제가 없다고 생각합니다. "언제 수십억 단어의 사전 훈련 데이터가 필요합니까?" 이 기사는 사전 훈련 모델에서 학습한 지식의 양과 훈련 데이터의 양 사이의 관계를 연구합니다. 모델을 사용하면 천만~1억 단어의 말뭉치만으로도 구문, 의미 등의 언어 지식을 잘 배울 수 있지만 사실 지식을 학습하려면 더 많은 학습 데이터가 필요합니다. 결국 이러한 결론은 예상된 것입니다. 언어 지식은 상대적으로 제한적이고 정적인 반면, 사실 지식은 거대하고 끊임없이 변화하는 과정에 있습니다. 현재 연구에 따르면 훈련 데이터의 양이 증가할수록 사전 훈련된 모델이 다양한 다운스트림 작업에서 더 나은 성능을 발휘하는 것으로 나타났습니다. 이는 증분 훈련 데이터에서 학습된 내용이 주로 세계 지식임을 보여줍니다. 메모리 장소: LLM이 지식을 저장하고 검색하는 방법 위에서 볼 수 있듯이 LLM은 실제로 데이터에서 많은 언어 및 세계 지식을 학습했습니다. 그렇다면 LLM은 특정 지식에 대해 어디에 저장하나요? 어떻게 추출되나요? 이것도 흥미로운 질문입니다. 분명히 해당 지식은 Transformer의 모델 매개변수에 저장되어야 합니다. Transformer의 구조를 보면 모델 매개변수는 두 부분으로 구성됩니다. MHA(Multi-Head Attention) 부분은 전체 매개변수의 약 1/3을 차지하고 매개변수의 2/3는 FFN 구조에 집중되어 있습니다. MHA는 주로 단어나 지식 사이의 상관 강도를 계산하고 전체 정보를 통합하는 데 사용됩니다. 특정 지식 포인트가 저장되지 않을 확률이 높기 때문에 추론이 쉽습니다. LLM 모델의 지식 본문은 Transformer의 FFN 구조에 저장됩니다. 그러나 이 포지셔닝의 세분화는 여전히 너무 조악하고 특정 지식이 어떻게 저장되고 검색되는지에 대한 답변은 불가능합니다. 예를 들어 "중국의 수도는 베이징입니다." 지식 조각은 로 표현됩니다. 여기서 "is-capital-of"는 엔터티 간의 관계를 나타냅니다. 이 지식은 LLM의 어디에 저장되어 있나요? "Transformer Feed-Forward Layers Are Key-Value Memory"는 Transformer의 FFN을 대량의 특정 지식을 저장하는 키-값 메모리로 간주하는 비교적 새로운 관점을 제공합니다. 위 그림에서 볼 수 있듯이(그림의 왼쪽은 원본 종이 그림으로 실제로 이해하기 쉽지 않습니다. 더 나은 이해를 위해 주석이 달린 오른쪽 그림을 보면 됩니다.) FFN의 첫 번째 레이어는 MLP 와이드입니다. 키 계층인 숨겨진 계층 두 번째 계층은 MLP의 좁은 숨겨진 계층이며 값 계층입니다. FFN의 입력 레이어는 실제로 특정 단어에 해당하는 MHA의 출력 Embedding으로, 전체 입력 문장의 전체 정보를 나타내는 Self Attention을 통해 전체 문장과 관련된 입력 컨텍스트를 통합하는 Embedding입니다. 키 레이어의 각 뉴런 노드는 한 쌍의 정보를 기록합니다. 예를 들어 위 그림에서 FFN의 첫 번째 히든 레이어에 있는 번째 노드 의 경우 지식 을 기록할 수도 있습니다. 노드에 해당하는 키 벡터는 실제로 노드 와 입력 레이어의 각 노드의 가중치 벡터를 참조하고, 해당 값 벡터는 노드 와 두 번째 값 레이어의 각 노드 사이의 연결을 참조합니다. FFN 가중치 벡터의 레이어입니다. 각 뉴런의 키 벡터는 입력에서 특정 언어 또는 지식 패턴을 식별하는 데 사용됩니다. 입력에 감지하려는 특정 패턴이 포함되어 있으면 입력 벡터와 노드 의 키 가중치가 벡터 내적으로 계산되고 Relu가 추가되어 라는 큰 수치 응답을 형성합니다. 이는 이 이 패턴을 감지하면 이 응답 값은 노드의 값 가중치 벡터를 통해 FFN의 두 번째 계층으로 전파됩니다. 이는 Value 벡터의 값에 응답값을 부여한 후 두 번째 Value 레이어의 각 노드 출력에 전달하고 반영하는 것과 같습니다. 이렇게 FFN의 순전파 계산 과정은 Key를 통해 특정 지식 패턴을 감지한 후 해당 Value를 꺼내어 FFN의 두 번째 레이어 출력에 반영하는 것처럼 보입니다. 물론 FFN의 두 번째 계층에 있는 각 노드는 FFN의 Key 계층에 있는 모든 노드 정보를 수집하게 되므로 혼합 응답이고 Value 계층에 있는 모든 노드의 혼합 응답은 다음을 나타내는 확률 분포 정보로 해석될 수 있습니다. 출력 단어. 아직 복잡하게 들릴 수도 있으니 극단적인 예를 들어 설명하겠습니다. 위 그림의 노드 는 이 지식을 기록하는 Key-Value 메모리라고 가정합니다. 해당 Key 벡터는 "중국의 수도는..." 지식 모델을 탐지하는 데 사용되며 해당 Value 벡터는 기본적으로 저장됩니다. "Beijing"과 같은 단어입니다.” Embedding은 상대적으로 가까운 벡터입니다. Transformer의 입력이 "중국의 수도는 [마스크]"인 경우 노드는 입력 레이어에서 이 지식 패턴을 감지하여 더 큰 응답 출력을 생성합니다. Key 레이어의 다른 뉴런은 이 입력에 대한 응답이 없다고 가정하고 Value 레이어의 해당 노드는 실제로 "Beijing"의 값에 해당하는 단어 임베딩만 수신하고 큰 응답 값을 통해 추가 처리를 수행합니다. 수치 증폭. 따라서 Mask 위치에 해당하는 출력은 자연스럽게 "Beijing"이라는 단어를 출력하게 됩니다. 기본적으로 이 과정은 복잡해 보이지만 실제로는 매우 간단합니다. 그리고 이 기사에서는 하위 수준 Transformer가 문장의 표면 패턴에 반응하고, 상위 수준 Transformer가 의미 패턴에 반응한다는 점, 즉 하위 수준 FFN은 이러한 표면 지식을 저장한다는 점도 지적했습니다. 어휘와 구문, 중간 및 상위 계층은 의미론적 및 사실적 개념 지식을 저장하므로 이는 다른 연구 결론과 일치합니다. FFN을 Key-Value 메모리로 취급하는 것이 아마도 최종 정답은 아니지만 아마도 최종 정답과 크게 멀지는 않을 것이라고 추측합니다. 지식 수정 유체: LLM 에 저장된 지식을 수정하는 방법 세계 지식의 특정 부분이 하나 또는 일부 FFN 노드의 매개변수에 저장되어 있다는 것을 알고 있으므로 자연스럽게 또 다른 질문이 발생합니다. LLM 모델에 저장된 오류나 오래된 지식을 수정할 수 있나요? 예를 들어, "현재 영국 총리는 누구입니까?"라는 질문과 관련하여 최근 몇 년 동안 영국 총리가 자주 바뀌었다는 점을 고려할 때 LLM이 "Boris" 또는 "Sunak"을 수출하는 경향이 더 크다고 생각하십니까? 분명히 훈련 데이터에는 "Boris"가 포함된 데이터가 더 많이 있을 것입니다. 이 경우 LLM이 잘못된 답을 줄 가능성이 매우 높으므로 LLM에 저장된 오래된 지식을 수정해야 합니다. 요약하면 현재 LLM에 포함된 지식을 수정하는 세 가지 방법이 있습니다. 첫 번째 유형의 방법은 교육 데이터 소스의 지식을 수정합니다. "언어 모델의 사실적 지식을 훈련 데이터로 추적하는 방법" 이 기사의 연구 목표는 특정 지식에 대해 LLM이 이 지식을 학습하게 만든 훈련 데이터를 찾을 수 있는가입니다. 대답은 '예'입니다. 이는 특정 지식에 해당하는 학습 데이터의 소스를 역추적할 수 있음을 의미합니다. 이 기술을 사용하면 특정 지식을 삭제한다고 가정하고 먼저 해당 데이터 소스를 찾고 데이터 소스를 삭제한 다음 전체 LLM 모델을 다시 사전 학습할 수 있습니다. 이러한 방식으로 목적을 달성할 수 있습니다. LLM에서 관련 지식을 삭제하는 것입니다. 하지만 여기에 문제가 있습니다. 지식의 작은 부분을 수정하면 모델을 다시 훈련해야 하는데 이는 분명히 비용이 너무 많이 듭니다. 따라서 이 방법은 특정 범주의 데이터를 일회성으로 삭제하는 데 더 적합할 수 있습니다. 예를 들어 소수의 일반적인 지식 수정 시나리오에는 적합하지 않을 수 있습니다. 편견을 제거하는 데 더 적합합니다. 독성 콘텐츠가 제거될 때까지 기다리십시오. 두 번째 유형의 방법은 LLM 모델을 미세 조정하여 지식을 수정하는 것입니다. 생각할 수 있는 직관적인 방법은 수정될 새로운 지식을 기반으로 교육 데이터를 구성한 다음 LLM 모델이 이 교육 데이터에 대해 미세 조정하도록 하여 LLM이 새로운 지식을 기억하고 잊어버리도록 안내하는 것입니다. 오래된 지식. 이 방법은 간단하고 직관적이지만, 우선 몇 가지 문제점을 안고 있다. 즉, 잊어버려야 할 지식뿐 아니라 잊어서는 안 될 지식도 잊어버리는 문제가 발생한다. 잊어버리게 되어 일부 후속 작업의 효율성이 저하됩니다. 또한, 현재 LLM 모델은 매우 크기 때문에 미세 조정을 자주 수행하더라도 비용이 실제로 상당히 높습니다. 이 방법에 관심이 있는 사람은 "변압기 모델의 메모리 수정"을 참조할 수 있습니다. 또 다른 유형의 방법은 LLM에서 특정 지식에 해당하는 모델 매개변수를 직접 수정하여 지식을 수정하는 것입니다. 오래된 지식 을 으로 수정하고 싶다고 가정해 보겠습니다. 먼저, LLM 모델 매개변수에 기존 지식을 저장하는 FFN 노드를 찾는 방법을 찾은 다음 FFN에서 해당 모델 매개변수를 강제로 조정 및 변경하여 기존 지식을 새로운 지식으로 대체할 수 있습니다. 이 방법에는 두 가지 핵심 기술이 포함되어 있음을 알 수 있습니다. 첫째, LLM 매개변수 공간에서 특정 지식의 특정 저장 위치를 찾는 방법, 둘째, 기존 지식을 새로운 지식으로 수정하기 위해 모델 매개변수를 수정하는 방법입니다. 지식. 이러한 유형의 기술에 대한 자세한 내용은 "GPT에서 사실 연관성 찾기 및 편집" 및 "변환기에서 메모리 대량 편집"을 참조하세요. LLM 지식을 수정하는 이러한 과정을 이해하는 것은 실제로 LLM의 내부 작동 메커니즘을 더 깊이 이해하는 데 매우 도움이 됩니다. 최근 몇 년 동안 LLM 모델의 규모가 급속도로 성장하고 있으며 현재 가장 성능이 좋은 LLM 모델의 대부분은 매개 변수 크기가 1,000억(100B)을 초과한다는 것을 알고 있습니다. ) 매개변수. 예를 들어 OpenAI의 GPT 3 크기는 175B, Google의 LaMDA 크기는 137B, PaLM 크기는 540B, DeepMind의 Gogher 크기는 280B 등입니다. 중국에는 130B 규모의 Zhiyuan GLM, 200B 규모의 Huawei "Pangu", 260B 규모의 Baidu "Wenxin", 245B 규모의 Inspur "Yuan 1.0"과 같은 중국 거대 모델도 있습니다. . 따라서 자연스러운 질문은 LLM 모델의 규모가 계속 커지면 어떻게 될까요? 사전 훈련된 모델의 적용은 종종 사전 훈련 단계와 특정 시나리오 적용 단계의 두 단계로 나누어집니다. 사전 훈련 단계에서 최적화 목표는 교차 엔트로피입니다. GPT와 같은 자동 회귀 언어 모델의 경우 LLM이 다음 단어를 올바르게 예측하는지 여부에 따라 달라지지만 일반적으로 시나리오 적용 단계에서는 특정 평가 지표에 따라 달라집니다. 시나리오. 우리의 일반적인 직관은 사전 훈련 단계에서 LLM 모델의 성능이 더 좋으면 다운스트림 작업을 해결하는 능력도 자연스럽게 더 강해질 것이라는 것입니다. 그러나 이것은 전적으로 사실이 아닙니다. 기존 연구에 따르면 사전 훈련 단계의 최적화 지수는 후속 작업과 긍정적인 상관관계를 보이지만 완전히 긍정적인 것은 아닙니다. 즉, LLM 모델이 충분히 좋은지 판단하기 위해 사전 훈련 단계의 지표만 보는 것만으로는 충분하지 않습니다. 이를 바탕으로 LLM 모델이 증가함에 따라 어떤 영향을 미칠지 알아보기 위해 이 두 가지 단계를 별도로 살펴보겠습니다. 먼저 사전 학습 단계에서 모델 크기가 점차 증가함에 따라 어떤 일이 발생하는지 살펴보겠습니다. OpenAI는 "신경 언어 모델을 위한 확장 법칙"에서 이 문제를 구체적으로 연구하고 LLM 모델에 이어 "확장 법칙"을 제안했습니다. 위 그림에서 볼 수 있듯이 이 연구는 다음을 증명합니다. 학습 데이터의 양, 모델 매개변수 크기를 독립적으로 늘리거나 모델 학습 시간을 연장(예: 1 Epoch에서 2 Epoch로)하는 경우 사전 데이터 손실이 발생합니다. 테스트 세트에서 훈련된 모델은 단조롭습니다. 즉, 모델 효과가 점점 더 좋아지고 있습니다. 세 가지 요소가 모두 중요하기 때문에 실제로 사전 훈련을 할 때 컴퓨팅 성능을 어떻게 할당할지에 대한 의사 결정 문제가 있습니다. LLM을 훈련하는 데 사용되는 총 컴퓨팅 성능 예산(예: GPU 시간 수)을 가정합니다. 또는 GPU 일수)이 주어지면 데이터 양을 늘리고 모델 매개변수를 줄여야 할까요? 아니면 데이터 양과 모델 크기를 동시에 늘려 훈련 단계 수를 줄여야 할까요? 한 요소의 규모가 커지면 전체 컴퓨팅 파워를 그대로 유지하려면 다른 요소의 규모를 줄여야 하므로 다양한 컴퓨팅 파워 할당 계획이 가능합니다. 결국 OpenAI는 훈련 데이터의 양과 모델 매개변수의 양을 동시에 늘리는 방법을 선택했지만, 훈련 단계 수를 줄이기 위해 조기 중지 전략을 사용했습니다. 이는 훈련 데이터 양과 모델 매개변수의 두 가지 요소 중 하나만 별도로 늘리는 경우 특정 비율에 따라 두 요소를 동시에 늘리는 것이 최선의 선택이 아니라는 것을 증명하기 때문입니다. 결론은 모델 매개변수를 늘리는 데 우선순위를 두고 훈련 데이터의 양을 늘리는 것입니다. LLM 훈련을 위한 총 컴퓨팅 파워 예산이 10배 증가한다고 가정하면 모델 매개변수의 양은 5.5배, 훈련 데이터의 양은 1.8배 증가해야 모델 효과가 가장 좋습니다. DeepMind의 연구(참조: Training Compute-Optimal Large Language Models)의 기본 결론은 OpenAI의 결론과 유사합니다. 모델 매개 변수는 동시에 모델 효과가 더 좋습니다. 많은 대형 모델은 사전 훈련을 수행할 때 이를 고려하지 않습니다. 많은 대형 LLM 모델은 훈련 데이터의 양을 고정하면서 모델 매개변수를 단조롭게 증가시킵니다. 이 접근 방식은 실제로 잘못되었으며 LLM 모델의 잠재력을 제한합니다. 그러나 둘 사이의 비례 관계를 수정하고 훈련 데이터의 양과 모델 매개변수의 양이 똑같이 중요하다고 믿습니다. 즉, LLM 훈련에 사용되는 총 컴퓨팅 파워 예산이 10배 증가한다고 가정하면 모델 매개변수의 양이 증가합니다. 모델의 효과가 가장 좋도록 훈련 데이터의 양을 3.3배로 늘려야 합니다. 즉, 훈련 데이터의 양을 늘리는 것이 이전에 생각했던 것보다 더 중요합니다. 이러한 이해를 바탕으로 DeepMind는 Chinchilla 모델을 설계할 때 컴퓨팅 파워 할당 측면에서 또 다른 구성을 선택했습니다. 데이터 용량이 300B이고 모델 매개변수 용량이 280B인 Gopher 모델과 비교하여 Chinchilla는 훈련 데이터를 4배 늘리는 것을 선택했습니다. , 그러나 모델을 축소하면 매개변수가 Gopher의 4분의 1인 약 70B로 감소됩니다. 그러나 사전 훈련 지표나 많은 하위 작업 지표에 관계없이 Chinchilla는 더 큰 Gopher보다 낫습니다. 이를 통해 다음과 같은 깨달음을 얻을 수 있습니다. 모델 효과를 줄이지 않고 모델 크기를 크게 줄이는 목적을 달성하기 위해 훈련 데이터를 확대하고 LLM 모델 매개변수를 비율에 맞게 줄일 수 있습니다. 모델 크기를 줄이면 적용 시 추론 속도가 훨씬 빨라지는 등 많은 이점이 있습니다. 이는 의심할 여지 없이 유망한 LLM 개발 경로입니다. 위는 사전 학습 단계에서 모델 규모가 미치는 영향입니다. LLM이 특정 다운스트림 작업을 해결하는 데 미치는 영향의 관점에서 보면 모델 규모가 증가함에 따라 다양한 유형의 작업이 서로 다른 성능을 보입니다. 다음과 같은 세 가지 유형의 상황이 있습니다. ㅋㅋㅋ a) 위의 쇼. 이러한 작업은 일반적으로 다음과 같은 공통 특성을 충족합니다. 지식 집약적인 작업인 경우가 많습니다. 즉, LLM 모델에 포함된 지식이 많을수록 해당 작업의 성능이 향상됩니다. 많은 연구에서 LLM 모델이 클수록 학습 효율성이 높다는 사실이 입증되었습니다. 즉, 동일한 양의 학습 데이터에 대해 모델이 클수록 작업 효과가 더 좋아진다는 것을 보여줍니다. 훈련 데이터 배치에서는 더 큰 LLM 모델이 더 많은 지식을 학습하는 더 작은 모델일수록 상대적으로 더 효율적입니다. 또한 일반적인 상황에서는 LLM 모델 매개변수를 늘리면 훈련 데이터의 양이 동시에 증가하는 경우가 많습니다. 이는 대규모 모델이 더 많은 데이터에서 더 많은 지식 포인트를 학습할 수 있음을 의미합니다. 이러한 연구는 모델 크기가 증가함에 따라 이러한 지식 집약적 작업이 점점 더 좋아지는 이유를 위의 그림에 대해 잘 설명할 수 있습니다. 대부분의 전통적인 자연어 이해 작업은 실제로 이러한 지식 집약적 작업이며, 지난 2년 동안 많은 작업이 인간의 성능을 능가할 정도로 큰 발전을 이루었습니다. 분명히 이는 특정 기술 개선으로 인한 것이 아니라 LLM 모델의 규모 증가로 인해 발생했을 가능성이 높습니다. 에 표시된 것처럼 LLM에 "긴급 능력"이 있음을 보여줍니다. 소위 "긴급 능력"은 모델 매개변수 척도가 특정 임계값에 도달하지 못할 때 모델이 기본적으로 그러한 작업을 해결할 수 있는 능력이 없다는 것을 의미하며, 이는 해당 성능이 무작위로 답변을 선택하는 것과 동일하다는 것을 반영합니다. 모델 규모 범위 임계값이 초과되면 해당 작업에 대한 LLM 모델의 효과가 갑자기 성능 향상을 경험하게 됩니다. 즉, 모델 크기는 LLM의 새로운 기능을 잠금 해제(잠금 해제)하는 열쇠입니다. 모델 크기가 점점 더 커지면서 LLM의 새로운 기능이 점점 더 많이 잠금 해제됩니다. 이것은 사람들이 미래에 대해 낙관하게 만드는 다음과 같은 가능성을 의미하기 때문에 매우 마법 같은 현상입니다. 아마도 현재 LLM으로는 많은 작업을 잘 해결할 수 없습니다. 현재 우리의 관점에서도 LLM에는 해결책이 전혀 없습니다. 이러한 문제를 해결할 수 있는 능력이 있지만 LLM에는 "긴급 능력"이 있기 때문에 계속 대형 모델을 추진하면 언젠가 이 능력이 갑자기 해제될 수 있습니다. LLM 모델의 성장은 우리에게 예상치 못한 놀라운 선물을 가져다 줄 것입니다. "모방 게임을 넘어서: 언어 모델의 기능을 정량화하고 추정" 이 기사에서는 "창발 기능"을 반영하는 이러한 유형의 작업에도 몇 가지 공통점이 있음을 지적합니다. 이러한 작업은 일반적으로 여러 단계로 구성되며, 이러한 작업은 여러 중간 단계를 먼저 해결해야 하는 경우가 많으며, 이러한 작업의 최종 해결에서는 논리적 추론 능력이 중요한 역할을 합니다. Chain of Thought Prompting은 LLM 추론 능력을 강화하고 이러한 작업의 성능을 크게 향상시킬 수 있는 일반적인 기술입니다. CoT 기술은 다음 섹션에서 설명하고 여기서는 논의하지 않습니다. 질문은 왜 LLM에 이러한 "긴급 역량" 현상이 발생하느냐는 것입니다. 위의 기사와 "대형 언어 모델의 새로운 능력"은 몇 가지 가능한 설명을 제공합니다: 한 가지 가능한 설명은 일부 작업의 평가 지표가 충분히 원활하지 않다는 것입니다. 예를 들어, 생성 작업에 대한 일부 판단 표준에서는 모델의 문자열 출력이 표준 답변과 완전히 일치해야 올바른 것으로 간주될 것을 요구합니다. 그렇지 않으면 0점을 받게 됩니다. 따라서 모델이 증가하더라도 그 효과는 점점 더 좋아지며 이는 더 정확한 문자 조각의 출력에 반영됩니다. 그러나 완전히 정확하지는 않기 때문에 작은 오류가 있는 경우에만 0점을 부여합니다. 충분히 크면 모든 세그먼트가 정확하면 출력 점수가 매겨집니다. 즉, 지표가 충분히 원활하지 않기 때문에 LLM이 실제로 작업 수행 능력을 점진적으로 향상시키고 있다는 현실을 반영할 수 없는 "창출 능력"의 외부 발현인 것 같습니다. 또 다른 가능한 설명은 다음과 같습니다. 일부 작업은 모델 크기가 증가함에 따라 각 단계를 해결하는 능력이 점차 증가하지만 중간 단계 하나가 잘못된 만큼 최종 답은 틀립니다. 이는 또한 이러한 피상적인 "창발 능력" 현상으로 이어질 것입니다. 물론, 위의 설명은 아직은 추측일 뿐입니다. LLM에서 이러한 현상이 나타나는 이유에 대해서는 더욱 심층적인 연구가 필요합니다.
작업 개수도 적습니다. 모델 규모가 커질수록 작업의 효과 곡선은 U자형 특성을 보입니다: 모델 규모가 점차 커질수록 작업도 줄어듭니다. 효과는 점차 악화되지만, 모델 규모가 더욱 커지면 효과는 점점 더 좋아지기 시작하여 두 작업에 대한 핑크색 PaLM 모델의 지표 추세 위 그림에서 볼 수 있듯이 U자형 성장 추세를 나타냅니다. 이러한 작업이 왜 그렇게 특별해 보일까요? "역 스케일링은 U자 모양이 될 수 있습니다." 이 기사에서는 설명을 제공합니다. 이러한 작업에는 실제로 두 가지 유형의 하위 작업이 포함되어 있습니다. 하나는 실제 작업이고 다른 하나는 "간섭 작업(산만 작업)"입니다. 모델 크기가 작으면 하위 작업을 식별할 수 없으므로 모델의 성능은 답변을 무작위로 선택하는 것과 유사합니다. 모델이 중간 크기로 커지면 주로 간섭 작업을 수행하므로 부정적인 영향을 미칩니다. 이는 실제 작업 효과의 감소에 반영됩니다. 모델 크기가 더 증가하면 LLM은 간섭 작업을 무시하고 실제 작업을 수행할 수 있으며 이는 효과가 커지기 시작합니다. 모델 크기가 커질수록 성능이 저하되는 작업의 경우 CoT(Chain of Thought) 프롬프트를 사용하면 일부 작업의 성능이 스케일링 법칙, 즉 모델 크기가 커질수록 변환됩니다. , 성능이 좋아지는 반면, 다른 작업의 경우 작업이 U자형 성장 곡선으로 변환됩니다. 이는 실제로 이러한 유형의 작업이 추론형 작업이어야 하므로 CoT를 추가한 후 작업 성능이 질적으로 변화할 것임을 보여줍니다. 일반적으로 우리가 사람과 LLM 간에 자주 언급하는 인터페이스 기술에는 제로 샷 프롬프트, 소수 샷 프롬프트, 상황 내 학습 및 지시가 포함됩니다. 이는 실제로 특정 작업을 설명하는 방법입니다. 하지만 문헌을 살펴보면 이름이 상당히 혼란스럽다는 것을 알 수 있습니다. 그 중 Instruct는 ChatGPT의 인터페이스 방식으로, 사람들이 "이 문장을 중국어에서 영어로 번역해 주세요"와 같이 작업에 대한 설명을 자연어로 제공한다는 의미입니다. 제로샷 프롬프팅(Zero Shot Prompting)은 실제로 현재 Instruct의 초기 이름이라는 것을 알고 있습니다. 과거에는 사람들이 이를 Zero Shot이라고 불렀지만 이제는 많은 사람들이 Instruct라고 부릅니다. 동일한 의미이지만 두 가지 구체적인 방법이 있습니다. 초기에는 제로샷 프롬프팅을 했는데, 사실 과제를 어떻게 표현해야 할지 몰라 단어나 문장을 바꿔가면서 과제를 잘 표현하려고 반복적으로 노력한 것이 훈련에 잘 맞는다는 것이 입증되었습니다. 데이터의 분포는 실제로 의미가 없습니다. Instruct의 현재 접근 방식은 명령문을 제공하고 LLM이 이를 이해하도록 노력하는 것입니다. 그래서 표면적으로는 모두 작업의 표현이지만 아이디어는 다릅니다. And In Context Learning은 LLM에 몇 가지 예를 템플릿으로 제공한 다음 LLM이 새로운 문제를 해결하도록 하는 Few Shot Prompting과 비슷한 의미를 갖습니다. 개인적으로 In Context Learning은 특정 작업에 대한 설명으로도 이해할 수 있다고 생각하지만 Instruct는 추상적인 설명 방법이고 In Context Learning은 일러스트레이션의 예시 방법입니다. 물론, 현재 이 용어들이 다소 혼란스럽게 사용되고 있다는 점을 고려하면, 위의 이해는 단지 나의 개인적인 의견일 뿐입니다. 그래서 여기에서는 In Context Learning 및 Instruct만 소개하고 더 이상 제로 샷과 소수 샷에 대해서는 언급하지 않습니다. 신비한 상황 내 학습 잘 생각해 보면 상황 내 학습이 매우 마법 같은 기술이라는 것을 알게 될 것입니다. 뭐가 그렇게 마법같나요? 놀라운 점은 LLM에 여러 샘플 예제를 제공한 다음 를 제공하면 LLM이 해당 을 성공적으로 예측할 수 있다는 것입니다. 이 말을 들으면 다음과 같은 질문이 생길 수 있습니다. 이게 무슨 마법 같은 걸까요? 미세 조정이 작동하는 방식이 아닌가요? 이렇게 묻는다면 이 문제에 대해 깊이 생각하지 않았다는 뜻이다.
Fine-tuning과 In Context Learning은 둘 다 LLM에 대한 몇 가지 예를 제공하는 것처럼 보이지만 질적으로 다릅니다(위 그림 참조). Fine-tuning은 이러한 예를 교육으로 사용합니다. 역전파를 사용하여 LLM의 모델 매개변수를 수정하고, 모델 매개변수를 수정하는 작업은 실제로 이러한 예를 통한 LLM 학습 프로세스를 반영합니다. 그러나 In Context Learning은 LLM에서 살펴볼 예제만 추출하고, 예제를 기반으로 LLM 모델의 매개변수를 수정하는 역전파를 사용하지 않고 새로운 예제를 예측하도록 요청했습니다. 모델 매개변수가 수정되지 않았다는 것은 LLM이 학습 과정을 거치지 않은 것처럼 보인다는 뜻인데, 학습 과정을 거치지 않았다면 왜 보기만 해도 새로운 사례를 예측할 수 있을까요? 이것이 바로 In Context Learning의 마법입니다. "군중 속에서 한 번 더 당신을 바라봤기 때문에 다시는 당신의 얼굴을 잊을 수 없습니다. "라는 노래가 생각나나요? 전설적이라는 말씀이신가요? In Context Learning은 예제를 통해 지식을 배우지 않는 것 같습니다. 실제로 LLM은 이상한 방식으로 학습하나요? 아니면 아무것도 배우지 못했다는 것이 사실입니까? 이 질문에 대한 답은 아직도 풀리지 않은 미스터리입니다. 일부 기존 연구는 버전이 다르며 어느 것이 진실을 말하고 있는지 판단하기 어렵습니다. 일부 연구 결론은 모순적입니다. 다음은 현재의 의견입니다. 누가 옳고 그른지에 대해서는 스스로 결정할 수 있습니다. 물론, 이 마술적 현상 뒤에 숨은 진실을 추구하는 것도 좋은 연구 주제라고 생각합니다. 상황 내 학습이 예제를 통해 학습하지 않는다는 것을 증명하려는 시도는 "시연의 역할 재고: 상황 내 학습을 작동시키는 요소는 무엇입니까?"입니다. 발견된 사실은 다음과 같습니다. LLM에 제공된 샘플 예 에서 가 에 대한 정답인지 여부는 실제로 중요하지 않습니다. 정답 을 다른 임의의 답변 으로 바꾸면 이렇게 됩니다. 상황 내 학습의 효과에는 영향을 미치지 않습니다. 이는 적어도 한 가지를 보여줍니다. In Context Learning은 에서 까지의 매핑 기능 정보를 LLM에 제공하지 않습니다. 그렇지 않으면 올바른 레이블을 무작위로 변경하면 이 매핑 기능이 확실히 방해받게 됩니다. . 즉, In Context Learning은 입력 공간에서 출력 공간으로의 매핑 과정을 학습하지 않습니다. 실제적으로 In Context Learning에 더 큰 영향을 미치는 것은 의 분포, 즉 입력 텍스트의 분포 와 응시자의 답변 이 무엇인지입니다. 예를 들어 이 두 분포를 변경하면 됩니다. , 를 후보 답변으로 대체합니다. 맥락 밖의 콘텐츠에 대해서는 맥락 내 학습의 효과가 급격히 떨어집니다. 간단히 말하면, 이 작업은 In Context Learning이 매핑 기능을 학습하는 것이 아니라 입력과 출력의 분포가 매우 중요하며 이 두 가지는 임의로 변경할 수 없음을 증명합니다. 일부 연구에서는 LLM이 주어진 예제에서 이 매핑 기능을 학습한다고 믿지만 암시적으로 학습됩니다. 예를 들어, "상황 내 학습이란 무엇입니까? 선형 모델을 사용한 조사"에서는 Transformer가 예제를 통해 에서 까지의 매핑 프로세스를 암시적으로 학습할 수 있는 반면 LLM은 예제를 통해 학습할 수 있다고 믿습니다. 해당하는 것을 발사하십시오. "GPT가 컨텍스트 내에서 학습할 수 있는 이유는 무엇입니까? 언어 모델이 메타 최적화자로 경사하강법을 비밀리에 수행하는 이유" 기사에서는 ICL을 암시적 미세 조정으로 취급합니다. 전체적으로 이것은 아직 풀리지 않은 미스터리입니다. Magical Instruct Understanding Instruct는 인간이 이해하기 편리한 작업 설명이라고 볼 수 있습니다. 이러한 전제하에 현재 Instruct에 대한 연구는 두 가지 유형으로 나눌 수 있습니다. 학문적 연구, 그리고 실제 인간의 필요에 대한 설명을 가르칩니다. 먼저 첫 번째 유형을 살펴보겠습니다. 학술적 연구에 더 중점을 둔 유형 Instruct. 핵심 연구 주제는 다중 작업 시나리오에서 강의를 이해하는 LLM 모델의 일반화 능력입니다. 위 그림의 FLAN 모델에서 볼 수 있듯이, 즉, 각 작업에 대해 연구원은 작업 지시로 하나 이상의 프롬프트 템플릿을 구성한 다음 훈련 예제를 사용하여 미세 조정합니다. LLM이 동시에 여러 작업을 학습할 수 있도록 하는 LLM 모델입니다. 모델을 훈련한 후 LLM 모델에 이전에 본 적이 없는 새로운 작업을 지시한 다음 LLM이 제로 샷 작업을 해결하도록 하여 작업이 충분히 잘 해결되었는지 여부를 판단하는 데 사용할 수 있습니다. 지시를 이해하는 일반화 능력. 현재 연구 결론을 요약하면("Scaling Instruction-Fine-tuned Language Models"/"Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks" 참조) 다음의 일반화를 효과적으로 높일 수 있습니다. LLM 모델 지시 기능 요소에는 멀티태스킹 작업 수 증가, LLM 모델 크기 증가, CoT 프롬프트 제공 및 작업 다양성 증가가 포함됩니다. 이러한 조치 중 하나라도 취하면 LLM 모델에 대한 교육 이해도가 높아질 수 있습니다. 두 번째 유형은 실제 인간 요구에 기반한 교육입니다. 이러한 유형의 연구는 InstructGPT와 ChatGPT로 대표됩니다. 이러한 유형의 작업도 멀티 태스킹을 기반으로 하지만 학문적 연구 중심 작업과 가장 큰 차이점은 인간 사용자의 실제 요구를 지향한다는 것입니다. 왜 그런 말을 해? LLM 다중 작업 교육에 사용하는 작업 설명 프롬프트는 연구 작업의 범위를 고정한 다음 연구원이 작업 설명 프롬프트를 작성하도록 하는 대신 다수의 사용자가 제출한 실제 요청에서 샘플링되기 때문입니다. 여기서 소위 "실제 요구 사항"은 두 가지 측면에 반영됩니다. 첫째, 사용자가 제출한 작업 설명에서 무작위로 선택되기 때문에 다루는 작업 유형이 더 다양하고 사용자의 실제 요구 사항에 더 부합합니다. , 특정 작업에 대한 프롬프트 설명은 사용자가 제출하며 사용자가 말할 것이라고 생각하는 것이 아니라 작업 요구 사항을 표현할 때 일반 사용자가 말하는 내용을 반영합니다. 분명히 이러한 종류의 작업을 통해 개선된 LLM 모델의 사용자 경험은 더 좋아질 것입니다. InstructGPT 논문에서는 이 방법을 FLAN의 Instruct 기반 방법과도 비교했습니다. 먼저 FLAN에서 언급한 작업, 데이터, 프롬프트 템플릿을 이용해 GPT3에서 미세 조정하여 GPT 3에서 FLAN 방식을 재현한 후 InstructGPT의 기본 모델도 GPT3이므로 차이점만 있습니다. 데이터와 방법은 비슷하며 FLAN 방법의 효과는 InstructGPT보다 훨씬 뒤떨어지는 것으로 나타났습니다. 그렇다면 그 이유는 무엇입니까? 데이터를 분석한 결과, 논문은 FLAN 방법이 상대적으로 적은 작업 필드를 포함하고 InstructGPT와 관련된 필드의 하위 집합이므로 효과가 좋지 않다고 믿습니다. 즉, FLAN 문서에 포함된 작업이 사용자의 실제 요구 사항과 일치하지 않아 실제 시나리오에서 결과가 충분하지 않습니다. 이것이 우리에게 의미하는 바는 사용자 데이터에서 실제 요구 사항을 수집하는 것이 중요하다는 것입니다. In Context Learning과 Instruct의 연관성 In Context Learning이 작업 명령을 구체적으로 표현하기 위해 몇 가지 예를 사용한다고 가정하면 Instruct는 인간의 습관에 더 가까운 추상적인 작업 설명입니다. 따라서 자연스러운 질문은: 그들 사이에 어떤 연관성이 있습니까? 예를 들어, LLM에 특정 작업을 완료하는 몇 가지 구체적인 예를 제공하고 LLM이 자연어로 설명된 해당 Instruct 명령을 찾도록 할 수 있습니까? 현재 이 문제를 탐구하는 연구가 산발적으로 진행되고 있습니다. 저는 이 방향이 큰 연구 가치가 있다고 생각합니다. 먼저 대답에 대해 이야기해 보겠습니다. 대답은 다음과 같습니다. 예, LLM이 가능합니다. "Large Language Models Are Human-level Prompt Engineers"는 이 방향에서 매우 흥미로운 작업입니다. 위 그림에 표시된 것처럼 특정 작업에 대해 LLM이 몇 가지 예를 제공하면 LLM이 작업을 설명할 수 있는 자연어 명령을 자동으로 생성하게 됩니다. 그런 다음 LLM에서 생성된 작업 설명을 사용하여 작업 효과를 테스트합니다. 사용하는 기본 모델은 GPT 3 및 InstructGPT입니다. 이 기술의 축복을 받은 후 LLM에서 생성된 Instruct의 효과는 이 기술을 사용하지 않는 GPT 3 및 InstructGPT에 비해 크게 향상되었으며 일부 작업에서는 초인적인 성능을 발휘합니다. 이는 구체적인 작업 예제와 작업의 자연어 설명 사이에 신비한 내부 연결이 있음을 보여줍니다. 이 연결이 정확히 무엇입니까? 우리는 아직 이것에 대해 아무것도 모릅니다. 많은 연구에서 LLM이 지식에 대한 강력한 기억력을 가지고 있음이 입증되었습니다. 그러나 일반적으로 사람이 강하다고 해서 똑똑하다고 말할 수는 없습니다. 기억력이 강하다는 것은 그 사람이 똑똑한지를 판단하는 중요한 기준이 되는 경우가 많습니다. 마찬가지로 LLM의 효과가 놀라우려면 강력한 추론 능력이 필요합니다. 본질적으로 추론 능력은 새로운 지식이나 새로운 결론을 도출하기 위해 많은 관련 지식 포인트를 포괄적으로 사용하는 것입니다. LLM의 추론 능력은 지난 한 해 동안 LLM의 가장 중요하고 인기 있는 연구 분야 중 하나였습니다. 따라서 우리가 우려하는 질문은 다음과 같습니다. LLM에는 추론 기능이 있습니까? 그렇다면 그 추론 능력은 충분히 강력할까요? 이 두 질문에 대한 현재 답변은 다음과 같습니다. 모델 규모가 충분히 클 경우 LLM 자체에는 추론 기능이 있습니다. 간단한 추론 문제에 대해서는 LLM이 좋은 기능을 달성했지만 복잡한 문제에 대해서는 추론을 위해서는 더 심층적인 연구가 필요합니다. 기존의 LLM 추론 관련 작업을 정리해보면, LLM 추론 역량을 마이닝하거나 촉진하기 위한 다양한 기술적 아이디어를 반영하여 크게 두 가지 범주로 분류합니다. 첫 번째 범주에는 집합적으로 참조할 수 있는 연구가 더 많습니다. 프롬프트 기반 방법의 핵심 아이디어는 적절한 프롬프트 또는 프롬프트 샘플을 통해 LLM 자체의 추론 능력을 더 잘 자극하는 것입니다. 두 번째 유형의 접근 방식은 사전 학습 과정에서 프로그램 코드를 도입하고 텍스트와 함께 사전 학습에 참여하여 LLM의 추론 능력을 더욱 향상시키는 것입니다. 이는 OpenAI에서 구현되는 아이디어입니다. 예를 들어 ChatGPT는 확실히 강력한 추론 기능을 갖추고 있지만 사용자에게 몇 가지 추론 예제를 제공하도록 요구하지 않습니다. 따라서 ChatGPT의 강력한 추론 기능은 코드를 사용하여 GPT 3.5의 사전 학습에 참여함으로써 파생될 가능성이 높습니다. 사실 이 두 가지 아이디어의 일반적인 방향은 매우 다릅니다. 즉, 코드를 사용하여 LLM 추론 능력을 향상시키는 것입니다. 이는 프롬프트 기반 학습 데이터의 다양성을 높여 LLM 추론 능력을 직접적으로 향상시키려는 아이디어를 반영합니다. 방법은 LLM 자체의 추론 능력을 향상시키는 것이 아니라 문제 해결 과정에서 LLM이 이 능력을 더 잘 발휘할 수 있도록 하는 기술적 방법입니다. 전자(코드 방식)는 근본 원인을 치료하고, 후자는 증상을 치료한다고 볼 수 있다. 물론 이 둘은 실제로는 상호보완적이지만 장기적으로는 근본 원인이 더 중요합니다. 프롬프트 기반 방법 이 분야에는 많은 작업이 있습니다. 요약하면 크게 세 가지 기술 경로로 나눌 수 있습니다. 첫 번째 아이디어는 보조 추론 Prompt을 문제에 직접 추가하는 것입니다. 이 방법은 간단하고 간단하지만 여러 분야에서 효과적입니다. 이 접근 방식은 "Large Language Models are Zero-Shot Reasoners"에 의해 제안되었으며 Zero-Shot CoT라고도 합니다. 구체적으로는 두 단계로 나누어진다(위 그림 참조). 첫 번째 단계에서는 "단계적으로 생각해 보자"라는 프롬프트가 질문에 추가되고 두 번째 단계에서는 LLM이 구체적인 추론 프로세스를 출력합니다. , 첫 번째 단계의 질문 뒤에 LLM이 출력한 특정 추론 프로세스를 연결하고 Prompt="그러므로 답(아라비아 숫자)은 다음과 같습니다."를 추가하면 LLM이 답변을 제공합니다. 이러한 간단한 작업은 다양한 추론 작업에서 LLM의 효율성을 크게 높일 수 있습니다. 예를 들어, 수학적 추론 테스트 세트 GSM8K에서 프롬프트를 추가한 후 추론 정확도가 원래 10.4%에서 40.4%로 직접 증가했습니다. 이는 기적적인 일입니다. 왜 LLM에는 "단계적으로 생각해보자"라는 프롬프트를 제공하여 상세한 추론 단계를 나열하고 답을 계산하는 기능이 있나요? 그 이유는 아직 확실하지 않습니다. 제 추측으로는 아마도 "단계적으로 생각해보자"로 시작하여 상세한 추론 단계가 이어지는 사전 학습 데이터에 이런 종류의 데이터가 많기 때문일 것입니다. 마침내 LLM은 사전 훈련 중에 이러한 패턴을 기억합니다. 이 프롬프트를 입력하면 LLM이 특정 예제의 파생 단계를 모호하게 "기억"하도록 자극되므로 이러한 예제를 모방하여 단계 추론을 수행하고 답변을 제공할 수 있습니다. 물론 이것은 근거 없는 추론일 뿐입니다. 이것이 실제로 사실이라면 나중에 소개되는 표준 CoT 사례를 읽어보면 표준 CoT가 표준 CoT라는 점을 제외하면 본질적으로 표준 CoT와 다르지 않을 것입니다. 인간이 작성한 단계의 예와 Zero-shot CoT는 프롬프트를 통한 추론 단계를 포함하는 메모리의 일부 예를 활성화할 가능성이 높으며 이는 매우 다를 수 있습니다. 표준 CoT 효과가 Zero-Shot CoT 효과보다 낫다는 것은 완전히 이해할 수 있습니다. 왜냐하면 결국 LLM에 의존하여 예시를 회상하면 정확도가 너무 높게 추정되지 않고 인위적으로 주어진 예시의 정확도가 보장되기 때문입니다. 따라서 자연적인 표준 CoT 효과가 더 좋아질 것입니다. 이는 LLM 자체에 추론 능력이 있지만 이 능력을 자극할 방법이 없다는 사실을 보여줍니다. 적절한 프롬프트를 통해 2단계 프롬프트를 제공하면 이 잠재력이 어느 정도 발휘될 수 있습니다. 또한, 중국어의 경우 이와 유사하게 "구체적인 문제 해결 아이디어는 다음과 같습니다"와 같은 또 하나의 골든 리마인더가 있을 가능성이 높습니다. by step'이 자주 사용된다. 두 번째 아이디어는 일반적으로 예시 기반 사고 사슬(few-shot CoT, Chain of Thought) Prompting이라고 합니다. 이 방향은 현재 LLM 추론 연구의 주요 방향이며, 이 아이디어에 대해 많은 작업이 이루어지고 있으며 CoT의 기술 개발 방향을 기본적으로 나타낼 수 있는 중요한 결과를 얻은 몇 가지 대표적인 작품을 간략하게 소개합니다. CoT의 주요 아이디어는 실제로 매우 간단합니다. LLM 모델에 추론 방법을 가르치기 위해 수동으로 작성된 추론 예제가 제공됩니다. 예제에서는 특정 추론 단계를 단계별로 명확하게 설명합니다. 최종 답변이며, 이러한 인위적인 추론 과정은 사고체인 Prompting을 통해 구체적인 예시를 확인하실 수 있습니다. CoT는 LLM 모델이 하나의 진실을 이해하도록 하는 것을 의미합니다. 즉, 추론 과정에서 너무 큰 단계를 밟지 마십시오. 그렇지 않으면 사고 방식을 바꾸고 큰 문제를 작은 문제로 단계별로 전환하십시오. , 작은 승리를 큰 승리로 축적하세요. CoT의 개념을 명확하게 제안한 최초의 논문은 "Chain of Thinking Elicits Reasoning in Large Language Model"입니다. 이 논문은 2022년 1월에 출판되었습니다. 방법은 매우 간단하지만 LLM 모델의 추론 능력이 크게 향상되었습니다. CoT 적용 후 GSM8K 수학적 추론 테스트 세트의 정확도는 약 60.1%로 향상되었습니다. 물론, 상세한 추론 단계와 중간 프로세스를 제공하는 이 아이디어는 CoT에서 처음 제안된 것이 아닙니다. 초기 "스크래치패드" 기술(참조: 작업 표시: 언어 모델을 사용한 중간 계산을 위한 스크래치패드)도 비슷한 아이디어를 채택했습니다. CoT가 제안한 지 얼마 되지 않은 3월 22일, "Self-Consistency"라는 개선된 기술이 GSM8K 테스트 세트 정확도를 74.4%로 높였습니다. 이 제안이 개선된 논문은 "Self-Consistency"입니다. 언어 모델에서 사고 추론의 사슬을 향상시킵니다." "자기 일관성"에 대한 아이디어도 매우 직관적입니다(위 그림 참조). 먼저 CoT를 사용하여 서면 추론 프로세스의 여러 예를 제공한 다음 LLM에게 주어진 문제에 대해 추론하도록 요청할 수 있습니다. CoT로 추론 프로세스를 직접 출력하고 답변하면 전체 프로세스가 종료됩니다. "자체 일관성"은 그렇지 않습니다. LLM은 여러 가지 추론 과정과 답변을 출력한 다음 투표를 사용하여 최상의 답변을 선택해야 합니다. 아이디어는 매우 간단하고 직접적이지만 효과는 정말 좋습니다. "자기 일관성"은 실제로 LLM에게 이 진리를 배우도록 가르칩니다. Kong Yiji는 회향 콩에 대해 "회향"이라는 단어를 쓰는 데 네 가지 방법이 있다고 말한 적이 있습니다. 마찬가지로 수학 문제에 대한 올바른 해결책은 다양할 수 있습니다. 파생 과정은 모두 최종 답변으로 이어집니다. 모든 길은 로마로 통한다. 길을 잃고 베이징에 도달하는 사람도 있지만 길을 잃는 사람은 소수에 불과하다. 대부분의 사람들이 가는 곳이 바로 거기다. 단순한 방법에는 심오한 철학적 의미가 담겨 있는 경우가 많습니다. 그렇지 않나요? 앞으로 "언어 모델을 더 나은 추론자로 만드는 발전에 대하여" 작업은 "자기 일관성"을 기반으로 하며 더 나아가 "하나의 프롬프트 질문에서 다중 프롬프트 질문으로 확장하고 추론의 중간 단계를 확인하는 것"을 통합합니다. 다중 출력에 대한 답변에 대한 가중치 투표" 이러한 세 가지 개선 사항은 GSM8K 테스트 세트 정확도를 약 83%로 향상시켰습니다. 세 번째 아이디어는 분할 정복 알고리즘 아이디어를 구현합니다. 물론 소위 "분할 정복"은 나의 일반화이며 다른 사람들은 그렇게 말하지 않았습니다. 이 아이디어의 핵심 아이디어는 복잡한 추론 문제의 경우 이를 해결하기 쉬운 여러 하위 문제로 분해한 후 하위 문제를 하나씩 해결한 다음 복잡한 문제에 대한 답을 추론하는 것입니다. 하위 문제에 대한 답변부터 문제입니다. 보시다시피 이것은 분할 정복 알고리즘의 아이디어와 실제로 유사합니다. 저는 개인적으로 이러한 사고가 문제의 본질을 밝히고 궁극적으로 LLM의 복잡한 추론 문제를 해결하는 진정한 방법이 될 수 있다고 생각합니다. 위 그림에 표시된 것처럼 이 아이디어의 구체적인 구현을 설명하기 위해 "최소에서 최대 프롬프트" 기술을 예로 들겠습니다. 첫 번째 단계에서는 원래 문제로부터 알 수 있습니다. 질문할 질문은 무엇입니까? 최종 문제가 최종 Q라고 가정하고 원래 문제의 프롬프트 템플릿을 작성해 보겠습니다. "최종 Q 문제를 해결하려면 이를 해결해야 합니다. 먼저", 그런 다음 원래 문제와 이 프롬프트를 LLM에 전달하고 LLM 모델이 답변을 제공하도록 합니다. 이는 LLM이 마지막 질문의 접두사 하위 질문 Sub Q를 제공하도록 하는 것과 동일합니다. 그런 다음 두 번째 단계로 들어갑니다. LLM이 방금 얻은 하위 질문 Sub Q에 답하고 해당 답변을 얻도록 한 다음 원래 질문을 하위 질문 Sub Q와 해당 답변으로 연결한 다음 LLM에 최종 질문 Final Q를 묻습니다. 이때 LLM이 최종 답변을 제공합니다. 이런 식으로 하위 질문을 해체하고, 하위 질문에 대한 답변을 통해 점차 최종 답을 찾아낸다는 생각을 반영한 것이다. 코드 사전 훈련은 LLM 추론 능력을 향상시킵니다 위는 LLM 모델의 추론 능력을 자극하기 위해 프롬프트를 사용하는 세 가지 주요 방법입니다. LLM의 추론 능력과 관련하여 흥미롭고 당황스러운 현상이 관찰되었습니다. : 텍스트 외에도 모델 사전 훈련에 참여할 프로그램 코드를 추가할 수 있다면 LLM 모델의 추론 능력이 크게 향상될 수 있습니다. 이 결론은 많은 논문의 실험 섹션에서 도출될 수 있습니다(대규모 언어 모델에서 생각을 자극하는 자동 사고 사슬/대규모 벤치 과제에 도전하고 사고 사슬이 이를 해결할 수 있는지 여부 및 논문의 기타 실험 섹션 참조). ).
위 그림은 "On the Advance of Making Language Models Better Reasoners" 논문의 실험 데이터를 보여줍니다. 여기서 GPT3 davinci는 일반 텍스트 훈련을 기반으로 한 표준 GPT 3 모델입니다. davinci-002(OpenAI 내부적으로 Codex라고 함)는 코드와 NLP 데이터 모두에 대해 훈련된 모델입니다. 둘의 효과를 비교해 보면, 어떤 추론 방법을 사용하든 순수 텍스트 사전 학습 모델에서 텍스트와 코드 혼합 사전 학습 모델로 전환하는 것만으로도 모델 추론 능력이 향상되었음을 알 수 있습니다. 거의 모든 테스트 데이터 세트에서 큰 효과가 향상됩니다. 예를 들어, 대부분의 데이터 세트에서 성능 향상은 실제로 20~50% 포인트를 초과합니다. , 특정 추론 모델 수준에서는 사전 학습 중에 텍스트 외에 추가 프로그램 코드를 추가하는 것 외에는 아무것도 하지 않았습니다. 이 현상 외에도 위 그림의 데이터에서 다른 결론도 도출할 수 있습니다. 예를 들어 GPT 3의 순수 텍스트 사전 학습 모델은 실제로 상당한 수준의 추론 능력을 가지고 있습니다. GSM8K와 같은 수학에 상대적으로 낮은 추론 효과 외에도 다른 추론 데이터 수집도 성능이 좋습니다. 단, 해당 능력을 자극하기 위해 적절한 방법을 사용해야 하는 경우에는 코드에 있는 text-davinci-002가 있습니다. -davinci-002 InstructGPT 또는 ChatGPT 모델을 추가하는 첫 번째 단계인 Instruct Fine-tuning을 추가한 후의 모델을 기반으로 하면 추론 능력은 Codex보다 약하지만, 다른 연구에서는 자연어에서는 Codex보다 강한 것으로 나타났습니다. 처리 작업. 이는 지시 미세 조정을 추가하면 LLM 모델의 추론 능력이 손상되지만 자연어 이해 능력이 어느 정도 향상된다는 것을 나타내는 것으로 보입니다. 이러한 결론은 실제로 매우 흥미롭고 더 많은 사고와 탐구에 영감을 줄 수 있습니다. 그러므로 자연스러운 질문은 다음과 같습니다. 사전 학습된 모델이 코드 사전 학습을 통해 추가 추론 기능을 얻을 수 있는 이유는 무엇입니까? 정확한 이유는 현재 알려지지 않았으며 추가 조사가 필요합니다. 아마도 Codex 원본 버전의 코드 훈련(코드 훈련만 사용, 참조: 코드에서 훈련된 대규모 언어 모델 평가)이 텍스트에서 코드를 생성하고 코드에 많은 텍스트 주석이 포함되어 있는 경우가 많기 때문인 것 같습니다. 이는 사전 훈련된 모델이 두 가지 유형의 데이터에 대해 다중 모드 정렬 작업을 수행한 것과 본질적으로 유사합니다. 데이터에는 수학적 또는 논리적 문제에 대한 상당한 비율의 코드, 설명 및 주석이 포함되어야 합니다. 이러한 수학적 또는 논리적 추론 데이터가 후속 수학적 추론 문제를 해결하는 데 도움이 되는 것은 분명합니다. LLM 추론 기능에 대한 생각 위에서는 LLM 추론의 주류 기술 아이디어와 기존 결론을 소개합니다. 다음으로 LLM 모델 추론 기술에 대한 내 생각을 이야기하겠습니다. 추론., 증거가 많지 않으니 주의해서 참고하시기 바랍니다. 내 판단은 이렇습니다. 지난해 LLM의 추론 능력을 자극하는 데 기술이 급속히 발전하고 큰 기술적 발전이 이루어졌지만 전반적인 느낌은 우리가 올바른 방향으로 가고 있다는 것입니다. 문제의 실제 본질에 도달하기까지는 아직 갈 길이 멀고 더 깊이 생각하고 이를 탐구해야 합니다. 우선 위에서 언급한 분할 정복 알고리즘의 주요 아이디어에 동의합니다. 복잡한 추론 문제의 경우 하위 문제에 답할 확률이 높기 때문에 이를 여러 개의 간단한 하위 문제로 나누어야 합니다. -LLM의 경우 올바른 문제가 훨씬 더 높습니다. LLM이 하위 질문에 하나씩 답변한 후 점차적으로 최종 답변을 도출합니다. "최소에서 최대 프롬프트" 기술에 영감을 받아 좀 더 생각해 보면 LLM 추론은 LLM과 지속적으로 상호 작용하는 그래프 추론 문제, 또는 지속적으로 상호 작용하는 그래프 추론 문제, 두 가지 가능성 중 하나일 가능성이 높다고 생각합니다. LLM과 상호 작용합니다. LLM과 상호 작용하기 위한 프로그램 흐름도 실행 문제입니다. 먼저 그래프 추론 문제에 대해 이야기해 보겠습니다. 위 그림에 표시된 것처럼 복잡한 문제를 하위 문제 또는 하위 단계로 구성된 그래프 구조로 분해하는 방법이 있다고 가정합니다. 그래프는 하위 문제 또는 하위 단계이며, 그래프의 가장자리는 하위 질문 간의 종속성을 나타냅니다. 즉, 하위 질문 A에 답해야만 하위 질문 B에 답할 수 있습니까? 그래프에 루프 구조, 즉 특정 하위 단계를 반복적으로 수행할 확률이 높습니다. 위에서 언급한 하위 문제 분해 다이어그램을 얻을 수 있다고 가정하면 종속 관계에 따른 그래프 구조에 따라 LLM을 단계별로 안내하고, 최종 답변이 도출될 때까지 먼저 답변해야 하는 하위 질문에 답변할 수 있습니다. . 위의 그림을 참조하여 복잡한 문제를 하위 문제 또는 하위 단계로 분해하고 프로그램 흐름도와 같은 생성 방법이 있다고 가정해 보겠습니다. 하위 단계로 구성된 구조 이 구조에서는 일부 단계가 여러 번 반복적으로 실행되고(루프 구조), 일부 단계의 실행에는 조건부 판단이 필요합니다(조건 분기). 즉, 각 하위 단계를 실행할 때 LLM과 상호 작용하여 하위 단계에 대한 답변을 얻은 다음 최종 답변이 출력될 때까지 프로세스에 따라 계속 실행합니다. 이 패턴과 비슷합니다. 이 아이디어가 대략 정확하다고 가정하면 코드를 추가하면 사전 훈련된 모델의 추론 능력이 향상되는 이유를 이러한 관점에서 설명할 수 있습니다. 의 다중 모드 사전 훈련된 모델이 다음을 사용할 가능성이 높습니다. 모델 내부에 이와 같은 암시적 프로그램이 있는 경우 흐름도는 두 가지 양식 사이를 연결하는 역할을 합니다. 즉, 텍스트 설명에서 암시적 흐름도까지 연결한 다음 흐름도에서 생성된 특정 코드까지 연결합니다. 즉, 이러한 다중 모드 사전 훈련은 LLM 모델이 텍스트로부터 암시적 흐름도를 구성하고 흐름도에 따라 실행하는 능력, 즉 추론 능력을 강화할 수 있습니다. 물론, 위 아이디어의 가장 큰 문제는 텍스트에 설명된 문제를 기반으로 그래프 구조나 흐름도 구조를 얻기 위해 어떻게 LLM 모델이나 다른 모델에 의존할 수 있느냐는 것입니다. 이것이 어려움일 수 있습니다. 가능한 아이디어 중 하나는 텍스트 및 고품질 코드 사전 학습을 계속 강화하고 내부 암시적 구조를 암시적으로 학습하는 방법을 채택하는 것입니다. 위의 아이디어를 기반으로 현재 CoT 기술을 생각하면 다음과 같이 이해할 수 있습니다. 표준 CoT는 실제로 자연어 텍스트를 사용하여 그래프 구조 또는 프로그램 흐름도를 설명하는 반면 "최소 프롬프트" 기술은 다음과 같습니다. 마지막 그래프 노드를 기반으로 역방향 추론에 의존하여 그래프 구조를 추론하려고 하지만, 현재 방법은 역방향 추론의 깊이가 제한되어 있어 매우 간단한 그래프 구조만 추론할 수 있음을 의미합니다. 이것이 바로 그 기능을 제한하는 것입니다. 다음은 제가 개인적으로 중요하다고 생각하는 LLM 연구 분야나 심층 탐구할 가치가 있는 연구 방향입니다. LLM 모델의 규모 한도 탐색 LLM 모델의 규모를 지속적으로 늘리는 데 기술적인 내용이 없는 것처럼 보일 수도 있지만 실제로는 매우 중요합니다. 내 개인적인 판단으로는 Bert가 등장한 이후 GPT 3, 그리고 ChatGPT에 이르기까지 이러한 인상적인 핵심 기술 혁신의 핵심 기여는 특정 기술이 아닌 LLM 모델 크기의 성장에서 비롯될 가능성이 높습니다. . 아마도 AGI를 잠금 해제하는 진짜 열쇠는 극도로 대규모이고 충분히 다양한 데이터, 극도로 대규모 모델, 충분한 훈련 과정일 것입니다. 더욱이, 매우 큰 규모의 LLM 모델을 만드는 것은 기술팀의 매우 높은 엔지니어링 구현 능력을 요구하며, 이 문제는 기술적인 내용이 부족하다고 볼 수 없습니다. 그럼 LLM 모델의 규모를 지속적으로 확대하는 연구의 의의는 무엇인가요? 가치에는 두 가지 측면이 있다고 생각합니다. 우선 위에서 언급했듯이 지식 집약적 작업의 경우 모델 크기가 커질수록 다양한 작업의 성능이 더 좋아지고 CoT를 추가하면 다양한 유형의 추론과 어려운 작업의 성능이 향상될 것입니다. Prompting 마지막으로 그 효과도 Scaling 법칙을 따르는 경향을 보인다. 따라서 자연스러운 질문은 다음과 같습니다. 이러한 작업에 대해 LLM의 규모 효과가 이러한 작업을 어느 정도까지 해결할 수 있습니까? 이는 나를 포함해 많은 사람들이 궁금해하는 질문이다. 둘째, LLM의 마법 같은 "창출 능력"을 고려할 때 모델 크기를 계속 늘리면 예상하지 못했던 새로운 기능이 잠금 해제될까요? 이것은 또한 매우 흥미로운 질문입니다. 위의 두 가지 사항을 고려하여 다양한 작업을 해결하기 위한 모델 크기의 상한선이 어디인지 확인하려면 모델 크기를 계속 늘려야 합니다. 물론 이런 일은 99.99%의 실무자에게만 할 수 있는 기회나 능력이 없습니다. 이를 위해서는 연구기관의 재원과 투자의지, 엔지니어링 역량, 기술적 열정에 대한 요구사항이 매우 높으며 모두 필수 불가결합니다. 이를 수행할 수 있는 기관의 수는 대략적으로 해외 5개, 국내 3개 이하입니다. 물론 비용 문제를 고려하면 향후에는 '합자 대형 모델'이 나올 수도 있는데, 이는 여러 역량을 갖춘 기관들이 협력하고 협력해 초대형 모델을 구축하는 현상이다. LLM의 복합 추론 능력 강화 앞서 LLM의 추론 능력에 대해 설명했듯이 지난 1년 동안 LLM의 추론 능력이 크게 향상되었지만 많은 연구에서 (참고: 언어의 한계) 산술 및 기호 귀납/대형 언어 모델은 여전히 계획할 수 없음)은 현재 LLM이 상대적으로 간단한 더 나은 추론 문제를 해결할 수 있음을 보여줍니다. LLM의 복잡한 추론 능력은 단순한 문자 복사 추론이나 추가 추론과 같이 여전히 약합니다. , 뺄셈, 곱셈 및 나눗셈 연산을 수행할 때 문자열이나 숫자가 매우 길면 LLM의 추론 능력이 급격히 떨어지고 행동 계획 능력과 같은 복잡한 추론 능력이 매우 약해집니다. 결국, LLM의 복잡한 추론 능력을 강화하는 것은 LLM에 대한 향후 연구의 가장 중요한 측면 중 하나가 되어야 합니다. 앞서 언급한 것처럼 코드 추가와 사전 학습은 LLM 추론 능력을 직접적으로 향상시키는 방향입니다. 현재 이 방향에 대한 연구가 부족한 상태이며, LLM의 추론 능력을 높이기 위해 실무 경험을 요약하고 그 뒤에 숨어 있는 원리를 탐구한 다음 더 많은 유형의 새로운 데이터를 도입하는 것이 방향이 될 수 있습니다. 더 본질적으로 추론 능력을 향상시킵니다. LLM은 NLP 외에도 더 많은 연구 분야를 통합합니다 현재 ChatGPT는 NLP 및 코드 작업에 능숙합니다. AGI를 이끄는 중요한 시드 플레이어로서 이미지, 비디오, 오디오 및 기타 이미지를 멀티로 결합합니다. -LLM으로의 모달 통합, 그리고 과학용 AI, 로봇 제어 등 더 분명한 차이가 있는 다른 분야도 점차 LLM으로 통합되고 있으며, 이는 LLM이 AGI로 이어지는 유일한 방법입니다. 이 방향은 이제 막 시작되었기 때문에 연구 가치가 높다. 사람과 LLM을 위한 더욱 사용하기 쉬운 대화형 인터페이스 앞서 언급했듯이 ChatGPT의 가장 큰 기술적 기여는 여기에 있습니다. 하지만 현재의 기술이 완벽하지 않다는 것은 분명하고, LLM이 이해할 수 없는 명령도 많을 것입니다. 따라서 이 방향에 따라 우리는 인간이 자신에게 익숙한 명령 표현을 사용할 수 있도록 하는 더 나은 기술을 찾고 있으며, LLM은 이를 이해할 수 있는 새롭고 매우 유망한 기술 방향입니다. 어려운 종합 과제 평가 데이터 세트 구축 좋은 평가 데이터 세트는 기술의 지속적인 발전을 이끄는 초석입니다. LLM 모델이 점진적으로 증가함에 따라 작업 성능이 빠르게 향상되어 많은 표준 테스트 세트가 빠르게 구식이 됩니다. 즉, 이러한 데이터 세트는 기존 기술에 비해 너무 쉽습니다. 어려움 없이 테스트 세트 하에서는 현재 기술의 결함과 사각지대가 어디에 있는지 알 수 없습니다. 따라서 어려운 테스트 세트를 구축하는 것이 LLM 기술의 발전을 촉진하는 열쇠입니다. 현재 일부 새로운 테스트 세트가 업계에 등장할 예정이며 대표적인 것으로는 BIGBench, OPT-IML 등이 있습니다. 이러한 테스트 세트는 기존 LLM 기술보다 어렵고 다양한 작업을 통합하는 등 몇 가지 특성을 반영합니다. ChatGPT에서 영감을 받아 실제 사용자 요구를 반영하는 또 다른 고려 사항이 포함되어야 한다고 생각합니다. 즉, 이러한 작업의 표현은 실제로 사용자에 의해 시작됩니다. 이러한 방식으로 구성된 LLM 모델만이 사용자의 실제 요구를 해결할 수 있습니다. 또한, LLM은 NLP 이외의 분야로 그 역량이 빠르게 넘칠 것이라고 믿고 있으며, 다른 분야의 더 많은 평가 데이터를 어떻게 접목시킬 것인지도 미리 고민해 볼 필요가 있습니다. 고품질 데이터 엔지니어링 사전 학습 모델의 경우 데이터가 그 기반이며, 사전 학습 과정은 데이터에 포함된 지식을 흡수하는 과정으로 이해할 수 있습니다. 따라서 고품질 데이터의 마이닝, 수집 및 정리를 더욱 강화해야 합니다. 데이터와 관련하여 고려해야 할 두 가지 측면이 있습니다: 데이터의 질과 양. T5의 비교 실험을 바탕으로 양과 질의 두 가지 요소 중 품질이 우선이며, 데이터 품질을 보장하면서 데이터 크기를 늘리는 것이 올바른 길이라는 결론을 내릴 수 있습니다. 데이터 품질에는 데이터의 정보 내용 및 데이터의 다양성과 같은 다양한 측정이 포함됩니다. 데이터 증가 유형의 다양성은 의심할 바 없이 LLM의 다양한 새로운 기능을 자극하는 기초입니다. 예를 들어 Q&A 웹 사이트에서 데이터를 추가하는 것은 LLM의 QA 기능을 향상시키는 데 직접적인 도움이 됩니다. 다양한 데이터는 LLM이 더 다양한 유형의 작업을 더 잘 해결할 수 있는 능력을 제공하므로 이는 데이터 품질에서 가장 중요한 기준이 될 수 있습니다. 데이터 양과 관련하여 원칙적으로 인터넷에 공개된 모든 데이터는 LLM 모델의 사전 학습 과정에 포함될 수 있습니다. 그렇다면 한계는 어디입니까? "데이터가 고갈될까? 머신러닝 데이터셋 확장의 한계 분석"에서는 이를 추정해 2026년경에는 고품질 NLP 데이터가 소진되고, 2030년에는 저품질 NLP 데이터가 고갈될 것으로 결론지었다. 2050년쯤에는 소진되고, 2030년부터 2060년 사이에는 저화질 영상 데이터도 소진될 예정이다. 이는 그때까지 새로운 유형의 데이터 소스가 있거나 데이터 활용에 있어 LLM 모델의 효율성을 높여야 함을 의미합니다. 그렇지 않으면 모델 최적화에 대한 현재의 데이터 기반 접근 방식의 진행이 중단되거나 이점이 감소합니다. 매우 큰 LLM 모델의 스파스화 Transformer 현재 가장 큰 LLM 중 상당수의 모델이 GPT 3, PaLM, GLaM 등 GPT 등 희소(Sparse) 구조를 채택하고 있습니다. 4는 확률이 높습니다. 희소 모델 경로도 사용하겠습니다. Sparse 기반 모델을 사용하는 주요 이점은 LLM의 교육 시간과 온라인 추론 시간을 크게 줄일 수 있다는 것입니다. Switch Transformer 논문에서는 동일한 컴퓨팅 파워 예산을 전제로 Sparse Transformer를 사용하면 LLM 모델의 훈련 속도가 Dense Transformer에 비해 4~7배 향상될 수 있다고 지적합니다. 희소 모델이 훈련 및 추론 시간을 단축하는 이유는 무엇입니까? 이는 모델 매개변수가 엄청나지만 특정 학습 인스턴스의 경우 Sparse 모델은 라우팅 메커니즘을 통해 전체 매개변수 중 작은 부분만 사용하므로 학습 및 추론에 포함되는 활성 매개변수의 수가 상대적으로 적기 때문입니다. 빠른. 저는 미래에 매우 큰 LLM 모델이 희소 모델로 수렴할 가능성이 높다고 생각합니다. 크게 두 가지 이유가 있습니다. 한편, 기존 연구에 따르면(참고: Large Models are Parsimonious Learners: Activation Sparsity in Trained Transformers) 표준 Dense Transformer 자체는 훈련 및 추론 중에 드물게 활성화됩니다. 즉, Parameter의 일부일 뿐입니다. 활성화되며 대부분의 매개변수는 훈련 및 추론 프로세스에 참여하지 않습니다. 이 경우 희소 모델로 직접 마이그레이션하는 것이 좋을 수도 있습니다. 또한 LLM 모델의 규모가 계속 증가할 것이며 높은 훈련 비용이 모델을 추가로 확장하는 데 중요한 장애물이 될 것이라는 데는 의심의 여지가 없습니다. 희소 모델은 매우 큰 모델의 비용을 크게 줄일 수 있으므로 모델 크기가 커질수록 희소 모델의 이점이 더욱 분명해집니다. 이러한 두 가지 측면을 고려하면 향후 더 큰 LLM 모델이 희소 모델 솔루션을 채택할 가능성이 높습니다. 그렇다면 현재 다른 대규모 모델은 왜 희소 모델의 길을 택하지 않습니까? Sparse 모델은 훈련이 불안정하고 쉽게 과적합되는 등의 문제가 있기 때문에 잘 훈련하기가 쉽지 않습니다. 따라서 희소 모델이 직면한 문제를 어떻게 수정하고 학습하기 쉬운 희소 모델을 설계하는지는 중요한 향후 연구 방향입니다. 현재 다양한 연구 결론을 바탕으로 ChatGPT와 같은 놀라운 효과를 지닌 LLM 모델을 복제하려면 기술을 만들 때 중요한 절충점을 찾아야 합니다. Selections 다음 질문: 우선, 사전 학습 모드에는 GPT와 같은 자동 회귀 언어 모델, Bert와 같은 양방향 언어 모델, T5(Encoder-Decoder)와 같은 하이브리드 모드의 세 가지 옵션이 있습니다. 아키텍처에서 인코더는 양방향 언어 모델을 채택하고 디코더는 자동 회귀 언어 모델을 채택하므로 하이브리드 구조이지만 본질은 여전히 Bert 모드에 속합니다. GPT와 같은 자동 회귀 언어 모델을 선택해야 합니다. 그 이유는 이 기사의 패러다임 전환 섹션에서 분석됩니다. 현재 국내 LLM이 이 분야에 대한 기술 선정을 할 때, 그들 중 많은 사람들이 Bert 양방향 언어 모델이나 T5 하이브리드 언어 모델의 기술 경로를 취하고 있는 것으로 보입니다. 방향이 잘못되었을 가능성이 매우 높습니다. 둘째, 강한 추론 능력은 사용자가 LLM을 인식하는 중요한 심리적 기반입니다 LLM이 현재 경험을 바탕으로 강력한 추론 능력을 갖기를 원한다면 사전 훈련을 하는 것이 가장 좋습니다. 이렇게 하려면 LLM 교육을 위해 많은 양의 코드와 텍스트를 도입해야 합니다. 근거에 대해서는 이 기사 앞부분의 관련 부분에 해당 분석이 있습니다. 셋째, 모델 매개변수 규모가 너무 크지는 않지만 효과는 충분히 좋기를 원한다면 구성에 사용할 수 있는 두 가지 기술 옵션이 있습니다. 즉, 고품질 데이터 수집 강화, 마이닝, Work, 즉 내 모델 매개변수는 ChatGPT/GPT 4의 절반일 수 있지만 비슷한 효과를 얻으려면 고품질 훈련 데이터의 양이 ChatGPT/GPT 4 모델의 두 배가 되어야 함을 의미합니다. (Chinchilla의 접근 방식) 모델 크기를 효과적으로 줄일 수 있는 또 다른 방법은 텍스트 검색(검색 기반) 모델 + LLM을 채택하는 것입니다. 이 방법도 LLM 모델의 매개변수 규모를 크게 줄일 수 있습니다. 같은 효과. 이 두 가지 기술 선택은 상호 배타적이지 않고 보완적입니다. 즉, 모델 규모가 상대적으로 작다는 전제 하에 이 두 기술을 동시에 사용하면 초대형 모델과 유사한 효과를 얻을 수 있습니다. 넷째, 초대형 모델의 규모가 크기 때문에 훈련 비용이 너무 높기 때문에 이를 수행할 수 있는 기관이 거의 없습니다. 그리고 위의 분석을 통해 LLM 모델의 규모를 지속적으로 확장하는 것은 반드시 일어날 일이며, 이루어져야 함을 알 수 있습니다. 따라서 기술적 수단을 통해 LLM 교육 비용을 줄이는 방법은 매우 중요합니다. LLM 특징 추출기의 희소화는 모델 훈련 및 추론 비용을 효과적으로 줄일 수 있는 기술적 선택입니다. 모델이 커질수록 LLM 모델의 희소화는 고려해야 할 옵션입니다. 다섯째, ChatGPT는 현재 이상적인 LLM에 가장 가까운 기술 솔루션이며, 이상적인 LLM은 다양한 상위 작업 유형을 지원하기 위해 거의 전능한 기본 범용 대형 모델을 기반으로 해야 합니다. 현재 점점 더 많은 작업 유형을 지원하는 것은 주로 LLM 사전 훈련 데이터의 다양성을 증가시킴으로써 달성됩니다. 데이터 다양성이 향상될수록 LLM이 지원할 수 있는 작업 유형이 더 풍부해집니다. 따라서 데이터 다양성을 높여 LLM의 새로운 기능을 추가한다는 아이디어에 주목해야 합니다. 여섯 번째, 사용하기 쉬운 인간-기계 조작 인터페이스. 인간은 작업을 설명하기 위해 자신만의 관례적인 표현을 사용하며 LLM은 이러한 지시의 진정한 의미를 이해할 수 있어야 합니다. 또한 이러한 지침은 실제 인간의 요구와 일치합니다. 즉, 작업 설명은 개발자 자신의 상상력이나 추측에 의존하기보다는 최종 사용자로부터 수집되어야 합니다. ChatGPT에서 저에게 가장 큰 영감을 준 것은 사실 강화 학습을 사용할지 여부는 중요하지 않다고 생각합니다. 다른 대체 기술도 비슷한 일을 할 수 있어야 합니다. OpenAI가 다른 조직이 아닌 ChatGPT를 만든 이유는 무엇인가요? 여기서 간단한 분석을 할 수 있습니다. 이 글의 시작 부분에서 LLM에 대한 OpenAI의 철학을 언급했습니다. OpenAI는 LLM에 대해 어떻게 생각하나요? 지속적으로 도입해 온 기술들을 살펴보면, GPT 1.0부터 기본적으로 LLM을 AGI의 유일한 길로 확고히 여겨왔음을 알 수 있다. 구체적으로 OpenAI의 관점에서 미래 AGI는 다음과 같아야 합니다. 즉, 대용량 데이터에서 다양한 지식을 학습하는 데 사용되는 작업 독립적인 초대형 LLM이 있어야 하며, 이 LLM은 다양한 실제 문제를 해결하기 위해 모든 것을 생성해야 합니다. 인간이 사용할 수 있도록 인간의 명령을 이해할 수 있습니다. 실제로 전반기 LLM 개발 개념에 대한 이해는 "작업 독립적인 매우 큰 LLM을 구축하고, 방대한 데이터로부터 다양한 지식을 학습하게 한다"는 것이다. 이는 거의 모든 사람의 공감대이며 OpenAI의 실제 비전을 반영할 수 있다. .. 후반이에요. 를 달성할 수 있는지 항상 확고히 탐구해 왔습니다. OpenAI가 ChatGPT를 만들 수 있는 이유는 상대적으로 포지셔닝이 높고 외부 간섭에서 자유롭고 확고한 태도를 갖고 있기 때문입니다. GPT 1.0은 Bert보다 먼저 출시된 패턴 생성의 자동 회귀 언어 모델 경로를 따릅니다. Bert는 많은 NLP 이해 작업에 대해 양방향 언어 모델이 자동 회귀 단방향 언어 모델보다 더 나은 성능을 발휘한다는 것을 입증했습니다. 그럼에도 불구하고 GPT 2.0은 양방향 언어 모델의 경로로 전환하지 않고 여전히 텍스트 생성 경로를 따르며 제로샷 프롬프트와 퓨샷 프롬프트를 시도하기 시작했습니다. 실제로 이 시점에서 OpenAI의 마음속에 있는 AGI가 표면화되기 시작했고 점차 그 윤곽이 드러나기 시작했습니다. Zero Shot/Few Shot의 효과가 Bert+fine-tuning보다 훨씬 나쁘기 때문에 모두가 이를 너무 심각하게 받아들이지 않으며 왜 항상 단방향 언어 모델 경로를 고집하는지조차 이해하지 못합니다. 현시점에서는 OpenAI 자체도 이 길이 반드시 성공할 것이라고 보장하지 못할 수도 있다고 추정합니다. 그러나 이것이 이 길을 계속 걸어가는 것을 막지는 못합니다. GPT 3.0은 상대적으로 강력한 제로 샷/몇 샷 프롬프트 기능을 시연했으며, 현재 OpenAI의 마음에 있는 AGI는 명확한 윤곽으로 물 밖으로 완전히 누출되었으며 그 효과도 이 경로를 따를 가능성이 더 높다는 것을 증명합니다. . GPT 3.0은 LLM의 발전 방향을 결정하는 갈림길이자 분수령이다. 또 다른 대응 도로는 'Bert+fine-tuning' 모델이다. 이 갈림길에서 다양한 실무자들이 서로 다른 길을 선택했고, 여기서부터 기술 격차가 벌어지기 시작했습니다. 불행하게도 많은 국내 실무자들이 'Bert+fine-tuning'의 길에서 계속해서 후퇴를 선택하고 있는데, 이는 오늘날의 후진 상황을 초래한 핵심 시점이기도 합니다. 앞으로 InstructGPT와 ChatGPT가 있습니다. 스케일 효과: LLM이 점점 더 커지면 어떻게 되나요?
인간-컴퓨터 인터페이스: 상황 내 학습에서 이해 지도까지
지혜의 빛: LLM의 추론 능력을 향상시키는 방법
미래로 가는 길: LLM 연구 동향과 연구할 가치가 있는 주요 방향
배움의 길: ChatGPT를 복제할 때 주의해야 할 점
ChatGPT: 왜 OpenAI
위 내용은 Post-GPT 3.0 시대의 대형모델 기술을 탐구하고 AGI의 미래 실현을 향해 나아가다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!