ChatGPT와 GPT-4의 인기로 인해 대규모 언어 모델이 지금까지 가장 빛나는 순간을 맞이하게 되었습니다. 하지만 다음에는 어디로 갈까요?
Yann LeCun은 최근 언어 모델을 강화하는 것이 유망한 방향일 수 있음을 지적하는 연구에 참여했습니다.
논평 기사입니다. 이 기사에서는 논문의 주요 내용을 간략하게 소개합니다.
대규모 언어 모델은 자연어 처리의 발전을 크게 촉진했습니다. 관련 기술은 코딩 도우미 Copilot, Google 검색 엔진 및 최근 인기 있는 ChatGPT를 포함하여 수백만 명의 사용자를 대상으로 하는 여러 제품을 만들었습니다. 메모리와 구성 기능을 결합함으로써 대규모 언어 모델은 전례 없는 성능으로 언어 이해 또는 조건부 및 무조건 텍스트 생성과 같은 작업을 수행할 수 있으므로 더 높은 대역폭의 인간-컴퓨터 상호 작용이 현실화됩니다.
그러나 대규모 언어 모델에는 여전히 광범위한 배포를 방해하는 몇 가지 제한 사항이 있습니다. 대규모 언어 모델은 종종 환각이라고 불리는 사실은 아니지만 그럴듯한 예측을 제공합니다. 이는 예를 들어 산술적 맥락이나 추론 체인에서 피할 수 있는 많은 오류로 이어집니다. 또한 훈련 가능한 매개변수의 수로 측정하면 규모가 커짐에 따라 많은 대규모 언어 모델의 획기적인 기능이 나타나는 것처럼 보입니다. 예를 들어 일부 연구자는 대규모 언어 모델이 특정 규모에 도달하면 다음을 수행할 수 있음을 입증했습니다. 소수 샘플 프롬프트를 통해 일부 작업을 수행합니다. 일련의 최근 연구에서는 대규모 모델의 일부 특성을 여전히 유지하는 소규모 언어 모델을 생성했지만, 대규모 언어 모델의 교육 및 유지 관리 비용은 크기 및 데이터 요구 사항으로 인해 여전히 높습니다. 대규모 모델에 대한 지속적인 학습은 공개 연구 문제로 남아 있으며 Goldberg는 이전에 GPT-3 기반 챗봇 ChatGPT의 맥락에서 대규모 언어 모델의 다른 제한 사항에 대해 논의했습니다.
최근 연구에서 Meta 및 기타 기관의 연구자들은 위의 문제가 대규모 언어 모델의 본질적인 결함에서 비롯된다고 분석했습니다. 즉, 일반적으로 주어진 작업을 (i) 단일 매개변수 모델과 (ii) 수행하도록 훈련받습니다. 제한된 컨텍스트를 사용한 통계적 언어 모델링(보통 n개의 이전 또는 주변 토큰) n은 최근 몇 년 동안 소프트웨어 및 하드웨어의 혁신으로 인해 성장해 왔지만, 대부분의 모델은 언어 모델링을 일관되게 올바르게 수행하는 데 필요한 잠재적으로 큰 컨텍스트에 비해 여전히 상대적으로 작은 컨텍스트를 사용합니다. 따라서 모델에는 컨텍스트에는 없지만 당면한 작업을 수행하는 데 필요한 지식을 저장하려면 엄청난 규모가 필요합니다.
논문 링크: https://arxiv.org/pdf/2302.07842v1.pdf
따라서 이러한 문제를 해결하려는 연구가 점점 더 많아지고 있으며, 위에서 설명한 순전히 통계적인 언어 모델링 패러다임입니다.
예를 들어, 관련 외부 문서에서 추출한 정보를 추가하여 대규모 언어 모델의 관련성을 높여 제한된 컨텍스트 크기를 우회하는 작업이 있습니다. 주어진 상황에 대해 데이터베이스에서 그러한 문서를 검색하는 모듈을 대규모 언어 모델에 장착함으로써 더 적은 매개변수로 일부 대규모 언어 모델의 기능을 일치시킬 수 있습니다. 결과 모델은 이제 외부 데이터 소스를 쿼리할 수 있으므로 비모수적입니다. 일반적으로 언어 모델은 추론 전략을 통해 컨텍스트를 개선하여 더 관련성이 높은 컨텍스트를 생성하고 답변을 생성하기 전에 더 많은 계산을 절약할 수도 있습니다.
또 다른 전략은 언어 모델이 외부 도구를 활용하여 언어 모델 가중치에 포함되지 않은 중요한 누락 정보로 현재 컨텍스트를 강화할 수 있도록 하는 것입니다. 이 작업의 대부분은 위에서 언급한 언어 모델의 단점을 완화하는 것을 목표로 하지만 언어 모델을 향상하기 위한 추론 및 도구를 보다 체계적으로 사용하면 더욱 강력한 에이전트가 될 수 있음을 직접적으로 보여줍니다. 이러한 모델을 ALM(증강 언어 모델)이라고 합니다. 이러한 추세가 가속화되면서 관련 연구도 급격히 늘어나서, 저작물의 분류와 용도에 따른 기술용어의 정의가 필요하게 되었다.
본 논문에서 사용되는 용어의 정의는 다음과 같습니다.
추론. 증강 언어 모델의 맥락에서 추론은 잠재적으로 복잡한 작업을 언어 모델이 자체적으로 또는 도구를 사용하여 더 쉽게 해결할 수 있는 간단한 하위 작업으로 분해하는 것입니다. 하위 작업을 재귀적으로 또는 반복적으로 분해하는 방법은 다양합니다. 이런 의미에서 추론은 LeCun의 2022년 논문 "A Path Towards Autonomous Machine Intelligence"에 정의된 "계획"과 유사합니다. 이 기사에서 추론에는 몇 가지 예를 사용한 단계별 추론과 같이 언어 모델 추론 기술을 향상하기 위한 다양한 전략이 포함되는 경우가 많습니다. 언어 모델이 실제로 추론하는지, 아니면 단순히 누락된 토큰을 정확하게 예측할 가능성을 높이는 더 큰 컨텍스트를 생성하는지 완전히 명확하지 않습니다. 이 주제에 대한 다른 연구자들의 토론을 참조하는 것이 도움이 될 수 있습니다(Huang and Chang(2022)). 비록 추론은 현재 SOTA 결과에 기초한 언어 남용일 수 있지만, 이 용어는 이미 커뮤니티에서 사용되고 있습니다. 증강 언어 모델의 상황 추론에 대한 보다 실용적인 정의는 프롬프트에 대한 답변을 생성하기 전에 모델에 더 많은 계산 단계를 제공하는 것입니다.
도구. 증강 언어 모델의 경우 도구는 일반적으로 규칙 또는 특수 토큰을 사용하여 호출되는 외부 모듈이며, 출력은 증강 언어 모델의 컨텍스트에 포함됩니다. 이 도구는 외부 정보를 수집하거나 가상 또는 실제 세계에 영향을 미칠 수 있습니다(보통 증강 언어 모델로 인식됨). 외부정보를 획득하는 도구로는 문서검색기를 들 수 있고, 외부효과를 주는 도구로는 로봇팔을 들 수 있다. 훈련 또는 추론 시간 중에 도구를 호출할 수 있습니다. 일반적으로 도구와 상호 작용하는 방법을 배우는 데에는 해당 API를 호출하는 방법이 포함될 수 있습니다.
행동. 증강 언어 모델의 경우 작업은 일반적으로 증강 언어 모델의 현재 컨텍스트에 이를 포함하여 가상 또는 실제 세계에 영향을 미치는 도구를 호출하고 결과를 관찰하는 것입니다. 예를 들어, 이 기사에 언급된 일부 작품에서는 웹 검색이나 언어 모델을 통한 로봇 팔 조작에 대해 논의합니다. 용어를 조금 남용하기 위해 연구자들은 외부 효과가 없더라도 증강 언어 모델에 의한 도구 호출을 행동으로 언급하는 경우가 있습니다.
추론과 도구를 함께 논의해야 하는 이유는 무엇인가요? 언어 모델의 추론과 도구의 조합은 휴리스틱 없이도 수많은 복잡한 작업을 해결하는 데 사용되므로 일반화 기능이 향상됩니다. 일반적으로 추론은 주어진 문제를 잠재적으로 더 간단한 하위 작업으로 분해하는 언어 모델을 용이하게 하며, 도구는 수학적 연산에서 결과를 얻는 것과 같이 각 단계를 올바르게 수행하는 데 도움이 됩니다. 즉, 추론은 언어 모델이 복잡한 작업을 해결하기 위해 다양한 도구를 결합하는 방법이고, 도구는 효율적인 분해를 사용하여 추론 실패를 방지하는 방법입니다. 둘 다 다른 것으로부터 이익을 얻어야 합니다. 또한 추론과 도구는 비록 방식은 다르지만 누락된 토큰을 더 잘 예측하기 위해 언어 모델의 컨텍스트를 향상하므로 동일한 "후드"에 배치될 수 있습니다.
도구와 작업을 함께 논의하는 이유는 무엇인가요? 언어 모델은 추가 정보를 수집하고 가상 또는 실제 세계에 영향을 미치는 도구와 동일한 방식으로 호출될 수 있습니다. 예를 들어, 수학적 연산을 풀기 위해 Python 코드를 출력하는 언어 모델과 로봇 팔을 작동하기 위해 Python 코드를 출력하는 언어 모델 사이에는 차이가 없는 것 같습니다. 논문에서 논의된 작업 중 일부는 가상 또는 물리적 세계에 영향을 미치는 언어 모델을 사용했습니다. 이런 관점에서 볼 때, 언어 모델은 행동적 잠재력을 갖고 있다고 할 수 있으며, 자동화 에이전트의 방향으로 이룩한 중요한 진전도 기대해볼 만하다.
이 기사는 설문조사에 포함된 연구를 세 부분으로 나눕니다. 섹션 2에서는 위에 정의된 언어 모델의 추론 기능을 향상시키기 위한 작업을 검토합니다. 섹션 3에서는 언어 모델이 외부 도구와 상호 작용하고 조치를 취할 수 있도록 하는 작업에 중점을 둡니다. 마지막으로 섹션 4에서는 추론과 도구 사용이 휴리스틱을 통해 달성되는지 아니면 학습(예: 감독 또는 강화)을 통해 달성되는지 탐구합니다. 설문 조사에는 저자가 섹션 V에서 논의한 다른 구성 요소도 포함되어 있습니다. 간결하게 하기 위해 설문조사는 추론이나 도구를 언어 모델과 결합하는 작업에 중점을 둡니다. 마지막으로, 이 기사의 초점은 대규모 언어 모델에 있지만 고려되는 모든 연구가 대규모 모델을 사용하는 것은 아니므로 정확성을 보장하기 위해 나머지 조사에서도 언어 모델을 준수할 것입니다.
Inference
이전 작업에서는 대규모 언어 모델이 간단한 추론 문제를 해결할 수 있지만 복잡한 추론 문제는 해결할 수 없음을 보여주었습니다. 따라서 이 섹션에서는 언어 모델의 추론 기술을 향상시키기 위한 다양한 전략에 중점을 둡니다. 선형 모델의 복잡한 추론 문제의 과제 중 하나는 예측된 정답을 하위 문제로 결합하여 솔루션을 올바르게 얻는 것입니다. 예를 들어, 언어 모델은 유명인의 생년월일과 사망일을 정확하게 예측할 수 있지만 나이는 정확하게 예측하지 못할 수도 있습니다. 일부 연구자들은 이러한 차이를 언어 모델의 구성성 격차라고 부릅니다. 이 섹션의 나머지 부분에서는 언어 모델에서 유도 추론의 세 가지 대중적인 패러다임과 관련된 작업에 대해 논의합니다. 현재 작업은 도구와 결합된 추론에 중점을 두고 있으므로 독자는 여기에서 대규모 언어 모델 추론에 대한 다른 연구자의 작업에 대한 보다 심층적인 논의를 참조할 수 있습니다.
도구 및 행동의 사용
최근의 언어 모델 연구 라인을 통해 모델은 사실적 지식과 같이 가중치에 반드시 저장되지 않는 지식에 액세스할 수 있습니다. 보다 정확하게는 정확한 계산이나 정보 검색과 같은 작업을 Python 인터프리터 또는 모델에서 쿼리하는 검색 엔진 모듈과 같은 외부 모듈로 오프로드할 수 있으며, 이 경우 이러한 모듈은 도구를 사용합니다. 게다가 도구가 외부 세계에 영향을 미칠 때 언어 모델이 작업을 수행했다고 말할 수 있습니다. Transformer 언어 모델링과 결합된 편리한 기능인 특수 토큰 형태로 도구와 동작을 쉽게 포함할 수 있습니다.
추론 및 도구 적용 능력을 발휘하기 위해 언어 모델을 어떻게 향상할 수 있는지 검토한 후, 이 설문조사에서는 이러한 능력을 적용하도록 모델을 가르치는 방법도 설명합니다.
자세한 연구 내용은 원문을 참고해주세요.
위 내용은 GPT-4가 출시된 후 다른 대형 모델은 어떻게 될까요? Yann LeCun: 향상된 언어 모델이 좋은 방법일 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!