ChatGPT는 여기서 어디로 갈까요? LeCun의 신작: 차세대 '향상된 언어 모델'에 대한 종합 검토-일체 포함-php.cn

ChatGPT는 언어 모델의 불을 지폈으며 NLP 실무자들은 향후 연구 방향을 성찰하고 요약하고 있습니다.

ChatGPT는 여기서 어디로 갈까요? LeCun의 신작: 차세대 향상된 언어 모델에 대한 종합 검토

최근 튜링상 수상자 Yann LeCun은 "Enhanced Language Models"에 대한 리뷰 작성에 참여하여 언어 모델과 추론 기술 및 도구 사용 능력을 결합한 작업을 검토하고 결론을 내렸습니다. 연구 방향은 해석성, 일관성, 확장성 문제와 같은 전통적인 언어 모델의 한계를 해결할 수 있는 잠재력을 가지고 있습니다.

ChatGPT는 여기서 어디로 갈까요? LeCun의 신작: 차세대 향상된 언어 모델에 대한 종합 검토

문서 링크: https://arxiv.org/abs/2302.07842

향상된 언어 모델에서 추론은 복잡한 작업을 더 간단한 하위 작업, 도구로 분해하는 것을 의미합니다. 코드 해석기, 계산기 등) LM은 이러한 향상된 기능을 단독으로 또는 경험적 방법이나 데모 학습을 통해 조합하여 활용할 수 있습니다.

향상된 LM은 표준 누락 토큰 예측 목표를 따르면서도 비모수적일 수 있는 다양한 외부 모듈을 사용하여 컨텍스트 처리 기능을 확장할 수 있으며 순수 언어 모델링 패러다임에 국한되지 않고 향상된 언어라고 할 수 있습니다. 모델(ALM, 증강 언어 모델).

누락된 토큰 예측 대상을 통해 ALM은 추론, 도구 사용, 심지어 행동(act)까지 학습하는 동시에 표준 자연어 작업을 수행할 수 있으며 여러 벤치마크 데이터 세트에서 대부분의 기존 LM보다 성능이 뛰어납니다.

향상된 언어 모델

대규모 언어 모델(LLM)은 자연어 처리 분야에서 엄청난 발전을 이루었으며 점차 코딩 도우미 Copilot, Google 검색 엔진 및 최근 출시된 ChatGPT.

구성 기능과 결합된 암기를 통해 LLM은 언어 이해, 조건부 및 무조건 텍스트 생성과 같은 다양한 작업을 전례 없는 성능 수준으로 수행할 수 있으므로 더 넓은 범위의 인간-컴퓨터 상호 작용에 대한 실용적인 경로를 열 수 있습니다.

그러나 현재 LLM 개발에는 여전히 많은 제한이 적용되어 더 넓은 범위의 응용 프로그램 시나리오에 배포하는 데 방해가 됩니다.

예를 들어, LLM은 종종 환각이라고도 알려진 사실이 아니지만 겉보기에 합리적인 예측을 제공합니다. 산술 문제와 추론 체인의 작은 오류를 포함하여 많은 오류는 실제로 완전히 피할 수 있습니다.

또한 LLM의 많은 획기적인 기능은 훈련 가능한 매개변수의 수로 측정할 때 규모에 따라 나타나는 것으로 보이며, 이전 연구자들은 모델이 특정 규모에 도달하면 LLM이 일부 대규모 작업을 완료할 수 있음을 입증했습니다. 몇 번의 메시지를 통해 벤치 작업을 수행합니다.

대형 모델의 일부 기능을 유지하면서 일부 소규모 LM을 교육하려는 최근 노력이 있었지만 현재 LLM의 규모 및 데이터 요구 사항은 교육 및 유지 관리에 비현실적입니다. 대형 모델 지속적인 학습은 여전히 공개 연구 문제로 남아 있습니다.

Meta 연구자들은 이러한 문제가 LLM의 기본적인 결함에서 비롯된다고 믿습니다. 학습 프로세스는 매개변수 모델과 제한된 컨텍스트(보통 n 단어 전후)를 제공한 다음 통계적 언어 모델링을 수행하는 것입니다.

최근 소프트웨어와 하드웨어의 발달로 인해 컨텍스트 크기 n이 커지고 있지만 대부분의 모델은 여전히 상대적으로 작은 컨텍스트 크기를 사용하므로 나타나지 않는 지식을 저장하려면 거대한 모델 크기가 필수입니다. 맥락에서 조건은 다운스트림 작업을 수행하는 데에도 중요합니다.

ChatGPT는 여기서 어디로 갈까요? LeCun의 신작: 차세대 향상된 언어 모델에 대한 종합 검토

따라서 위에서 언급한 순수 통계적 언어 모델링 패러다임에서 약간 벗어나는 방식으로 이러한 문제를 해결하려는 연구 추세가 늘어나고 있습니다.

예를 들어 "해당 외부 파일에서 추출한 정보"에 관련성 계산을 추가하여 LLM의 제한된 컨텍스트 크기 문제를 회피하는 작업이 있습니다. LM에 데이터베이스의 특정 컨텍스트에서 해당 문서를 검색하는 검색 모듈을 장착함으로써 더 적은 매개변수를 사용하면서 대규모 LM의 기능 중 일부를 일치시킬 수 있습니다.

외부 데이터 소스를 쿼리할 수 있으므로 결과 모델은 이제 비모수적이라는 점에 유의하는 것이 중요합니다. 보다 일반적으로 LM은 추론 전략을 통해 컨텍스트를 개선하여 답변을 생성하기 전에 더 관련성 있는 컨텍스트를 생성하고 더 많은 계산을 통해 성능을 향상시킬 수도 있습니다.

또 다른 전략은 LM이 외부 도구를 활용하여 LM의 가중치에 포함되지 않은 중요한 누락 정보로 현재 컨텍스트를 향상시킬 수 있도록 하는 것입니다. 이러한 작업의 대부분은 위에서 언급한 LM의 단점을 완화하는 것을 목표로 하고 있지만 추론과 도구를 사용하여 LM을 보다 체계적으로 향상하면 훨씬 더 강력한 에이전트가 될 수 있다고 상상하는 것은 간단합니다.

연구원들은 이러한 모델을 총칭하여 증강 언어 모델(ALM)이라고 부릅니다.

이러한 추세가 가속화됨에 따라 수많은 모델을 추적하고 이해하는 것이 어려워지고 ALM 작업의 분류와 때로는 다른 목적으로 사용되는 기술 용어의 정의가 필요합니다.

Reasoning

ALM의 맥락에서 추론은 잠재적으로 복잡한 작업을 LM이 자체적으로 또는 도구를 사용하여 더 쉽게 해결할 수 있는 간단한 하위 작업으로 분해하는 것입니다.

현재 하위 작업을 재귀적으로 또는 반복적으로 분해하는 다양한 방법이 있습니다. 어떤 의미에서 추론은 LeCun의 2022년 논문 "Routes to Autonomous Machine Intelligence"에서 정의된 계획과 유사합니다.

ChatGPT는 여기서 어디로 갈까요? LeCun의 신작: 차세대 향상된 언어 모델에 대한 종합 검토

논문 링크: https://openreview.net/pdf?id=BZ5a1r-kVsf

본 설문조사에서 추론이란 LM 전략에서 추론 능력을 향상시키기 위한 다양한 방법을 의미합니다. , 단계별 추론을 위해 소수의 예를 사용하는 것과 같은 것입니다. LM이 실제로 추론하고 있는지, 아니면 단순히 누락된 토큰을 정확하게 예측할 가능성을 높이는 더 큰 컨텍스트를 생성하는지 여부는 아직 완전히 이해되지 않았습니다.

현재 기술 상태를 고려하면 추론은 과도하게 사용되는 용어일 수 있지만, 이 용어는 이미 커뮤니티 내에서 널리 사용되고 있습니다. ALM의 맥락에서 추론에 대한 보다 실용적인 정의는 프롬프트에 대한 답변에 도달하기 전에 모델에 더 많은 계산 단계를 제공하는 것입니다.

Tool Tool

ALM의 경우 도구는 일반적으로 규칙이나 특수 토큰을 사용하여 호출되는 외부 모듈이며 해당 출력은 ALM 컨텍스트에 포함됩니다.

도구는 외부 정보를 수집하는 데 사용되거나 가상 또는 실제 세계에 영향을 미칠 수 있습니다(일반적으로 ALM에서 감지함). 예를 들어 파일 검색기를 외부 정보를 얻는 도구로 사용할 수 있거나 로봇 팔은 외부 영향을 감지하는 데 사용할 수 있습니다.

도구는 훈련 시간이나 추론 시간에 호출될 수 있습니다. 보다 일반적으로 모델은 API 호출 학습을 포함하여 도구와 상호 작용하는 방법을 배워야 합니다.

Act

For ALM 가상 또는 물리적 세계에 영향을 미치는 도구를 호출하고 그 결과를 관찰하며 일반적으로 이를 ALM의 현재 컨텍스트에 통합합니다.

이 설문조사에 소개된 작업 중 일부는 웹 검색이나 LM을 통한 로봇 팔 조작에 대해 논의합니다. 약간의 용어 오용으로 인해 ALM의 도구 호출은 외부 세계에 영향을 미치지 않더라도 작업으로 표시되는 경우가 있습니다.

왜 추론과 도구를 동시에 논의합니까?

LM의 추론과 도구의 조합을 통해 경험적 방법 없이, 즉 더 나은 일반화 기능을 사용하여 광범위하고 복잡한 작업을 해결할 수 있어야 합니다.

일반적으로 추론은 LM이 주어진 문제를 잠재적으로 더 간단한 하위 작업으로 분해하는 데 도움이 되는 반면, 도구는 수학 연산에서 결과를 얻는 등 각 단계를 올바르게 완료하는 데 도움이 됩니다.

즉, 추론은 LM이 복잡한 작업을 해결하기 위해 다양한 도구를 결합하는 방법인 반면, 도구는 추론 실패를 방지하고 효과적으로 분해하는 방법입니다.

둘 다 다른 것의 이점을 얻어야 하며, 추론과 도구는 동일한 모듈에 배치될 수 있습니다. 둘 다 LM의 컨텍스트를 강화하여 작동하여 누락된 토큰을 더 잘 예측하기 때문입니다. 비록 방식은 다르지만요.

도구와 작업을 동시에 논의하는 이유는 무엇입니까?

추가 정보를 수집하고 가상 또는 물리적 세계에 영향을 미치는 도구는 LM에서 동일한 방식으로 호출할 수 있습니다. 예를 들어, 수학적 연산을 풀기 위해 파이썬 코드를 출력하는 LM과 로봇 팔을 조작하기 위해 파이썬 코드를 출력하는 LM 사이에는 별 차이가 없어 보인다. 본 리뷰에서 논의된 작품 중 일부는 이미 가상 세계 또는 물리적 세계에 영향을 미치는 LM을 사용하고 있습니다. 이러한 관점에서 볼 때 LM은 자율적 주체로서 행동하고 중요한 진전을 기대할 수 있다고 말할 수 있습니다. 분류 방법
연구원들은 리뷰에서 소개한 작품을 위의 3가지 차원으로 분해하여 각각 소개했으며, 마지막으로 다른 차원의 관련 작품도 논의했습니다. 독자들은 이러한 기술 중 상당수가 원래 LM이 아닌 다른 맥락에서 소개되었다는 점을 기억해야 하며, 필요하다면 언급된 논문 및 관련 작업의 소개를 살펴보시기 바랍니다. 마지막으로, 리뷰는 LLM에 중점을 두었지만 모든 관련 작업이 대형 모델을 채택하는 것은 아니며 LM의 정확성을 목표로 합니다.

위 내용은 ChatGPT는 여기서 어디로 갈까요? LeCun의 신작: 차세대 '향상된 언어 모델'에 대한 종합 검토의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!