"자동 회귀 LLM이 이미 인간 수준 AI에 가깝다고 생각하거나 인간 수준 AI에 도달하기 위해 확장해야 한다고 생각하는 사람은 누구나 이 글을 읽어야 합니다. AR-LLM은 추론 및 계획 능력이 매우 제한되어 있습니다. 이 문제를 해결하려면 더 크게 만들고 더 많은 데이터로 교육하는 것만으로는 문제를 해결할 수 없습니다. "
오랫동안 Turing Award 수상자 Yann LeCun은 LLM의 "질문자"였으며 자동 회귀 모델은 다음과 같습니다. . GPT 시리즈 LLM 모델이 의존하는 학습 패러다임입니다. 그는 자기회귀와 LLM에 대한 비판을 한 번 이상 공개적으로 표현했으며 다음과 같은 많은 황금 문장을 만들어냈습니다.
"지금부터 5년 안에 올바른 정신을 가진 사람은 누구도 자기회귀 모델을 사용하지 않을 것입니다.
" "Auto-Regressive Generative Models 형편없어요!"
"LLM은 세상에 대한 매우 피상적인 이해를 가지고 있습니다."
LeCun을 최근 다시 외치게 만든 것은 새로 발표된 두 편의 논문입니다:
" 문헌에서 알 수 있듯이 LLM이 실제로 솔루션을 자체 비판하고 반복적으로 개선할 수 있습니까? 우리 그룹의 두 가지 새로운 논문은 추론(https: //arxiv.org/abs/2310.12397)과 계획(https://arxiv.org/)입니다. abs/2310.08118) 이러한 주장은 조사(및 의문)되었습니다."
이 두 가지인 것 같습니다. GPT-4의 검증 및 자기 비판 능력을 조사한 이 논문의 주제는 많은 사람들에게 울려 퍼집니다.
논문의 저자는 LLM이 언어 형식이든 코드 형식이든 훌륭한 "아이디어 생성기"라고 믿지만 자체 계획/추론 능력을 보장할 수는 없다고 밝혔습니다. 따라서 LLM-Modulo 환경(신뢰할 수 있는 추론자 또는 루프의 인간 전문가 포함)에서 가장 잘 사용됩니다. 자기비판에는 검증이 필요하며 검증은 추론의 한 형태입니다(따라서 LLM의 자기비판 능력에 대한 모든 주장에 놀라십시오).
동시에 "콘볼루션 네트워크의 추론 기능은 더 제한적이지만 이것이 AlphaZero의 작업이 등장하는 것을 막지는 못합니다. 추론 프로세스와 확립된 ( RL) 피드백 루프. 저는 모델 기능이 매우 깊은 추론(예: 연구 수준의 수학)을 가능하게 한다고 생각합니다. "
이와 관련하여 LeCun의 생각은 "AlphaZero는 계획을 "실행합니다"입니다. 이는 몬테 카를로 트리 검색을 통해 수행되며, 컨볼루션 네트워크를 사용하여 좋은 동작을 찾아내고 또 다른 컨볼루션 네트워크를 사용하여 위치를 평가합니다. 나무를 탐색하는 데 소요되는 시간은 무한할 수 있습니다. 그것은 모두 추론과 계획입니다. "
앞으로는 자동회귀 LLM에 추론 및 계획 능력이 있는지 여부에 대한 주제가 확정되지 않을 수도 있습니다.
다음으로, 이 두 가지 새로운 논문이 무엇을 이야기하는지 살펴보겠습니다.
논문 1: GPT-4는 그것이 틀렸다는 것을 모른다: 추론 문제에 대한 반복 프롬프트 분석
첫 번째 논문은 연구자들로 하여금 최신 기술의 자기비판 능력에 의문을 제기하게 했습니다. GPT-4를 포함한 art LLM.
논문 주소: https://arxiv.org/pdf/2310.12397.pdf
다음으로 논문 소개를 살펴보겠습니다.
대형 언어 모델(LLM)의 추론 기능에 대해서는 항상 상당한 의견 차이가 있었습니다. 처음에 연구자들은 모델 규모가 커짐에 따라 LLM의 추론 기능이 자동으로 나타날 것이라고 낙관했습니다. 어떤 경우에는 사람들의 기대가 더 이상 그렇게 강하지 않습니다. 그 후 연구자들은 일반적으로 LLM이 LLM 솔루션을 반복적으로 스스로 비판하고 개선하는 능력이 있다고 믿었으며 이러한 견해는 널리 전파되었습니다.
그런데 정말 그럴까요?
애리조나 주립대학교 연구원들은 새로운 연구에서 LLM의 추론 능력을 테스트했습니다. 특히, 그들은 가장 유명한 NP-완전 문제 중 하나인 그래프 색칠 문제에서 반복 프롬프트의 효율성에 중점을 두었습니다.
이 연구에 따르면 (i) LLM은 그래프 색상 지정 인스턴스를 해결하는 데 좋지 않습니다. (ii) LLM은 솔루션 검증에 좋지 않으므로 반복 모드에서는 효과적이지 않습니다. 따라서 이 논문의 결과는 최첨단 LLM의 자기 비판적 능력에 대한 의문을 제기합니다.
논문에서는 몇 가지 실험 결과를 제공합니다. 예를 들어 직접 모드에서 LLM은 그래프 색칠 인스턴스를 해결하는 데 매우 좋지 않습니다. 또한 연구에서는 LLM이 솔루션을 검증하는 데도 좋지 않다는 사실을 발견했습니다. 더 나쁜 것은 시스템이 올바른 색상을 인식하지 못하고 결국 잘못된 색상으로 표시된다는 것입니다.
아래 그림은 그래프 색상화 문제에 대한 평가입니다. 이 설정에서 GPT-4는 독립적이고 자기 비판적인 모드에서 색상을 추측할 수 있습니다. 자기 비판적 루프 외부에는 외부 음성 유효성 검사기가 있습니다.
결과에 따르면 GPT4의 색상 추측 정확도는 20% 미만이며, 더욱 놀랍게도 자기 비판 모드(아래 그림의 두 번째 열)의 정확도가 가장 낮습니다. 이 문서에서는 또한 외부 음성 검증기가 추측한 색상에 대한 올바른 비판을 입증할 수 있는 경우 GPT-4가 솔루션을 개선할 것인지 여부에 대한 관련 질문을 조사합니다. 이 경우 역방향 힌트를 사용하면 성능이 실제로 향상될 수 있습니다.
GPT-4가 실수로 유효한 색상을 추측하더라도 자기 비판으로 인해 위반이 없다는 환각을 느낄 수 있습니다.
마지막으로 저자는 그래프 색상 문제에 관해 요약을 제공합니다.
"대형 언어 모델이 자신의 계획을 자체 비판하여 실제로 개선할 수 있습니까?"라는 논문에서 연구 팀 계획 상황에서 자체 검증/비판하는 LLM의 능력을 탐구했습니다.
이 문서는 특히 고전적 계획 문제의 맥락에서 자신의 결과를 비판하는 LLM의 능력에 대한 체계적인 연구를 제공합니다. 최근 연구에서는 특히 반복 설정에서 LLM의 자기 비판적 잠재력에 대해 낙관적이었지만 이 연구에서는 다른 관점을 제안합니다.
논문 주소: https://arxiv.org/abs/2310.08118
놀랍게도 연구 결과에 따르면 자기 비판은 특히 외부 검증 Verifier 및 LLM을 사용하여 계획 생성 성능을 저하시킬 수 있음을 보여줍니다. 검증 시스템. LLM은 많은 수의 오류 메시지를 생성하여 시스템의 안정성을 손상시킬 수 있습니다.
고전적인 AI 계획 도메인 Blocksworld에 대한 연구원의 실증적 평가는 LLM의 자기 비판 기능이 계획 문제에 효과적이지 않다는 것을 강조합니다. 검증자는 특히 계획의 정확성이 중요한 영역에서 전체 시스템의 신뢰성에 해를 끼치는 많은 수의 오류를 생성할 수 있습니다.
흥미롭게도 피드백의 성격(이진 또는 세부 피드백)은 계획 생성 성능에 큰 영향을 미치지 않으며, 이는 핵심 문제가 피드백의 세분성보다는 LLM의 이진 검증 기능에 있음을 시사합니다.
아래 그림과 같이 본 연구의 평가 아키텍처에는 생성자 LLM + 검증자 LLM의 2개 LLM이 포함됩니다. 특정 인스턴스에 대해 생성자 LLM은 후보 계획 생성을 담당하고 검증자 LLM은 정확성을 결정합니다. 계획이 잘못된 것으로 확인되면 검증자는 오류 이유를 설명하는 피드백을 제공합니다. 그런 다음 이 피드백은 생성기 LLM으로 전송되어 생성기 LLM이 새로운 후보 계획을 생성하도록 유도합니다. 이 연구의 모든 실험에서는 GPT-4를 기본 LLM으로 사용했습니다.
본 연구에서는 블록월드에서 여러 가지 계획 생성 방법을 실험하고 비교합니다. 특히, 이 연구에서는 다양한 방법을 평가하기 위해 100개의 무작위 사례를 생성했습니다. 최종 LLM 계획의 정확성에 대한 현실적인 평가를 제공하기 위해 이 연구에서는 외부 유효성 검사기 VAL을 사용합니다.
표 1에서 볼 수 있듯이 LLM+LLM 백프롬프트 방법은 정확도 측면에서 비백프롬프트 방법보다 약간 더 좋습니다.
검증기는 100개의 인스턴스 중 61개(61%)를 정확하게 식별했습니다.
아래 표는 다양한 수준의 피드백을 받을 때(피드백 없음 포함) LLM의 성능을 보여줍니다.
위 내용은 LeCun이 다시 한 번 욕설을 퍼부은 자동 회귀 LLM: 두 논문에서 알 수 있듯이 GPT-4의 추론 능력은 매우 제한적입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!