LeCun이 다시 한 번 욕설을 퍼부은 자동 회귀 LLM: 두 논문에서 알 수 있듯이 GPT-4의 추론 능력은 매우 제한적입니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

LeCun이 다시 한 번 욕설을 퍼부은 자동 회귀 LLM: 두 논문에서 알 수 있듯이 GPT-4의 추론 능력은 매우 제한적입니다.

王林

Oct 25, 2023 pm 02:13 PM

ai 모델

"자동 회귀 LLM이 이미 인간 수준 AI에 가깝다고 생각하거나 인간 수준 AI에 도달하기 위해 확장해야 한다고 생각하는 사람은 누구나 이 글을 읽어야 합니다. AR-LLM은 추론 및 계획 능력이 매우 제한되어 있습니다. 이 문제를 해결하려면 더 크게 만들고 더 많은 데이터로 교육하는 것만으로는 문제를 해결할 수 없습니다. "

LeCun이 다시 한 번 욕설을 퍼부은 자동 회귀 LLM: 두 논문에서 알 수 있듯이 GPT-4의 추론 능력은 매우 제한적입니다.

오랫동안 Turing Award 수상자 Yann LeCun은 LLM의 "질문자"였으며 자동 회귀 모델은 다음과 같습니다. . GPT 시리즈 LLM 모델이 의존하는 학습 패러다임입니다. 그는 자기회귀와 LLM에 대한 비판을 한 번 이상 공개적으로 표현했으며 다음과 같은 많은 황금 문장을 만들어냈습니다.

"지금부터 5년 안에 올바른 정신을 가진 사람은 누구도 자기회귀 모델을 사용하지 않을 것입니다.

" "Auto-Regressive Generative Models 형편없어요!"

"LLM은 세상에 대한 매우 피상적인 이해를 가지고 있습니다."

LeCun을 최근 다시 외치게 만든 것은 새로 발표된 두 편의 논문입니다:

LeCun이 다시 한 번 욕설을 퍼부은 자동 회귀 LLM: 두 논문에서 알 수 있듯이 GPT-4의 추론 능력은 매우 제한적입니다.

" 문헌에서 알 수 있듯이 LLM이 실제로 솔루션을 자체 비판하고 반복적으로 개선할 수 있습니까? 우리 그룹의 두 가지 새로운 논문은 추론(https: //arxiv.org/abs/2310.12397)과 계획(https://arxiv.org/)입니다. abs/2310.08118) 이러한 주장은 조사(및 의문)되었습니다."

이 두 가지인 것 같습니다. GPT-4의 검증 및 자기 비판 능력을 조사한 이 논문의 주제는 많은 사람들에게 울려 퍼집니다.

논문의 저자는 LLM이 언어 형식이든 코드 형식이든 훌륭한 "아이디어 생성기"라고 믿지만 자체 계획/추론 능력을 보장할 수는 없다고 밝혔습니다. 따라서 LLM-Modulo 환경(신뢰할 수 있는 추론자 또는 루프의 인간 전문가 포함)에서 가장 잘 사용됩니다. 자기비판에는 검증이 필요하며 검증은 추론의 한 형태입니다(따라서 LLM의 자기비판 능력에 대한 모든 주장에 놀라십시오).

동시에 "콘볼루션 네트워크의 추론 기능은 더 제한적이지만 이것이 AlphaZero의 작업이 등장하는 것을 막지는 못합니다. 추론 프로세스와 확립된 ( RL) 피드백 루프. 저는 모델 기능이 매우 깊은 추론(예: 연구 수준의 수학)을 가능하게 한다고 생각합니다. "

LeCun이 다시 한 번 욕설을 퍼부은 자동 회귀 LLM: 두 논문에서 알 수 있듯이 GPT-4의 추론 능력은 매우 제한적입니다.

이와 관련하여 LeCun의 생각은 "AlphaZero는 계획을 "실행합니다"입니다. 이는 몬테 카를로 트리 검색을 통해 수행되며, 컨볼루션 네트워크를 사용하여 좋은 동작을 찾아내고 또 다른 컨볼루션 네트워크를 사용하여 위치를 평가합니다. 나무를 탐색하는 데 소요되는 시간은 무한할 수 있습니다. 그것은 모두 추론과 계획입니다. "

앞으로는 자동회귀 LLM에 추론 및 계획 능력이 있는지 여부에 대한 주제가 확정되지 않을 수도 있습니다.

다음으로, 이 두 가지 새로운 논문이 무엇을 이야기하는지 살펴보겠습니다.

논문 1: GPT-4는 그것이 틀렸다는 것을 모른다: 추론 문제에 대한 반복 프롬프트 분석

첫 번째 논문은 연구자들로 하여금 최신 기술의 자기비판 능력에 의문을 제기하게 했습니다. GPT-4를 포함한 art LLM.

LeCun이 다시 한 번 욕설을 퍼부은 자동 회귀 LLM: 두 논문에서 알 수 있듯이 GPT-4의 추론 능력은 매우 제한적입니다.

논문 주소: https://arxiv.org/pdf/2310.12397.pdf

다음으로 논문 소개를 살펴보겠습니다.

대형 언어 모델(LLM)의 추론 기능에 대해서는 항상 상당한 의견 차이가 있었습니다. 처음에 연구자들은 모델 규모가 커짐에 따라 LLM의 추론 기능이 자동으로 나타날 것이라고 낙관했습니다. 어떤 경우에는 사람들의 기대가 더 이상 그렇게 강하지 않습니다. 그 후 연구자들은 일반적으로 LLM이 LLM 솔루션을 반복적으로 스스로 비판하고 개선하는 능력이 있다고 믿었으며 이러한 견해는 널리 전파되었습니다.

그런데 정말 그럴까요?

애리조나 주립대학교 연구원들은 새로운 연구에서 LLM의 추론 능력을 테스트했습니다. 특히, 그들은 가장 유명한 NP-완전 문제 중 하나인 그래프 색칠 문제에서 반복 프롬프트의 효율성에 중점을 두었습니다.

이 연구에 따르면 (i) LLM은 그래프 색상 지정 인스턴스를 해결하는 데 좋지 않습니다. (ii) LLM은 솔루션 검증에 좋지 않으므로 반복 모드에서는 효과적이지 않습니다. 따라서 이 논문의 결과는 최첨단 LLM의 자기 비판적 능력에 대한 의문을 제기합니다.

논문에서는 몇 가지 실험 결과를 제공합니다. 예를 들어 직접 모드에서 LLM은 그래프 색칠 인스턴스를 해결하는 데 매우 좋지 않습니다. 또한 연구에서는 LLM이 솔루션을 검증하는 데도 좋지 않다는 사실을 발견했습니다. 더 나쁜 것은 시스템이 올바른 색상을 인식하지 못하고 결국 잘못된 색상으로 표시된다는 것입니다.

아래 그림은 그래프 색상화 문제에 대한 평가입니다. 이 설정에서 GPT-4는 독립적이고 자기 비판적인 모드에서 색상을 추측할 수 있습니다. 자기 비판적 루프 외부에는 외부 음성 유효성 검사기가 있습니다.

LeCun이 다시 한 번 욕설을 퍼부은 자동 회귀 LLM: 두 논문에서 알 수 있듯이 GPT-4의 추론 능력은 매우 제한적입니다.

결과에 따르면 GPT4의 색상 추측 정확도는 20% 미만이며, 더욱 놀랍게도 자기 비판 모드(아래 그림의 두 번째 열)의 정확도가 가장 낮습니다. 이 문서에서는 또한 외부 음성 검증기가 추측한 색상에 대한 올바른 비판을 입증할 수 있는 경우 GPT-4가 솔루션을 개선할 것인지 여부에 대한 관련 질문을 조사합니다. 이 경우 역방향 힌트를 사용하면 성능이 실제로 향상될 수 있습니다.

LeCun이 다시 한 번 욕설을 퍼부은 자동 회귀 LLM: 두 논문에서 알 수 있듯이 GPT-4의 추론 능력은 매우 제한적입니다.

GPT-4가 실수로 유효한 색상을 추측하더라도 자기 비판으로 인해 위반이 없다는 환각을 느낄 수 있습니다.

LeCun이 다시 한 번 욕설을 퍼부은 자동 회귀 LLM: 두 논문에서 알 수 있듯이 GPT-4의 추론 능력은 매우 제한적입니다.

마지막으로 저자는 그래프 색상 문제에 관해 요약을 제공합니다.

GPT-4는 검증에 형편없기 때문에 자기 비판은 실제로 LLM의 성능에 해를 끼칠 것입니다. 외부 검증기 피드백은 실제로 LLM의 성능을 향상시킬 수 있습니다.

"대형 언어 모델이 자신의 계획을 자체 비판하여 실제로 개선할 수 있습니까?"라는 논문에서 연구 팀 계획 상황에서 자체 검증/비판하는 LLM의 능력을 탐구했습니다.

이 문서는 특히 고전적 계획 문제의 맥락에서 자신의 결과를 비판하는 LLM의 능력에 대한 체계적인 연구를 제공합니다. 최근 연구에서는 특히 반복 설정에서 LLM의 자기 비판적 잠재력에 대해 낙관적이었지만 이 연구에서는 다른 관점을 제안합니다.

논문 주소: https://arxiv.org/abs/2310.08118 LeCun이 다시 한 번 욕설을 퍼부은 자동 회귀 LLM: 두 논문에서 알 수 있듯이 GPT-4의 추론 능력은 매우 제한적입니다.

놀랍게도 연구 결과에 따르면 자기 비판은 특히 외부 검증 Verifier 및 LLM을 사용하여 계획 생성 성능을 저하시킬 수 있음을 보여줍니다. 검증 시스템. LLM은 많은 수의 오류 메시지를 생성하여 시스템의 안정성을 손상시킬 수 있습니다.

고전적인 AI 계획 도메인 Blocksworld에 대한 연구원의 실증적 평가는 LLM의 자기 비판 기능이 계획 문제에 효과적이지 않다는 것을 강조합니다. 검증자는 특히 계획의 정확성이 중요한 영역에서 전체 시스템의 신뢰성에 해를 끼치는 많은 수의 오류를 생성할 수 있습니다.

흥미롭게도 피드백의 성격(이진 또는 세부 피드백)은 계획 생성 성능에 큰 영향을 미치지 않으며, 이는 핵심 문제가 피드백의 세분성보다는 LLM의 이진 검증 기능에 있음을 시사합니다.

아래 그림과 같이 본 연구의 평가 아키텍처에는 생성자 LLM + 검증자 LLM의 2개 LLM이 포함됩니다. 특정 인스턴스에 대해 생성자 LLM은 후보 계획 생성을 담당하고 검증자 LLM은 정확성을 결정합니다. 계획이 잘못된 것으로 확인되면 검증자는 오류 이유를 설명하는 피드백을 제공합니다. 그런 다음 이 피드백은 생성기 LLM으로 전송되어 생성기 LLM이 새로운 후보 계획을 생성하도록 유도합니다. 이 연구의 모든 실험에서는 GPT-4를 기본 LLM으로 사용했습니다.

LeCun이 다시 한 번 욕설을 퍼부은 자동 회귀 LLM: 두 논문에서 알 수 있듯이 GPT-4의 추론 능력은 매우 제한적입니다.

본 연구에서는 블록월드에서 여러 가지 계획 생성 방법을 실험하고 비교합니다. 특히, 이 연구에서는 다양한 방법을 평가하기 위해 100개의 무작위 사례를 생성했습니다. 최종 LLM 계획의 정확성에 대한 현실적인 평가를 제공하기 위해 이 연구에서는 외부 유효성 검사기 VAL을 사용합니다.

표 1에서 볼 수 있듯이 LLM+LLM 백프롬프트 방법은 정확도 측면에서 비백프롬프트 방법보다 약간 더 좋습니다.

LeCun이 다시 한 번 욕설을 퍼부은 자동 회귀 LLM: 두 논문에서 알 수 있듯이 GPT-4의 추론 능력은 매우 제한적입니다.

검증기는 100개의 인스턴스 중 61개(61%)를 정확하게 식별했습니다.

LeCun이 다시 한 번 욕설을 퍼부은 자동 회귀 LLM: 두 논문에서 알 수 있듯이 GPT-4의 추론 능력은 매우 제한적입니다.

아래 표는 다양한 수준의 피드백을 받을 때(피드백 없음 포함) LLM의 성능을 보여줍니다.

LeCun이 다시 한 번 욕설을 퍼부은 자동 회귀 LLM: 두 논문에서 알 수 있듯이 GPT-4의 추론 능력은 매우 제한적입니다.

위 내용은 LeCun이 다시 한 번 욕설을 퍼부은 자동 회귀 LLM: 두 논문에서 알 수 있듯이 GPT-4의 추론 능력은 매우 제한적입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7542

Cakephp 튜토리얼

1381

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

데비안 메일 서버 방화벽 구성 팁 Apr 13, 2025 am 11:42 AM

데비안 메일 서버의 방화벽 구성은 서버 보안을 보장하는 데 중요한 단계입니다. 다음은 iptables 및 방화구 사용을 포함하여 일반적으로 사용되는 여러 방화벽 구성 방법입니다. iptables를 사용하여 iptables를 설치하도록 방화벽을 구성하십시오 (아직 설치되지 않은 경우) : sudoapt-getupdatesudoapt-getinstalliptablesview 현재 iptables 규칙 : sudoiptables-l configuration

Debian Readdir가 다른 도구와 통합하는 방법 Apr 13, 2025 am 09:42 AM

데비안 시스템의 readdir 함수는 디렉토리 컨텐츠를 읽는 데 사용되는 시스템 호출이며 종종 C 프로그래밍에 사용됩니다. 이 기사에서는 ReadDir를 다른 도구와 통합하여 기능을 향상시키는 방법을 설명합니다. 방법 1 : C 언어 프로그램을 파이프 라인과 결합하고 먼저 C 프로그램을 작성하여 readDir 함수를 호출하고 결과를 출력하십시오.#포함#포함#포함#포함#includinTmain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

Debian Readdir의 파일 정렬을 구현하는 방법 Apr 13, 2025 am 09:06 AM

Debian Systems에서 readDIR 함수는 디렉토리 내용을 읽는 데 사용되지만 반환하는 순서는 사전 정의되지 않습니다. 디렉토리에 파일을 정렬하려면 먼저 모든 파일을 읽은 다음 QSORT 기능을 사용하여 정렬해야합니다. 다음 코드는 데비안 시스템에서 readdir 및 qsort를 사용하여 디렉토리 파일을 정렬하는 방법을 보여줍니다.#포함#포함#포함#포함#포함 // QsortIntCompare (constvoid*a, constVoid*b) {returnStrcmp (*(*)

Debian OpenSSL을 사용하여 디지털 서명 검증을 수행하는 방법 Apr 13, 2025 am 11:09 AM

Debian 시스템에서 Digital Signature Verification에 OpenSSL을 사용하면 다음을 수행 할 수 있습니다. OpenSSL 설치 준비 : Debian 시스템이 OpenSSL이 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다. Sudoaptupdatesudoaptinstallopenssl 공개 키를 얻으려면 : 디지털 서명 검증에는 서명자의 공개 키가 필요합니다. 일반적으로 공개 키는 public_key.pe와 같은 파일 형태로 제공됩니다.

데비안 메일 서버 SSL 인증서 설치 방법 Apr 13, 2025 am 11:39 AM

Debian Mail 서버에 SSL 인증서를 설치하는 단계는 다음과 같습니다. 1. OpenSSL 툴킷을 먼저 설치하십시오. 먼저 OpenSSL 툴킷이 이미 시스템에 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다. 개인 키 및 인증서 요청 생성 다음에 다음, OpenSSL을 사용하여 2048 비트 RSA 개인 키 및 인증서 요청 (CSR)을 생성합니다.

Centos Shutdown 명령 줄 Apr 14, 2025 pm 09:12 PM

CentOS 종료 명령은 종료이며 구문은 종료 [옵션] 시간 [정보]입니다. 옵션은 다음과 같습니다. -H 시스템 중지 즉시 옵션; -P 종료 후 전원을 끕니다. -R 다시 시작; -대기 시간. 시간은 즉시 (현재), 분 (분) 또는 특정 시간 (HH : MM)으로 지정할 수 있습니다. 추가 정보는 시스템 메시지에 표시 될 수 있습니다.

데비안을 오류하는 방법은 중간 중간의 공격을 방해합니다 Apr 13, 2025 am 10:30 AM

Debian Systems에서 OpenSSL은 암호화, 암호 해독 및 인증서 관리를위한 중요한 라이브러리입니다. MITM (Man-in-the-Middle Attack)을 방지하려면 다음 측정을 수행 할 수 있습니다. HTTPS 사용 : 모든 네트워크 요청이 HTTP 대신 HTTPS 프로토콜을 사용하도록하십시오. HTTPS는 TLS (Transport Layer Security Protocol)를 사용하여 통신 데이터를 암호화하여 전송 중에 데이터가 도난 당하거나 변조되지 않도록합니다. 서버 인증서 확인 : 클라이언트의 서버 인증서를 수동으로 확인하여 신뢰할 수 있는지 확인하십시오. 서버는 대의원 메소드를 통해 수동으로 확인할 수 있습니다.

데비안 하프 로그 관리를 수행하는 방법 Apr 13, 2025 am 10:45 AM

Debian에서 Hadoop 로그 관리하면 다음 단계 및 모범 사례를 따라갈 수 있습니다. 로그 집계 로그 집계 : Yarn-site.xml 파일에서 Ture에서 True로 설정 할 수 있도록 설정 : 로그 집계를 활성화하십시오. 로그 보유 정책 구성 : 172800 초 (2 일)와 같이 로그의 유지 시간을 정의하기 위해 yarn.log-aggregation.retain-seconds를 설정하십시오. 로그 저장 경로를 지정하십시오 : Yarn.n을 통해

See all articles

LeCun이 다시 한 번 욕설을 퍼부은 자동 회귀 LLM: 두 논문에서 알 수 있듯이 GPT-4의 추론 능력은 매우 제한적입니다.

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제