GPT-4가 출시된 후 다른 대형 모델은 어떻게 될까요? Yann LeCun: 향상된 언어 모델이 좋은 방법일 수 있습니다.-일체 포함-php.cn

연구 배경

집

기술 주변기기

일체 포함

GPT-4가 출시된 후 다른 대형 모델은 어떻게 될까요? Yann LeCun: 향상된 언어 모델이 좋은 방법일 수 있습니다.

王林

Apr 12, 2023 pm 11:28 PM

ai 모델

ChatGPT와 GPT-4의 인기로 인해 대규모 언어 모델이 지금까지 가장 빛나는 순간을 맞이하게 되었습니다. 하지만 다음에는 어디로 갈까요?

Yann LeCun은 최근 언어 모델을 강화하는 것이 유망한 방향일 수 있음을 지적하는 연구에 참여했습니다.

GPT-4가 출시된 후 다른 대형 모델은 어떻게 될까요? Yann LeCun: 향상된 언어 모델이 좋은 방법일 수 있습니다.

논평 기사입니다. 이 기사에서는 논문의 주요 내용을 간략하게 소개합니다.

연구 배경

대규모 언어 모델은 자연어 처리의 발전을 크게 촉진했습니다. 관련 기술은 코딩 도우미 Copilot, Google 검색 엔진 및 최근 인기 있는 ChatGPT를 포함하여 수백만 명의 사용자를 대상으로 하는 여러 제품을 만들었습니다. 메모리와 구성 기능을 결합함으로써 대규모 언어 모델은 전례 없는 성능으로 언어 이해 또는 조건부 및 무조건 텍스트 생성과 같은 작업을 수행할 수 있으므로 더 높은 대역폭의 인간-컴퓨터 상호 작용이 현실화됩니다.

그러나 대규모 언어 모델에는 여전히 광범위한 배포를 방해하는 몇 가지 제한 사항이 있습니다. 대규모 언어 모델은 종종 환각이라고 불리는 사실은 아니지만 그럴듯한 예측을 제공합니다. 이는 예를 들어 산술적 맥락이나 추론 체인에서 피할 수 있는 많은 오류로 이어집니다. 또한 훈련 가능한 매개변수의 수로 측정하면 규모가 커짐에 따라 많은 대규모 언어 모델의 획기적인 기능이 나타나는 것처럼 보입니다. 예를 들어 일부 연구자는 대규모 언어 모델이 특정 규모에 도달하면 다음을 수행할 수 있음을 입증했습니다. 소수 샘플 프롬프트를 통해 일부 작업을 수행합니다. 일련의 최근 연구에서는 대규모 모델의 일부 특성을 여전히 유지하는 소규모 언어 모델을 생성했지만, 대규모 언어 모델의 교육 및 유지 관리 비용은 크기 및 데이터 요구 사항으로 인해 여전히 높습니다. 대규모 모델에 대한 지속적인 학습은 공개 연구 문제로 남아 있으며 Goldberg는 이전에 GPT-3 기반 챗봇 ChatGPT의 맥락에서 대규모 언어 모델의 다른 제한 사항에 대해 논의했습니다.

최근 연구에서 Meta 및 기타 기관의 연구자들은 위의 문제가 대규모 언어 모델의 본질적인 결함에서 비롯된다고 분석했습니다. 즉, 일반적으로 주어진 작업을 (i) 단일 매개변수 모델과 (ii) 수행하도록 훈련받습니다. 제한된 컨텍스트를 사용한 통계적 언어 모델링(보통 n개의 이전 또는 주변 토큰) n은 최근 몇 년 동안 소프트웨어 및 하드웨어의 혁신으로 인해 성장해 왔지만, 대부분의 모델은 언어 모델링을 일관되게 올바르게 수행하는 데 필요한 잠재적으로 큰 컨텍스트에 비해 여전히 상대적으로 작은 컨텍스트를 사용합니다. 따라서 모델에는 컨텍스트에는 없지만 당면한 작업을 수행하는 데 필요한 지식을 저장하려면 엄청난 규모가 필요합니다.

GPT-4가 출시된 후 다른 대형 모델은 어떻게 될까요? Yann LeCun: 향상된 언어 모델이 좋은 방법일 수 있습니다.

논문 링크: https://arxiv.org/pdf/2302.07842v1.pdf

따라서 이러한 문제를 해결하려는 연구가 점점 더 많아지고 있으며, 위에서 설명한 순전히 통계적인 언어 모델링 패러다임입니다.

예를 들어, 관련 외부 문서에서 추출한 정보를 추가하여 대규모 언어 모델의 관련성을 높여 제한된 컨텍스트 크기를 우회하는 작업이 있습니다. 주어진 상황에 대해 데이터베이스에서 그러한 문서를 검색하는 모듈을 대규모 언어 모델에 장착함으로써 더 적은 매개변수로 일부 대규모 언어 모델의 기능을 일치시킬 수 있습니다. 결과 모델은 이제 외부 데이터 소스를 쿼리할 수 있으므로 비모수적입니다. 일반적으로 언어 모델은 추론 전략을 통해 컨텍스트를 개선하여 더 관련성이 높은 컨텍스트를 생성하고 답변을 생성하기 전에 더 많은 계산을 절약할 수도 있습니다.

또 다른 전략은 언어 모델이 외부 도구를 활용하여 언어 모델 가중치에 포함되지 않은 중요한 누락 정보로 현재 컨텍스트를 강화할 수 있도록 하는 것입니다. 이 작업의 대부분은 위에서 언급한 언어 모델의 단점을 완화하는 것을 목표로 하지만 언어 모델을 향상하기 위한 추론 및 도구를 보다 체계적으로 사용하면 더욱 강력한 에이전트가 될 수 있음을 직접적으로 보여줍니다. 이러한 모델을 ALM(증강 언어 모델)이라고 합니다. 이러한 추세가 가속화되면서 관련 연구도 급격히 늘어나서, 저작물의 분류와 용도에 따른 기술용어의 정의가 필요하게 되었다.

본 논문에서 사용되는 용어의 정의는 다음과 같습니다.

추론. 증강 언어 모델의 맥락에서 추론은 잠재적으로 복잡한 작업을 언어 모델이 자체적으로 또는 도구를 사용하여 더 쉽게 해결할 수 있는 간단한 하위 작업으로 분해하는 것입니다. 하위 작업을 재귀적으로 또는 반복적으로 분해하는 방법은 다양합니다. 이런 의미에서 추론은 LeCun의 2022년 논문 "A Path Towards Autonomous Machine Intelligence"에 정의된 "계획"과 유사합니다. 이 기사에서 추론에는 몇 가지 예를 사용한 단계별 추론과 같이 언어 모델 추론 기술을 향상하기 위한 다양한 전략이 포함되는 경우가 많습니다. 언어 모델이 실제로 추론하는지, 아니면 단순히 누락된 토큰을 정확하게 예측할 가능성을 높이는 더 큰 컨텍스트를 생성하는지 완전히 명확하지 않습니다. 이 주제에 대한 다른 연구자들의 토론을 참조하는 것이 도움이 될 수 있습니다(Huang and Chang(2022)). 비록 추론은 현재 SOTA 결과에 기초한 언어 남용일 수 있지만, 이 용어는 이미 커뮤니티에서 사용되고 있습니다. 증강 언어 모델의 상황 추론에 대한 보다 실용적인 정의는 프롬프트에 대한 답변을 생성하기 전에 모델에 더 많은 계산 단계를 제공하는 것입니다.

도구. 증강 언어 모델의 경우 도구는 일반적으로 규칙 또는 특수 토큰을 사용하여 호출되는 외부 모듈이며, 출력은 증강 언어 모델의 컨텍스트에 포함됩니다. 이 도구는 외부 정보를 수집하거나 가상 또는 실제 세계에 영향을 미칠 수 있습니다(보통 증강 언어 모델로 인식됨). 외부정보를 획득하는 도구로는 문서검색기를 들 수 있고, 외부효과를 주는 도구로는 로봇팔을 들 수 있다. 훈련 또는 추론 시간 중에 도구를 호출할 수 있습니다. 일반적으로 도구와 상호 작용하는 방법을 배우는 데에는 해당 API를 호출하는 방법이 포함될 수 있습니다.

행동. 증강 언어 모델의 경우 작업은 일반적으로 증강 언어 모델의 현재 컨텍스트에 이를 포함하여 가상 또는 실제 세계에 영향을 미치는 도구를 호출하고 결과를 관찰하는 것입니다. 예를 들어, 이 기사에 언급된 일부 작품에서는 웹 검색이나 언어 모델을 통한 로봇 팔 조작에 대해 논의합니다. 용어를 조금 남용하기 위해 연구자들은 외부 효과가 없더라도 증강 언어 모델에 의한 도구 호출을 행동으로 언급하는 경우가 있습니다.

추론과 도구를 함께 논의해야 하는 이유는 무엇인가요? 언어 모델의 추론과 도구의 조합은 휴리스틱 없이도 수많은 복잡한 작업을 해결하는 데 사용되므로 일반화 기능이 향상됩니다. 일반적으로 추론은 주어진 문제를 잠재적으로 더 간단한 하위 작업으로 분해하는 언어 모델을 용이하게 하며, 도구는 수학적 연산에서 결과를 얻는 것과 같이 각 단계를 올바르게 수행하는 데 도움이 됩니다. 즉, 추론은 언어 모델이 복잡한 작업을 해결하기 위해 다양한 도구를 결합하는 방법이고, 도구는 효율적인 분해를 사용하여 추론 실패를 방지하는 방법입니다. 둘 다 다른 것으로부터 이익을 얻어야 합니다. 또한 추론과 도구는 비록 방식은 다르지만 누락된 토큰을 더 잘 예측하기 위해 언어 모델의 컨텍스트를 향상하므로 동일한 "후드"에 배치될 수 있습니다.

도구와 작업을 함께 논의하는 이유는 무엇인가요? 언어 모델은 추가 정보를 수집하고 가상 또는 실제 세계에 영향을 미치는 도구와 동일한 방식으로 호출될 수 있습니다. 예를 들어, 수학적 연산을 풀기 위해 Python 코드를 출력하는 언어 모델과 로봇 팔을 작동하기 위해 Python 코드를 출력하는 언어 모델 사이에는 차이가 없는 것 같습니다. 논문에서 논의된 작업 중 일부는 가상 또는 물리적 세계에 영향을 미치는 언어 모델을 사용했습니다. 이런 관점에서 볼 때, 언어 모델은 행동적 잠재력을 갖고 있다고 할 수 있으며, 자동화 에이전트의 방향으로 이룩한 중요한 진전도 기대해볼 만하다.

이 기사는 설문조사에 포함된 연구를 세 부분으로 나눕니다. 섹션 2에서는 위에 정의된 언어 모델의 추론 기능을 향상시키기 위한 작업을 검토합니다. 섹션 3에서는 언어 모델이 외부 도구와 상호 작용하고 조치를 취할 수 있도록 하는 작업에 중점을 둡니다. 마지막으로 섹션 4에서는 추론과 도구 사용이 휴리스틱을 통해 달성되는지 아니면 학습(예: 감독 또는 강화)을 통해 달성되는지 탐구합니다. 설문 조사에는 저자가 섹션 V에서 논의한 다른 구성 요소도 포함되어 있습니다. 간결하게 하기 위해 설문조사는 추론이나 도구를 언어 모델과 결합하는 작업에 중점을 둡니다. 마지막으로, 이 기사의 초점은 대규모 언어 모델에 있지만 고려되는 모든 연구가 대규모 모델을 사용하는 것은 아니므로 정확성을 보장하기 위해 나머지 조사에서도 언어 모델을 준수할 것입니다.

Inference

이전 작업에서는 대규모 언어 모델이 간단한 추론 문제를 해결할 수 있지만 복잡한 추론 문제는 해결할 수 없음을 보여주었습니다. 따라서 이 섹션에서는 언어 모델의 추론 기술을 향상시키기 위한 다양한 전략에 중점을 둡니다. 선형 모델의 복잡한 추론 문제의 과제 중 하나는 예측된 정답을 하위 문제로 결합하여 솔루션을 올바르게 얻는 것입니다. 예를 들어, 언어 모델은 유명인의 생년월일과 사망일을 정확하게 예측할 수 있지만 나이는 정확하게 예측하지 못할 수도 있습니다. 일부 연구자들은 이러한 차이를 언어 모델의 구성성 격차라고 부릅니다. 이 섹션의 나머지 부분에서는 언어 모델에서 유도 추론의 세 가지 대중적인 패러다임과 관련된 작업에 대해 논의합니다. 현재 작업은 도구와 결합된 추론에 중점을 두고 있으므로 독자는 여기에서 대규모 언어 모델 추론에 대한 다른 연구자의 작업에 대한 보다 심층적인 논의를 참조할 수 있습니다.

도구 및 행동의 사용

최근의 언어 모델 연구 라인을 통해 모델은 사실적 지식과 같이 가중치에 반드시 저장되지 않는 지식에 액세스할 수 있습니다. 보다 정확하게는 정확한 계산이나 정보 검색과 같은 작업을 Python 인터프리터 또는 모델에서 쿼리하는 검색 엔진 모듈과 같은 외부 모듈로 오프로드할 수 있으며, 이 경우 이러한 모듈은 도구를 사용합니다. 게다가 도구가 외부 세계에 영향을 미칠 때 언어 모델이 작업을 수행했다고 말할 수 있습니다. Transformer 언어 모델링과 결합된 편리한 기능인 특수 토큰 형태로 도구와 동작을 쉽게 포함할 수 있습니다.

추론 및 도구 적용 능력을 발휘하기 위해 언어 모델을 어떻게 향상할 수 있는지 검토한 후, 이 설문조사에서는 이러한 능력을 적용하도록 모델을 가르치는 방법도 설명합니다.

자세한 연구 내용은 원문을 참고해주세요.

위 내용은 GPT-4가 출시된 후 다른 대형 모델은 어떻게 될까요? Yann LeCun: 향상된 언어 모델이 좋은 방법일 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7504

Cakephp 튜토리얼

1378

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

데비안 아파치 로그 형식을 구성하는 방법 Apr 12, 2025 pm 11:30 PM

이 기사에서는 데비안 시스템에서 Apache의 로그 형식을 사용자 정의하는 방법에 대해 설명합니다. 다음 단계는 구성 프로세스를 안내합니다. 1 단계 : Apache 구성 파일 액세스 Debian 시스템의 기본 Apache 구성 파일은 일반적으로 /etc/apache2/apache2.conf 또는 /etc/apache2/httpd.conf에 있습니다. 다음 명령을 사용하여 루트 권한으로 구성 파일을 엽니 다.

Debian Readdir의 파일 정렬을 구현하는 방법 Apr 13, 2025 am 09:06 AM

Debian Systems에서 readDIR 함수는 디렉토리 내용을 읽는 데 사용되지만 반환하는 순서는 사전 정의되지 않습니다. 디렉토리에 파일을 정렬하려면 먼저 모든 파일을 읽은 다음 QSORT 기능을 사용하여 정렬해야합니다. 다음 코드는 데비안 시스템에서 readdir 및 qsort를 사용하여 디렉토리 파일을 정렬하는 방법을 보여줍니다.#포함#포함#포함#포함#포함 // QsortIntCompare (constvoid*a, constVoid*b) {returnStrcmp (*(*)

Tomcat Logs가 메모리 누출 문제 해결에 도움이되는 방법 Apr 12, 2025 pm 11:42 PM

Tomcat 로그는 메모리 누출 문제를 진단하는 열쇠입니다. Tomcat 로그를 분석하면 메모리 사용 및 가비지 수집 (GC) 동작에 대한 통찰력을 얻을 수 있으며 메모리 누출을 효과적으로 찾아서 해결할 수 있습니다. 다음은 Tomcat 로그를 사용하여 메모리 누출 문제를 해결하는 방법입니다. 1. GC 로그 분석 먼저 자세한 GC 로깅을 활성화하십시오. 다음 JVM 옵션을 Tomcat 시작 매개 변수에 추가하십시오. -xx : printgcdetails-xx : printgcdatestamps-xloggc : gc. 분석 gc.log

Debian Readdir의 성능을 최적화하는 방법 Apr 13, 2025 am 08:48 AM

Debian Systems에서 ReadDir 시스템 호출은 디렉토리 내용을 읽는 데 사용됩니다. 성능이 좋지 않은 경우 다음과 같은 최적화 전략을 시도해보십시오. 디렉토리 파일 수를 단순화하십시오. 대규모 디렉토리를 가능한 한 여러 소규모 디렉토리로 나누어 읽기마다 처리 된 항목 수를 줄입니다. 디렉토리 컨텐츠 캐싱 활성화 : 캐시 메커니즘을 구축하고 정기적으로 캐시를 업데이트하거나 디렉토리 컨텐츠가 변경 될 때 캐시를 업데이트하며 readDir로 자주 호출을 줄입니다. 메모리 캐시 (예 : Memcached 또는 Redis) 또는 로컬 캐시 (예 : 파일 또는 데이터베이스)를 고려할 수 있습니다. 효율적인 데이터 구조 채택 : 디렉토리 트래버스를 직접 구현하는 경우 디렉토리 정보를 저장하고 액세스하기 위해보다 효율적인 데이터 구조 (예 : 선형 검색 대신 해시 테이블)를 선택하십시오.

Debian Readdir가 다른 도구와 통합하는 방법 Apr 13, 2025 am 09:42 AM

데비안 시스템의 readdir 함수는 디렉토리 컨텐츠를 읽는 데 사용되는 시스템 호출이며 종종 C 프로그래밍에 사용됩니다. 이 기사에서는 ReadDir를 다른 도구와 통합하여 기능을 향상시키는 방법을 설명합니다. 방법 1 : C 언어 프로그램을 파이프 라인과 결합하고 먼저 C 프로그램을 작성하여 readDir 함수를 호출하고 결과를 출력하십시오.#포함#포함#포함#포함#includinTmain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

데비안 syslog에 대한 방화벽 규칙을 구성하는 방법 Apr 13, 2025 am 06:51 AM

이 기사에서는 데비안 시스템에서 iptables 또는 UFW를 사용하여 방화벽 규칙을 구성하고 Syslog를 사용하여 방화벽 활동을 기록하는 방법에 대해 설명합니다. 방법 1 : iptablesiptables 사용은 데비안 시스템의 강력한 명령 줄 방화벽 도구입니다. 기존 규칙보기 : 다음 명령을 사용하여 현재 iptables 규칙을보십시오. Sudoiptables-L-N-V 특정 IP 액세스 허용 : 예를 들어, IP 주소 192.168.1.100 허용 포트 80 : Sudoiptables-eActip-ptcp-d- 포트80-S192.16

데비안 syslog를 배우는 방법 Apr 13, 2025 am 11:51 AM

이 안내서는 데비안 시스템에서 syslog를 사용하는 방법을 배우도록 안내합니다. Syslog는 로깅 시스템 및 응용 프로그램 로그 메시지를위한 Linux 시스템의 핵심 서비스입니다. 관리자가 시스템 활동을 모니터링하고 분석하여 문제를 신속하게 식별하고 해결하는 데 도움이됩니다. 1. syslog에 대한 기본 지식 syslog의 핵심 기능에는 다음이 포함됩니다. 로그 메시지 중앙 수집 및 관리; 다중 로그 출력 형식 및 대상 위치 (예 : 파일 또는 네트워크) 지원; 실시간 로그보기 및 필터링 기능 제공. 2. Syslog 설치 및 구성 (RSYSLOG 사용) Debian 시스템은 기본적으로 RSYSLOG를 사용합니다. 다음 명령으로 설치할 수 있습니다 : sudoaptupdatesud

데비안 메일 서버 방화벽 구성 팁 Apr 13, 2025 am 11:42 AM

데비안 메일 서버의 방화벽 구성은 서버 보안을 보장하는 데 중요한 단계입니다. 다음은 iptables 및 방화구 사용을 포함하여 일반적으로 사용되는 여러 방화벽 구성 방법입니다. iptables를 사용하여 iptables를 설치하도록 방화벽을 구성하십시오 (아직 설치되지 않은 경우) : sudoapt-getupdatesudoapt-getinstalliptablesview 현재 iptables 규칙 : sudoiptables-l configuration

See all articles

GPT-4가 출시된 후 다른 대형 모델은 어떻게 될까요? Yann LeCun: 향상된 언어 모델이 좋은 방법일 수 있습니다.

연구 배경

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제