Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?-일체 포함-php.cn

대형모델의 창발능력

부드럽나요 아니면 갑작스럽나요?

대형 모델은 작업이 어떻게 형식화되는지에 매우 민감합니다

모델이 클수록 반드시 더 강한가요?

요약 및 생각

집

기술 주변기기

일체 포함

Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?

PHPz

Apr 08, 2023 pm 05:51 PM

ai 모델

언어 모델은 자연어 처리 분야의 연구와 실무를 근본적으로 변화시켰습니다. 최근 몇 년 동안 대형 모델은 여러 분야에서 중요한 발전을 이루었습니다. 적절한 지침이나 프롬프트를 통해 후속 작업을 미세 조정할 필요가 없으며 때로는 놀라운 성능을 발휘할 수도 있습니다.

예를 들어 GPT-3[1]은 러브레터, 스크립트를 작성할 수 있고 데이터를 사용하여 복잡한 수학적 추론 문제를 해결할 수 있으며 PaLM[2]은 농담을 설명할 수 있습니다. 위의 예는 대형 모델 기능의 빙산의 일각에 불과합니다. OpenAI 웹사이트[3]에서 많은 관련 데모를 볼 수 있지만 이러한 기능은 소형 모델에 거의 반영되지 않습니다.

오늘 소개한 논문에서는 소형 모델에는 없지만 대형 모델에는 있는 능력을 창발능력(Emergent Abilities)이라고 하는데, 모델의 규모가 일정 수준에 도달한 후 갑자기 획득되는 능력을 말합니다. . 이는 양적 변화가 질적 변화를 가져오는 과정이다.

창발능력의 출현은 예측하기 어렵습니다. 규모가 커짐에 따라 모델이 갑자기 특정 기능을 획득하는 이유는 여전히 대답하기 위해 추가 연구가 필요한 공개 질문입니다. 이 기사에서 저자는 대형 모델을 이해하는 데 있어 최근 진행 상황을 정리하고 이와 관련된 몇 가지 생각을 여러분과 논의하기를 기대합니다.

대형모델의 창발능력

대형모델이란? "큰" 것으로 간주되는 크기는 무엇입니까? 이는 명확한 정의가 없습니다.

일반적으로 소형 모델의 제로샷, 퓨샷과는 확연히 다른 성능을 보여주기 위해서는 모델 매개변수가 수십억 수준에 도달해야 할 수도 있습니다. 최근 몇 년 동안 일련의 작업에서 SOTA 성능을 달성한 수천억, 수조 개의 매개변수를 가진 여러 모델이 있었습니다. 일부 작업에서는 규모가 커짐에 따라 모델의 성능이 안정적으로 향상되는 반면, 다른 작업에서는 특정 규모에서 모델의 성능이 갑자기 증가하는 것을 보여줍니다. 서로 다른 작업을 분류하는 데 두 가지 지표를 사용할 수 있습니다[4]:

선형성: 규모가 커짐에 따라 작업에 대한 모델의 성능이 안정적으로 향상되는 정도를 측정하는 것을 목표로 합니다.

혁신성: 모델 크기가 임계 값을 초과할 때 작업을 얼마나 잘 학습할 수 있는지 측정하도록 설계되었습니다.

이 두 지표는 모델 크기와 모델 성능의 함수입니다. 구체적인 계산 내용은 [4]를 참조하세요. 아래 그림은 높은 선형성과 높은 혁신성 작업의 몇 가지 예를 보여줍니다.

Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?

선형성이 높은 대부분의 작업은 지식 기반입니다. 즉, 사실적 질문에 답하는 것과 같이 훈련 데이터에 있는 정보를 기억하는 데 주로 의존한다는 의미입니다. 모델이 클수록 일반적으로 훈련에 더 많은 데이터를 사용하고 더 많은 지식을 기억할 수 있으므로 모델은 규모가 커짐에 따라 이러한 작업에서 꾸준한 개선을 보여줍니다. 혁신성이 높은 작업에는 여러 가지 다른 능력을 사용하거나 수학적 추론과 같이 정답에 도달하기 위해 여러 단계를 실행해야 하는 보다 복잡한 작업이 포함됩니다. 소형 모델은 이러한 작업을 수행하는 데 필요한 모든 기능을 확보하는 데 어려움을 겪습니다.

다음 그림은 일부 획기적인 작업에 대한 다양한 모델의 성능을 추가로 보여줍니다.

Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?

특정 모델 크기에 도달하지 못한 경우 해당 작업에 대한 모델의 성능은 무작위입니다. 어느 정도 규모에서는 상당한 개선이 있었습니다.

부드럽나요 아니면 갑작스럽나요?

앞서 본 것은 모델 규모가 일정 수준까지 증가한 후 갑자기 특정 기능을 획득한다는 것입니다. 작업별 지표의 관점에서는 이러한 기능이 출현하지만 다른 관점에서는 모델 기능의 잠재적 변화가 더 큽니다. 매끄러운. 이 문서에서는 다음 두 가지 관점에 대해 설명합니다. (1) 더 부드러운 지표 사용, (2) 복잡한 작업을 여러 하위 작업으로 분해합니다.

다음 그림 (a)는 일부 혁신성이 높은 작업에 대한 실제 목표의 로그 확률 변화 곡선을 보여줍니다. 모델 크기가 증가함에 따라 실제 목표의 로그 확률이 점차 증가합니다.

Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?

그림 (b)는 특정 객관식 작업의 경우 모델 크기가 증가함에 따라 정답의 로그 확률이 점차 증가하는 반면, 오답의 로그 확률은 특정 수준임을 보여줍니다. 특정 크기 이전에는 점차 증가하고 그 이후에는 안정됩니다. 이 척도 이후에는 정답 확률과 오답 확률 사이의 격차가 커지고 모델의 성능이 크게 향상됩니다.

또한 특정 작업에 대해 Exact Match와 BLEU를 사용하여 모델의 성능을 평가할 수 있다고 가정해 보겠습니다. BLEU는 Exact Match보다 더 부드러운 지표입니다. 서로 다른 지표를 사용하여 나타나는 추세는 크게 다를 수 있습니다. .

일부 작업의 경우 모델은 다양한 규모에서 이 작업을 수행하는 부분적인 능력을 얻을 수 있습니다. 아래 그림은 일련의 이모티콘을 통해 영화 이름을 추측하는 작업입니다.

Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?

모델이 어느 정도 규모에서 영화 이름을 추측하기 시작하고, 어느 정도 단계에서 이모티콘의 의미를 인식하는 것을 볼 수 있습니다. 더 큰 규모로, 가장 큰 규모로 정답을 만들어 보세요.

대형 모델은 작업이 어떻게 형식화되는지에 매우 민감합니다

모델의 능력이 갑자기 향상되는 정도는 작업이 형식화되는 방식에 따라 달라집니다. 예를 들어, 복잡한 수학적 추론 작업에서 표준 프롬프트를 사용하여 질문 및 답변 작업으로 처리하면 모델 크기가 증가함에 따라 성능 향상이 매우 제한됩니다. 아래 그림과 같이 사용하면 질문 및 답변 작업으로 처리됩니다. 다단계 추론 작업으로 처리하면 특정 규모에서 상당한 성능 향상이 나타납니다.

Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?

또한 연구원들은 "단계적으로 생각해보자"라는 간단한 프롬프트를 추가함으로써 GPT-3의 제로샷 추론 능력이 크게 향상될 수 있음을 발견했습니다.[6] 아래 그림에서

Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?

때때로 대형 모델이 특정 작업을 잘 수행하지 못하는 경우가 있지만 실제로는 잘 수행하지 못하는 것이 아니라 적절한 자극 방법이 필요하다는 영감을 받았습니다. 그것.능력.

모델이 클수록 반드시 더 강한가요?

이전 논의에서는 모델 크기가 커질수록 성능이 향상되어야 한다는 직관적인 느낌을 받았는데, 과연 그럴까요? 실제로 일부 작업의 경우 아래 그림과 같이 모델이 커질수록 성능이 실제로 저하될 수 있습니다

Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?

뉴욕대학교의 몇몇 연구자들도 모델 성능이 좋은 작업을 찾기 위해 대회를 조직했습니다. 모델이 커질수록 성능이 저하됩니다.

Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?

예를 들어 질문 및 답변 작업에서 질문과 함께 자신의 신념을 추가하면 대형 모델이 더 쉽게 영향을 받습니다. 관심 있는 학생들은 주목하시기 바랍니다.

요약 및 생각

대부분의 작업에서는 모델의 크기가 커질수록 모델의 성능이 좋아지지만 몇 가지 반례도 있을 것입니다. 모델의 동작을 더 잘 이해하려면 더 많은 연구가 필요합니다.

대형 모델의 능력은 적절한 방법으로 자극되어야 합니다.

대형 모델이 정말 추론을 하고 있는 걸까요? 앞서 살펴보았듯이, “단계적으로 생각해보자”라는 프롬프트를 추가함으로써 대형 모델은 다단계 추론을 수행하고 수학적 추론 작업에서 만족스러운 결과를 얻을 수 있습니다. 모델은 이미 인간의 추론 능력을 보유하고 있는 것 같습니다. 그러나 아래와 같이 GPT-3에게 의미 없는 질문을 주고 다단계 추론을 하게 하면 GPT-3가 추론을 하는 것처럼 보이지만 실제로는 의미 없는 출력물이다. "쓰레기는 들어가면 쓰레기가 나온다"라는 말이 있듯이요. 이에 비해 인간은 질문이 합리적인지, 즉 주어진 조건에서 현재 질문에 답할 수 있는지 여부를 판단할 수 있습니다. "단계적으로 생각해보자"는 것이 통할 수 있다고 생각합니다. GPT-3는 훈련 과정에서 유사한 데이터를 많이 봤기 때문입니다. 인간과 달리, 단지 이전 토큰을 기반으로 다음 토큰을 예측하는 것뿐입니다. 사고 방식에는 여전히 근본적인 차이가 있습니다. 물론, GPT-3가 질문이 합리적인지 판단할 수 있도록 적절한 프롬프트가 제공된다면 어느 정도 그렇게 할 수는 있겠지만, '사고'와 '추론' 사이에는 여전히 상당한 거리가 있습니다. 이는 단순한 문제가 아닙니다. 모델의 크기를 늘리면 해결될 수 있습니다. 모델은 인간처럼 생각할 필요는 없지만 모델 크기를 늘리는 것 이외의 경로를 탐색하려면 더 많은 연구가 시급히 필요합니다.

Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?

시스템 1 또는 시스템 2? 인간의 두뇌에는 서로 협력하는 두 가지 시스템이 있습니다. 시스템 1(직관)은 빠르고 자동적인 반면, 시스템 2(합리성)는 느리고 제어 가능합니다. 많은 실험을 통해 사람들은 판단과 결정을 내리기 위해 직관을 사용하는 것을 선호하며 합리성은 직관으로 인한 편견을 바로잡을 수 있다는 것이 입증되었습니다. 현재 대부분의 모델은 시스템 1 또는 시스템 2를 기반으로 설계되었습니다. 향후 모델도 이중 시스템을 기반으로 설계할 수 있습니까?

대형 모델 시대의 쿼리 언어. 이전에는 데이터베이스와 지식 그래프에 지식과 데이터를 저장했습니다. SQL을 사용하여 관계형 데이터베이스를 쿼리하고 SPARQL을 사용하여 지식 그래프를 쿼리할 수 있습니다.

메이 이치(Mei Yiqi) 선생님은 "소위 위대한 선비란 건물이 아니라 스승을 의미합니다."라고 말한 적이 있습니다. 저자는 소위 빅 모델이라는 부적절한 비유로 이 글을 끝냅니다. 매개변수가 있다는 뜻이 아니라 능력이 있다는 뜻입니다.

위 내용은 Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7488

Cakephp 튜토리얼

1377

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

phpmyadmin은 데이터 테이블을 만듭니다 Apr 10, 2025 pm 11:00 PM

phpmyadmin을 사용하여 데이터 테이블을 만들려면 다음 단계가 필수적입니다. 데이터베이스에 연결하고 새 탭을 클릭하십시오. 테이블의 이름을 지정하고 저장 엔진을 선택하십시오 (InnoDB 권장). 열 이름, 데이터 유형, NULL 값 허용 여부 및 기타 속성을 포함하여 열 추가 버튼을 클릭하여 열 디테일을 추가하십시오. 기본 키로 하나 이상의 열을 선택하십시오. 저장 버튼을 클릭하여 테이블과 열을 만듭니다.

Redis 메모리 조각화를 처리하는 방법? Apr 10, 2025 pm 02:24 PM

Redis 메모리 조각화는 할당 된 메모리에 재 할당 할 수없는 작은 자유 영역의 존재를 말합니다. 대처 전략에는 다음이 포함됩니다. REDIS를 다시 시작하십시오 : 메모리를 완전히 지우지 만 인터럽트 서비스. 데이터 구조 최적화 : Redis에 더 적합한 구조를 사용하여 메모리 할당 및 릴리스 수를 줄입니다. 구성 매개 변수 조정 : 정책을 사용하여 최근에 가장 적게 사용 된 키 값 쌍을 제거하십시오. 지속 메커니즘 사용 : 데이터를 정기적으로 백업하고 Redis를 다시 시작하여 조각을 정리하십시오. 메모리 사용 모니터링 : 적시에 문제를 발견하고 조치를 취하십시오.

Oracle 데이터베이스 작성 방법 Oracle 데이터베이스 작성 방법 Apr 11, 2025 pm 02:33 PM

Oracle 데이터베이스를 만드는 것은 쉽지 않으므로 기본 메커니즘을 이해해야합니다. 1. 데이터베이스 및 Oracle DBMS의 개념을 이해해야합니다. 2. SID, CDB (컨테이너 데이터베이스), PDB (Pluggable Database)와 같은 핵심 개념을 마스터합니다. 3. SQL*Plus를 사용하여 CDB를 생성 한 다음 PDB를 만들려면 크기, 데이터 파일 수 및 경로와 같은 매개 변수를 지정해야합니다. 4. 고급 응용 프로그램은 문자 세트, 메모리 및 기타 매개 변수를 조정하고 성능 튜닝을 수행해야합니다. 5. 디스크 공간, 권한 및 매개 변수 설정에주의를 기울이고 데이터베이스 성능을 지속적으로 모니터링하고 최적화하십시오. 그것을 능숙하게 마스터 함으로써만 지속적인 연습이 필요합니다. Oracle 데이터베이스의 생성 및 관리를 진정으로 이해할 수 있습니다.

Oracle 데이터베이스 생성 방법 Oracle 데이터베이스를 만드는 방법 Apr 11, 2025 pm 02:36 PM

Oracle 데이터베이스를 만들려면 일반적인 방법은 DBCA 그래픽 도구를 사용하는 것입니다. 단계는 다음과 같습니다. 1. DBCA 도구를 사용하여 데이터베이스 이름을 지정하기 위해 DBNAME을 설정하십시오. 2. SySpassword 및 SystemPassword를 강력한 암호로 설정하십시오. 3. Al32UTF8로 문자 세트 및 NationalCharacterset을 세트; 4. 실제 요구에 따라 조정하도록 메모리 크기 및 테이블 스페이스 크기를 설정하십시오. 5. 로그 파일 경로를 지정하십시오. 고급 메소드는 SQL 명령을 사용하여 수동으로 생성되지만 더 복잡하고 오류가 발생하기 쉽습니다. 비밀번호 강도, 문자 세트 선택, 테이블 스페이스 크기 및 메모리에주의하십시오.

Redis Exporter 서비스로 Redis 액 적을 모니터링하십시오 Apr 10, 2025 pm 01:36 PM

Redis 데이터베이스의 효과적인 모니터링은 최적의 성능을 유지하고 잠재적 인 병목 현상을 식별하며 전반적인 시스템 신뢰성을 보장하는 데 중요합니다. Redis Exporter Service는 Prometheus를 사용하여 Redis 데이터베이스를 모니터링하도록 설계된 강력한 유틸리티입니다. 이 튜토리얼은 Redis Exporter Service의 전체 설정 및 구성을 안내하여 모니터링 솔루션을 원활하게 구축 할 수 있도록합니다. 이 자습서를 연구하면 완전히 작동하는 모니터링 설정을 달성 할 수 있습니다.

Redis 메모리 구성 매개 변수는 무엇입니까? Apr 10, 2025 pm 02:03 PM

** Redis 메모리 구성의 핵심 매개 변수는 MaxMemory로 Redis가 사용할 수있는 메모리의 양을 제한합니다. 이 한계가 초과 될 때, Redis는 Maxmemory-Policy에 따라 제거 전략을 실행합니다. 다른 관련 매개 변수로는 MaxMemory-Samples (LRU 샘플 수량), RDB- 압축이 있습니다

Oracle Database 문을 작성하는 방법 Apr 11, 2025 pm 02:42 PM

Oracle SQL 문의 핵심은 다양한 조항의 유연한 적용뿐만 아니라 선택, 삽입, 업데이트 및 삭제입니다. 인덱스 최적화와 같은 진술의 실행 메커니즘을 이해하는 것이 중요합니다. 고급 사용에는 하위 쿼리, 연결 쿼리, 분석 기능 및 PL/SQL이 포함됩니다. 일반적인 오류에는 구문 오류, 성능 문제 및 데이터 일관성 문제가 포함됩니다. 성능 최적화 모범 사례에는 적절한 인덱스를 사용하고 선택 *을 피하고 조항을 최적화하고 바운드 변수를 사용하는 것이 포함됩니다. Oracle SQL을 마스터하려면 코드 쓰기, 디버깅, 사고 및 기본 메커니즘 이해를 포함한 연습이 필요합니다.

Redis 메모리 관리 메커니즘은 무엇입니까? Apr 10, 2025 pm 01:39 PM

Redis는 다음을 포함하여 세분화 된 메모리 관리 메커니즘을 채택합니다. 잘 설계된 메모리 친화적 인 데이터 구조, 다양한 크기의 메모리 블록에 대한 할당 전략을 최적화하는 멀티 메모리 할당, 특정 요구에 따라 제거 전략을 선택하는 메모리 제거 메커니즘 및 메모리 사용을 모니터링하기위한 도구를 선택하는 멀티 메모리 할당 자. 이 메커니즘의 목표는 메모리의 미세 제어 및 효율적인 사용을 통해 궁극적 인 성능을 달성하고 메모리 조각화를 최소화하고 액세스 효율을 향상시켜 Redis가 다양한 시나리오에서 안정적이고 효율적으로 실행되도록하는 것입니다.

See all articles

Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?

​대형모델의 창발능력

부드럽나요 아니면 갑작스럽나요?

대형 모델은 작업이 어떻게 형식화되는지에 매우 민감합니다

모델이 클수록 반드시 더 강한가요?

요약 및 생각

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제

대형모델의 창발능력