


7억 7천만 개의 매개변수, 5,400억 개의 PaLM을 초과합니다! UW Google, ACL 2023 학습 데이터의 80%만 필요한 '단계별 증류' 제안 |
대형 언어 모델은 성능이 뛰어나며 제로 또는 퓨샷 힌트로 새로운 작업을 해결할 수 있습니다. 그러나 실제 애플리케이션 배포에서 LLM은 메모리 활용 효율성이 낮고 컴퓨팅 리소스가 많이 필요하기 때문에 그다지 실용적이지 않습니다. 예를 들어 1,750억 개의 매개변수가 있는 언어 모델 서비스를 실행하려면 최소 350GB의 비디오 메모리가 필요하며, 현재 최첨단 언어 모델의 대부분은 5,000억 개의 매개변수를 초과했습니다. 많은 연구팀은 이를 실행할 리소스가 충분하지 않으며 실제 응용 프로그램에서 짧은 대기 시간 성능을 충족할 수 없습니다.
수동으로 레이블이 지정된 데이터나 LLM 생성 레이블을 사용한 증류를 사용하여 더 작은 작업별 모델을 훈련하는 연구도 있지만 미세 조정 및 증류에는 LLM과 비슷한 성능을 달성하기 위해 많은 양의 훈련 데이터가 필요합니다.
대형 모델의 리소스 요구 사항 문제를 해결하기 위해 워싱턴 대학과 Google은 협력하여 "Distilling Step-by-Step"이라는 새로운 증류 메커니즘을 제안했습니다. 단계별 증류를 통해 증류된 모델의 크기는 원래 모델보다 작지만 성능은 더 좋고, 미세 조정 및 증류 과정에서 필요한 훈련 데이터도 적습니다
4개의 NLP 벤치마크에 대한 실험 후 다음을 발견했습니다.
1. 미세 조정 및 증류와 비교할 때 이 메커니즘은 더 적은 수의 훈련 샘플로 더 나은 성능을 달성합니다.
분포 증류에는 주로 두 단계가 포함됩니다.
연구원은 CoT(Few-Shot Chain of Thinking)를 사용합니다. LLM 예측 중간 단계에서 추출하라는 메시지가 표시됩니다. 대상 작업을 결정한 후 먼저 LLM 입력 프롬프트에서 몇 가지 샘플을 준비하세요. 각 예는 입력, 원리 및 출력을 포함하는 삼중항으로 구성됩니다.
프롬프트를 입력한 후 LLM은 삼중항 시연을 모방하여 상식 질문 및 답변 작업과 같은 다른 새로운 질문에 대한 예측 원리를 생성할 수 있습니다. , 주어진
입력 질문:점진적인 개선을 거쳐 LLM은 "(a) 질문에 대한 정답을 제공할 수 있습니다. 인구 "인구 밀집 지역"을 선택하고, "답은 사람이 많은 곳이어야 합니다. 위 선택지 중에서 인구 밀집 지역에만 사람이 많습니다."라는 질문에 답하는 이유를 제시합니다. LLM은 점진적인 정제를 거쳐 "(a) 인구밀도가 높은 지역"이 정답이라는 결론을 내릴 수 있었고, "답은 사람이 많은 곳이어야 한다. 위의 선택지 중에서 인구밀도가 높은 지역만"이라는 질문에 대한 답변 이유를 제공했다. 사람이 많아요." 사람."
프롬프트의 근거와 짝을 이루는 CoT 예제를 제공함으로써 상황별 학습 기능을 통해 LLM은 직면하지 않은 질문 유형에 대한 해당 답변 이유를 생성할 수 있습니다
2. 소규모 모델 교육
다중 작업 문제에 대한 교육 프로세스 구축을 통해 예측 이유를 추출하여 훈련 소형 모델에 통합할 수 있습니다
표준 라벨 예측 작업 외에도 연구원들은 새로운 이유 생성 작업을 사용하여 소형 모델을 훈련하여 모델이 사용자 생성 방법을 학습할 수 있도록 했습니다. 예측을 위한 중간 추론 단계를 수행하고 모델이 결과 레이블을 더 잘 예측하도록 안내합니다.
입력 프롬프트에 작업 접두사 "label" 및 "rationale"을 추가하여 레이블 예측 및 이유 생성 작업을 구별합니다.
실험 결과
실험에서 연구진은 5,400억 개의 매개변수를 갖는 PaLM 모델을 LLM 기준선으로 선택하고, 작업 관련 다운스트림 소형 모델로 T5 모델을 사용했습니다.
본 연구에서는 자연어 추론을 위한 e-SNLI와 ANLI, 상식 질문 답변을 위한 CQA, 산술수학 응용 질문을 위한 SVAMP의 4가지 벤치마크 데이터 세트에 대한 실험을 수행했습니다. 우리는 세 가지 다른 NLP 작업에 대해 실험을 수행했습니다
더 적은 훈련 데이터
단계적 증류 방법은 성능 면에서 표준 미세 조정보다 성능이 뛰어나고 더 적은 훈련 데이터가 필요합니다
in e-SNLI 데이터 세트에서 더 나은 성능 표준 미세 조정은 전체 데이터 세트의 12.5%를 사용하여 달성되며 ANLI, CQA 및 SVAMP에는 각각 훈련 데이터의 75%, 25% 및 20%만 필요합니다.
220M T5 모델을 사용하여 사람이 라벨을 붙인 다양한 크기의 데이터 세트에 대한 표준 미세 조정과 비교했을 때, 분포 증류는 모든 데이터 세트에서 더 적은 수의 훈련 예제를 사용할 때 전체 데이터 세트에 대한 표준 미세 조정보다 성능이 뛰어납니다.
더 작은 배포 모델 크기
소표본 CoT로 유도된 LLM과 비교하여 분포 증류로 얻은 모델 크기는 훨씬 작지만 성능은 더 좋습니다.
e-SNLI 데이터 세트에서 220M T5 모델을 사용하면 ANLI에서 540B PaLM보다 더 나은 성능을 얻을 수 있으며, 770M T5 모델을 사용하면 540B PaLM보다 더 나은 성능을 얻을 수 있으며 모델 크기는 1/700
더 작은 모델, 더 적은 데이터
모델 크기와 학습 데이터를 줄이면서 퓨샷 PaLM 이상의 성능을 성공적으로 달성했습니다.
ANLI에서는 770M을 사용하여 전체 데이터 세트의 80%만 사용하면서도 T5 모델은 540B PaLM보다 성능이 뛰어납니다.
전체 100% 데이터 세트에서도 표준 미세 조정은 PaLM의 성능 수준에 도달할 수 없는 것으로 관찰되었습니다. 이는 단계적 증류를 통해 모델 크기와 훈련 데이터 양을 동시에 줄여 LLM 이상의 성능을 달성할 수 있음을 보여줍니다.
위 내용은 7억 7천만 개의 매개변수, 5,400억 개의 PaLM을 초과합니다! UW Google, ACL 2023 학습 데이터의 80%만 필요한 '단계별 증류' 제안 |의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Debian Systems에서 readDIR 함수는 디렉토리 내용을 읽는 데 사용되지만 반환하는 순서는 사전 정의되지 않습니다. 디렉토리에 파일을 정렬하려면 먼저 모든 파일을 읽은 다음 QSORT 기능을 사용하여 정렬해야합니다. 다음 코드는 데비안 시스템에서 readdir 및 qsort를 사용하여 디렉토리 파일을 정렬하는 방법을 보여줍니다.#포함#포함#포함#포함#포함 // QsortIntCompare (constvoid*a, constVoid*b) {returnStrcmp (*(*)

Debian Systems에서 ReadDir 시스템 호출은 디렉토리 내용을 읽는 데 사용됩니다. 성능이 좋지 않은 경우 다음과 같은 최적화 전략을 시도해보십시오. 디렉토리 파일 수를 단순화하십시오. 대규모 디렉토리를 가능한 한 여러 소규모 디렉토리로 나누어 읽기마다 처리 된 항목 수를 줄입니다. 디렉토리 컨텐츠 캐싱 활성화 : 캐시 메커니즘을 구축하고 정기적으로 캐시를 업데이트하거나 디렉토리 컨텐츠가 변경 될 때 캐시를 업데이트하며 readDir로 자주 호출을 줄입니다. 메모리 캐시 (예 : Memcached 또는 Redis) 또는 로컬 캐시 (예 : 파일 또는 데이터베이스)를 고려할 수 있습니다. 효율적인 데이터 구조 채택 : 디렉토리 트래버스를 직접 구현하는 경우 디렉토리 정보를 저장하고 액세스하기 위해보다 효율적인 데이터 구조 (예 : 선형 검색 대신 해시 테이블)를 선택하십시오.

Debian Systems에서 OpenSSL은 암호화, 암호 해독 및 인증서 관리를위한 중요한 라이브러리입니다. MITM (Man-in-the-Middle Attack)을 방지하려면 다음 측정을 수행 할 수 있습니다. HTTPS 사용 : 모든 네트워크 요청이 HTTP 대신 HTTPS 프로토콜을 사용하도록하십시오. HTTPS는 TLS (Transport Layer Security Protocol)를 사용하여 통신 데이터를 암호화하여 전송 중에 데이터가 도난 당하거나 변조되지 않도록합니다. 서버 인증서 확인 : 클라이언트의 서버 인증서를 수동으로 확인하여 신뢰할 수 있는지 확인하십시오. 서버는 대의원 메소드를 통해 수동으로 확인할 수 있습니다.

이 기사에서는 데비안 시스템에서 Apacheweb 서버의 로깅 레벨을 조정하는 방법에 대해 설명합니다. 구성 파일을 수정하면 Apache가 기록한 로그 정보 수준을 제어 할 수 있습니다. 메소드 1 : 구성 파일을 찾으려면 기본 구성 파일을 수정합니다. 구성 파일 : APACHE2.X의 구성 파일은 일반적으로/etc/apache2/디렉토리에 있습니다. 파일 이름은 설치 방법에 따라 apache2.conf 또는 httpd.conf 일 수 있습니다. 구성 파일 편집 : 텍스트 편집기 (예 : Nano)를 사용하여 루트 권한이있는 구성 파일 열기 : sudonano/etc/apache2/apache2.conf

데비안 시스템의 readdir 함수는 디렉토리 컨텐츠를 읽는 데 사용되는 시스템 호출이며 종종 C 프로그래밍에 사용됩니다. 이 기사에서는 ReadDir를 다른 도구와 통합하여 기능을 향상시키는 방법을 설명합니다. 방법 1 : C 언어 프로그램을 파이프 라인과 결합하고 먼저 C 프로그램을 작성하여 readDir 함수를 호출하고 결과를 출력하십시오.#포함#포함#포함#포함#includinTmain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

이 안내서는 데비안 시스템에서 syslog를 사용하는 방법을 배우도록 안내합니다. Syslog는 로깅 시스템 및 응용 프로그램 로그 메시지를위한 Linux 시스템의 핵심 서비스입니다. 관리자가 시스템 활동을 모니터링하고 분석하여 문제를 신속하게 식별하고 해결하는 데 도움이됩니다. 1. syslog에 대한 기본 지식 syslog의 핵심 기능에는 다음이 포함됩니다. 로그 메시지 중앙 수집 및 관리; 다중 로그 출력 형식 및 대상 위치 (예 : 파일 또는 네트워크) 지원; 실시간 로그보기 및 필터링 기능 제공. 2. Syslog 설치 및 구성 (RSYSLOG 사용) Debian 시스템은 기본적으로 RSYSLOG를 사용합니다. 다음 명령으로 설치할 수 있습니다 : sudoaptupdatesud

Debian Mail 서버에 SSL 인증서를 설치하는 단계는 다음과 같습니다. 1. OpenSSL 툴킷을 먼저 설치하십시오. 먼저 OpenSSL 툴킷이 이미 시스템에 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다. 개인 키 및 인증서 요청 생성 다음에 다음, OpenSSL을 사용하여 2048 비트 RSA 개인 키 및 인증서 요청 (CSR)을 생성합니다.

데비안 메일 서버의 방화벽 구성은 서버 보안을 보장하는 데 중요한 단계입니다. 다음은 iptables 및 방화구 사용을 포함하여 일반적으로 사용되는 여러 방화벽 구성 방법입니다. iptables를 사용하여 iptables를 설치하도록 방화벽을 구성하십시오 (아직 설치되지 않은 경우) : sudoapt-getupdatesudoapt-getinstalliptablesview 현재 iptables 규칙 : sudoiptables-l configuration
