AI 시험과 공개 시험이 코앞으로 다가왔습니다! Microsoft 중국 팀, 인체 검사를 위해 특별히 설계된 새로운 벤치마크 AGIEval 출시
언어 모델의 능력이 점점 더 발전함에 따라 기존 평가 벤치마크는 실제로 약간 유치하고 일부 작업의 성능은 인간보다 훨씬 뒤떨어집니다.
일반인공지능(AGI)의 중요한 특징은 인간 수준의 작업을 처리하는 모델의 일반화 능력이지만, 인공 데이터 세트에 의존하는 기존 벤치마크는 인간의 능력을 정확하게 나타내지 않습니다.
최근 Microsoft 연구원들은 대학 입시, 공무원 시험, 로스쿨 입학 등 "인간 중심" 표준화 시험에서 기본 모델을 평가하는 데 특별히 사용되는 새로운 벤치마크인 AGIEval을 출시했습니다. , 수학 대회 및 변호사 시험.
문서 링크: https://arxiv.org/pdf/2304.06364.pdf
데이터 링크: https://github.com/microsoft/AGIEval
연구원들은 AGIeval 벤치마크를 사용하여 GPT-4, ChatGPT 및 Text-Davinci-003을 포함한 세 가지 최첨단 기본 모델을 평가했습니다. 실험 결과 GPT-4는 SAT, LSAT, 및 수학 대회에서 SAT 수학 시험의 정확도는 95%에 이르렀고, 중국 대학 입학 시험 영어 시험의 정확도는 92.5%에 달해 현재 기본 모델의 탁월한 성능을 나타냅니다.
그러나 GPT-4는 복잡한 추론이나 영역별 지식이 필요한 작업에 능숙하지 않습니다. 기사에서 모델 기능(이해, 지식, 추론 및 계산)을 종합적으로 분석하면 이러한 장점과 한계가 드러납니다. 모델.
AGIEval Dataset
최근 몇 년 동안 GPT-4와 같은 대규모 기본 모델은 다양한 분야에서 인간이 일상적인 사건을 처리하는 데 도움을 줄 수 있으며 심지어는 전문 분야에서도 서비스를 제공할 수 있습니다. 법률, 의학, 재정에 관한 조언입니다.
즉, 인공지능 시스템은 점차 AGI(Artificial General Intelligence, 인공지능)에 다가가고 이를 달성하고 있는 것입니다.
그러나 AI가 점차 일상생활에 통합됨에 따라 모델의 인간 중심 일반화 능력을 평가하고, 잠재적인 결함을 식별하며, 복잡한 인간 중심 작업을 효과적으로 처리할 수 있는지 확인하고, 이를 보장하기 위한 추론 능력을 평가하는 방법은 무엇입니까? 다양한 환경에서 사용할 수 있습니다. 신뢰성과 신뢰성이 중요합니다.
연구원들은 주로 두 가지 설계 원칙에 따라 AGIEval 데이터 세트를 구성했습니다.
1 인간 두뇌 수준의 인지 작업 강조
"인간 중심" 설계의 주요 목표 인지 및 문제 해결과 밀접하게 관련된 작업에 초점을 맞춰 인간과 상호 작용하고, 기본 모델의 일반화 능력을 보다 의미 있고 포괄적인 방식으로 평가하는 것입니다.
이 목표를 달성하기 위해 연구원들은 대학 입학 시험, 로스쿨 입학 시험, 수학 시험, 변호사 시험과 국가 공무원 시험은 고등 교육을 받거나 새로운 진로를 모색하는 수백만 명의 사람들이 매년 치르는 시험입니다.
인간 수준의 능력을 평가하기 위해 공식적으로 인정된 표준을 준수함으로써 AGIEval은 모델 성능 평가가 인간의 의사 결정 및 인지 능력과 직접적인 관련이 있음을 보장합니다.
2. 실제 시나리오와의 관련성
높은 수준의 입학 및 자격 시험에서 과제를 선택하면 평가 결과에 개인이 다양한 분야 및 상황에서 자주 직면하는 내용이 반영되도록 할 수 있습니다. 과제의 복잡성과 실용성.
이 방법은 인간의 인지 능력 측면에서 모델의 성능을 측정할 수 있을 뿐만 아니라 실제 생활에서의 적용 가능성과 유효성에 대한 더 나은 이해를 제공합니다. 다양한 실제 문제를 해결하는 데 적합한 효과적인 모델.
위의 설계 원칙을 바탕으로 연구원들은 다음을 포함하여 인간 수준의 추론과 실제 관련성을 강조하는 다양한 표준화된 고품질 시험을 선택했습니다.
1. 일반 대학 입학 시험
대학 입학 시험은 비판적 사고, 문제 해결 및 분석 기술이 필요한 다양한 과목을 다루며 인간 인지와 관련된 대규모 언어 모델의 성능을 평가하는 데 이상적입니다.
특히 대학원 성적 시험(GRE), 학업 평가 시험(SAT) 및 중국 대학 입학 시험(Gaokao)이 포함되어 고등 교육 기관에 입학하려는 학생들의 일반적인 능력과 과목별 지식을 평가할 수 있습니다.
데이터 세트는 중국 대학 입학 시험의 8개 과목(역사, 수학, 영어, 중국어, 지리, 생물학, 화학, 물리학)에 해당하는 시험을 수집합니다. GRE에서 수학 문제를 선택하고 SAT Build에서 수학 과목을 선택합니다. 벤치마크 데이터 세트
2. 로스쿨 입학 시험
LSAT과 같은 로스쿨 입학 시험은 법학 지망생의 추론 및 분석 능력을 측정하기 위해 고안되었습니다. 분석적 추론 이러한 작업은 법적 추론 및 분석에서 언어 모델의 능력을 평가합니다.
3. 변호사 시험
은 법률 경력을 추구하는 개인의 법적 지식, 분석 기술 및 윤리적 이해를 평가하고 헌법, 계약법, 형사를 포함한 광범위한 법률 주제를 다룹니다. 법률 및 재산법에 관한 법률이며 후보자가 법적 원칙과 추론을 효과적으로 적용할 수 있는 능력을 입증하도록 요구합니다. 언어 모델의 성과는 전문적인 법적 지식과 도덕적 판단의 맥락에서 평가될 수 있습니다.
4. 경영 대학원 입학 시험(GMAT)
GMAT는 분석적 작문을 통해 평가되는 경영 대학원생의 분석적, 양적, 언어적, 통합적 추론 능력을 평가하는 표준화된 시험입니다. , 종합적 추론, 정량적 추론, 언어적 추론 등을 통해 후보자의 비판적 사고, 데이터 분석 및 효과적인 의사소통 능력을 평가합니다.
5. 고등학교 수학 대회
이 대회는 정수론, 대수학, 기하학, 조합론 등 광범위한 수학 주제를 다루며 해결을 위해 창의적인 접근 방식이 필요한 색다른 문제를 제시하는 경우가 많습니다. .
특히 AMC(American Mathematics Competition) 및 AIME(American Invitational Mathematics Examination)가 포함되어 있어 학생들의 수학적 능력, 창의성 및 문제 해결 능력을 테스트할 수 있으며, 복잡하고 복잡한 문제를 처리하는 언어 모델의 능력을 더 평가할 수 있습니다. 창의적인 수학적 문제와 새로운 솔루션을 생성하는 모델의 능력.
6. 국내 공무원 시험
시험 내용에는 일반 지식, 추론 능력, 언어 능력, 공공 행정 상황에서 언어 모델의 성능과 정책 개발, 의사 결정 및 공공 서비스 제공 프로세스에 대한 잠재력을 측정할 수 있는 역할 및 책임에 대한 주제별 전문 지식.
평가 결과
선정된 모델은 다음과 같습니다.
ChatGPT는 OpenAI에서 개발한 대화형 인공지능 모델로, 사용자 상호 작용 및 동적 대화에 참여할 수 있으며, 방대한 명령 데이터 세트를 사용하여 훈련되고 강화를 통과했습니다. RLHF(인간 피드백을 통한 학습)는 인간의 기대와 일치하는 상황에 맞게 적절하고 일관된 응답을 제공하도록 이를 더욱 조정합니다.
GPT-4는 4세대 GPT 모델로서 더 넓은 범위의 지식 기반을 포함하고 다양한 응용 시나리오에서 인간 수준의 성능을 보여줍니다. GPT-4는 적대적 테스트와 ChatGPT를 사용하여 반복적으로 조정되었으며 그 결과 사실성, 부팅 가능성 및 규칙 준수가 크게 향상되었습니다.
Text-Davinci-003은 GPT-3과 GPT-4 사이의 중간 버전으로 지침을 통해 미세 조정한 후 GPT-3보다 성능이 더 좋습니다.
또한 실험에서는 인간 응시자의 평균 점수와 최고 점수도 각 작업에 대한 인간 수준 경계로 보고되었지만 인간이 보유할 수 있는 기술과 지식의 범위를 완전히 나타내지는 않습니다.
제로샷/퓨샷 평가
제로샘플 설정에서는 모델이 문제를 직접 평가하고, 퓨샷 작업에서는 동일한 작업을 입력한 후 테스트 샘플 A를 평가합니다. 적은 수의 예시(예: 5)
모델의 추론 능력을 추가로 테스트하기 위해 실험에는 CoT(사고 사슬) 프롬프트도 도입되었습니다. 즉, 먼저 "단계적으로 생각해보자"라는 프롬프트를 입력하여 다음에 대한 설명을 생성합니다. 주어진 질문을 입력한 다음 설명에 따라 "설명은 다음과 같습니다"라는 프롬프트를 입력하면 최종 답변이 생성됩니다.
벤치마크의 "객관식 질문"은 표준 분류 정확도를 사용하고 "빈칸 채우기 질문"은 완전 일치(EM) 및 F1 표시기를 사용합니다.
실험 결과에서 확인할 수 있습니다:
1 GPT-4는 모든 작업 설정에서 유사한 제품보다 훨씬 뛰어납니다. 그 중 Gaokao에서는 훨씬 더 좋습니다. 영어 SAT-MATH에서 93.8%의 정확도와 95%의 정확도를 갖춘 GPT-4는 인간 중심 작업을 처리하는 데 탁월한 일반 기능을 갖추고 있습니다.
2. ChatGPT는 지리, 생물학, 화학, 물리학, 수학 등 외부 지식이 필요한 작업에서 Text-Davinci-003보다 훨씬 뛰어납니다. 이는 ChatGPT가 더 강력한 지식 기반을 갖고 있으며 특정 영역에 대한 깊은 이해가 필요한 작업을 더 잘 처리합니다.
반면에 ChatGPT는 영어 및 LSAT 작업과 같이 순수한 이해가 필요하고 외부 지식에 크게 의존하지 않는 작업에서 Text-Davinci-003보다 약간 더 나은 성능을 발휘하거나 모든 평가 설정에서 비슷한 결과를 얻습니다. 이러한 관찰은 두 모델 모두 전문적인 도메인 지식 없이도 언어 이해 및 논리적 추론을 중심으로 한 작업을 처리할 수 있음을 의미합니다.
3 이러한 모델의 전반적인 성능은 좋지만 모든 언어 모델은 MATH, LSAT-AR, GK-physics 및 GK-Math와 같은 복잡한 추론 작업에서 성능이 저하됩니다. 고급 추론 및 문제 해결 기술이 필요한 작업 처리.
복잡한 추론 문제를 처리할 때 관찰된 어려움은 모델의 일반적인 추론 기능 향상을 목표로 하는 향후 연구 및 개발의 기회를 제공합니다.
4. 제로샷 학습과 비교하면 퓨샷 학습은 일반적으로 제한된 성능 향상만 가져올 수 있습니다. 이는 현재 대규모 언어 모델의 제로샷 학습 능력이 퓨샷 학습 능력에 근접하고 있음을 나타냅니다. 제로샷보다 몇 번의 샷 성능이 훨씬 더 좋았던 원래 GPT-3 모델에 비해 크게 개선되었습니다.
이 개발에 대한 논리적인 설명은 현재 언어 모델에서 인간의 명령 조정 및 조정이 증가했다는 것입니다. 이러한 개선을 통해 모델은 작업의 의미와 맥락을 미리 더 잘 이해할 수 있으며, 또한 제로샷 조건에서도 잘 수행되어 명령의 효율성이 입증되었습니다.
위 내용은 AI 시험과 공개 시험이 코앞으로 다가왔습니다! Microsoft 중국 팀, 인체 검사를 위해 특별히 설계된 새로운 벤치마크 AGIEval 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











CentOS 종료 명령은 종료이며 구문은 종료 [옵션] 시간 [정보]입니다. 옵션은 다음과 같습니다. -H 시스템 중지 즉시 옵션; -P 종료 후 전원을 끕니다. -R 다시 시작; -대기 시간. 시간은 즉시 (현재), 분 (분) 또는 특정 시간 (HH : MM)으로 지정할 수 있습니다. 추가 정보는 시스템 메시지에 표시 될 수 있습니다.

CentOS 시스템 하에서 Gitlab의 백업 및 복구 정책 데이터 보안 및 복구 가능성을 보장하기 위해 CentOS의 Gitlab은 다양한 백업 방법을 제공합니다. 이 기사는 완전한 GITLAB 백업 및 복구 전략을 설정하는 데 도움이되는 몇 가지 일반적인 백업 방법, 구성 매개 변수 및 복구 프로세스를 자세히 소개합니다. 1. 수동 백업 gitlab-rakegitlab : 백업 : 명령을 작성하여 수동 백업을 실행하십시오. 이 명령은 gitlab 저장소, 데이터베이스, 사용자, 사용자 그룹, 키 및 권한과 같은 주요 정보를 백업합니다. 기본 백업 파일은/var/opt/gitlab/backups 디렉토리에 저장됩니다. /etc /gitlab을 수정할 수 있습니다

CentOS 시스템에서 HDFS 구성 확인에 대한 완전한 안내서이 기사에서는 CentOS 시스템에서 HDF의 구성 및 실행 상태를 효과적으로 확인하는 방법을 안내합니다. 다음 단계는 HDF의 설정 및 작동을 완전히 이해하는 데 도움이됩니다. Hadoop 환경 변수 확인 : 먼저 Hadoop 환경 변수가 올바르게 설정되어 있는지 확인하십시오. 터미널에서 다음 명령을 실행하여 Hadoop이 올바르게 설치되고 구성되었는지 확인하십시오. Hadoopversion Check HDFS 구성 파일 : HDFS의 Core 구성 파일은/etc/hadoop/conf/directory에 있으며 Core-Site.xml 및 HDFS-Site.xml이 중요합니다. 사용

CentOS 시스템에서 Pytorch GPU 가속도를 활성화하려면 Cuda, Cudnn 및 GPU 버전의 Pytorch를 설치해야합니다. 다음 단계는 프로세스를 안내합니다. CUDA 및 CUDNN 설치 CUDA 버전 호환성 결정 : NVIDIA-SMI 명령을 사용하여 NVIDIA 그래픽 카드에서 지원하는 CUDA 버전을보십시오. 예를 들어, MX450 그래픽 카드는 CUDA11.1 이상을 지원할 수 있습니다. Cudatoolkit 다운로드 및 설치 : NVIDIACUDATOOLKIT의 공식 웹 사이트를 방문하여 그래픽 카드에서 지원하는 가장 높은 CUDA 버전에 따라 해당 버전을 다운로드하여 설치하십시오. CUDNN 라이브러리 설치 :

Centos에 MySQL을 설치하려면 다음 단계가 필요합니다. 적절한 MySQL Yum 소스 추가. mysql 서버를 설치하려면 yum install mysql-server 명령을 실행하십시오. mysql_secure_installation 명령을 사용하여 루트 사용자 비밀번호 설정과 같은 보안 설정을 작성하십시오. 필요에 따라 MySQL 구성 파일을 사용자 정의하십시오. MySQL 매개 변수를 조정하고 성능을 위해 데이터베이스를 최적화하십시오.

Docker는 Linux 커널 기능을 사용하여 효율적이고 고립 된 응용 프로그램 실행 환경을 제공합니다. 작동 원리는 다음과 같습니다. 1. 거울은 읽기 전용 템플릿으로 사용되며, 여기에는 응용 프로그램을 실행하는 데 필요한 모든 것을 포함합니다. 2. Union 파일 시스템 (Unionfs)은 여러 파일 시스템을 스택하고 차이점 만 저장하고 공간을 절약하고 속도를 높입니다. 3. 데몬은 거울과 컨테이너를 관리하고 클라이언트는 상호 작용을 위해 사용합니다. 4. 네임 스페이스 및 CGroup은 컨테이너 격리 및 자원 제한을 구현합니다. 5. 다중 네트워크 모드는 컨테이너 상호 연결을 지원합니다. 이러한 핵심 개념을 이해 함으로써만 Docker를 더 잘 활용할 수 있습니다.

SSH 서비스를 다시 시작하라는 명령은 SystemCTL SSHD를 다시 시작합니다. 자세한 단계 : 1. 터미널에 액세스하고 서버에 연결; 2. 명령을 입력하십시오 : SystemCTL SSHD 재시작; 3. 서비스 상태를 확인하십시오 : SystemCTL 상태 SSHD.

CentOS 시스템에 대한 Pytorch 분산 교육에는 다음 단계가 필요합니다. Pytorch 설치 : 전제는 Python과 PIP가 CentOS 시스템에 설치된다는 것입니다. CUDA 버전에 따라 Pytorch 공식 웹 사이트에서 적절한 설치 명령을 받으십시오. CPU 전용 교육의 경우 다음 명령을 사용할 수 있습니다. PipinStalltorchtorchvisiontorchaudio GPU 지원이 필요한 경우 CUDA 및 CUDNN의 해당 버전이 설치되어 있는지 확인하고 해당 PyTorch 버전을 설치하려면 설치하십시오. 분산 환경 구성 : 분산 교육에는 일반적으로 여러 기계 또는 단일 기계 다중 GPU가 필요합니다. 장소
