기술 주변기기 일체 포함 중국어 모델 러시 테스트 : SenseTime, Shanghai AI Lab 등 신규 출시 'Scholar·Puyu'

중국어 모델 러시 테스트 : SenseTime, Shanghai AI Lab 등 신규 출시 'Scholar·Puyu'

Jun 07, 2023 pm 07:19 PM

하트 오브 머신 출시

Heart of Machine 편집부

오늘, 매년 대학 입시가 공식적으로 시작됩니다.

예년과 달라진 점은 전국의 지원자들이 시험장으로 몰려드는 가운데, 일부 대형 언어모델도 이번 대회의 주역이 됐다는 점이다.

AI 대형 언어 모델이 점점 인간에 가까운 지능을 입증함에 따라 언어 모델의 지능 수준을 평가하기 위해 인간을 위해 설계된 매우 어렵고 포괄적인 시험이 점점 더 많이 도입되고 있습니다.

예를 들어 GPT-4에 대한 기술 보고서에서 OpenAI는 주로 다양한 분야의 시험을 통해 모델 성능을 테스트하는데, GPT-4가 보여주는 뛰어난 '시험 응시 능력'도 의외입니다.

중국어 모델 챌린지 대학 입시 결과는 어떻습니까? ChatGPT를 따라잡을 수 있나요? "후보"의 성과를 살펴 보겠습니다.

종합적인 "큰 테스트": "Scholar Puyu"는 ChatGPT보다 앞서 많은 결과를 얻었습니다

최근 SenseTime과 Shanghai AI Laboratory는 홍콩중문대학교, 푸단대학교, 상하이교통대학교와 함께 1000억 수준 매개변수 대형 언어 모델 'Scholar Puyu'(InternLM)를 출시했습니다.

"Scholar·Puyu"는 1,040억 개의 매개변수를 가지고 있으며 1조 6천억 개의 토큰이 포함된 다국어 고품질 데이터 세트로 학습됩니다.

종합평가 결과 '학자 푸유'는 지식 숙달, 독해, 수학적 추론, 다국어 번역 등 여러 시험 과제에서 좋은 성적을 냈을 뿐만 아니라, 강력한 종합 능력을 갖고 있어 종합 시험에서도 좋은 성적을 거뒀다. , 중국 대학 입학 시험의 다양한 과목에 대한 데이터 세트(GaoKao)를 포함하여 많은 중국어 시험에서 ChatGPT를 초과하는 결과를 달성했습니다.

"학자·푸유" 공동팀은 이를 테스트하기 위해 세계에서 가장 영향력 있는 4개 종합 시험 평가 세트를 포함하여 20개 이상의 평가를 선택했습니다.

  • University of California, Berkeley와 같은 대학에서 구축한 다중 작업 테스트 평가 세트 MMLU;
  • AGIeval, Microsoft Research에서 출시한 과목 시험 평가 세트(중국 대학 입학 시험, 사법 시험, 미국 SAT, LSAT, GRE 및 GMAT 등 포함)
  • Shanghai Jiao Tong University, Tsinghua University 및 University of Edinburgh가 공동으로 구축한 중국어 모델용 종합 시험 평가 세트인 C-Eval
  • 그리고 푸단대학교 연구팀이 구축한 대학 입시 문제 평가 세트인 Gaokao
  • 연구실 공동팀은 'Scholar Puyu', GLM-130B, LLaMA-65B, ChatGPT, GPT-4에 대해 종합적인 테스트를 실시했습니다. 위 4가지 평가 세트의 결과를 비교하면 다음과 같습니다(만점은 100점).

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」"Scholar·Puyu"는 GLM-130B 및 LLaMA-65B와 같은 학술 오픈 소스 모델을 크게 능가할 뿐만 아니라 미국 시험에서 AGIEval, C-Eval 및 Gaokao와 같은 여러 종합 시험에서 ChatGPT를 주도합니다. MMLU 구현은 ChatGPT와 동등합니다. 이러한

종합시험의 결과는 "학자·푸유"

의 탄탄한 지식과 뛰어난 종합능력을 반영합니다. '학자·푸유'는 시험평가에서 우수한 성적을 거뒀지만, 대형 언어 모델에는 여전히 한계가 많다는 점을 평가에서도 엿볼 수 있다. "Scholar Puyu"는 컨텍스트 창 길이 2K(GPT-4의 컨텍스트 창 길이는 32K)로 제한되며, 긴 텍스트 이해, 복잡한 추론, 코드 작성 및 수학적 논리 추론에는 명백한 한계가 있습니다. 또한 실제 대화에서 대규모 언어 모델에는 여전히 환상 및 개념 혼란과 같은 일반적인 문제가 있습니다. 이러한 제한으로 인해 공개 시나리오에서 대규모 언어 모델을 사용하려면 아직 갈 길이 멀습니다.

4가지 종합 시험 평가 데이터 세트 결과

MMLU는 캘리포니아 대학교 버클리(UC Berkeley), 컬럼비아 대학교, 시카고 대학교, UIUC가 공동으로 구축한 초등 수학, 물리학, 화학, 컴퓨터 과학, 미국사, 법학을 다루는 멀티 태스크 시험 평가 세트입니다. , 경제, 외교 등의 주제입니다.

과목을 세분화한 결과는 아래 표와 같습니다.

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」사진에서 굵은 글씨는 가장 좋은 결과를 나타내고, 밑줄은 두 번째 결과를 나타냅니다

AGIEval은 Microsoft Research가 올해 제안한 새로운 과목 시험 평가 세트입니다. 주요 목표는 지향성 시험을 통해 언어 모델의 능력을 평가하여 모델 지능과 인간 지능을 비교하는 것입니다.

이 평가 세트는 중국의 대학 입시, 사법 시험, 미국의 SAT, LSAT, GRE, GMAT 등 중요 시험을 포함하여 중국과 미국의 다양한 시험을 기반으로 한 19개의 평가 항목으로 구성되어 있습니다. 이 19개 전공 중 9개 전공은 중국 대학 입학 시험 출신이며 일반적으로 중요한 평가 하위 집합인 AGIEval(GK)로 나열된다는 점을 언급할 가치가 있습니다.

다음 표에서 GK로 표시된 과목은 중국 대학 입시 과목입니다.

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

사진에서 굵은 글씨는 가장 좋은 결과를 나타내고, 밑줄은 두 번째 결과를 나타냅니다

C-Eval은 Shanghai Jiao Tong University, Tsinghua University 및 University of Edinburgh가 공동으로 구축한 중국어 모델용 종합 시험 평가 세트입니다.

수학, 물리학, 화학, 생물학, 역사, 정치, 컴퓨터 등 각종 학과시험은 물론 공무원, 공인회계사, 변호사, 의사 등 전문직 시험까지 총 52개 과목 14,000여 문항이 수록되어 있습니다.

테스트 결과는 리더보드를 통해 확인할 수 있습니다.

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

이 링크는 CEVA 리뷰 공모전 리더보드입니다

Gaokao는 푸단대학교 연구팀이 구축한 중국 대학 입학 시험 문제를 기반으로 한 종합 시험 평가 세트입니다. 여기에는 중국 대학 입학 시험의 다양한 과목은 물론 객관식, 채우기 등 다양한 문제 유형이 포함되어 있습니다. 빈칸 문제, 질의응답 문제입니다.

GaoKao 평가에서 "Scholar·Puyu"가 프로젝트의 75% 이상에서 ChatGPT를 앞서고 있습니다.

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

하위 평가: 독해 및 추론 능력이 우수함

"편파성"을 피하기 위해 연구원들은 "학자 푸유"와 같은 언어 모델의 하위 항목 기능도 여러 학술 평가 세트를 통해 평가하고 비교했습니다.

결과에 따르면 "학자·푸유"는 중국어, 영어 독해력뿐만 아니라 수학적 추론, 프로그래밍 능력 및 기타 평가에서도 좋은 결과를 얻는 것으로 나타났습니다.

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

Question and AnswerstriviaQA와 NaturalQuestions에서는 "Scholar Puyu"가 69.8점과 27.6점을 얻어 LLaMA-65B(68.2점과 23.8점)를 모두 능가했습니다.

독해(영어)에서는 "Scholar·Puyu"가 LLaMA-65B와 ChatGPT보다 확실히 앞서있습니다. Puyu는 중학교 및 고등학교 영어 독해력에서 92.7과 88.9를 얻었고 ChatGPT에서는 85.6과 81.2를 기록했으며 LLaMA-65B에서는 이보다 더 낮은 점수를 받았습니다.

중국어 이해 측면에서 "Scholar Puyu"의 결과는 두 가지 주요 중국어 모델 ERNIE-260B 및 GLM-130B를 완전히 능가했습니다.

다국어 번역 부문 '선비푸유'의 다국어 번역 평균점수는 33.9점으로 LLaMA(평균점수 15.1점)를 크게 앞섰습니다.

수학적 추론 "Scholar Puyu"는 평가에 널리 사용되는 수학 테스트인 GSM8K와 MATH에서 각각 62.9점과 14.9점을 얻어 Google의 PaLM-540B(56.5점과 8.8점)와 LLaMA-65B(점수 8.8점)를 크게 앞섰습니다. 50.9 및 10.9).

프로그래밍 능력에서는 '학자 푸유'가 가장 대표적인 평가인 HumanEval과 MBPP에서 각각 28.1점과 41.4점을 얻었습니다(코딩 분야에서 미세 조정을 하면 HumanEval의 점수는 45.7점으로 크게 향상될 수 있습니다). PaLM-540B(점수 26.2 및 36.8) 및 LLaMA-65B(점수 23.7 및 37.7)보다 앞서 있습니다.

또한 연구원들은 TruthfulQA(주로 답변의 사실적 정확성 평가)와 CrowS-Pairs(주로 답변에 편견이 포함되어 있는지 평가)에서 “Scholar Puyu”의 보안을 평가했습니다.

위 내용은 중국어 모델 러시 테스트 : SenseTime, Shanghai AI Lab 등 신규 출시 'Scholar·Puyu'의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

나는 Cursor AI와 함께 Vibe 코딩을 시도했는데 놀랍습니다! 나는 Cursor AI와 함께 Vibe 코딩을 시도했는데 놀랍습니다! Mar 20, 2025 pm 03:34 PM

Vibe Coding은 끝없는 코드 라인 대신 자연 언어를 사용하여 애플리케이션을 생성함으로써 소프트웨어 개발의 세계를 재구성하고 있습니다. Andrej Karpathy와 같은 비전가들로부터 영감을 얻은이 혁신적인 접근 방식은 Dev가

2025 년 2 월 2 일 Genai 출시 : GPT-4.5, Grok-3 & More! 2025 년 2 월 2 일 Genai 출시 : GPT-4.5, Grok-3 & More! Mar 22, 2025 am 10:58 AM

2025 년 2 월은 Generative AI의 또 다른 게임 변화 달이었으며, 가장 기대되는 모델 업그레이드와 획기적인 새로운 기능을 제공합니다. Xai 's Grok 3 및 Anthropic's Claude 3.7 Sonnet, Openai 's G에 이르기까지

물체 감지에 Yolo V12를 사용하는 방법은 무엇입니까? 물체 감지에 Yolo V12를 사용하는 방법은 무엇입니까? Mar 22, 2025 am 11:07 AM

Yolo (한 번만 보이면)는 주요 실시간 객체 감지 프레임 워크였으며 각 반복은 이전 버전에서 개선되었습니다. 최신 버전 Yolo V12는 정확도를 크게 향상시키는 발전을 소개합니다.

창의적인 프로젝트를위한 최고의 AI 아트 발전기 (무료 & amp; 유료) 창의적인 프로젝트를위한 최고의 AI 아트 발전기 (무료 & amp; 유료) Apr 02, 2025 pm 06:10 PM

이 기사는 최고의 AI 아트 생성기를 검토하여 자신의 기능, 창의적인 프로젝트에 대한 적합성 및 가치에 대해 논의합니다. Midjourney를 전문가에게 최고의 가치로 강조하고 고품질의 사용자 정의 가능한 예술에 Dall-E 2를 추천합니다.

chatgpt 4 o를 사용할 수 있습니까? chatgpt 4 o를 사용할 수 있습니까? Mar 28, 2025 pm 05:29 PM

ChatGpt 4는 현재 이용 가능하고 널리 사용되며 ChatGpt 3.5와 같은 전임자와 비교하여 상황을 이해하고 일관된 응답을 생성하는 데 상당한 개선을 보여줍니다. 향후 개발에는보다 개인화 된 인터가 포함될 수 있습니다

최고의 AI 챗봇 비교 (Chatgpt, Gemini, Claude & amp; more) 최고의 AI 챗봇 비교 (Chatgpt, Gemini, Claude & amp; more) Apr 02, 2025 pm 06:09 PM

이 기사는 Chatgpt, Gemini 및 Claude와 같은 최고의 AI 챗봇을 비교하여 고유 한 기능, 사용자 정의 옵션 및 자연어 처리 및 신뢰성의 성능에 중점을 둡니다.

다음 래그 모델에 Mistral OCR을 사용하는 방법 다음 래그 모델에 Mistral OCR을 사용하는 방법 Mar 21, 2025 am 11:11 AM

Mistral OCR : 복수 문서 이해를 가진 검색 방지 생성 혁신 RAG (Resprieved-Augmented Generation) 시스템은 AI 기능을 크게 발전시켜보다 정보에 입각 한 대응을 위해 방대한 데이터 저장에 액세스 할 수 있도록했습니다.

컨텐츠 생성을 향상시키기 위해 AI를 쓰는 최고 AI 작문 컨텐츠 생성을 향상시키기 위해 AI를 쓰는 최고 AI 작문 Apr 02, 2025 pm 06:11 PM

이 기사는 Grammarly, Jasper, Copy.ai, Writesonic 및 Rytr와 같은 최고의 AI 작문 조수에 대해 논의하여 콘텐츠 제작을위한 독특한 기능에 중점을 둡니다. Jasper는 SEO 최적화가 뛰어나고 AI 도구는 톤 구성을 유지하는 데 도움이된다고 주장합니다.

See all articles