기술 주변기기 일체 포함 Baidu Wenxinyiyan은 국내 모델 중 꼴찌입니까? 나는 혼란스러웠다

Baidu Wenxinyiyan은 국내 모델 중 꼴찌입니까? 나는 혼란스러웠다

May 24, 2023 am 09:25 AM
바이두 모델 원신

Xi Xiaoyao 기술 토크 원본
작성자 | Mengjiang 판매 최근 저희 공개 계정 커뮤니티에서는 SuperClue 리뷰라는 스크린샷을 전달하고 있습니다. iFlytek은 공식 계정에서도 이를 홍보했습니다.

Baidu Wenxinyiyan은 국내 모델 중 꼴찌입니까? 나는 혼란스러웠다

iFlytek Spark 모델이 출시된 지 얼마 안 됐고 많이 플레이해 본 적이 없기 때문에 이 모델이 정말 가장 강력한 모델인지에 대해서는 감히 결론을 내릴 수 없습니다. 중국.

하지만 이 리뷰 스크린샷에서는 현재 국내에서 가장 인기 있는 모델인 Baidu Wenxinyiyan이 소규모 학술 오픈 소스 모델인 ChatGLM-6B조차 이길 수 없습니다. 이는 저자 자신의 경험과 심각하게 일치하지 않을 뿐만 아니라 전문 NLP 기술 커뮤니티에서도 모두가 혼란을 표현했습니다.

Baidu Wenxinyiyan은 국내 모델 중 꼴찌입니까? 나는 혼란스러웠다

Baidu Wenxinyiyan은 국내 모델 중 꼴찌입니까? 나는 혼란스러웠다

호기심으로 저자는 이 슈퍼클루 목록 github로 이동했습니다. 보고 싶습니다. 이 평가 결론이 도출되는 방법: https://www.php.cn/link/97c8dd44858d3568fdf9537c4b8743b2

우선 저자는 이 저장소에 몇 가지 문제가 있음을 발견했습니다.

Baidu Wenxinyiyan은 국내 모델 중 꼴찌입니까? 나는 혼란스러웠다

Baidu Wenxinyiyan은 국내 모델 중 꼴찌입니까? 나는 혼란스러웠다

그것은 보인다 이 터무니없는 감정은 작가 본인뿐만 아니라, 역시 대중의 시선은 여전히 ​​날카롭다. . .

작가는 이 목록의 평가 방법을 자세히 살펴보았습니다.

Baidu Wenxinyiyan은 국내 모델 중 꼴찌입니까? 나는 혼란스러웠다

오빠, 소위 대형 생성 모델 테스트는 모두 모델에게 객관식 질문을 하도록 요구하는 것이라는 사실이 밝혀졌습니다. . .

분명히 이 객관식 평가 방법은 BERT 시대의 차별적 AI 모델을 겨냥한 것입니다. 당시 AI 모델은 일반적으로 생성 기능이 없고 차별 기능만 있었습니다(예: , 질문에 대한 정답이 무엇인지, 두 텍스트의 의미가 일치하는지 판단하는 옵션 중에서 텍스트가 어떤 카테고리에 속하는지 결정할 수 있습니다.

생성 모델의 평가는 차별 모델의 평가와 상당히 다릅니다.

예를 들어 기계 번역과 같은 특수 생성 작업의 경우 일반적으로 BLEU와 같은 평가 지표를 사용하여 모델에서 생성된 응답과 참조 응답 간의 "어휘 및 구문 적용 범위"를 감지합니다. 그러나 기계 번역과 같은 참조 응답이 포함된 생성 작업은 거의 없으며 대부분의 생성 평가에는 수동 평가가 필요합니다.

예를 들어 채팅 스타일 대화 생성, 텍스트 스타일 전송, 장 생성, 제목 생성 및 텍스트 요약과 같은 생성 작업에서는 각 모델을 평가하여 자유롭게 응답을 생성한 다음 생성된 응답의 품질을 수동으로 비교해야 합니다. 이러한 다양한 모델을 사용하거나 작업 요구 사항이 충족되는지 수동으로 확인합니다.

현재 AI 대회는 모델 판별 역량 경쟁이 아닌 모델 생성 역량 경쟁입니다. 평가해야 할 가장 강력한 것은 더 이상 냉담한 학술 목록이 아닌 실제 사용자 평판입니다. 게다가 모델 생성 기능을 전혀 테스트하지 않는 목록입니다.

지난 몇 년을 되돌아보며 -

2019년 OpenAI가 GPT-2를 출시했을 때 우리는 순위를 갱신하기 위한 트릭을 쌓았습니다.

2020년 OpenAI가 GPT-3을 출시했을 때 우리는 트릭을 쌓았습니다. 순위 새로고침 ;

2021~2022년에 FLAN, T0, InstructGPT 등과 같은 지침 튜닝 및 RLHF 작업이 발생했을 때 여전히 순위를 새로 고치기 위해 트릭을 쌓아야 한다고 주장하는 팀이 많이 있습니다...

희망합니다 생성 모델 군비 경쟁의 물결 속에서 우리는 같은 실수를 다시는 하지 않기를 바랍니다.

그렇다면 생성 AI 모델은 어떻게 테스트해야 할까요?

죄송합니다. 편견 없는 테스트를 달성하려면 생성 모델을 직접 개발하는 것보다 매우 어렵고 훨씬 더 어렵다고 앞서 말씀드렸습니다. 어려움은 무엇입니까? 몇 가지 구체적인 질문:

  • 평가 차원을 어떻게 나눌 수 있나요? 이해, 기억, 추론, 표현으로? 전문 분야별로? 아니면 전통적인 NLP 생성 평가 작업을 결합하시겠습니까?
  • 평가자는 어떻게 교육을 받나요? 코딩, 디버깅, 수학적 파생, 재무, 법률, 의료 Q&A 등 전문적인 기준이 매우 높은 테스트 질문의 경우 테스트할 인력을 어떻게 모집합니까?
  • 매우 주관적인 시험 문제(예: Xiaohongshu 스타일 카피라이팅 생성)에 대한 평가 기준을 어떻게 정의합니까?
  • 몇 가지 일반적인 작문 질문을 하는 것이 모델의 텍스트 생성/작성 능력을 나타낼 수 있나요?
  • 모델의 텍스트 생성 하위 기능을 살펴보세요. 장 생성, 질문 및 답변 생성, 번역, 요약, 스타일 이전이 포함되나요? 각 작업의 비율이 균일합니까? 심사기준이 명확한가요? 통계적으로 유의미한?
  • 위 질문과 답변 생성 하위 작업에는 과학, 의료, 자동차, 엄마와 아기, 금융, 공학, 정치, 군사, 엔터테인먼트 등 수직 카테고리가 모두 포함되나요? 비율이 균일한가요?
  • 대화 능력을 평가하는 방법은 무엇입니까? 일관성, 다양성, 주제의 깊이, 대화의 의인화를 위한 점검 과제를 어떻게 설계할 것인가?
  • 동일 능력시험에 간단한 문제, 중간 난이도 문제, 복잡한 장기 문제가 포함되나요? 어떻게 정의하나요? 그들은 어떤 비율을 차지합니까?

이들은 해결해야 할 몇 가지 기본적인 문제일 뿐입니다. 실제 벤치마크 설계 과정에서는 위의 문제보다 훨씬 더 어려운 수많은 문제에 직면하게 됩니다.

그러므로 저자는 AI 실무자로서 다양한 AI 모델의 순위를 합리적으로 볼 것을 모두에게 당부합니다. 공정한 테스트 벤치마크도 없는데 이 순위가 무슨 소용이 있겠습니까?

앞서 말했듯이 생성 모델이 좋은지 아닌지는 실제 사용자에 따라 다릅니다.

목록에서 아무리 높은 순위에 있는 모델이라도 자신이 관심 있는 문제를 해결할 수 없다면 그 모델은 평범한 모델일 뿐입니다. 즉, 최하위에 랭크된 모델이 당신이 우려하는 시나리오에서 매우 강한 모델이라면 당신에게는 보물모델이다.

여기서 저자는 우리 팀이 직접 작성한 하드케이스(어려운 케이스) 테스트 세트를 공개합니다. 이 테스트 세트는 어려운 문제/지침을 해결하는 모델의 능력에 중점을 둡니다.

이 어려운 테스트 세트는 모델의 언어 이해, 복잡한 지침 이해 및 따르기, 텍스트 생성, 복잡한 콘텐츠 생성, 여러 라운드의 대화, 모순 감지, 상식 추론, 수학적 추론, 반사실적 추론, 위험한 정보 식별 및 법률에 중점을 둡니다. 윤리의식, 한문지식, 교차언어능력, 코딩능력 등

이것은 생성 모델의 어려운 예제 해결 능력을 테스트하기 위해 저자 팀이 만든 사례 세트라는 점을 다시 강조합니다. 평가 결과는 "어떤 모델이 저자 팀에 더 좋다고 느끼는지"만을 나타낼 수 있습니다. 편견 없는 테스트 결론. 편견 없는 테스트 결론을 원한다면 먼저 위에서 언급한 평가 질문에 답한 다음 권위 있는 테스트 벤치마크를 정의하세요.

직접 평가하고 검증하고 싶은 친구들은 이 공개 계정 '시샤오야오 테크놀로지' 백그라운드에서 [AI 평가] 비밀번호를 답장해 테스트 파일을 다운로드할 수 있다

다음은 현재 가장 논란이 되고 있는 소식이다. superclue list 세 가지 모델의 평가 결과: Feixinghuo, Wenxinyiyan 및 ChatGPT:

Baidu Wenxinyiyan은 국내 모델 중 꼴찌입니까? 나는 혼란스러웠다

Baidu Wenxinyiyan은 국내 모델 중 꼴찌입니까? 나는 혼란스러웠다

Baidu Wenxinyiyan은 국내 모델 중 꼴찌입니까? 나는 혼란스러웠다

난해한 사례 해결률:

  • ChatGPT(GPT-3.5-turbo): 11/24=45.83%
  • Wen Xinyiyan(2023.5.10 버전): 13/24=54.16%
  • iFlytek Spark(2023.5.10 버전): 7/24=29.16%

iFlytek Spark가 Wen A 단어만큼 좋지 않다는 것을 증명하기 위한 것입니다. 마음에서? 이전 글을 잘 읽어보시면 글쓴이가 무슨 말을 하고 싶은지 아실 겁니다.

실제로 Spark 모델이 우리 팀 내의 어려운 케이스 세트에서 Wen Xinyiyan만큼 좋지는 않지만, 이것이 전체적으로 다른 케이스 세트보다 확실히 낫다는 것을 의미하지는 않습니다. 우리 팀 Wenxinyiyan은 ChatGPT보다 더 어려운 두 가지 사례를 해결하는 등 최고의 성과를 거두었습니다.

간단히 질문드리자면, 실제로 국내 모델과 ChatGPT는 큰 차이가 없습니다. 어려운 문제의 경우 각 모델마다 고유한 장점이 있습니다. 저자 팀의 포괄적인 경험으로 판단하면 Wen Xinyiyan은 학술 테스트에서 ChatGLM-6B와 같은 오픈 소스 모델을 능가하기에 충분합니다. 일부 기능은 ChatGPT보다 열등하고 일부 기능은 ChatGPT를 능가합니다.

Alibaba Tongyi Qianwen, iFlytek Spark 등 다른 주요 제조업체에서 생산하는 국내 모델도 마찬가지입니다.

그래도 지금은 공정한 테스트 벤치마크조차 없는 상태인데, 모델 순위를 매겨도 무슨 소용이 있겠습니까?

다양한 편향된 순위에 대해 논쟁하기보다는 우리 팀처럼 관심 있는 테스트 세트를 만드는 것이 좋습니다.

문제를 해결할 수 있는 모델이 좋은 모델입니다.

위 내용은 Baidu Wenxinyiyan은 국내 모델 중 꼴찌입니까? 나는 혼란스러웠다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. 크로스 플레이가 있습니까?
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

OpenAI 데이터가 필요하지 않습니다. 대규모 코드 모델 목록에 참여하세요! UIUC, StarCoder-15B-Instruct 출시 OpenAI 데이터가 필요하지 않습니다. 대규모 코드 모델 목록에 참여하세요! UIUC, StarCoder-15B-Instruct 출시 Jun 13, 2024 pm 01:59 PM

소프트웨어 기술의 선두에 있는 UIUC Zhang Lingming 그룹은 BigCode 조직의 연구원들과 함께 최근 StarCoder2-15B-Instruct 대규모 코드 모델을 발표했습니다. 이 혁신적인 성과는 코드 생성 작업에서 획기적인 발전을 이루었으며 CodeLlama-70B-Instruct를 성공적으로 능가하고 코드 생성 성능 목록의 최상위에 올랐습니다. StarCoder2-15B-Instruct의 독창성은 순수한 자체 정렬 전략에 있습니다. 전체 훈련 프로세스는 개방적이고 투명하며 완전히 자율적이고 제어 가능합니다. 이 모델은 값비싼 수동 주석에 의존하지 않고 StarCoder-15B 기본 모델을 미세 조정한 것에 대한 응답으로 StarCoder2-15B를 통해 수천 개의 명령을 생성합니다.

Yolov10: 자세한 설명, 배포, 적용이 모두 한곳에! Yolov10: 자세한 설명, 배포, 적용이 모두 한곳에! Jun 07, 2024 pm 12:05 PM

1. 소개 지난 몇 년 동안 YOLO는 계산 비용과 감지 성능 간의 효과적인 균형으로 인해 실시간 객체 감지 분야에서 지배적인 패러다임이 되었습니다. 연구원들은 YOLO의 아키텍처 설계, 최적화 목표, 데이터 확장 전략 등을 탐색하여 상당한 진전을 이루었습니다. 동시에 사후 처리를 위해 NMS(비최대 억제)에 의존하면 YOLO의 엔드투엔드 배포가 방해되고 추론 대기 시간에 부정적인 영향을 미칩니다. YOLO에서는 다양한 구성 요소의 설계에 포괄적이고 철저한 검사가 부족하여 상당한 계산 중복이 발생하고 모델 기능이 제한됩니다. 이는 최적이 아닌 효율성을 제공하며 성능 향상을 위한 상대적으로 큰 잠재력을 제공합니다. 이 작업의 목표는 사후 처리와 모델 아키텍처 모두에서 YOLO의 성능 효율성 경계를 더욱 향상시키는 것입니다. 이를 위해

바이두 아폴로, L4 자율주행을 지원하는 세계 최초 대형 모델 '아폴로 ADFM' 출시 바이두 아폴로, L4 자율주행을 지원하는 세계 최초 대형 모델 '아폴로 ADFM' 출시 Jun 04, 2024 pm 08:01 PM

5월 15일, Baidu Apollo는 우한 Baidu Carrot Auto Robot Zhixing Valley에서 Apollo Day 2024를 개최하여 지난 10년 동안 Baidu의 자율 주행 분야의 주요 발전을 종합적으로 시연하고 대형 모델을 기반으로 한 기술 도약과 승객 안전에 대한 새로운 정의를 가져왔습니다. 세계 최대 자율주행차 운영 네트워크 바이두는 사람이 운전하는 것보다 자율주행을 더 안전하게 만들었습니다. 덕분에 더 안전하고, 더 편안하고, 친환경적이고, 저탄소 여행 방식이 이상에서 현실로 바뀌고 있습니다. 바이두 그룹 부사장이자 지능형 운전 비즈니스 그룹 사장인 왕윤펑(Wang Yunpeng)은 현장에서 "자율주행차를 만드는 우리의 원래 의도는 더 나은 여행에 대한 사람들의 점점 커지는 갈망을 충족시키는 것입니다. 사람들의 만족은 우리의 원동력입니다. 왜냐하면 안전, 너무 아름다워요, 만나서 반가워요

DeepSeek 웹 버전 입구 DeepSeek 공식 웹 사이트 입구 DeepSeek 웹 버전 입구 DeepSeek 공식 웹 사이트 입구 Feb 19, 2025 pm 04:54 PM

DeepSeek은 웹 버전과 공식 웹 사이트의 두 가지 액세스 방법을 제공하는 강력한 지능형 검색 및 분석 도구입니다. 웹 버전은 편리하고 효율적이며 설치없이 사용할 수 있습니다. 개인이든 회사 사용자이든, DeepSeek를 통해 대규모 데이터를 쉽게 얻고 분석하여 업무 효율성을 향상시키고 의사 결정을 지원하며 혁신을 촉진 할 수 있습니다.

Tsinghua University가 인수하고 YOLOv10이 출시되었습니다. 성능이 크게 향상되어 GitHub 인기 목록에 올랐습니다. Tsinghua University가 인수하고 YOLOv10이 출시되었습니다. 성능이 크게 향상되어 GitHub 인기 목록에 올랐습니다. Jun 06, 2024 pm 12:20 PM

표적 탐지 시스템의 벤치마크 YOLO 시리즈가 다시 한 번 대대적인 업그레이드를 받았습니다. 올해 2월 YOLOv9이 출시된 이후 YOLO(YouOnlyLookOnce) 시리즈의 지휘봉은 칭화대학교 연구진의 손에 넘어갔다. 지난 주말 YOLOv10 출시 소식이 AI 커뮤니티의 관심을 끌었다. 컴퓨터 비전 분야의 획기적인 프레임워크로 간주되며 실시간 엔드투엔드 개체 감지 기능으로 유명하며 효율성과 정확성을 결합한 강력한 솔루션을 제공함으로써 YOLO 시리즈의 유산을 이어갑니다. 논문 주소: https://arxiv.org/pdf/2405.14458 프로젝트 주소: https://github.com/THU-MIG/yo

Google Gemini 1.5 기술 보고서: 수학 올림피아드 문제를 쉽게 증명할 수 있으며 Flash 버전은 GPT-4 Turbo보다 ​​5배 빠릅니다. Google Gemini 1.5 기술 보고서: 수학 올림피아드 문제를 쉽게 증명할 수 있으며 Flash 버전은 GPT-4 Turbo보다 ​​5배 빠릅니다. Jun 13, 2024 pm 01:52 PM

올해 2월 Google은 엔지니어링 및 인프라 최적화, MoE 아키텍처 및 기타 전략을 통해 성능과 속도를 크게 향상시킨 다중 모드 대형 모델 Gemini 1.5를 출시했습니다. 더 긴 컨텍스트, 더 강력한 추론 기능, 교차 모달 콘텐츠 처리 능력이 향상되었습니다. 이번 금요일에 Google DeepMind는 Flash 버전과 기타 최신 업그레이드를 다루는 Gemini 1.5의 기술 보고서를 공식적으로 발표했습니다. 이 문서의 길이는 153페이지입니다. 기술 보고서 ​​링크: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf 이 보고서에서 Google은 Gemini1을 소개합니다.

검토! 자율주행 촉진을 위한 기본 모델의 중요한 역할을 종합적으로 요약 검토! 자율주행 촉진을 위한 기본 모델의 중요한 역할을 종합적으로 요약 Jun 11, 2024 pm 05:29 PM

위 작성 및 저자 개인 이해: 최근 딥러닝 기술의 발전과 획기적인 발전으로 대규모 기반 모델(Foundation Models)이 자연어 처리 및 컴퓨터 비전 분야에서 상당한 성과를 거두었습니다. 자율주행에 기본 모델을 적용하는 것도 시나리오에 대한 이해와 추론을 향상시킬 수 있는 큰 발전 전망을 가지고 있습니다. 풍부한 언어와 시각적 데이터에 대한 사전 학습을 통해 기본 모델은 자율주행 시나리오의 다양한 요소를 이해하고 해석하고 추론을 수행할 수 있으며, 의사 결정 및 계획을 추진하기 위한 언어 및 동작 명령을 제공합니다. 기본 모델은 일상적인 운전 및 데이터 수집 중에 발생할 가능성이 없는 롱테일 분포에서 드물게 실행 가능한 기능을 제공하기 위해 운전 시나리오에 대한 이해를 통해 데이터를 보강할 수 있습니다.

서로 다른 데이터 세트에는 서로 다른 스케일링 법칙이 있습니까? 그리고 압축 알고리즘으로 예측할 수 있습니다. 서로 다른 데이터 세트에는 서로 다른 스케일링 법칙이 있습니까? 그리고 압축 알고리즘으로 예측할 수 있습니다. Jun 07, 2024 pm 05:51 PM

일반적으로 신경망을 훈련하는 데 필요한 계산이 많을수록 성능이 향상됩니다. 계산을 확장할 때는 모델 매개변수 수를 늘리거나 데이터 세트 크기를 늘리는 것 중 하나를 결정해야 합니다. 이 두 가지 요소는 고정된 계산 예산 내에서 평가되어야 합니다. 모델 매개변수 수를 늘리는 것의 장점은 모델의 복잡성과 표현 능력을 향상시켜 훈련 데이터를 더 잘 맞출 수 있다는 것입니다. 그러나 매개변수가 너무 많으면 과적합이 발생하여 보이지 않는 데이터에 대한 모델 성능이 저하될 수 있습니다. 반면에 데이터 세트 크기를 확장하면 모델의 일반화 능력이 향상되고 과적합 문제가 줄어들 수 있습니다. 매개변수와 데이터를 적절하게 할당하는 한 고정된 컴퓨팅 예산 내에서 성능을 극대화할 수 있습니다. 이전의 많은 연구에서는 신경 언어 모델의 확장을 탐구했습니다.

See all articles