> 기술 주변기기 > 일체 포함 > 2025 년에 알아야 할 14 개의 인기있는 LLM 벤치 마크

2025 년에 알아야 할 14 개의 인기있는 LLM 벤치 마크

William Shakespeare
풀어 주다: 2025-03-21 11:08:12
원래의
225명이 탐색했습니다.

대형 언어 모델 (LLM)은 인간 언어를 모방하는 텍스트를 해석하고 제작하는 데있어 엄청난 도구로 입증되었습니다. 그럼에도 불구하고 이러한 모델의 광범위한 가용성은 성능을 정확하게 평가하는 복잡한 작업을 소개합니다. 이 기사는 그들의 중요한 역할을 탐구하고, 유명한 사례를 강조하며, 그 한계를 조사하여 언어 기술에 미치는 영향을 전체적으로 제공합니다.

벤치 마크는 성능을 측정하고 비교하는 표준 역할을하는 대형 언어 모델 (LLM)을 평가하는 데 필수적입니다. 기본 언어 이해에서 고급 추론 및 프로그래밍에 이르기까지 기술을 평가하는 일관된 방법을 제공합니다.

목차

  • LLM 벤치 마크는 무엇입니까?
  • LLM 벤치 마크에 필요한 것은 무엇입니까?
  • LLM 벤치 마크 작업
  • 추론 벤치 마크
    • 아크 : 추상화 및 추론 도전
    • 대규모 여러 분야의 멀티 모달 이해 (MMMU)
    • GPQA : 고급 추론을위한 도전적인 벤치 마크
    • 대규모 멀티 태스킹 언어 이해 측정 (MMLU)
  • 코딩 벤치 마크
    • Humaneval : 언어 모델에서 코드 생성 평가
    • Swe-Bench
    • Swe-Lancer
    • 라이브 코드 벤치
    • 코드 포스
  • 공구 사용 (에이전트) 벤치 마크
    • 타우 벤치
  • 언어 이해와 질문 벤치 마크에 대한 답변
    • 슈퍼 글루
    • Helloswag
  • 수학 벤치 마크
    • 수학 데이터 세트
    • AIME 2025
  • 결론

LLM 벤치 마크는 무엇입니까?

LLM 벤치 마크는 특정 작업에서 언어 모델의 성능을 평가하도록 설계된 구조화 된 테스트입니다. 그들은 다음과 같은 중요한 질문에 대답하는 데 도움이됩니다.

  • 이 LLM이 코딩 작업을 효과적으로 처리 할 수 ​​있습니까?
  • 대화에서 관련 답변을 얼마나 잘 제공합니까?
  • 복잡한 추론 문제를 해결할 수 있습니까?

LLM 벤치 마크의 주요 기능

  • 표준화 된 테스트 : 각 벤치 마크는 알려진 정답이있는 일련의 작업으로 구성되어 일관된 평가를 허용합니다.
  • 다양한 평가 영역 : 벤치 마크는 다음을 포함한 다양한 기술에 중점을 둘 수 있습니다.
    • 언어 이해
    • 수학 문제 해결
    • 코딩 능력
    • 대화 품질
    • 안전 및 윤리적 고려 사항

LLM 벤치 마크에 필요한 것은 무엇입니까?

평가의 표준화 및 투명성

  • 비교 일관성 : 벤치 마크는 LLM 간의 직접 비교를 용이하게하여 평가가 투명하고 재현 가능합니다.
  • Performance Snapshot : 기존 모델에 비해 새로운 LLM의 기능에 대한 빠른 평가를 제공합니다.

진행 추적 및 정제

  • 모니터링 진행 상황 : 벤치 마크는 시간이 지남에 따라 모델 성능 향상을 관찰하는 데 도움이되어 연구원들이 모델을 정제하는 데 도움이됩니다.
  • 한계를 밝혀 내기 :이 도구는 모델이 부족한 영역을 정확히 찾아 낼 수 있으며 향후 연구 및 개발 노력을 안내합니다.

모델 선택

  • 정보에 입각 한 선택 : 실무자에게 벤치 마크는 특정 작업에 대한 모델을 선택할 때 중요한 참조가되어 챗봇 또는 고객 지원 시스템과 같은 응용 프로그램에 대한 정보가 잘 알려진 결정을 보장합니다.

LLM 벤치 마크 작업

단계별 프로세스는 다음과 같습니다.

  • 데이터 세트 입력 및 테스트
    • 벤치 마크는 질문에 답하거나 코드 생성과 같은 LLM이 완료 될 수있는 다양한 작업을 제공합니다.
    • 각 벤치 마크에는 텍스트 입력 데이터 세트와 평가를위한 해당 "진실"답변이 포함됩니다.
  • 성능 평가 및 점수 : 작업을 완료 한 후 작업 유형에 따라 정확도 또는 BLEU 점수와 같은 표준화 된 메트릭을 사용하여 모델의 응답을 평가합니다.
  • LLM 순위 및 리더 보드 : 모델은 점수를 기준으로 순위가 매겨지며, 종종 여러 벤치 마크에서 결과를 집계하는 리더 보드에 표시됩니다.

추론 벤치 마크

1. 아크 : 추상화 및 추론 도전

Raven의 프로그레시브 매트릭스에서 영감을 얻음으로써 추상화 및 추론 코퍼스 (ARC)는 기계 지능을 벤치 마크합니다. 그것은 AI 시스템에 몇 가지 예를 바탕으로 다음 이미지를 시퀀스로 식별하도록하여 인간의인지 능력을 반영하는 소수의 학습을 촉진합니다. ARC는 일반화를 강조하고“사전”(우선 순위”)을 활용함으로써 인간과 같은 추론으로 AI를 발전시키는 것을 목표로합니다. 이 데이터 세트는 구조화 된 커리큘럼을 따라 예측 정확도를 통해 성능을 측정하면서 점점 더 복잡한 작업을 통해 시스템을 체계적으로 안내합니다. 진보에도 불구하고 AI는 여전히 인적 수준의 성과에 도달하기 위해 고군분투하여 AI 연구의 발전에 대한 지속적인 필요성을 강조합니다.

2025 년에 알아야 할 14 개의 인기있는 LLM 벤치 마크

추상화와 추론 코퍼스에는 인간과 인공 지능 시스템이 해결할 수있는 다양한 작업이 포함되어 있습니다. Raven의 프로그레시브 매트릭스에서 영감을 얻은 작업 형식은 참가자가 다음 이미지를 순서대로 식별하여인지 능력을 테스트해야합니다.

2. 대규모 다 분야의 멀티 모달 이해 (MMMU)

MMMU (Multi-Discipline Multimodal 이해 및 추론) 벤치 마크는 대학 수준의 지식 및 추론 작업에 대한 멀티 모달 모델을 평가합니다. 여기에는 예술 및 디자인, 비즈니스, 과학, 건강 및 의학, 인문학 및 사회 과학, 기술 및 공학의 6 가지 분야에서 시험, 퀴즈 및 교과서의 11.5K 질문이 포함됩니다.

이 질문들은 차트, 다이어그램,지도 및 화학 구조와 같은 30 개의 이기종 이미지 유형을 통합 한 30 명의 피험자와 183 개의 서브 필드에 걸쳐 있습니다. MMMU는 도메인 별 지식으로 고급 인식과 추론에 중점을두고, 전문가 수준의 작업을 수행하기위한 도전적인 모델, 그리고 LMM (Lagen Multimodal 모델)에서 인식, 지식 및 추론 기술을 측정하는 것을 목표로합니다. GPT-4V를 포함한 현재 모델의 평가는 고급 모델 만 약 56%의 정확도 만 달성하더라도 개선의 실질적인 공간을 보여줍니다. 벤치 마크의보다 강력한 버전 인 MMMU-Pro가 강화 된 평가를 위해 도입되었습니다.

2025 년에 알아야 할 14 개의 인기있는 LLM 벤치 마크

각 분야에서 MMMU 예제를 샘플링합니다. 질문과 이미지는 이해하고 추론하기 위해서는 전문가 수준의 지식이 필요합니다.

3. GPQA : 고급 추론을위한 도전적인 벤치 마크

GPQA는 전문가와 고급 AI에 도전하도록 설계된 생물학, 물리 및 화학에서 448 개의 객관식 질문 데이터 세트입니다. 박사 학위를받은 도메인 전문가는 고품질과 어려움을 보장하기 위해 질문을 생성하고 검증합니다. 전문가들은 65%의 정확도 (후 향적으로 식별 된 실수로 74%)를 달성하는 반면, 다른 분야의 박사 학위를받은 비 참가자는 무제한 인터넷 액세스에도 불구하고 34% 만 점수를 얻었으므로 의문은 "Google이 절단"되었다는 것을 증명합니다. GPT-4와 같은 주요 AI 모델은 39%의 정확도에 도달합니다. GPQA는 AI 인간 능력을 능가하는 AI에 대한 확장 가능한 감독에 대한 연구를 지원하여 인간이 자신의 전문 지식을 넘어서도 주제에 대한 진실한 정보를 추출하도록 돕습니다.

2025 년에 알아야 할 14 개의 인기있는 LLM 벤치 마크

처음에는 질문이 제작 된 다음 동일한 영역의 전문가가 답변과 피드백을 제공하며, 여기에는 질문에 대한 제안 된 개정이 포함될 수 있습니다. 그 후, 질문 작가는 전문가의 피드백을 바탕으로 질문을 수정합니다. 이 개정 된 질문은 동일한 도메인의 다른 전문가와 다른 분야에 대한 전문 지식을 갖춘 3 명의 비 엑스퍼트 유효성 검사기에게 전송됩니다. 우리는 전문가 유효성 검사기의 계약 (*)이 처음에 올바르게 대답하거나 정답을 본 후 초기 실수에 대한 명확한 설명을 제공하거나 질문 작가의 설명에 대한 철저한 이해를 보여줄 때 고려합니다.

4. 대규모 멀티 태스킹 언어 이해 측정 (MMLU)

사전 여겨지는 동안 획득 한 텍스트 모델의 지식을 측정하도록 설계된 MMLU (Mustive Multitask Language Anterlear) 벤치 마크. MMLU는 기본 수학, 미국 역사, 컴퓨터 과학, 법률 등을 포함한 57 개의 다양한 작업에 대한 모델을 평가합니다. 객관식 질문으로 형식화되어 평가를 간단하게 만듭니다.

벤치 마크는 이전 벤치 마크보다 더 포괄적이고 도전적인 언어 이해 테스트가되어 지식과 추론의 조합이 필요합니다. 이 논문은 여러 모델에 대한 결과를 제시하며, MMLU에 대한 대규모 사전 모델조차도 어려움을 겪고 언어 이해 기능의 향상을위한 상당한 공간을 시사합니다. 또한이 논문은 MMLU 성능에 대한 스케일과 미세 조정의 영향을 탐구합니다.

2025 년에 알아야 할 14 개의 인기있는 LLM 벤치 마크

이 작업은 상세하고 불협화음 시나리오를 이해하고 적절한 적용을 적용해야합니다.

법적 선례 및 올바른 설명 선택. 녹색 확인 마크는 지상 진실입니다.

코딩 벤치 마크

5. Humaneval : 언어 모델에서 코드 생성 평가

Humaneval은 언어 모델에 의해 생성 된 코드의 기능적 정확성을 평가하기 위해 설계된 벤치 마크입니다. 기능 서명, 문서화 및 여러 단위 테스트의 164 개의 프로그래밍 문제로 구성됩니다. 이러한 문제는 언어 이해, 추론, 알고리즘 및 간단한 수학 기술을 평가합니다. 구문 유사성에 의존 한 이전 벤치 마크와 달리 HumaneVal은 생성 된 코드가 실제로 제공된 단위 테스트를 통과하여 기능적 정확성을 측정하는지 여부를 평가합니다. 이 벤치 마크는 현재 언어 모델과 인간 수준 코드 생성 사이의 격차를 강조하여 대형 모델조차도 올바른 코드를 일관되게 생성하는 데 어려움을 겪고 있음을 보여줍니다. 코드 생성 언어 모델의 기능을 평가하기위한 도전적이고 실용적인 테스트 역할을합니다.

2025 년에 알아야 할 14 개의 인기있는 LLM 벤치 마크

다음은 Codex-12B의 단일 샘플이 단위 테스트를 통과하는 확률 (0.9, 0.17 및 0.005)과 함께 HumaneVal 데이터 세트의 세 가지 예시적인 문제입니다. 모델에 제시된 프롬프트는 흰색 배경에 표시되며 성공적인 모델 생성 완료는 노란색 배경으로 강조 표시됩니다. 문제 참신을 보장하지는 않지만 모든 문제는 손으로 세 심하게 제작되었으며 기존 소스에서 프로그래밍 방식으로 복사되지 않았으므로 독특하고 도전적인 데이터 세트를 보장합니다.

6. Swe-Bench

SWE-Bench는 GitHub에서 발견 된 실제 소프트웨어 문제를 해결하는 능력에 대한 대형 언어 모델 (LLM)을 평가하도록 설계된 벤치 마크입니다. 실제 GitHub 문제에서 발생하는 2,294 개의 소프트웨어 엔지니어링 문제와 12 개의 인기있는 Python 리포지토리에서 해당 풀 요청으로 구성됩니다. 이 작업에는 코드베이스가있는 언어 모델과 문제 설명이 포함되어 문제를 해결하는 패치를 생성하도록 도전합니다. 그런 다음 모델의 제안 된 솔루션은 저장소의 테스트 프레임 워크에 대해 평가됩니다. SWE-Bench는 AI 모델과 프롬프트 생성, 출력 구문 분석 및 상호 작용 루프 관리를 담당하는 주변 소프트웨어 스캐 폴딩을 포함하는 전체 "에이전트"시스템을 평가하는 데 중점을 둡니다. 500 개의 샘플로 구성된 SWE-Bench Verified라는 인간 검증 서브 세트는 작업을 해결할 수 있고 코딩 에이전트의 성능을 더 명확하게 제공합니다.

2025 년에 알아야 할 14 개의 인기있는 LLM 벤치 마크

SWE- 벤치 소스 GitHub 문제를 연결하여 관련 테스트를 해결하는 풀 요청 솔루션을 병합하여 실제 Python 저장소의 작업 인스턴스. 문제 텍스트와 코드베이스 스냅 샷이 제공되는 모델은 실제 테스트에 대해 평가되는 패치를 생성합니다.

7. Swe-Lancer

SWE-Lancer는 UPWork에서 공급 된 실제 프리랜서 소프트웨어 엔지니어링 작업을 완료 할 때 Frontier Language Models (LLM)의 기능을 평가하기 위해 개발 된 벤치 마크입니다. 여기에는 $ 50의 간단한 버그 수정에서부터 최대 $ 32,000의 복잡한 기능 구현에 이르기까지 1,400 개가 넘는 작업이 포함됩니다. 벤치 마크는 두 가지 유형의 작업을 평가합니다. 개별 기고자 (IC) 작업, 모델 모델은 전문 엔지니어의 엔드 투 엔드 테스트를 통해 검증 된 코드 패치를 생성하고 모델이 여러 옵션에서 최상의 구현 제안을 선택합니다. 결과에 따르면 고급 모델조차도 대부분의 작업을 해결하기 위해 노력하여 현재 AI 기능과 실제 소프트웨어 엔지니어링 요구 사이의 격차를 강조합니다. SWE-Lancer는 모델 성능을 금전적 가치와 연결함으로써 소프트웨어 개발에서 AI의 경제적 영향에 대한 연구를 촉진하는 것을 목표로합니다.

2025 년에 알아야 할 14 개의 인기있는 LLM 벤치 마크

IC SWE 작업의 평가 프로세스에는 모델의 성능이 철저히 테스트되는 엄격한 평가가 포함됩니다. 이 모델에는 일련의 작업이 제시되며, 적용 가능한 모든 테스트를 만족시키는 솔루션을 생성하여 지불금을 얻습니다. 이 평가 흐름은 모델의 출력이 정확할뿐만 아니라 포괄적 일뿐 아니라 실제 소프트웨어 엔지니어링 작업에 필요한 높은 표준을 충족시킵니다.

8. 라이브 코드 벤치

LiveCodeBench는 기존 벤치 마크의 한계를 해결함으로써 코드 관련 작업에 대한 대형 언어 모델 (LLM)의 전체 론적 및 오염없는 평가를 제공하도록 설계된 새로운 벤치 마크입니다. Leetcode, Atcoder 및 Codeforces와 같은 플랫폼에서 주간 코딩 컨테스트에서 발생하는 문제를 사용하고 오염을 방지하기 위해 릴리스 날짜 태그를 지정하고 코드 생성 외에 자체 수용, 코드 실행 및 테스트 출력 예측에서 LLM을 평가합니다. 2023 년 5 월에서 2024 년 5 월 사이에 500 개가 넘는 코딩 문제로 인해 Livecodebench는 고품질 문제와 테스트, 균형 잡힌 문제 난이도를 특징으로하며 일부 모델들 사이에서 HumaneVal에 잠재적 인 과적합을 공개하여 다양한 코딩 작업에서 다양한 모델의 다양한 강점을 강조했습니다.

2025 년에 알아야 할 14 개의 인기있는 LLM 벤치 마크

LiveCodeBench는 다양한 코딩 시나리오를 제시하여 포괄적 인 평가 방식을 제공합니다. 코딩은 복잡한 작업이며 다양한 코딩 관련 기술을 캡처하는 다양한 평가 설정을 통해 대형 언어 모델 (LLM)을 평가할 것을 제안합니다. 일반적인 코드 생성 설정 외에도 자체 수리, 코드 실행 및 새로운 테스트 출력 예측 작업의 세 가지 추가 시나리오를 소개합니다.

9. 코드 포스

Codeforces는 Codeforces 플랫폼과 직접 인터페이스함으로써 LLMS (Large Language Models)의 경쟁 수준 코드 생성 기능을 평가하도록 설계된 새로운 벤치 마크입니다. 이 접근법은 숨겨진 테스트 사례에 대한 액세스, 특수 판사 지원 및 일관된 실행 환경에 대한 정확한 평가를 보장합니다. Codeforces는 Codeforces의 자체 등급 시스템에 맞춰 표준화 된 ELO 등급 시스템을 도입하지만 분산이 감소하여 LLM과 인간 경쟁 업체를 직접 비교할 수 있습니다. 33 LLM의 평가는 OpenAI의 O1-Mini가 1578 년의 가장 높은 ELO 등급을 달성하여 인간 참가자의 상위 90 번째 백분위 수를 달성하면서 상당한 성능 차이를 나타 냈습니다. 이 벤치 마크는 고급 모델의 진행 상황과 대부분의 LLMS의 경쟁 프로그래밍 기능을 개선 할 수있는 상당한 공간을 보여줍니다. Codeforces 벤치 마크 및 ELO 계산 로직을 공개적으로 사용할 수 있습니다.

2025 년에 알아야 할 14 개의 인기있는 LLM 벤치 마크

Codeforces는 광범위한 프로그래밍 문제를 제시하며, 각 문제는 필수 구성 요소를 포함하도록 신중하게 구성됩니다. 이러한 구성 요소는 일반적으로 다음을 포함합니다. 1) 설명 제목, 2) 솔루션의 시간 제한, 3) 프로그램의 메모리 제한, 4) 자세한 문제 설명, 5) 입력 형식, 6) 예상 출력 형식, 7) 프로그래머를 안내하기위한 테스트 사례 예제 및 8) 추가 컨텍스트 또는 힌트를 제공하는 선택 사항. "Codeforces 문제 E"라는 제목의 이러한 문제 중 하나는 URL에서 https://codeforces.com/contest/2034/problem/e에 액세스 할 수 있습니다. 이 문제는 경쟁력있는 코딩 환경에서 프로그래머의 기술을 테스트하기 위해 신중하게 제작되어 주어진 시간 및 메모리 제약 내에서 효율적이고 효과적인 솔루션을 만들도록 도전합니다.

공구 사용 (에이전트) 벤치 마크

10. 타우 벤치

τ- 벤치는 도메인 별 정책을 준수하면서 인간 사용자 및 프로그래밍 방식 API와 상호 작용하는 능력에 대해 언어 에이전트를 적극적으로 평가합니다. τ- 벤치는 종종 단순화 된 명령어로 팔로우링하는 설정을 특징으로하는 기존 벤치 마크와 달리 사용자 (언어 모델 시뮬레이션)와 도메인 별 API 도구 및 정책 지침이 장착 된 언어 에이전트 간의 동적 대화를 에뮬레이션합니다. 이 벤치 마크는 현실적인 데이터베이스 및 API, 도메인 별 정책 문서 및 해당 근거 진실 주석이있는 다양한 사용자 시나리오에 대한 지침을 포함하는 모듈 식 프레임 워크를 사용합니다. τ- 벤치의 주요 특징은 평가 프로세스로, 주석이 달린 목표 상태와 대화가 끝날 때 데이터베이스 상태를 비교하여 에이전트의 의사 결정을 객관적으로 측정 할 수 있습니다.

벤치 마크는 또한 여러 시험에 대한 에이전트 행동의 신뢰성을 평가하기 위해 새로운 지표 인 Pass^K를 소개하여 실제 응용 프로그램에서 일관되게 행동하고 규칙을 안정적으로 수행 할 수있는 에이전트의 필요성을 강조합니다. 초기 실험에 따르면 최첨단 기능 호출 에이전트조차도 복잡한 추론, 정책 준수 및 복합 요청 처리로 어려움을 겪고 있습니다.

2025 년에 알아야 할 14 개의 인기있는 LLM 벤치 마크

τ- 벤치는 에이전트가 데이터베이스 API 도구 및 LM 시뮬레이션 사용자와 함께 작업을 수행하는 혁신적인 벤치 마크입니다. 또한 여러 상호 작용을 통해 관련 정보를 사용자에게 및 전달하는 에이전트의 기능을 평가하는 한편, 복잡한 문제를 실시간으로 해결할 수있는 능력을 테스트하여 도메인 별 정책 문서에 요약 된 지침 준수를 보장합니다. τ-airline 작업에서 에이전트는 도메인 정책에 따라 기본 경제 비행을 변경하라는 사용자의 요청을 거부 한 다음 대체 솔루션 (암성 및 재 예약)을 제안해야합니다. 이 작업을 위해서는 에이전트가 데이터베이스, 규칙 및 사용자 의도와 관련된 복잡한 환경에서 제로 샷 추론을 적용해야합니다.

언어 이해와 질문 벤치 마크에 대한 답변

11. 슈퍼 글루

SuperGlue는 고급 벤치 마크를 통해 자연 언어 이해 (NLU) 모델의 기능을 평가하여 전임자 인 접착제보다 더 까다로운 평가를 제공합니다. SuperGlue는 접착제의 가장 어려운 작업 중 두 가지를 유지하는 동안 더 깊은 추론, 상식 지식 및 상황에 맞는 이해가 필요한 새롭고 복잡한 작업을 도입합니다. 질문 답변 및 코퍼레이션 해상도와 같은 작업을 포함하도록 접착제의 문장 및 문장 쌍 분류를 넘어 확장됩니다. SuperGlue 디자이너는 대학 교육을받은 영어 사용자가 관리 할 수있는 작업을 만들지 만 이러한 작업은 여전히 ​​현재 최첨단 시스템의 기능을 초과합니다. 이 벤치 마크는 비교를위한 포괄적 인 인간 기준선을 제공하며 모델 평가를위한 툴킷을 제공합니다. SuperGlue는 일반적인 목적 언어 이해 기술을 개발하기위한 진전을 측정하고 추진하는 것을 목표로합니다.

2025 년에 알아야 할 14 개의 인기있는 LLM 벤치 마크

SuperGlue 작업의 개발 세트는 각각 고유 한 형식으로 제공되는 다양한 예제를 제공합니다. 이 예제에는 일반적으로 각 작업의 특정 형식을 나타내는 굵은 텍스트가 포함됩니다. 모델 입력은 이탤릭체로 된 텍스트를 통합하여 필수 컨텍스트 또는 정보를 제공합니다. 특히 밑줄이 그어진 텍스트를 입력 내에 표시하며 종종 특정 초점이나 요구 사항을 강조합니다. 마지막으로, 그것은 단일 포스 페이스 글꼴을 사용하여 예상 된 출력을 나타내며, 예상 응답 또는 솔루션을 보여줍니다.

12. Helloswag

Hellaswag는 상식 자연 언어 추론 (NLI)을 평가하기위한 벤치 마크 데이터 세트입니다. 주어진 컨텍스트를 기반으로 한 문장을 완료하도록 기계에 도전합니다. Zellers et al.에 의해 개발 된 70,000 개의 문제가 포함되어 있습니다. 인간은 95% 이상의 정확도를 달성하는 반면, 최고 모델은 50% 미만입니다. 데이터 세트는 AF (Adversarial Filtering)를 사용하여 오해의 소지가 있지만 그럴듯한 잘못된 답변을 생성하므로 모델이 올바른 완료를 찾기가 더 어려워집니다. 이것은 상식적인 추론에서 Bert와 같은 딥 러닝 모델의 한계를 강조합니다. Hellaswag는 AI 시스템이 인간과 같은 시나리오를 이해하는 데 어려움을 겪는 진화하는 벤치 마크의 필요성을 강조합니다.

2025 년에 알아야 할 14 개의 인기있는 LLM 벤치 마크

Bert와 같은 모델은 종종 교육 데이터와 동일한 분포에서 나오더라도 Hellaswag에서 문장을 완성하는 데 어려움을 겪습니다. 잘못된 결말은 문맥 상 관련이지만 인간의 정확성과 그럴듯한 표준을 충족시키지 못합니다. 예를 들어, Wikihow 구절에서 옵션 A는 운전자가 단 2 초 동안 빨간색 표시등에서 멈추도록 권고합니다. 이는 분명히 잘못되고 실용적입니다.

수학 벤치 마크

13. 수학 데이터 세트

이 기사에 소개 된 수학 데이터 세트에는 12,500 개의 도전적인 수학 경쟁 문제가 포함되어 있습니다. 기계 학습 모델의 문제 해결 능력을 평가합니다. 이러한 문제는 AMC 10, AMC 12 및 AIME와 같은 경쟁에서 비롯되며, 대수 전, 대수, 숫자 이론 및 기하학과 같은 다양한 난이도 및 주제를 다루고 있습니다. 알려진 공식으로 해결할 수있는 전형적인 수학 문제와 달리 수학 문제에는 문제 해결 기술과 휴리스틱이 필요합니다. 각 문제에는 단계별 솔루션이 포함되어있어 모델이 해석 가능한 출력에 대한 답변 파생 및 설명을 생성하는 법을 배우는 데 도움이됩니다.

2025 년에 알아야 할 14 개의 인기있는 LLM 벤치 마크

이 예에는 생성 된 솔루션 및 해당지면 진실 솔루션에 대한 다양한 수학적 문제가 포함됩니다. 2 월 6 일에 개최 된 가장 최근의 AIME는 수학 커뮤니티에 빠르게 관심을 끌었습니다. 사람들은 시험 직후 YouTube, 온라인 포럼 및 블로그에서 문제와 솔루션을 공유했습니다. 이 빠른 토론은 이러한 도전에 대한 지역 사회의 열정을 강조합니다. 예를 들어, 첫 번째 문제의 생성 솔루션은 정확하고 명확하게 설명되어 성공적인 모델 출력을 보여줍니다. 대조적으로, 조합과 그림을 포함하는 두 번째 문제는 모델에 도전하여 잘못된 솔루션으로 이어집니다.

14. AIME 2025

AIME (American Invitational Mathematics Examination)은 유명한 수학 대회이며 국제 수학 올림피아드를위한 미국 팀을 선발하는 두 번째 단계입니다. 대부분의 참가자는 고등학생이지만 매년 재능있는 중학교 학생들이 자격이 있습니다. 미국 수학 협회는이 시험을 수행합니다.

수학 커뮤니티는 최근 2 월 6 일에 최근 AIME에 관심을 끌었으며 시험 직후 YouTube, 포럼 및 블로그에서 문제와 솔루션을 공유하고 논의했습니다. 이 빠른 분석은 이러한 도전적인 경쟁에 대한 지역 사회의 열정을 반영합니다.

2025 년에 알아야 할 14 개의 인기있는 LLM 벤치 마크

이 이미지는 AIME 2025 용지의 예제 문제와 솔루션을 나타냅니다. 이 벤치 마크는 LLM의 수학적 추론 능력에 중점을 둡니다.

결론

개발자는 대형 데이터 세트에서 거의 매일 새로운 모델을 만들고 교육하여 다양한 기능을 갖추고 있습니다. LLM 벤치 마크는 코드를 작성하는 데 가장 적합한 모델, 추론에 탁월하며 NLP 작업을 가장 효과적으로 처리하는 것과 같은 필수 질문에 답변하여 이러한 모델을 비교하는 데 중요한 역할을합니다. 따라서 이러한 벤치 마크에서 모델을 평가하는 것은 필수 단계가됩니다. 우리가 AGI를 향해 빠르게 발전함에 따라, 연구원들은 또한 발전에 따라 새로운 벤치 마크를 만들고 있습니다.

위 내용은 2025 년에 알아야 할 14 개의 인기있는 LLM 벤치 마크의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿