ホームページ > テクノロジー周辺機器 > AI > 2025年に知っておくべき14の人気のLLMベンチマーク

2025年に知っておくべき14の人気のLLMベンチマーク

William Shakespeare
リリース: 2025-03-21 11:08:12
オリジナル
225 人が閲覧しました

大規模な言語モデル(LLMS)は、人間の言語を模倣するテキストの解釈と作成の両方に優れている、恐るべきツールとして自分自身を証明しています。それにもかかわらず、これらのモデルの広範な可用性により、パフォーマンスを正確に評価するという複雑なタスクが導入されます。ここでは、LLMベンチマークがセンターステージに上がり、言語理解や高度な推論などのタスクにおけるモデルのスキルを測定するための体系的な評価を提供します。この記事では、それらの重要な役割を調査し、有名な例を強調し、その制限を調べ、言語技術への影響の全体像を提供します。

ベンチマークは、パフォーマンスを測定および比較するための標準として機能する大規模な言語モデル(LLM)を評価するために不可欠です。彼らは、基本的な言語の理解から高度な推論やプログラミングまで、スキルを評価するための一貫した方法を提供します。

目次

  • LLMベンチマークとは何ですか?
  • LLMベンチマークの必要性は何ですか?
  • LLMベンチマークの動作
  • 推論ベンチマーク
    • アーク:抽象化と推論の課題
    • 大規模なマルチディシップラインマルチモーダル理解(MMMU)
    • GPQA:高度な推論のための挑戦的なベンチマーク
    • 大規模なマルチタスク言語理解(MMLU)の測定
  • ベンチマークのコーディング
    • HumanVal:言語モデルからのコード生成の評価
    • swe-bench
    • Swe-Lancer
    • ライブコードベンチ
    • codeforces
  • ツール使用(エージェント)ベンチマーク
    • タウベンチ
  • 言語の理解と質問応答ベンチマーク
    • スーパーグルー
    • Helloswag
  • 数学ベンチマーク
    • 数学データセット
    • AIME 2025
  • 結論

LLMベンチマークとは何ですか?

LLMベンチマークは、特定のタスク上の言語モデルのパフォーマンスを評価するために設計された構造化されたテストです。彼らは次のような重要な質問に答えるのに役立ちます:

  • このLLMはコーディングタスクを効果的に処理できますか?
  • 会話で関連する答えをどれだけうまく提供しますか?
  • 複雑な推論の問題を解決することができますか?

LLMベンチマークの主要な機能

  • 標準化されたテスト:各ベンチマークは、既知の正解を備えた一連のタスクで構成され、一貫した評価が可能です。
  • 多様な評価領域:ベンチマークは、次のようなさまざまなスキルに焦点を当てることができます。
    • 言語理解
    • 数学の問題解決
    • コーディング能力
    • 会話の品質
    • 安全性と倫理的考慮事項

LLMベンチマークの必要性は何ですか?

評価における標準化と透明性

  • 比較一貫性:ベンチマークはLLM間の直接的な比較を促進し、評価が透明で再現可能であることを確認します。
  • パフォーマンススナップショット:確立されたモデルに関連する新しいLLMの機能の迅速な評価を提供します。

進捗追跡と改良

  • 監視の進捗状況:ベンチマークは、時間の経過に伴うモデルのパフォーマンスの改善を観察するのに役立ち、研究者がモデルの改良を支援します。
  • 制限の明らかな:これらのツールは、モデルが不足している領域を特定することができ、将来の研究開発の取り組みを導きます。

モデル選択

  • 情報に基づいた選択:開業医にとって、特定のタスクのモデルを選択する際にベンチマークが重要な参照になり、チャットボットやカスタマーサポートシステムなどのアプリケーションの十分な情報の決定を確保します。

LLMベンチマークの動作

段階的なプロセスは次のとおりです。

  • データセットの入力とテスト
    • ベンチマークは、質問への回答やコードの生成など、LLMが完了するためのさまざまなタスクを提供します。
    • 各ベンチマークには、テキスト入力のデータセットと、評価のために対応する「グラウンドトゥルース」回答が含まれています。
  • パフォーマンス評価とスコアリング:タスクを完了した後、タスクの種類に応じて、精度やBLEUスコアなどの標準化されたメトリックを使用して、モデルの応答が評価されます。
  • LLMのランキングとリーダーボード:モデルはスコアに基づいてランク付けされており、複数のベンチマークから結果を集めているリーダーボードに表示されることがよくあります。

推論ベンチマーク

1。アーク:抽象化と推論の課題

Ravenのプログレッシブマトリックスからインスピレーションを引き出すことにより、抽象化と推論コーパス(ARC)ベンチマークマシンインテリジェンス。 AIシステムに挑戦して、いくつかの例に基づいて次の画像をシーケンスで識別し、人間の認知能力を反映する少数の学習を促進します。一般化を強調し、「priors」 - 世界に関する内因性の知識を活用することにより、ARCは人間のような推論に向けてAIを前進させることを目指しています。データセットは、構造化されたカリキュラムに従い、予測の精度を通じてパフォーマンスを測定しながら、ますます複雑なタスクを通じてシステムを体系的にガイドします。進歩にもかかわらず、AIは依然として人間レベルのパフォーマンスに到達するのに苦労しており、AI研究の進歩の継続的な必要性を強調しています。

2025年に知っておくべき14の人気のLLMベンチマーク

抽象化と推論コーパスには、人間と人工知能システムの両方が解決できる多様なタスクセットが含まれています。 Ravenのプログレッシブマトリックスに触発されたこのタスク形式では、参加者が次の画像をシーケンスで識別し、認知能力をテストする必要があります。

2。大規模なマルチディシップラインマルチモーダル理解(MMMU)

大規模なマルチディシップラインのマルチモーダル理解と推論(MMMU)ベンチマークは、大学レベルの知識と推論タスクに関するマルチモーダルモデルを評価します。これには、アート&デザイン、ビジネス、科学、健康&医学、人文科学、技術&エンジニアリングの6つの分野にわたる試験、クイズ、教科書からの115kの質問が含まれています。

これらの質問には、30の被験者と183のサブフィールドに及び、チャート、図、マップ、化学構造などの30の不均一な画像タイプが組み込まれています。 MMMUは、ドメイン固有の知識、専門家レベルのタスクを実行するための挑戦的なモデルを備えた高度な認識と推論に焦点を当てており、大規模なマルチモーダルモデル(LMM)の知覚、知識、推論スキルを測定することを目的としています。 GPT-4Vを含む現在のモデルの評価により、高度なモデルが約56%の精度しか達成されていない場合でも、実質的な改善の余地があります。ベンチマークのより堅牢なバージョンであるMmmu-Proが、評価の強化のために導入されました。

2025年に知っておくべき14の人気のLLMベンチマーク

各分野からのMMMUの例をサンプリングしました。質問と画像には、理解し、推論するために専門家レベルの知識が必要です。

3。GPQA:高度な推論のための挑戦的なベンチマーク

GPQAは、生物学、物理学、化学における448の複数選択質問のデータセットであり、専門家と高度なAIに挑戦するように設計されています。博士号を持つドメインの専門家は、高品質と困難を確保するために質問を作成および検証します。専門家は65%の精度を達成し(遡及的に特定された間違いで74%)、他のフィールドの博士号を持つ非専門家は、無制限のインターネットアクセスにもかかわらず、34%しか獲得できません。 GPT-4のような主要なAIモデルは、わずか39%の精度に達します。 GPQAは、人間の能力を超えるAIのスケーラブルな監視に関する研究をサポートし、人間が専門知識を超えたトピックに関する真実の情報を抽出するのを支援します。

2025年に知っておくべき14の人気のLLMベンチマーク

当初、質問が作成され、その後、同じドメインの専門家が答えとフィードバックを提供します。これには、質問の提案された改訂が含まれる場合があります。その後、質問ライターは、専門家のフィードバックに基づいて質問を修正します。この改訂された質問は、同じドメインの別の専門家と他の分野の専門知識を持つ3つの非専門家の有効化者に送られます。専門家のバリッターの合意(*)は、最初に正しく答えるか、正しい答えを見た後、最初の間違いの明確な説明を提供するか、質問ライターの説明を完全に理解していることを検討します。

4。大規模なマルチタスク言語理解(MMLU)の測定

巨大なマルチタスク言語理解(MMLU)ベンチマーク。前登録中に取得したテキストモデルの知識を測定するように設計されています。 MMLUは、初等数学、米国の歴史、コンピューターサイエンス、法律などを含む57の多様なタスクのモデルを評価します。複数の選択の質問としてフォーマットされており、評価を簡単にします。

ベンチマークの目的は、以前のベンチマークよりも言語理解のより包括的で挑戦的なテストであり、知識と推論の組み合わせを必要とすることです。この論文は、いくつかのモデルの結果を提示し、大規模な事前に守られたモデルでさえMMLUで苦労しており、言語理解能力の改善の余地を示唆していることを示しています。さらに、この論文では、MMLUのパフォーマンスに対するスケールと微調整の影響を調査します。

2025年に知っておくべき14の人気のLLMベンチマーク

このタスクでは、適切な適用を適用する詳細で不協和音のシナリオを理解する必要があります

法的先例、および正しい説明を選択します。緑のチェックマークはグラウンドトゥルースです。

ベンチマークのコーディング

5。HumanVal:言語モデルからのコード生成の評価

Humanvalは、言語モデルによって生成されたコードの機能的正しさを評価するために設計されたベンチマークです。これは、関数の署名、Docstring、およびいくつかの単体テストで164のプログラミング問題で構成されています。これらの問題は、言語理解、推論、アルゴリズム、および単純な数学のスキルを評価します。構文的な類似性に依存していた以前のベンチマークとは異なり、Humanevalは、生成されたコードが実際に提供された単体テストに渡すかどうかを評価し、機能的正しさを測定します。ベンチマークは、現在の言語モデルと人間レベルのコード生成のギャップを強調しており、大規模なモデルでさえ、正しいコードを一貫して作成するのに苦労していることを明らかにしています。これは、コード生成言語モデルの能力を評価するための挑戦的で実用的なテストとして機能します。

2025年に知っておくべき14の人気のLLMベンチマーク

以下は、Codex-12Bの単一サンプルが単位テストに合格する確率を伴うHumaneval Datasetからの3つの例示的な問題です:0.9、0.17、および0.005。モデルに提示されたプロンプトは白い背景に表示されますが、モデルが生成した完成が成功し、黄色の背景で強調表示されます。問題の斬新を保証するものではありませんが、すべての問題は細心の注意を払って手で作成され、既存のソースからプログラム的にコピーされていないため、ユニークで挑戦的なデータセットが確保されました。

6。SWEベンチ

SWEベンチは、GitHubで見つかった実際のソフトウェアの問題を解決する能力について、大規模な言語モデル(LLMS)を評価するために設計されたベンチマークです。これは、12の一般的なPythonリポジトリにわたる実際のGithubの問題と対応するプル要求に由来する2,294のソフトウェアエンジニアリングの問題で構成されています。タスクには、コードベースと問題の説明を含む言語モデルを提供することが含まれ、問題を解決するパッチを生成するように挑戦します。モデルの提案されたソリューションは、リポジトリのテストフレームワークに対して評価されます。 SWEベンチは、AIモデルと、プロンプトの生成、出力の解析、およびインタラクションループ2の管理を担当する周囲のソフトウェア足場を含む「エージェント」システム全体の評価に焦点を当てています。 500のサンプルで構成されるSWEベンチ検証と呼ばれるヒト検証されたサブセットは、タスクが解決可能であり、コーディングエージェントのパフォーマンスのより明確な尺度を提供することを保証します

2025年に知っておくべき14の人気のLLMベンチマーク

SWEベンチソースGitHubの問題を接続して関連するテストを解決するプル要求ソリューションをマージすることにより、現実世界のPythonリポジトリからタスクインスタンスをソースします。問題テキストとコードベーススナップショットが付属しているため、モデルは実際のテストに対して評価されるパッチを生成します

7。SWE-LAN​​CER

Swe-Lancerは、フロンティア言語モデル(LLMS)の機能を評価するために開発されたベンチマークであり、Upworkから供給された現実世界のフリーランスソフトウェアエンジニアリングタスクを完了し、合計100万ドルです。これには、50ドル相当の単純なバグ修正から、最大32,000ドル相当の複雑な機能実装まで、1,400を超えるタスクが含まれています。ベンチマークでは、2つのタイプのタスクを評価します。個々の貢献者(IC)タスク。モデルがプロのエンジニアによるエンドツーエンドテストを通じて検証されたコードパッチを生成し、Modelsが複数のオプションから最適な実装提案を選択するSWEマネージャータスクです。調査結果は、高度なモデルでさえほとんどのタスクを解決するのに苦労しており、現在のAI機能と実際のソフトウェアエンジニアリングのニーズとのギャップを強調していることを示しています。モデルのパフォーマンスを金銭的価値にリンクすることにより、SWE-Lancerは、ソフトウェア開発におけるAIの経済的影響に関する研究を促進することを目指しています。

2025年に知っておくべき14の人気のLLMベンチマーク

IC SWEタスクの評価プロセスには、モデルのパフォーマンスが徹底的にテストされる厳格な評価が含まれます。このモデルには一連のタスクが表示され、適用されるすべてのテストを満たすために支払いを獲得するソリューションを生成する必要があります。この評価フローにより、モデルの出力が正しいだけでなく包括的であることが保証され、実際のソフトウェアエンジニアリングタスクに必要な高い基準を満たします。

8。ライブコードベンチ

LiveCodebenchは、既存のベンチマークの制限に対処することにより、コード関連のタスクに関する大規模な言語モデル(LLM)の全体的かつ汚染のない評価を提供するように設計された新しいベンチマークです。 LeetCode、Atcoder、Codeforcesなどのプラットフォームでの毎週のコーディングコンテストから供給された問題を使用し、リリース日でタグ付けされて汚染を防止し、コード生成に加えて、自己修復、コード実行、テスト出力予測に関するLLMを評価します。 2023年5月から2024年5月の間に500を超えるコーディングの問題が発表されているため、LiveCodebenchは高品質の問題とテスト、バランスの取れた問題の難易度を備えており、一部のモデルの間でヒューマヴァルに潜在的に過剰に適合していることを明らかにし、さまざまなコーディングタスク全体の異なるモデルのさまざまな強度を強調しています。

2025年に知っておくべき14の人気のLLMベンチマーク

LiveCodebenchは、さまざまなコーディングシナリオを提示することにより、包括的な評価アプローチを提供します。コーディングは複雑なタスクであり、コーディング関連のスキルの範囲をキャプチャする一連の評価セットアップを通じて、大規模な言語モデル(LLM)を評価することを提案します。典型的なコード生成設定を超えて、3つの追加シナリオを紹介します:自己修復、コード実行、および新しいテスト出力予測タスクを紹介します。

9。CodeForces

CodeForcesは、CodeForcesプラットフォームと直接インターフェースすることにより、大規模な言語モデル(LLM)の競合レベルのコード生成能力を評価するために設計された新しいベンチマークです。このアプローチは、隠されたテストケースへのアクセス、特別審査員のサポート、および一貫した実行環境を通じて正確な評価を保証します。 CodeForcesは、CodeForces独自の評価システムに合わせて標準化されたELOレーティングシステムを導入しますが、分散が減少し、LLMSと人間の競合他社の直接的な比較が可能になります。 33のLLMの評価により、OpenaiのO1-Miniが1578年の最高の速度評価を達成し、人間の参加者の上位90パーセンタイルに配置したという大きなパフォーマンスの違いが明らかになりました。このベンチマークは、高度なモデルによる進捗状況と、ほとんどの現在のLLMSの競争力のあるプログラミング機能の改善のかなりの余地を明らかにしています。 CodeForcesベンチマークとそのELO計算ロジックは公開されています。

2025年に知っておくべき14の人気のLLMベンチマーク

Codeforcesは幅広いプログラミングの課題を提示し、各問題は必須コンポーネントを含むように慎重に構成されています。これらのコンポーネントには通常、次のものが含まれます。1)記述タイトル、2)ソリューションの時間制限、3)プログラムのメモリ制限、4)詳細な問題の説明、5)入力形式、6)予想される出力形式、7)プログラマーをガイドするテストケースの例、8)追加のコンテキストまたはヒントを提供するオプションのメモ。 「CodeForces問題E」というタイトルのそのような問題の1つは、URL(https://codeforces.com/contest/2034/problem/e)でアクセスできます。この問題は、競争力のあるコーディング環境でプログラマーのスキルをテストするために慎重に作成されており、特定の時間とメモリの制約内で効率的かつ効果的なソリューションを作成するように挑戦します。

ツール使用(エージェント)ベンチマーク

10。タウベンチ

τベンチは、ドメイン固有のポリシーを順守しながら、人間のユーザーとプログラムAPIと相互作用する能力について言語エージェントを積極的に評価します。多くの場合、単純化された命令に応えるセットアップを備えた既存のベンチマークとは異なり、τベンチは、ユーザー(言語モデルでシミュレートされた)とドメイン固有のAPIツールとポリシーガイドラインを備えた言語エージェントとの間の動的な会話をエミュレートします。このベンチマークは、現実的なデータベースとAPI、ドメイン固有のポリシードキュメント、および対応するグラウンドトゥルースアノテーションを備えた多様なユーザーシナリオの指示を含むモジュラーフレームワークを採用しています。 τベンチの重要な機能は、評価プロセスであり、会話の最後にある注釈付きゴール状態を比較し、エージェントの意思決定の客観的な測定を可能にします。

このベンチマークは、複数の試行に対するエージェントの行動の信頼性を評価するために、新しいメトリックであるパス^kも導入し、一貫して行動し、現実世界のアプリケーションで定期的にルールに従うことができるエージェントの必要性を強調します。初期実験では、最先端の関数呼び出しエージェントでさえ、複雑な推論、政策の順守、および複合要求の取り扱いに苦労していることが示されています。

2025年に知っておくべき14の人気のLLMベンチマーク

τベンチは、エージェントがデータベースAPIツールとLMシミュレーションユーザーに関与してタスクを達成する革新的なベンチマークです。複数のインタラクションを通じてユーザーとの間で関連情報を収集および伝達するエージェントの能力を評価すると同時に、複雑な問題をリアルタイムで解決する能力をテストし、ドメイン固有のポリシー文書に概説されているガイドラインの順守を確保します。 τiarlineタスクでは、エージェントはドメインポリシーに基づいて基本エコノミーフライトを変更するというユーザーの要求を拒否し、代替ソリューション、つまりキャンセリングと再予約を提案する必要があります。このタスクでは、エージェントがデータベース、ルール、およびユーザーの意図を含む複雑な環境でゼロショット推論を適用する必要があります。

言語の理解と質問応答ベンチマーク

11。スーパーグルー

SuperGlueは、高度なベンチマークを通じて自然言語理解(NLU)モデルの能力を評価し、前任者である接着剤よりも厳しい評価を提供します。 Glueの最も挑戦的な2つのタスクを保持している間、Superglueは、より深い推論、常識的な知識、文脈的理解を必要とする新しいより複雑なタスクを紹介します。接着剤の文と文章の分類を超えて拡大して、質問に応答したり、コルファレンス解決などのタスクを含めたりします。スーパーグルーデザイナーは、大学教育を受けた英語の話者が管理できるタスクを作成しますが、これらのタスクは現在の最先端のシステムの機能を超えています。このベンチマークは、比較のための包括的な人間のベースラインを提供し、モデル評価のためのツールキットを提供します。 Superglueは、汎用言語理解技術の開発に向けて進歩を測定および促進することを目指しています。

2025年に知っておくべき14の人気のLLMベンチマーク

Superglueタスクの開発セットは、それぞれが独自の形式で提示される多様な例を提供します。これらの例には、通常、各タスクの特定の形式を示す太字のテキストが含まれます。モデル入力は、イタリック化されたテキストを統合して、本質的なコンテキストまたは情報を提供します。それは、入力内の下線付きのテキストを特にマークし、多くの場合、特定の焦点または要件を強調します。最後に、予想される出力を表すためにモノスパース化されたフォントを使用して、予想される応答またはソリューションを紹介します。

12。Helloswag

Hellaswagは、常識的な自然言語推論(NLI)を評価するためのベンチマークデータセットです。特定のコンテキストに基づいて文を完成させるために機械に挑戦します。 Zellers et al。によって開発され、70,000の問題が含まれています。人間は95%以上の精度を達成し、トップモデルは50%未満のスコアを達成します。データセットでは、敵対的なフィルタリング(AF)を使用して、誤解を招くがもっともらしい誤った回答を生成し、モデルが適切な完了を見つけるのが難しくなります。これは、Commonsense ReasoningのBertのような深い学習モデルの限界を強調しています。 Hellaswagは、人間のようなシナリオを理解することに挑戦するAIシステムを維持する進化するベンチマークの必要性を強調しています。

2025年に知っておくべき14の人気のLLMベンチマーク

Bertのようなモデルは、トレーニングデータと同じ分布から来たとしても、Hellaswagで文章を完成させるのに苦労することがよくあります。誤ったエンディングは、文脈的には関連性がありますが、人間の正確性と妥当性の基準を満たすことができません。たとえば、WikiHowパッセージでは、オプションAはドライバーに2秒間しか赤色光で停止するようにアドバイスします。これは明らかに間違っており、非現実的です。

数学ベンチマーク

13。数学データセット

記事で導入された数学データセットには、12,500の挑戦的な数学競争の問題が含まれています。機械学習モデルの問題解決能力を評価します。これらの問題は、AMC 10、AMC 12、AIMEなどの競技から、さまざまな難易度と、代数、代数、数の理論、幾何学などの被験者をカバーしています。既知の式で解決可能な典型的な数学の問題とは異なり、数学の問題には問題解決技術とヒューリスティックが必要です。各問題には、段階的なソリューションが含まれており、モデルが回答派生の生成と、より解釈可能な出力の説明を生成するのに役立ちます。

2025年に知っておくべき14の人気のLLMベンチマーク

この例には、生成されたソリューションと対応するグラウンドトゥルースソリューションに関する多様な数学的問題が含まれています。 2月6日に開催された最新のAIMEは、数学コミュニティにすぐに関心を集めました。 YouTube、オンラインフォーラム、および試験の直後にブログで問題やソリューションを共有しました。この迅速な議論は、これらの課題に対するコミュニティの熱意を強調しています。たとえば、最初の問題の生成されたソリューションは正しく、明確に説明されており、モデル出力が成功しています。対照的に、組み合わせと図を含む2番目の問題は、モデルに挑戦し、誤ったソリューションにつながります。

14。AIME2025

American Invitational Mathematics Examination(AIME)は、名誉ある数学コンペティションであり、国際数学オリンピアードの米国チームを選択する第2段階です。ほとんどの参加者は高校生ですが、才能のある中学生の一部は毎年資格があります。アメリカ数学協会はこの試験を実施しています。

数学コミュニティは、2月6日の最近のAIMEにすぐに興味を持ち、試験の直後にYouTube、フォーラム、ブログ全体で問題やソリューションを共有および議論しました。この迅速な分析は、これらの挑戦的な競争に対するコミュニティの熱意を反映しています。

2025年に知っておくべき14の人気のLLMベンチマーク

この画像は、AIME 2025ペーパーの問題と解決策を示しています。このベンチマークは、LLMの数学的推論能力に焦点を当てています。

結論

開発者は、大規模なデータセットでほぼ毎日新しいモデルを作成およびトレーニングし、さまざまな機能を装備しています。 LLMベンチマークは、これらのモデルを比較する上で重要な役割を果たします。これは、どのモデルがコードを作成するのに最適で、推論に優れているか、どのモデルがNLPタスクを最も効果的に処理しますか。したがって、これらのベンチマークでモデルを評価することが必須のステップになります。 AGIに向かって急速に進歩するにつれて、研究者は進歩に追いつくための新しいベンチマークも作成しています。

以上が2025年に知っておくべき14の人気のLLMベンチマークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート