Heim > Technologie-Peripheriegeräte > KI > 14 beliebte LLM -Benchmarks im Jahr 2025 zu wissen

14 beliebte LLM -Benchmarks im Jahr 2025 zu wissen

William Shakespeare
Freigeben: 2025-03-21 11:08:12
Original
224 Leute haben es durchsucht

Große Sprachmodelle (LLMs) haben sich als beeindruckendes Werkzeug erwiesen, das sowohl bei der Interpretation als auch bei der Erzeugung von Text, die die menschliche Sprache nachahmt, hervorragend. Dennoch führt die weit verbreitete Verfügbarkeit dieser Modelle die komplexe Aufgabe ein, ihre Leistung genau zu beurteilen. Hier stellt die LLM -Benchmarks im Mittelpunkt und bietet systematische Bewertungen zur Messung der Fähigkeiten eines Modells in Aufgaben wie Sprachverständnis und fortgeschrittener Argumentation. In diesem Artikel werden ihre kritischen Rolle untersucht, renommierte Beispiele hervorhebt und ihre Einschränkungen untersucht und ein vollständiges Bild ihrer Auswirkungen auf die Sprachtechnologie bietet.

Benchmarks sind für die Bewertung von großsprachigen Modellen (LLMs) unerlässlich und dienen als Standard für die Messung und Vergleich der Leistung. Sie bieten eine konsistente Möglichkeit, Fähigkeiten zu bewerten, vom grundlegenden Sprachverständnis bis hin zu fortgeschrittenem Denken und Programmieren.

Inhaltsverzeichnis

  • Was sind LLM -Benchmarks?
  • Was ist der Bedarf an LLM -Benchmarks?
  • Arbeiten von LLM -Benchmarks
  • Begründung Benchmarks
    • ARC: Die Herausforderung der Abstraktion und Argumentation
    • Massives multimodales Verständnis für multidisziplin (MMMU)
    • GPQA: Ein herausfordernder Benchmark für fortgeschrittene Argumentation
    • Messung des massiven Multitasking -Sprachverständnisses (MMLU)
  • Codierung von Benchmarks
    • Humaner -Ew: Bewertung der Codegenerierung aus Sprachmodellen
    • Sween-Bench
    • Swe-Lancer
    • Live -Code -Bank
    • Codeforces
  • Werkzeuggebrauch (Agenten-) Benchmarks
    • Tau-Bench
  • Sprachverständnis und Fragen zur Beantwortung von Benchmark
    • Superklebe
    • Helloswag
  • Mathematik -Benchmarks
    • Mathematikdatensatz
    • Aime 2025
  • Abschluss

Was sind LLM -Benchmarks?

LLM -Benchmarks sind strukturierte Tests, um die Leistung von Sprachmodellen zu bestimmten Aufgaben zu bewerten. Sie helfen dabei, kritische Fragen zu beantworten wie:

  • Kann dies LLM effektiv Codierungsaufgaben erledigen?
  • Wie gut liefert es relevante Antworten in einem Gespräch?
  • Kann es komplexe Argumentationsprobleme lösen?

Schlüsselmerkmale von LLM -Benchmarks

  • Standardisierte Tests : Jeder Benchmark besteht aus einer Reihe von Aufgaben mit bekannten korrekten Antworten, die eine konsistente Bewertung ermöglichen.
  • Verschiedene Bewertungsbereiche : Benchmarks können sich auf verschiedene Fähigkeiten konzentrieren, einschließlich:
    • Sprachverständnis
    • Mathematik-Problemlösung
    • Codierungsfähigkeiten
    • Gesprächsqualität
    • Sicherheits- und ethische Überlegungen

Was ist der Bedarf an LLM -Benchmarks?

Standardisierung und Transparenz bei der Bewertung

  • Vergleichende Konsistenz: Benchmarks ermöglichen direkte Vergleiche zwischen LLMs und stellen sicher, dass die Bewertungen transparent und reproduzierbar sind.
  • Performance Snapshot: Sie bieten eine schnelle Bewertung der Funktionen eines neuen LLM im Vergleich zu etablierten Modellen.

Fortschrittsverfolgung und Verfeinerung

  • Überwachung des Fortschritts: Benchmarks helfen bei der Beobachtung der Modellleistung im Laufe der Zeit und Unterstützung von Forschern bei der Verfeinerung ihrer Modelle.
  • Aufdecken von Einschränkungen: Diese Tools können Bereiche bestimmen, in denen Modelle kurz vorgehen und zukünftige Forschungs- und Entwicklungsbemühungen leiten.

Modellauswahl

  • Informierte Entscheidungen: Für Praktiker werden Benchmarks bei der Auswahl von Modellen für bestimmte Aufgaben zu einer entscheidenden Referenz, um gut informierte Entscheidungen für Anwendungen wie Chatbots oder Kundenunterstützungssysteme sicherzustellen.

Arbeiten von LLM -Benchmarks

Hier ist der Schritt-für-Schritt-Prozess:

  • Datensatzeingabe und Tests
    • Benchmarks bieten eine Vielzahl von Aufgaben für die LLM, z. B. die Beantwortung von Fragen oder das Generieren von Code.
    • Jeder Benchmark enthält einen Datensatz von Texteingaben und entsprechende Antworten zur Bewertung der „Grundwahrheit“.
  • Leistungsbewertung und -bewertung : Nach dem Abschluss der Aufgaben werden die Antworten des Modells je nach Aufgabentyp unter Verwendung standardisierter Metriken wie Genauigkeit oder BLEU -Bewertungen bewertet.
  • LLM -Ranking und Besten

Begründung Benchmarks

1. ARC: Die Herausforderung der Abstraktion und Argumentation

Die Benchmarks Machine Intelligence für Abstraktions- und Argumentationskorpus (ARC), indem sie sich von Raven's Progressive Matrices inspirieren lassen. Es fordert AI-Systeme heraus, das nächste Bild in einer Sequenz basierend auf einigen Beispielen zu identifizieren und nur wenige Schüsse zu fördern, die die kognitiven Fähigkeiten des Menschen widerspiegeln. Durch die Betonung der Verallgemeinerung und der Nutzung von „Priors“-intrinsischem Wissen über die Welt-zielt Arc darauf ab, die KI in Richtung menschlicher Argumentation voranzutreiben. Der Datensatz folgt einem strukturierten Lehrplan, das Systeme systematisch durch immer komplexere Aufgaben leitet und gleichzeitig die Leistung durch Vorhersagegenauigkeit misst. Trotz Fortschritten kämpft die KI immer noch darum, die Leistung auf menschlicher Ebene zu erreichen, was den anhaltenden Bedarf an Fortschritten in der AI-Forschung hervorhebt.

14 beliebte LLM -Benchmarks im Jahr 2025 zu wissen

Das Abstraktions- und Argumentationskorpus umfasst eine Vielzahl von Aufgaben, die sowohl Menschen als auch künstliche Intelligenzsysteme lösen können. Inspiriert von Ravens progressiven Matrizen erfordert das Aufgabenformat, dass die Teilnehmer das nächste Bild in einer Sequenz identifizieren und ihre kognitiven Fähigkeiten testen.

2. Massives multimodales Verständnis für multidisziplin (MMMU)

Das massive multimodale Verständnis- und Argumentations-Benchmark-Benchmark bewertet multimodale Modelle für Wissens- und Argumentationsaufgaben auf Hochschulebene. Es enthält 11,5K -Fragen aus Prüfungen, Quiz und Lehrbüchern in sechs Disziplinen: Kunst & Design, Wirtschaft, Wissenschaft, Gesundheit und Medizin, Geisteswissenschaften und Sozialwissenschaften sowie Tech & Engineering.

Diese Fragen umfassen 30 Probanden und 183 Teilfelder, die 30 heterogene Bildtypen wie Diagramme, Diagramme, Karten und chemische Strukturen enthalten. MMMU konzentriert sich auf die fortschrittliche Wahrnehmung und Argumentation mit domänenspezifischem Wissen, fordern Modelle zur Ausführung von Aufgaben auf Expertenebene und zielt darauf ab, die Fähigkeiten der Wahrnehmung, des Wissens und des Arguments in großen multimodalen Modellen (LMMs) zu messen. Die Bewertung aktueller Modelle, einschließlich GPT-4V, zeigt einen erheblichen Verbesserungsraum, selbst wenn fortschrittliche Modelle nur rund 56% Genauigkeit erreichen. Eine robustere Version des Benchmarks MMMU-Pro wurde zur verstärkten Bewertung eingeführt.

14 beliebte LLM -Benchmarks im Jahr 2025 zu wissen

Abgetastete MMMU -Beispiele aus jeder Disziplin. Die Fragen und Bilder benötigen Kenntnisse auf Expertenebene, um zu verstehen und zu begründen.

3. GPQA: Ein herausfordernder Benchmark für fortgeschrittene Argumentation

GPQA ist ein Datensatz von 448 Multiple-Choice-Fragen in Biologie, Physik und Chemie, die Experten und fortgeschrittene KI herausfordern sollen. Domänenexperten mit Doktoranden erstellen und validieren die Fragen, um hohe Qualität und Schwierigkeiten zu gewährleisten. Experten erreichen eine Genauigkeit von 65% (74% mit retrospektiv identifizierten Fehlern), während Nicht-Experten mit Doktoranden in anderen Feldern trotz uneingeschränkter Internetzugang nur 34% bewertet, was dem Beweis, dass die Fragen „Google-Sicht“ sind. Führende KI-Modelle wie GPT-4 erreichen nur 39% Genauigkeit. GPQA unterstützt die Erforschung der skalierbaren Aufsicht von KI, die menschliche Fähigkeiten übertrifft und Menschen dabei hilft, wahrheitsgemäße Informationen zu Themen zu extrahieren, die über ihr Fachwissen hinausgehen.

14 beliebte LLM -Benchmarks im Jahr 2025 zu wissen

Zunächst wird eine Frage gestellt, und dann gibt ein Experte in derselben Domäne ihre Antwort und Feedback, die vorgeschlagene Überarbeitungen für die Frage enthalten können. Anschließend überarbeitet der Frageschreiber die Frage auf der Grundlage des Feedbacks des Experten. Diese überarbeitete Frage wird dann an einen anderen Experten in derselben Domäne und drei Nicht-Experten-Validatoren mit Fachwissen in anderen Bereichen gesendet. Wir betrachten die Vereinbarung von Experten Validatoren (*), wenn sie zunächst entweder richtig beantworten oder nach der richtigen Antwort eine klare Erklärung für ihren anfänglichen Fehler liefern oder ein gründliches Verständnis der Erklärung des Fragenschreibers demonstrieren.

4. Messung des massiven Multitasking -Sprachverständnisses (MMLU)

Das massive Benchmark (Multitasking Language Understanding), das das Wissen eines Textmodells während der Vorbereitung misst. MMLU bewertet Modelle zu 57 verschiedenen Aufgaben, darunter elementare Mathematik, US -Geschichte, Informatik, Recht und mehr. Es ist als Multiple-Choice-Fragen formatiert, was die Bewertung unkompliziert macht.

Der Benchmark zielt darauf ab, ein umfassenderer und herausfordernderer Test des Sprachverständnisses zu sein als frühere Benchmarks, die eine Kombination aus Wissen und Argumentation erfordern. Das Papier präsentiert Ergebnisse für mehrere Modelle und zeigt, dass selbst große vorbereitete Modelle auf MMLU zu kämpfen haben, was auf erhebliche Verbesserung der Funktionen des Sprachverständnisses hinweist. Darüber hinaus untersucht das Papier die Auswirkungen der Skalierung und der Feinabstimmung auf die MMLU-Leistung.

14 beliebte LLM -Benchmarks im Jahr 2025 zu wissen

Diese Aufgabe erfordert das Verständnis detaillierter und dissonantes Szenarien, die angemessene Anwendung anwenden

rechtliche Präzedenzfälle und Auswahl der richtigen Erklärung. Das grüne Checkmark ist die Grundwahrheit.

Codierung von Benchmarks

5. Humaneval: Bewertung der Codegenerierung aus Sprachmodellen

Humaneval ist ein Benchmark, der die funktionale Korrektheit von Code bewertet, die von Sprachmodellen generiert werden. Es besteht aus 164 Programmierproblemen mit einer Funktionssignatur, DocString und mehreren Unit -Tests. Diese Probleme bewerten Fähigkeiten im Sprachverständnis, Argumentation, Algorithmen und einfache Mathematik. Im Gegensatz zu früheren Benchmarks, die sich auf die syntaktische Ähnlichkeit stützten, bewertet Humaneval, ob der generierte Code tatsächlich die bereitgestellten Unit -Tests überträgt, wodurch die funktionelle Korrektheit gemessen wird. Der Benchmark unterstreicht die Lücke zwischen aktuellen Sprachmodellen und Codeerzeugung auf menschlicher Ebene und zeigt, dass selbst große Modelle Schwierigkeiten haben, einen konsequenten korrekten Code zu erzeugen. Es dient als herausfordernder und praktischer Test zur Bewertung der Fähigkeiten von Code-erzeugenden Sprachmodellen.

14 beliebte LLM -Benchmarks im Jahr 2025 zu wissen

Im Folgenden finden Sie drei veranschaulichende Probleme aus dem Humaneval-Datensatz, begleitet von den Wahrscheinlichkeiten, dass eine einzelne Stichprobe aus Codex-12B Unit-Tests bestehen: 0,9, 0,17 und 0,005. Die Eingabeaufforderung, die dem Modell präsentiert wird, wird auf einem weißen Hintergrund angezeigt, während ein erfolgreiches Modell erzeugte Fertigstellung auf einem gelben Hintergrund hervorgehoben wird. Obwohl es keine Probleme mit dem Problem garantiert, wurden alle Probleme sorgfältig von Hand gefertigt und nicht programmatisch aus vorhandenen Quellen kopiert, um einen einzigartigen und herausfordernden Datensatz zu gewährleisten.

6. Sween-Bench

SWE-Bench ist ein Benchmark, der zur Bewertung von großsprachigen Modellen (LLMs) auf ihre Fähigkeit zur Lösung realer Softwareprobleme auf GitHub ausgelegt ist. Es besteht aus 2.294 Software -Engineering -Problemen, die aus echten Github -Problemen und entsprechenden Pull -Anfragen in 12 beliebten Python -Repositorys entnommen werden. Die Aufgabe beinhaltet die Bereitstellung eines Sprachmodells mit einer Codebasis und einer Problembeschreibung, um es herauszufordern, einen Patch zu generieren, der das Problem behebt. Die vorgeschlagene Lösung des Modells wird dann anhand des Tests des Repositorys bewertet. SWE-Bench konzentriert sich auf die Beurteilung eines gesamten „Agenten“ -Systems, das das KI-Modell und das umgebende Software-Gerüst umfasst, die für die Generierung von Eingabeaufforderungen, das Parsing-Output und die Verwaltung des Interaktionsschleifens verantwortlich sind. Eine von Menschen validierte Untergruppe namens SWE-Bench verifiziert, die aus 500 Proben besteht, stellt sicher

14 beliebte LLM -Benchmarks im Jahr 2025 zu wissen

SWE-Bench-Quellen-Task-Instanzen von realen Python-Repositories durch Verbinden von Github-Problemen, um Pull-Anforderungslösungen zu verschmelzen, die verwandte Tests beheben. Mit dem Problemtext und einem Codebasis -Snapshot erstellen Modelle ein Patch, das gegen reale Tests bewertet wird

7. Swe-Lancer

SWE-LANCER ist ein Benchmark, der entwickelt wurde, um die Funktionen von Frontier Language Models (LLMs) bei der Erfüllung von freiberuflichen Software-Engineering-Aufgaben mit einer Gesamtwert von 1 Million US-Dollar zu bewerten. Es umfasst über 1.400 Aufgaben, die von einfachen Fehlerbehebungen im Wert von 50 US -Dollar bis hin zu komplexen Feature -Implementierungen im Wert von bis zu 32.000 US -Dollar reichen. Der Benchmark bewertet zwei Arten von Aufgaben: IC-Aufgaben (Einzelpersonenvertreter), bei denen Modelle Code-Patches generieren, die durch End-to-End-Tests von professionellen Ingenieuren verifiziert werden, und SWE-Manager-Aufgaben, bei denen Modelle die besten Implementierungsvorschläge aus mehreren Optionen auswählen. Die Ergebnisse zeigen, dass selbst fortgeschrittene Modelle Schwierigkeiten haben, die meisten Aufgaben zu lösen, und die Lücke zwischen aktuellen KI-Funktionen und realen Software-Engineering-Anforderungen hervorzuheben. Durch die Verknüpfung der Modellleistung mit dem Geldwert möchte Swe-Lancer die Forschung zu den wirtschaftlichen Auswirkungen der KI auf die Softwareentwicklung fördern.

14 beliebte LLM -Benchmarks im Jahr 2025 zu wissen

Der Bewertungsprozess für IC SWE -Aufgaben beinhaltet eine strenge Bewertung, bei der die Leistung des Modells gründlich getestet wird. Das Modell wird mit einer Reihe von Aufgaben präsentiert und muss Lösungen generieren, die alle anwendbaren Tests erfüllen, um die Auszahlung zu erhalten. Dieser Bewertungsfluss stellt sicher, dass die Ausgabe des Modells nicht nur korrekt, sondern auch umfassend ist und den hohen Standards erfüllt, die für Aufgaben des realen Software-Engineering erforderlich sind.

8. Live -Code -Bank

LivecodeBench ist ein neuartiger Benchmark, der eine ganzheitliche und kontaminationsfreie Bewertung von Großsprachmodellen (LLMs) für codebedingte Aufgaben bietet, indem die Einschränkungen bestehender Benchmarks angesprochen werden. Es verwendet Probleme, die von wöchentlichen Codierungswettbewerben auf Plattformen wie Leetcode, ATCODER und Codeforces bezogen wurden, die mit Veröffentlichungsdaten markiert sind, um Kontaminationen zu verhindern, und bewertet LLMs für Selbstreparatur-, Codeausführung und Prognose für die Testausgabe zusätzlich zur Codegenerierung. Mit über 500 Codierungsproblemen, die zwischen Mai 2023 und Mai 2024 veröffentlicht wurden, verfügt LivecodeBench enthält qualitativ hochwertige Probleme und Tests, ausgewogene Probleme mit Schwierigkeiten und hat eine mögliche Überanpassung an Humaneval unter einigen Modellen ergeben, wodurch die unterschiedlichen Stärken verschiedener Modelle in verschiedenen Codierungsaufgaben hervorgehoben werden.

14 beliebte LLM -Benchmarks im Jahr 2025 zu wissen

LivecodeBench bietet einen umfassenden Bewertungsansatz, indem verschiedene Codierungsszenarien vorgestellt werden. Die Codierung ist eine komplexe Aufgabe, und wir schlagen vor, große Sprachmodelle (LLMs) durch eine Reihe von Evaluierungs-Setups zu bewerten, die eine Reihe von Fähigkeiten im Zusammenhang mit Codierung erfassen. Abgesehen von der typischen Einstellung zur Codegenerierung führen wir drei zusätzliche Szenarien ein: Selbstreparatur, Codeausführung und eine neue Aufgabe der Testausgabe-Vorhersage.

9. Codeforces

CodeForces ist ein neuartiger Benchmark, der die Code-Erzeugung auf Wettbewerbsebene von großer Sprachmodellen (LLMs) bewerten soll, indem sie sich direkt mit der Codeforces-Plattform verbinden. Dieser Ansatz sorgt für eine genaue Bewertung durch den Zugriff auf versteckte Testfälle, die Unterstützung spezieller Richter und eine konsistente Ausführungsumgebung. CodeForces führt ein standardisiertes ELO -Bewertungssystem ein, das mit dem eigenen Bewertungssystem von Codeforces ausgerichtet ist, jedoch mit reduzierter Varianz, wodurch ein direkter Vergleich zwischen LLMs und menschlichen Wettbewerbern ermöglicht wird. Die Bewertung von 33 LLMs zeigte signifikante Leistungsunterschiede, wobei OpenAIs O1-Mini die höchste ELO-Bewertung von 1578 erreichte und sie in das oberste 90. Perzentil der menschlichen Teilnehmer stellte. Der Benchmark zeigt die Fortschritte mit fortschrittlichen Modellen und den beträchtlichen Raum für Verbesserungen in den meisten aktuellen Programmierfunktionen der aktuellen LLMs. Der CODEFORCES -Benchmark und seine ELO -Berechnungslogik sind öffentlich verfügbar.

14 beliebte LLM -Benchmarks im Jahr 2025 zu wissen

CodeForces stellt eine breite Palette von Programmierherausforderungen vor, und jedes Problem ist sorgfältig so strukturiert, dass es wesentliche Komponenten einbezieht. Zu diesen Komponenten gehören typischerweise: 1) einen beschreibenden Titel, 2) eine Zeitlimit für die Lösung, 3) eine Speichergrenze für das Programm, 4) eine detaillierte Problembeschreibung, 5) das Eingabeformat, 6) das erwartete Ausgangsformat, 7) Testfallbeispiele, um den Programmer zu leiten, und 8) einen optionalen Hinweis liefert zusätzliche Kontext oder Hinweise. Ein solches Problem mit dem Titel „Codeforces Problem E“ kann unter der URL zugegriffen werden: https://codeforces.com/contest/2034/problem/e. Dieses Problem wird sorgfältig gestaltet, um die Fähigkeiten eines Programmierers in einer wettbewerbsfähigen Codierungsumgebung zu testen, um sie dazu zu fordern, effiziente und effektive Lösungen innerhalb der angegebenen Zeit- und Speicherbeschränkungen zu schaffen.

Werkzeuggebrauch (Agenten-) Benchmarks

10. Tau-Bench

τ-Bench bewertet Sprachmittel aktiv an ihrer Fähigkeit, mit (simulierten) menschlichen Nutzern und programmatischen APIs zu interagieren und gleichzeitig domänenspezifische Richtlinien zu hängen. Im Gegensatz zu vorhandenen Benchmarks, die häufig vereinfachte Anweisungsanlagen aufweisen, emuliert τ-Bench dynamische Gespräche zwischen einem Benutzer (simuliert durch Sprachmodelle) und einem Sprachagenten, der mit domänenspezifischen API-Tools und Richtlinienrichtlinien ausgestattet ist. Dieser Benchmark verwendet ein modulares Framework, das realistische Datenbanken und APIs, domänenspezifische Richtliniendokumente und Anweisungen für verschiedene Benutzerszenarien mit entsprechenden Bodwahrheitsanmerkungen enthält. Ein wesentliches Merkmal von τ-Bench ist sein Bewertungsprozess, der den Datenbankzustand am Ende einer Gespräch mit dem kommentierten Zielstatus vergleicht und eine objektive Messung der Entscheidungsfindung des Agenten ermöglicht.

Der Benchmark führt auch eine neue Metrik ein, die Passform, um die Zuverlässigkeit des Agentenverhaltens in mehreren Versuchen zu bewerten und die Notwendigkeit von Agenten hervorzuheben, die konsequent handeln und Regeln in realen Anwendungen zuverlässig befolgen. Erste Experimente zeigen, dass selbst hochmoderne Funktionen, die Agenten nennen, mit komplexen Argumentation, politischen Einhaltung und Umgang mit Verbindungsanfragen zu kämpfen haben.

14 beliebte LLM -Benchmarks im Jahr 2025 zu wissen

τ-Bench ist ein innovativer Benchmark, bei dem ein Agent mit Datenbank-API-Tools und einem LM-simulierten Benutzer zur Erledigung von Aufgaben eingesetzt wird. Es bewertet die Fähigkeit des Agenten, durch mehrere Interaktionen relevante Informationen an und von den Benutzern zu sammeln und zu übermitteln und gleichzeitig die Fähigkeit zu testen, komplizierte Probleme in Echtzeit zu lösen, und die Einhaltung von Richtlinien in einem domänenspezifischen Richtliniendokument sicherzustellen. In der τ-Airline-Aufgabe muss der Agent die Anfrage eines Benutzers ablehnen, einen grundlegenden Economy-Flug basierend auf Domänenrichtlinien zu ändern und dann eine alternative Lösung vorzuschlagen-Zucht und Umbuchung. In dieser Aufgabe muss der Agent in einer komplexen Umgebung, in der Datenbanken, Regeln und Benutzerabsichten beteiligt sind, anwenden.

Sprachverständnis und Fragen zur Beantwortung von Benchmark

11. Superklebe

SuprGLE bewertet die Fähigkeiten der NLU -Modelle (Natural Language Understanding) durch einen fortschrittlichen Benchmark und bietet eine anspruchsvollere Bewertung als sein Vorgänger, Kleber. Während zwei der anspruchsvollsten Aufgaben des Klebers beibehalten wird, führt Supplue neue und kompliziertere Aufgaben ein, die ein tieferes Denken, das Wissenswissen und das kontextbezogene Verständnis erfordern. Es erweitert sich über den Satz- und Satzklassifizierungen von Glue hinaus, um Aufgaben wie Fragen zur Beantwortung von Fragen und der Kerneferenz einzubeziehen. Überlebungsdesigner erstellen Aufgaben, die mit Hochschulleitungen ausgebildet werden können, aber diese Aufgaben übertreffen immer noch die Funktionen der aktuellen Stand-the-Art-Systeme. Dieser Benchmark bietet umfassende menschliche Basislinien zum Vergleich und bietet ein Toolkit für die Modellbewertung. Zielklebe zielt darauf ab, den Fortschritt zur Entwicklung allgemeiner Sprachverständnistechnologien zu messen und voranzutreiben.

14 beliebte LLM -Benchmarks im Jahr 2025 zu wissen

Der Entwicklungssatz der Superkleberaufgaben bietet eine Vielzahl von Beispielen, die jeweils in einem einzigartigen Format dargestellt werden. Diese Beispiele enthalten typischerweise einen fetthaltigen Text , um das spezifische Format für jede Aufgabe anzuzeigen. Die Modelleingabe integriert den kursivisierten Text, um einen wesentlichen Kontext oder Informationen bereitzustellen. Es markiert speziell den unterstrichenen Text innerhalb der Eingabe und hebt häufig einen bestimmten Fokus oder Anforderungen hervor. Schließlich verwendet es die monospaced -Schriftart, um die erwartete Ausgabe darzustellen, wobei die erwartete Reaktion oder Lösung vorliegt.

12. Helloswag

Hellaswag ist ein Benchmark -Datensatz zur Bewertung von Commonsense -Inferenz (natürlicher Sprache) (NLI). Es fordert Maschinen auf, Sätze zu vervollständigen, die auf bestimmten Kontexten basieren. Entwickelt von Zellers et al., Enthält 70.000 Probleme. Menschen erreichen über 95% Genauigkeit, während Top -Modelle unter 50% erzielt werden. Der Datensatz verwendet die kontroverse Filterung (AF), um irreführende, aber plausible falsche Antworten zu erzeugen, sodass Modelle es schwieriger machen, die richtige Fertigstellung zu finden. Dies unterstreicht die Grenzen von Deep -Learning -Modellen wie Bert in gewundenem Denken. Hellaswag betont die Notwendigkeit, sich weiterentwickelnde Benchmarks zu entwickeln, die KI-Systeme beim Verständnis menschlicher Szenarien herausfordern.

14 beliebte LLM -Benchmarks im Jahr 2025 zu wissen

Modelle wie Bert haben oft Schwierigkeiten, Sätze in Hellaswag zu vervollständigen, auch wenn sie aus der gleichen Verteilung wie die Trainingsdaten stammen. Die falschen Endungen, obwohl kontextuell relevant, entspricht den menschlichen Standards für Korrektheit und Plausibilität nicht. In einer WikiHow -Passage rät der Fahrer beispielsweise, nur zwei Sekunden lang bei einem roten Licht anzuhalten, was eindeutig falsch und unpraktisch ist.

Mathematik -Benchmarks

13. Mathematikdatensatz

Der in dem Artikel eingeführte Mathematikdatensatz enthält 12.500 herausfordernde Probleme mit Mathematikwettbewerb. Es bewertet die Fähigkeiten zur Problemlösung von maschinellen Lernmodellen. Diese Probleme stammen aus Wettbewerben wie AMC 10, AMC 12 und Aime, die verschiedene Schwierigkeitsgrads und Probanden wie Voralgebra, Algebra, Zahlentheorie und Geometrie abdecken. Im Gegensatz zu typischen mathematischen Problemen, die mit bekannten Formeln lösbar sind, erfordern mathematische Probleme Problemlösungstechniken und Heuristiken. Jedes Problem beinhaltet eine Schritt-für-Schritt-Lösung, mit der Modelle lernen, Antwortableitungen und Erklärungen für interpretierbare Ausgaben zu generieren.

14 beliebte LLM -Benchmarks im Jahr 2025 zu wissen

Dieses Beispiel enthält verschiedene mathematische Probleme mit erzeugten Lösungen und entsprechende Grundwahrheitslösungen. Die jüngste Aime, die am 6. Februar stattfand, gewann schnell Interesse an der Mathematikgemeinschaft. Die Leute haben kurz nach der Prüfung Probleme und Lösungen auf YouTube, Online -Foren und Blogs geteilt. Diese schnelle Diskussion unterstreicht die Begeisterung der Gemeinschaft für diese Herausforderungen. Beispielsweise ist die erzeugte Lösung des ersten Problems korrekt und klar erklärt und zeigt eine erfolgreiche Modellausgabe. Im Gegensatz dazu stellt das zweite Problem, das Kombinatorik und eine Abbildung betrifft, das Modell in Frage, was zu einer falschen Lösung führt.

14. Aime 2025

Die American Invitational Mathematics Examination (AIMe) ist ein prestigeträchtiger Mathematikwettbewerb und die zweite Phase bei der Auswahl des US -Teams für die internationale Mathematik -Olympiade. Die meisten Teilnehmer sind Schüler, aber einige talentierte Mittelschüler qualifizieren sich jedes Jahr. Die Mathematical Association of America führt diese Prüfung durch.

Die Mathematikgemeinschaft interessierte sich schnell am 6. Februar am 6. Februar und teilte kurz nach der Prüfung Probleme und Lösungen in YouTube, Foren und Blogs mit und diskutierte. Diese schnelle Analyse spiegelt die Begeisterung der Gemeinschaft für diese herausfordernden Wettbewerbe wider.

14 beliebte LLM -Benchmarks im Jahr 2025 zu wissen

Dieses Bild bezeichnet ein Beispielproblem und eine Lösung aus dem Aime 2025 -Papier. Dieser Benchmark konzentriert sich auf die mathematischen Argumentationsfunktionen eines LLM.

Abschluss

Entwickler erstellen und trainieren neue Modelle fast jeden Tag auf großen Datensätzen und bieten sie mit verschiedenen Funktionen aus. LLM -Benchmarks spielen eine wichtige Rolle beim Vergleich dieser Modelle, indem es wesentliche Fragen beantwortet, z. Die Bewertung von Modellen an diesen Benchmarks wird daher zu einem obligatorischen Schritt. Wenn wir uns schnell in Richtung AGI vorantreiben, schaffen die Forscher auch neue Benchmarks, um mit Fortschritten Schritt zu halten.

Das obige ist der detaillierte Inhalt von14 beliebte LLM -Benchmarks im Jahr 2025 zu wissen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage