Maison > Périphériques technologiques > IA > 14 repères LLM populaires à savoir en 2025

14 repères LLM populaires à savoir en 2025

William Shakespeare
Libérer: 2025-03-21 11:08:12
original
227 Les gens l'ont consulté

Les modèles de grands langues (LLM) ont fait ses preuves comme un formidable outil, excellant à la fois dans l'interprétation et la production de texte qui imite le langage humain. Néanmoins, la disponibilité généralisée de ces modèles introduit la tâche complexe d'évaluer avec précision ses performances. Là, les références LLM prennent le devant de la scène, fournissant des évaluations systématiques pour mesurer les compétences d'un modèle dans des tâches telles que la compréhension du langage et le raisonnement avancé. Cet article explore leur rôle critique, met en évidence des exemples renommés et examine leurs limites, offrant une image complète de leur impact sur la technologie linguistique.

Les repères sont essentiels pour évaluer les modèles de grandes langues (LLM), servant de norme pour mesurer et comparer les performances. Ils offrent un moyen cohérent d'évaluer les compétences, de la compréhension du langage de base au raisonnement avancé et à la programmation.

Table des matières

  • Que sont les repères LLM?
  • Quel est le besoin de repères LLM?
  • Fonctionnement des références LLM
  • Raisier les références
    • Arc: le défi d'abstraction et de raisonnement
    • Compréhension multimodale multidiscipline massive (MMMU)
    • GPQA: une référence difficile pour le raisonnement avancé
    • Mesurer la compréhension massive du langage multitâche (MMLU)
  • Codage de repères
    • Humaneval: Évaluation de la génération de code à partir de modèles de langues
    • Banc de swe
    • Swe-Lancer
    • Banc de code en direct
    • Forces codées
  • Utilisation d'outils (agentique) Benchmarks
    • Banc de tau
  • Compréhension du langage et questions répondant à Benchmark
    • Superglue
    • Helloswag
  • Benchmarks de mathématiques
    • Ensemble de données mathématiques
    • AIME 2025
  • Conclusion

Que sont les repères LLM?

Les références LLM sont des tests structurés conçus pour évaluer les performances des modèles de langage sur des tâches spécifiques. Ils aident à répondre à des questions critiques telles que:

  • Ce LLM peut-il gérer efficacement les tâches de codage?
  • Dans quelle mesure fournit-il des réponses pertinentes dans une conversation?
  • Est-il capable de résoudre des problèmes de raisonnement complexes?

Caractéristiques clés des repères LLM

  • Tests standardisés : chaque référence se compose d'un ensemble de tâches avec des réponses correctes connues, permettant une évaluation cohérente.
  • Divers domaines d'évaluation : les repères peuvent se concentrer sur diverses compétences, notamment:
    • Compréhension du langage
    • Résolution de problèmes mathématiques
    • Capacités de codage
    • Qualité conversationnelle
    • Considérations de sécurité et éthiques

Quel est le besoin de repères LLM?

Standardisation et transparence dans l'évaluation

  • Cohérence comparative: les repères facilitent les comparaisons directes entre les LLM, garantissant que les évaluations sont transparentes et reproductibles.
  • Instantané des performances: ils offrent une évaluation rapide des capacités d'une nouvelle LLM par rapport aux modèles établis.

Suivi des progrès et raffinement

  • Surveillance des progrès: les repères aident à observer les améliorations des performances du modèle au fil du temps, en aidant les chercheurs à affiner leurs modèles.
  • Découvrir les limites: ces outils peuvent identifier les domaines où les modèles échouent, guidant les futurs efforts de recherche et de développement.

Sélection du modèle

  • Choix éclairés: pour les praticiens, les repères deviennent une référence cruciale lors du choix des modèles pour des tâches spécifiques, en garantissant des décisions bien informées pour des applications telles que les chatbots ou les systèmes de support client.

Fonctionnement des références LLM

Voici le processus étape par étape:

  • Entrée et tests de données
    • Les repères fournissent une variété de tâches à effectuer le LLM, comme répondre aux questions ou générer du code.
    • Chaque référence comprend un ensemble de données des entrées de texte et des réponses correspondantes à la «vérité du sol» pour l'évaluation.
  • Évaluation et notation des performances : Après avoir terminé les tâches, les réponses du modèle sont évaluées à l'aide de mesures standardisées, telles que la précision ou les scores BLEU, selon le type de tâche.
  • Classement LLM et classements : les modèles sont classés en fonction de leurs scores, souvent affichés sur des classements qui regroupent les résultats de plusieurs repères.

Raisier les références

1. Arc: le défi d'abstraction et de raisonnement

L'abstraction et le raisonnement de corpus (ARC) Benchmarks Machine Intelligence en s'inspirant des matrices progressives de Raven. Il met au défi les systèmes d'IA pour identifier l'image suivante dans une séquence basée sur quelques exemples, favorisant l'apprentissage à quelques coups qui reflète les capacités cognitives humaines. En mettant l'accent sur la généralisation et en tirant parti des «prieurs» - des connaissances intrinsèques sur le monde - Arc vise à faire progresser l'IA vers un raisonnement humain. L'ensemble de données suit un programme structuré, guidant systématiquement les systèmes à travers des tâches de plus en plus complexes tout en mesurant les performances grâce à la précision de la prédiction. Malgré les progrès, l'IA a encore du mal à atteindre les performances au niveau de l'homme, mettant en évidence le besoin continu d'avancement de la recherche sur l'IA.

14 repères LLM populaires à savoir en 2025

Le corpus d'abstraction et de raisonnement comprend un ensemble diversifié de tâches que les humains et les systèmes d'intelligence artificielle peuvent résoudre. Inspiré par les matrices progressives de Raven, le format de tâche oblige les participants à identifier l'image suivante dans une séquence, testant leurs capacités cognitives.

2. Compréhension multimodale multidiscipline massive (MMMU)

La référence multimodale et raisonnement multimodale massive (MMMU) évalue les modèles multimodaux sur les connaissances et les tâches de raisonnement au niveau collégial. Il comprend 11,5k questions des examens, des quiz et des manuels dans six disciplines: l'art et le design, les affaires, la science, la santé et la médecine, les sciences humaines et sociales et la technologie et l'ingénierie.

Ces questions couvrent 30 sujets et 183 sous-champs, incorporant 30 types d'images hétérogènes comme les graphiques, les diagrammes, les cartes et les structures chimiques. MMMU se concentre sur la perception et le raisonnement avancés avec des connaissances spécifiques au domaine, des modèles difficiles à effectuer des tâches de niveau expert et vise à mesurer la perception, les connaissances et les compétences de raisonnement dans les grands modèles multimodaux (LMM). L'évaluation des modèles actuels, y compris le GPT-4V, révèle une place importante à l'amélioration, même avec des modèles avancés n'atteignant qu'une précision d'environ 56%. Une version plus robuste de la référence, MMMU-PRO, a été introduite pour une évaluation améliorée.

14 repères LLM populaires à savoir en 2025

Exemples MMMU échantillonnés de chaque discipline. Les questions et les images ont besoin de connaissances au niveau des experts pour comprendre et raisonner.

3. GPQA: une référence difficile pour le raisonnement avancé

GPQA est un ensemble de données de 448 questions à choix multiples en biologie, physique et chimie, conçues pour défier les experts et l'IA avancée. Les experts du domaine atteints de doctorat créent et valident les questions pour garantir une qualité et une difficulté de haute qualité. Les experts atteignent une précision de 65% (74% avec des erreurs identifiées rétrospectivement), tandis que les non-experts avec des doctorats dans d'autres domaines ne marquent que 34%, malgré l'accès à Internet sans restriction, prouvant que les questions sont «imprécients de Google». Les principaux modèles d'IA comme GPT-4 n'atteignent que 39% de précision. Le GPQA soutient la recherche sur la surveillance évolutive de l'IA dépassant les capacités humaines, aidant les humains à extraire des informations véridiques même sur des sujets au-delà de leur expertise.

14 repères LLM populaires à savoir en 2025

Initialement, une question est conçue, puis un expert dans le même domaine fournit leur réponse et leurs commentaires, qui peuvent inclure des révisions suggérées à la question. Par la suite, l'écrivain de questions révise la question en fonction des commentaires de l'expert. Cette question révisée est ensuite envoyée à un autre expert dans le même domaine et à trois validateurs non experts ayant une expertise dans d'autres domaines. Nous considérons l'accord des validateurs (*) lorsqu'ils répondent correctement au départ ou, après avoir vu la bonne réponse, ils fournissent une explication claire de leur erreur initiale ou démontrent une compréhension approfondie de l'explication de l'écrivain de questions.

4. Mesurer une compréhension massive du langage multitâche (MMLU)

La référence massive de compréhension du langage multitâche (MMLU), conçue pour mesurer les connaissances d'un modèle de texte acquises lors de la prélèvement. MMLU évalue les modèles sur 57 tâches diverses, notamment les mathématiques élémentaires, l'histoire américaine, l'informatique, le droit, etc. Il est formaté comme des questions à choix multiples, ce qui facilite l'évaluation.

L'indice de référence vise à être un test plus complet et difficile de la compréhension du langage que les références précédentes, nécessitant une combinaison de connaissances et de raisonnement. L'article présente des résultats pour plusieurs modèles, montrant que même de grands modèles pré-entraînés ont du mal à MMLU, suggérant une place importante à l'amélioration des capacités de compréhension du langage. De plus, le document explore l'impact de l'échelle et du réglage fin sur les performances MMLU.

14 repères LLM populaires à savoir en 2025

Cette tâche nécessite une compréhension des scénarios détaillés et dissonants, en appliquant approprié

Précédents juridiques et choisissant la bonne explication. La vérification verte est la vérité au sol.

Codage de repères

5. Humaneval: Évaluation de la génération de code à partir de modèles de langues

Humaneval est une référence conçue pour évaluer l'exactitude fonctionnelle du code généré par les modèles de langue. Il se compose de 164 problèmes de programmation avec une signature de fonction, un docstring et plusieurs tests unitaires. Ces problèmes évaluent les compétences dans la compréhension des langues, le raisonnement, les algorithmes et les mathématiques simples. Contrairement aux repères précédents qui reposaient sur la similitude syntaxique, Humaneval évalue si le code généré passe réellement les tests unitaires fournis, mesurant ainsi l'exactitude fonctionnelle. La référence met en évidence l'écart entre les modèles de langage actuels et la génération de code au niveau de l'homme, révélant que même les grands modèles ont du mal à produire du code correct de manière cohérente. Il sert de test difficile et pratique pour évaluer les capacités des modèles de langage générateur de code.

14 repères LLM populaires à savoir en 2025

Vous trouverez ci-dessous trois problèmes illustratifs de l'ensemble de données Humaneval, accompagnés des probabilités qu'un seul échantillon de Codex-12b passe des tests unitaires: 0,9, 0,17 et 0,005. L'invite présentée au modèle est affichée sur un fond blanc, tandis qu'une réalisation réussie générée par le modèle est mise en évidence sur un fond jaune. Bien qu'il ne garantit pas la nouveauté des problèmes, tous les problèmes ont été méticuleusement conçus à la main et non copiés par programme à partir de sources existantes, assurant un ensemble de données unique et difficile.

6. Swe-Bench

Swe-Bench est une référence conçue pour évaluer les modèles de grands langues (LLM) sur leur capacité à résoudre les problèmes logiciels du monde réel trouvés sur GitHub. Il se compose de 2 294 problèmes d'ingénierie logicielle provenant de problèmes de github réels et de demandes de traction correspondantes à travers 12 référentiels populaires Python. La tâche consiste à fournir un modèle linguistique avec une base de code et une description du problème, le mettant au défi de générer un correctif qui résout le problème. La solution proposée par le modèle est ensuite évaluée par rapport au cadre de test du référentiel. Swe-Bench se concentre sur l'évaluation d'un système entier «d'agent», qui comprend le modèle d'IA et l'échafaudage logiciel environnant responsable de la génération d'invites, de l'analyse de la sortie et de la gestion de la boucle d'interaction2. Un sous-ensemble validé par l'homme appelé SWE-Bench vérifié composé de 500 échantillons garantit que les tâches sont résolubles et fournit une mesure plus claire des performances des agents de codage

14 repères LLM populaires à savoir en 2025

SWE-BENCH Source les instances de tâche des référentiels Python du monde réel en connectant les problèmes GitHub pour fusionner des solutions de demande de traction qui résolvent les tests connexes. À condition que le texte du problème et un instantané de base de code, les modèles génèrent un correctif qui est évalué par rapport aux tests réels

7. Swe-lancer

Swe-Lancer est une référence développée pour évaluer les capacités des modèles de langue frontière (LLM) dans la réalisation de tâches d'ingénierie logicielle indépendantes réelles provenant de UPWORK, avec une valeur totale de 1 million de dollars. Il comprend plus de 1 400 tâches qui vont des simples corrections de bogues, d'une valeur de 50 $, à des implémentations de fonctionnalités complexes d'une valeur allant jusqu'à 32 000 $. La référence évalue deux types de tâches: les tâches des contributeurs individuels (IC), où les modèles génèrent des correctifs de code vérifiés via des tests de bout en bout par des ingénieurs professionnels et des tâches SWE Manager, où les modèles sélectionnent les meilleures propositions d'implémentation à partir de plusieurs options. Les résultats indiquent que même les modèles avancés ont du mal à résoudre la plupart des tâches, mettant en évidence l'écart entre les capacités actuelles de l'IA et les besoins en génie logiciel réels. En liant les performances du modèle à la valeur monétaire, Swe-Lancer vise à favoriser la recherche sur les implications économiques de l'IA dans le développement de logiciels.

14 repères LLM populaires à savoir en 2025

Le processus d'évaluation des tâches SWE IC implique une évaluation rigoureuse où les performances du modèle sont entièrement testées. Le modèle est présenté avec un ensemble de tâches, et il doit générer des solutions qui satisfont tous les tests applicables pour gagner le paiement. Ce flux d'évaluation garantit que la sortie du modèle est non seulement correcte mais également complète, répondant aux normes élevées requises pour les tâches d'ingénierie logicielle réelles.

8. Banc de code en direct

LivecodeBench est une nouvelle référence conçue pour offrir une évaluation holistique et sans contamination des modèles de grands langues (LLM) sur les tâches liées au code en abordant les limites des références existantes. Il utilise des problèmes provenant de concours de codage hebdomadaire sur des plates-formes telles que Leetcode, Atcoder et Codeforces, taguée avec les dates de libération pour empêcher la contamination, et évalue les LLM sur l'auto-réparation, l'exécution de code et la prévision de sortie du test, en plus de la génération de code. Avec plus de 500 problèmes de codage publiés entre mai 2023 et mai 2024, LivecodeBench présente des problèmes et des tests de haute qualité, une difficulté de problème équilibré et a révélé une sur-ajustement potentiel à Humaneval parmi certains modèles, mettant en évidence les forces variables de différents modèles à travers diverses tasks codants.

14 repères LLM populaires à savoir en 2025

LivecodeBench propose une approche d'évaluation complète en présentant divers scénarios de codage. Le codage est une tâche complexe, et nous proposons d'évaluer les modèles de grandes langues (LLM) à travers une suite de configurations d'évaluation qui capturent une gamme de compétences liées au codage. Au-delà du paramètre de génération de code typique, nous introduisons trois scénarios supplémentaires: l'auto-réparation, l'exécution de code et une nouvelle tâche de prédiction de sortie de test.

9. Forces de code

CodeForces est une nouvelle référence conçue pour évaluer les capacités de génération de code au niveau de la compétition des modèles de grande langue (LLM) en interfaçant directement avec la plate-forme CodeForces. Cette approche garantit une évaluation précise grâce à l'accès aux cas de test cachés, à la prise en charge des juges spéciaux et à un environnement d'exécution cohérent. Codeforces introduit un système de notation ELO standardisé, aligné avec le système de notation de Codeforces, mais avec une variance réduite, permettant une comparaison directe entre les LLM et les concurrents humains. L'évaluation de 33 LLMS a révélé des différences de performances significatives, O1-MINI d'OpenAI atteignant la note ELO la plus élevée de 1578, la plaçant dans le 90e centile des participants humains. La référence révèle les progrès réalisés par les modèles avancés et la salle considérable à l'amélioration des capacités de programmation compétitives de la plupart des LLMS. La référence de Codeforces et sa logique de calcul ELO sont accessibles au public.

14 repères LLM populaires à savoir en 2025

Codeforces présente un large éventail de défis de programmation, et chaque problème est soigneusement structuré pour inclure des composants essentiels. Ces composants incluent généralement: 1) un titre descriptif, 2) une limite de temps pour la solution, 3) une limite de mémoire pour le programme, 4) une description détaillée du problème, 5) le format d'entrée, 6) le format de sortie attendu, 7) des exemples de cas de test pour guider le programmeur et 8) une note facultative fournissant un contexte ou des indices supplémentaires. Un tel problème, intitulé «Codeforces Problem E», peut être accessible à l'URL: https://codeforces.com/contest/2034/problem/e. Ce problème est soigneusement conçu pour tester les compétences d'un programmeur dans un environnement de codage concurrentiel, les mettant au défi de créer des solutions efficaces et efficaces dans les contraintes de temps et de mémoire données.

Utilisation d'outils (agentique) Benchmarks

10. Bench tau

τ-bench évalue activement les agents linguistiques sur leur capacité à interagir avec les utilisateurs humains (simulés) et les API programmatiques tout en adhérant aux politiques spécifiques au domaine. Contrairement aux repères existants qui présentent souvent des configurations de suivi des instructions simplifiées, τ-Bench émule des conversations dynamiques entre un utilisateur (simulé par des modèles de langue) et un agent linguistique équipé d'outils API spécifiques au domaine et de directives de politique. Cette référence utilise un cadre modulaire qui comprend des bases de données et des API réalistes, des documents politiques spécifiques au domaine et des instructions pour divers scénarios utilisateur avec des annotations de vérité au sol correspondantes. Une caractéristique clé de τ-bench est son processus d'évaluation, qui compare l'état de la base de données à la fin d'une conversation avec l'état de but annoté, permettant une mesure objective de la prise de décision de l'agent.

La référence introduit également une nouvelle métrique, passage ^ k, pour évaluer la fiabilité du comportement des agents sur plusieurs essais, mettant en évidence la nécessité d'agents qui peuvent agir de manière cohérente et suivre les règles de manière fiable dans les applications du monde réel. Les premières expériences montrent que même les agents d'appels de la fonction de pointe ont du mal à du raisonnement complexe, à l'adhésion des politiques et à la gestion des demandes composées.

14 repères LLM populaires à savoir en 2025

τ-Bench est une référence innovante où un agent s'engage avec des outils API de base de données et un utilisateur simulé LM pour accomplir des tâches. Il évalue la capacité de l'agent à rassembler et à transmettre des informations pertinentes vers et depuis les utilisateurs à travers plusieurs interactions, tout en testant sa capacité à résoudre des problèmes complexes en temps réel, en garantissant l'adhésion aux directives décrites dans un document de politique spécifique au domaine. Dans la tâche τ-Airline, l'agent doit rejeter la demande d'un utilisateur pour modifier un vol d'économie de base en fonction des politiques de domaine, puis proposer une solution alternative: la mise en œuvre et la réduction. Cette tâche oblige l'agent à appliquer un raisonnement zéro dans un environnement complexe qui implique des bases de données, des règles et des intentions des utilisateurs.

Compréhension du langage et questions répondant à Benchmark

11. Superglue

SuperGlue évalue les capacités de la compréhension du langage naturel (NLU) à travers une référence avancée, offrant une évaluation plus exigeante que son prédécesseur, Glue. Tout en conservant deux des tâches les plus difficiles de Glue, la superglue introduit des tâches nouvelles et plus complexes qui nécessitent un raisonnement plus profond, des connaissances de bon sens et une compréhension contextuelle. Il s'étend au-delà des classifications de phrase et de phrase de phrase pour inclure des tâches telles que la réponse aux questions et la résolution de la coreférence. Les concepteurs de superglue créent des tâches que les anglophones éduqués au collège peuvent gérer, mais ces tâches dépassent toujours les capacités des systèmes actuels de pointe. Cette référence fournit des lignes de base humaines complètes pour la comparaison et offre une boîte à outils pour l'évaluation du modèle. Superglue vise à mesurer et à stimuler les progrès vers le développement des technologies de compréhension des langues générales.

14 repères LLM populaires à savoir en 2025

L'ensemble de développement des tâches de superglue offre une gamme diversifiée d'exemples, chacun présenté dans un format unique. Ces exemples incluent généralement du texte en gras pour indiquer le format spécifique pour chaque tâche. L'entrée du modèle intègre le texte en italique pour fournir un contexte ou des informations essentiels. Il marque spécialement le texte souligné dans l'entrée, mettant souvent en évidence une orientation ou une exigence spécifique. Enfin, il utilise la police monospacée pour représenter la sortie prévue, présentant la réponse ou la solution attendue.

12. Helloswag

Hellaswag est un ensemble de données de référence pour évaluer l'inférence du langage naturel (NLI). Il défie les machines de compléter les phrases en fonction des contextes donnés. Développé par Zellers et al., Il contient 70 000 problèmes. Les humains obtiennent une précision de plus de 95%, tandis que les meilleurs modèles obtiennent un score inférieur à 50%. L'ensemble de données utilise le filtrage contradictoire (AF) pour générer des réponses incorrectes trompeuses mais plausibles, ce qui rend plus difficile pour les modèles de trouver le bon achèvement. Cela met en évidence les limites des modèles d'apprentissage en profondeur comme Bert dans le raisonnement de bon sens. Hellaswag souligne la nécessité d'évolution des repères qui maintiennent les systèmes d'IA mis au défi pour comprendre les scénarios de type humain.

14 repères LLM populaires à savoir en 2025

Des modèles comme Bert ont souvent du mal à terminer des phrases à Hellaswag, même lorsqu'ils proviennent de la même distribution que les données de formation. Les terminaisons incorrectes, bien que contextuellement pertinentes, ne respectent pas les normes humaines de l'exactitude et de la plausibilité. Par exemple, dans un passage de Wikihow, l'option A conseille aux conducteurs de s'arrêter à un feu rouge pendant seulement deux secondes, ce qui est clairement faux et peu pratique.

Benchmarks de mathématiques

13. ensemble de données mathématiques

L'ensemble de données mathématiques, introduit dans l'article, contient 12 500 problèmes de compétition de mathématiques difficiles. Il évalue les capacités de résolution de problèmes des modèles d'apprentissage automatique. Ces problèmes proviennent de compétitions comme AMC 10, AMC 12 et AIME, couvrant divers niveaux de difficulté et des sujets tels que la pré-algèbre, l'algèbre, la théorie des nombres et la géométrie. Contrairement aux problèmes mathématiques typiques résolubles avec des formules connues, les problèmes mathématiques nécessitent des techniques de résolution de problèmes et des heuristiques. Chaque problème comprend une solution étape par étape, aidant les modèles à apprendre à générer des dérivations de réponses et des explications pour les sorties plus interprétables.

14 repères LLM populaires à savoir en 2025

Cet exemple comprend divers problèmes mathématiques avec des solutions générées et des solutions de vérité au sol correspondantes. L'Aime le plus récent, qui s'est tenu le 6 février, s'est rapidement intéressé à la communauté des mathématiques. Les gens ont partagé des problèmes et des solutions sur YouTube, des forums en ligne et des blogs peu de temps après l'examen. Cette discussion rapide met en évidence l'enthousiasme de la communauté pour ces défis. Par exemple, la solution générée du premier problème est correcte et expliqué clairement, montrant une sortie de modèle réussie. En revanche, le deuxième problème, impliquant une combinatoire et une figure, défie le modèle, conduisant à une solution incorrecte.

14. Aime 2025

L'American Invitational Mathematics Examination (AIME) est une prestigieuse compétition de mathématiques et la deuxième étape de la sélection de l'équipe américaine pour l'Olympiade internationale des mathématiques. La plupart des participants sont des lycéens, mais certains collégiens talentueux se qualifient chaque année. L'Association mathématique de l'Amérique procède à cet examen.

La communauté des mathématiques s'est rapidement intéressée à la récente AIME le 6 février, partageant et discutant des problèmes et des solutions sur YouTube, des forums et des blogs peu après l'examen. Cette analyse rapide reflète l'enthousiasme de la communauté pour ces compétitions difficiles.

14 repères LLM populaires à savoir en 2025

Cette image désigne un exemple de problème et de solution à partir du papier AIME 2025. Cette référence se concentre sur les capacités de raisonnement mathématique d'un LLM.

Conclusion

Les développeurs créent et forment de nouveaux modèles presque tous les jours sur de grands ensembles de données, les équipant de diverses capacités. Les références LLM jouent un rôle vital dans la comparaison de ces modèles en répondant aux questions essentielles, telles que le modèle qui est le mieux pour écrire du code, ce que l'on excelle dans le raisonnement, et qui traite le plus efficacement les tâches PNL. Par conséquent, l'évaluation des modèles sur ces repères devient une étape obligatoire. Alors que nous progressons rapidement vers l'AGI, les chercheurs créent également de nouvelles références pour suivre les progrès.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal