L'émergence de ChatGPT a fait prendre conscience à la communauté chinoise de l'écart avec le premier niveau international. Récemment, le développement de grands modèles chinois bat son plein, mais il existe très peu de références d'évaluation chinoises.
Dans le processus de développement de la série OpenAI GPT/de la série Google PaLM/de la série DeepMind Chinchilla/de la série Anthropic Claude, les trois ensembles de données MMLU/MATH/BBH ont joué un rôle crucial car ils couvrent de manière plus complète les capacités dans chaque dimension de le modèle. Le plus remarquable est l’ensemble de données MMLU, qui prend en compte les capacités globales de connaissances de 57 disciplines, des sciences humaines aux sciences sociales en passant par les sciences et l’ingénierie. Les modèles Gopher et Chinchilla de DeepMind ne prennent en compte que les scores MMLU. Nous souhaitons donc construire une liste de référence chinoise, suffisamment différenciée et multidisciplinaire pour aider les développeurs à développer de grands modèles chinois.
Nous avons passé environ trois mois à construire un programme couvrant quatre grandes directions : sciences humaines, sciences sociales, sciences et ingénierie, et autres spécialités, et 52 matières (calcul, génération de lignes...), du collège au diplômé universitaire. étudiants et examen professionnel, un total de 13948 questions de tests de connaissances et de raisonnement chinois, nous l'appelons C-Eval pour aider la communauté chinoise à développer de grands modèles.
Cet article enregistre notre processus de construction de C-Eval et partage notre réflexion et nos priorités de R&D de notre point de vue avec les développeurs. Notre objectif le plus important est d'aider au développement du modèle, et non de faire des classements . La poursuite aveugle d'un classement élevé sur la liste entraînera de nombreuses conséquences néfastes, mais si C-Eval peut être utilisé scientifiquement pour aider à modéliser l'itération, C-Eval peut être maximisé. Par conséquent, nous recommandons de traiter l'ensemble de données et la liste C-Eval du point de vue du développement du modèle.
Tout d'abord, ajustez un modèle Il n'est pas difficile de devenir un robot conversationnel. Il existe déjà des robots conversationnels comme Alpaca, Vicuna et RWKV dans le monde open source. Cela fait du bien de discuter avec eux avec désinvolture. Mais si vous voulez vraiment que ces modèles deviennent productifs, il suffit de le faire. discuter avec désinvolture ne suffit pas. Par conséquent, le premier problème dans la construction d’un référentiel d’évaluation est de trouver le degré de différenciation et de déterminer quel type de capacité est l’indicateur de base qui distingue la force d’un modèle. Nous considérons les deux noyaux de la connaissance et du raisonnement.
1.1 - Connaissance
Pourquoi la capacité de connaissance est-elle la capacité de base ? Il y a plusieurs arguments comme suit :
Ainsi, les capacités basées sur les connaissances sont une bonne mesure du potentiel du modèle de base.
1.2 - Raisonnement
La capacité de raisonnement est la capacité de s'améliorer davantage sur la base des connaissances. Elle indique si le modèle peut faire des choses très difficiles et complexes. Pour qu’un modèle soit solide, il a d’abord besoin de connaissances approfondies, puis il fait des déductions basées sur ces connaissances.
L'argument important pour raisonner est :
Ici, nous devons également clarifier la relation entre le raisonnement et la connaissance :
Avec l'explication ci-dessus des connaissances et du raisonnement, nous avons décidé de partir de la tâche basée sur les connaissances et de construire un ensemble de données pour tester la capacité de connaissance du modèle, qui est équivalent à l'analyse comparative de l'ensemble de données MMLU ; en même temps, nous espérons également apporter du contenu lié au raisonnement pour mesurer davantage les capacités d'ordre élevé du modèle, nous avons donc spécialement extrait les sujets qui nécessitent un raisonnement fort dans C-Eval ( calcul, algèbre linéaire, probabilités...) et les a nommés C-Eval Le sous-ensemble Hard est utilisé pour mesurer la capacité de raisonnement du modèle, ce qui équivaut à une analyse comparative de l'ensemble de données MATH.
Sur C-Eval Hard, le modèle doit d'abord avoir des connaissances liées aux mathématiques, puis doit avoir une idée de résolution de problème étape par étape, puis doit appeler Wolfram Alpha/Mathematica/Matlab pour les données numériques. et symbolique/différenciation et intégration pendant le processus de résolution de problèmes. La capacité de calculer et d'exprimer le processus de calcul et les résultats au format Latex. Cette partie de la question est très difficile.
C-Eval espère comparer MMLU dans son ensemble (cet ensemble de données est utilisé pour le développement de GPT-3.5, GPT-4, PaLM, PaLM-2, Gopher, Chinchilla), et espère comparer la partie dure. MATH (cet ensemble de données est utilisé dans le développement de GPT-4, PaLM-2, Minerva, Galactica).
Il convient de noter ici que notre objectif le plus important est de aider au développement du modèle, et non de lister . Rechercher aveuglément un classement élevé sur la liste entraînera de nombreuses conséquences néfastes, que nous expliquerons sous peu, mais si vous pouvez utiliser C-Eval de manière scientifique pour aider à modéliser l'itération, vous obtiendrez d'énormes avantages ; Nous recommandons de traiter l'ensemble de données et la liste C-Eval du point de vue du développement du modèle.
2.1 - L'objectif est d'aider au développement de modèles
Dans le processus de recherche et développement actuel, nous avons souvent besoin de connaître la qualité d'une certaine solution ou la qualité d'un certain modèle. cette fois, nous avons besoin d'un ensemble de données pour nous aider à tester. Voici deux scènes classiques :
2.2 - Le classement n'est pas l'objectif
Nous devons souligner pourquoi le classement sur la liste ne devrait pas être l'objectif :
Par conséquent, si C-Eval est utilisé comme un outil d'aide au développement, son rôle positif peut être maximisé, mais s'il est utilisé comme classement de liste, il y aura une énorme utilisation abusive des risques de C-Eval, et il y a de fortes chances qu’il n’y ait pas de bons résultats au final.
Encore une fois, nous recommandons de traiter l'ensemble de données et la liste C-Eval du point de vue du développement du modèle.
2.3 - Itération continue à partir des commentaires des développeurs
Parce que nous espérons que le modèle pourra soutenir les développeurs au maximum, nous choisissons de communiquer directement avec les développeurs et de continuer à apprendre et à itérer à partir des commentaires des développeurs - Ceci nous a également permis d'apprendre beaucoup ; tout comme le grand modèle est l'apprentissage par renforcement à partir des commentaires humains, l'équipe de développement de C-Eval continue d'apprendre à partir des commentaires des développeurs.
Plus précisément, au cours de notre processus de recherche et développement, a invité ByteDance. , SenseTime, Shenyan et d'autres sociétés pour intégrer C-Eval dans leurs propres flux de travail de test, puis ont communiqué entre elles sur les points difficiles du processus de test. Ce processus nous a permis d'apprendre beaucoup de choses auxquelles nous ne nous attendions pas au début :
Les problèmes ci-dessus ont été découverts grâce aux commentaires des développeurs lors de nos interactions avec eux. Ces problèmes ont été résolus dans la documentation et le code github de la version publique actuelle de C-Eval.
Les processus ci-dessus prouvent également que traiter l'ensemble de données et la liste C-Eval du point de vue du développement de modèles peut très bien aider tout le monde à développer de grands modèles chinois.
Nous invitons tous les développeurs à soumettre des problèmes et des pull request à notre GitHub pour nous faire savoir comment mieux vous aider, nous espérons mieux vous aider :)
Dans ce chapitre, nous discutons les méthodes que nous avons utilisées pour garantir la qualité de l’ensemble de données pendant le processus de production. Nos références les plus importantes ici sont les deux ensembles de données MMLU et MATH. Parce que les quatre grandes équipes de modèles les plus importantes, OpenAI, Google, DeepMind et Anthropic, se concentrent toutes sur MMLU et MATH, nous espérons donc pouvoir contribuer à ces deux-là. Ensembles de données mis en ligne. Après nos recherches préliminaires et une série de discussions, nous avons pris deux décisions importantes. L'une était de créer manuellement l'ensemble de données à partir de zéro, et l'autre était de nous concentrer sur empêcher la question d'être le robot d'exploration. rampe dans l'ensemble d'entraînement .
3.1 - Fait main
Une inspiration importante dans le processus de développement de GPT est que dans le domaine de l'intelligence artificielle, il y a autant d'intelligence qu'il y a d'intelligence artificielle. C'est également très bon dans le processus. de la construction de C-Eval. Plus précisément, à partir de la source des questions :
. Après avoir collecté les questions, effectuez d'abord l'OCR pour convertir électroniquement le fichier pdf, puis unifiez le format en Markdown, et la partie mathématique est unifiée au format Latex. Le traitement des formules est une chose gênante : premièrement, l'OCR peut ne pas être en mesure. pour le reconnaître correctement, et alors l'OCR ne peut pas être directement reconnu comme Latex ; notre approche ici est de le convertir automatiquement en Latex s'il peut être automatiquement converti. S'il ne peut pas être automatiquement converti, les étudiants le saisiront manuellement
Donc, nos étudiants se basent sur le CoT généré par GPT-4, calcul, génération de lignes. , Probabilité, discrétisation de ces questions rapides (5 questions pour chaque sujet comme exemples contextuels), je l'ai vraiment fait moi-même. Voici un exemple :
3.2 - Éviter que nos questions ne soient mélangées dans l'ensemble de formation
Dans un souci d'évaluation scientifique, nous avons envisagé une série de des mécanismes pour éviter que nos questions ne soient mélangées à l'ensemble de formation
Bien sûr, malgré nos efforts, il peut inévitablement arriver que des questions de la banque de questions puissent être recherchées sur une certaine page Web, mais nous pensons que cette situation devrait être rare. Et à en juger par les résultats dont nous disposons, les questions C-Eval sont encore suffisamment différenciées, notamment la partie Difficile.
Ensuite, nous analysons quelles méthodes peuvent être utilisées pour améliorer le classement du modèle. Nous listons d'abord pour vous les raccourcis, notamment l'utilisation de LLaMA, qui n'est pas disponible dans le commerce, et l'utilisation des données générées par GPT, ainsi que les inconvénients de ces méthodes ; puis nous discutons de la manière difficile mais correcte.
4.1 - Quels raccourcis puis-je prendre ?
Voici les raccourcis que vous pouvez prendre :
4.2 - Chemin difficile mais correct
Le meilleur moyen est d'être autonome et de se développer à partir de zéro. Cette chose est difficile, prend du temps et demande de la patience, mais c’est la bonne voie. Plus précisément, vous devez vous concentrer sur les articles des institutions suivantes
OpenAI - Il ne fait aucun doute que tous les articles doivent être mémorisés dans leur intégralité
Pendant le processus de recherche et développement, il est recommandé de prêter attention au contenu suivant :
4.3 - Ne vous inquiétez pas
Les grands modèles prennent du temps, c'est une clé de l'intelligence artificielle Un test complet des capacités industrielles :
Par conséquent, il n'est pas nécessaire de se précipiter pour obtenir le classement, pas besoin de voir les résultats demain, pas besoin d'aller en ligne après-demain - prenez votre temps et faites-le étape par étape. Bien souvent, le chemin difficile mais correct est en réalité le chemin le plus rapide.
Dans cet article, nous avons présenté les objectifs de développement, le processus et les considérations clés de C-Eval. Notre objectif est d'aider les développeurs à mieux développer de grands modèles chinois et de promouvoir l'utilisation scientifique de C-Eval dans le monde universitaire et industriel pour faciliter l'itération des modèles. Nous ne sommes pas pressés de voir les résultats, car les grands modèles eux-mêmes sont une chose très difficile. Nous connaissons les raccourcis que nous pouvons prendre, mais nous savons aussi que le chemin difficile mais correct est en réalité le chemin le plus rapide. Nous espérons que ce travail pourra promouvoir l'écosystème de R&D des grands modèles chinois et permettre aux gens de découvrir plus tôt la commodité apportée par cette technologie.
Annexe 1 : Sujets inclus dans C-Eval
Annexe 2 : Contributions des membres du projet
Remarque : Les papiers mentionnés dans le l'article peut trouver l'URL correspondante sur la page d'origine.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!