


L'équipe de Jia Jiaya s'est associée à l'Université Cambridge Tsinghua et à d'autres pour promouvoir un nouveau paradigme d'évaluation permettant de détecter « des scores élevés et une faible énergie » dans de grands modèles en une seconde
MR-Ben a soigneusement évalué de nombreux modèles open source et fermés de première ligne nationaux et étrangers, tels que GPT4-Turbo, Cluade3.5-Sonnet, Mistral-Large, Zhipu-GLM4, Moonshot-v1, Yi-Large, Qwen2. -70B , Deepseek-V2, etc., et effectué une analyse détaillée.
Quels grands modèles apparemment beaux seront « supprimés » et quel modèle a la surface la plus solide ? À l’heure actuelle, tout le code et les données de ce travail sont open source, jetons-y un œil !
Page du projet : https://randolph-zeng.github.io/Mr-Ben.github.io/
Page Arxiv : https://arxiv.org/abs/2406.13975
Repo Github : https://github.com /dvlab-research/Mr-Ben
MR-Ben brise le « score élevé et la faible énergie » des grands modèles en quelques secondes
Après que le domaine de l'intelligence artificielle soit entré dans le moment GPT, le monde universitaire et l'industrie ont travaillé ensemble et de nouveaux modèles ont été publiés chaque mois ou même chaque semaine.
Les grands modèles émergent à l'infini. Quelles normes sont utilisées pour mesurer les capacités spécifiques des grands modèles ? L'orientation dominante actuelle consiste à utiliser des tests humains standardisés - des questions à choix multiples et des questions à remplir pour mener des évaluations de grands modèles. L'utilisation de cette méthode de test présente de nombreux avantages, qui peuvent être divisés en termes simples selon les points suivants :
• Les tests standardisés sont faciles à quantifier et à évaluer. Les normes sont claires, et ce qui est bien est bien et ce qui est mal est mal. .
• Les indicateurs sont intuitifs et il est facile de comparer et de comprendre les scores obtenus à l'examen d'entrée à l'université national ou à l'examen d'entrée à l'université américain SAT.
• Les résultats quantitatifs sont naturellement d'actualité (par exemple, la capacité du GPT4 à réussir facilement l'examen de certification du barreau américain est extrêmement accrocheuse).
Mais si vous approfondissez la méthode de formation des grands modèles, vous constaterez que cette méthode de chaîne de réflexion étape par étape pour générer la réponse finale n'est pas « fiable ».
La question apparaît précisément dans le processus de réponse étape par étape !
Le modèle de pré-formation a déjà vu des milliards d'éléments de mots lors de la pré-formation. Il est difficile de dire si le modèle évalué a déjà vu les données correspondantes et peut répondre correctement aux questions en « mémorisant les questions ». Dans la réponse étape par étape, nous ne savons pas si le modèle sélectionne la bonne option sur la base d’une compréhension et d’un raisonnement corrects, car la méthode d’évaluation repose principalement sur la vérification de la réponse finale.
Bien que la communauté universitaire continue de mettre à niveau et de transformer les ensembles de données tels que GSM8K et MMLU, par exemple en introduisant une version multilingue de l'ensemble de données MGSM sur GSM8K et en introduisant des questions plus difficiles basées sur MMLU, il n'y a toujours aucun moyen de s'en débarrasser. du problème de la sélection ou du remplissage des blancs.
De plus, ces ensembles de données ont tous été confrontés à de sérieux problèmes de saturation. Les valeurs des grands modèles de langage sur ces indicateurs ont atteint des sommets et ils ont progressivement perdu leur distinction.
À cette fin, l'équipe de Jiajiaya s'est associée à de nombreuses universités renommées telles que le MIT, Tsinghua et Cambridge, et a coopéré avec des sociétés d'annotation nationales pour annoter un ensemble de données d'évaluation MR-Ben pour le processus de raisonnement de problèmes complexes.
MR-Ben a effectué une transformation de paradigme de « notation » basée sur les questions des ensembles de données de pré-entraînement et de test de grands modèles tels que GSM8K, MMLU, LogiQA, MHPP et d'autres grands modèles. Les nouveaux ensembles de données générés sont plus nombreux. difficile, plus différencié et plus réaliste. Cela reflète la capacité de raisonnement du modèle !
Le travail de l'équipe de Jiajiaya a également apporté cette fois des améliorations ciblées pour résoudre les problèmes d'évaluation existants :
N'avez-vous pas peur que les fuites de données conduisent à une mémorisation de questions à grande échelle, entraînant des scores gonflés ? Il n'est pas nécessaire de retrouver les questions ou de déformer les questions pour tester la robustesse du modèle. MR-Ben change directement le modèle de l'identité de l'étudiant qui répond au mode « notation » du processus de réponse, permettant ainsi le grand. modèle pour être l'enseignant à tester Dans quelle mesure maîtrise-t-il les points de connaissance !
Ne craignez-vous pas que le modèle n'ait pas conscience du processus de résolution de problèmes, qu'il puisse avoir des « illusions » ou des malentendus et qu'il se trompe de réponse ? MR-Ben recrute directement un groupe d'annotateurs de master et de doctorat de haut niveau pour annoter soigneusement le processus de résolution de problèmes d'un grand nombre de questions. Indiquez en détail si le processus de résolution de problèmes est correct, l'emplacement de l'erreur et la raison de l'erreur, et comparez les résultats de notation du grand modèle et les résultats de notation des experts humains pour tester les connaissances du modèle. points.
Plus précisément, l'équipe Jiajiaya a organisé les principaux ensembles de données d'évaluation du marché tels que GSM8K, MMLU, LogiQA, MHPP et d'autres ensembles de données, et les a divisés en plusieurs catégories telles que les mathématiques, la physique, la chimie, la biologie, le code, la logique, la médecine. , etc., et distinguent également différents niveaux de difficulté. Pour chaque catégorie et chaque question collectée, l'équipe a soigneusement collecté le processus de résolution de problème étape par étape correspondant, et a été formée et annotée par des annotateurs professionnels de maîtrise et de doctorat.
Als nächstes kombinieren wir die spezifischen Beispiele aus MR-Bens Arbeit, um zu sehen, warum die schrittweise Methode zur Generierung endgültiger Antworten und zugehöriger Bewertungen unzuverlässig ist.
Als bewertetes „Bewertungs“-Modell hat GPT4-Turbo die im zweiten Schritt versteckten Berechnungsfehler nicht gefunden:
E.1 Mathematik
Fachgebiet: Oberstufenmathematik
Frage: Welche kleinste ganze Zahl wird durch 4 geteilt? Rest 1, Rest 2 bei Division durch 3, Rest 2 bei Division durch 5?
Optionen: [A] 67 [B] 43 [C] 57 [D] 37
Antwort: D
Stichprobenmodell: Claude2
Modelllösungsschritte:
- Schritt 1: Aktivieren Sie Option A (67), wenn Wenn 67 durch 4 geteilt wird, ist der Rest 3 und nicht 1. 67 ist also nicht die richtige Antwort.
- Schritt 2: Aktivieren Sie Option B (43). Wenn 43 durch 4 geteilt wird, ist der Rest 1. Wenn 43 durch 3 geteilt wird, ist der Rest 3 und nicht 2. 43 ist also nicht die richtige Antwort.
- Schritt 3: Aktivieren Sie Option C (57). Wenn 57 durch 4 geteilt wird, ist der Rest 1. Wenn 57 durch 3 geteilt wird, ist der Rest 0 und nicht 2. 57 ist also nicht die richtige Antwort.
- Schritt 4: Aktivieren Sie Option D (37). Wenn 37 durch 4 geteilt wird, ist der Rest 1. Wenn 37 durch 3 geteilt wird, ist der Rest 1. Wenn 37 durch 5 geteilt wird, ist der Rest 2.
-
Schritt 5: Option D (37) erfüllt alle Bedingungen und ist die richtige Antwort.
Antwort: Option D
Menschliche Annotation
Korrektheit der Modellantwort: Falsch
Erster falscher Schritt: Schritt 2
Fehlergrund der Modellantwort:
In Schritt 2 hat das Modell fälschlicherweise berechnet, dass der Rest von 43 dividiert durch 4 stattdessen 1 ist von 3. Das Modell geht davon aus, dass bei Division von 43 durch 4 der Rest 1 ist, der Rest jedoch 3 sein sollte. Hier liegt ein Rechenfehler vor.Der erste richtige Schritt nach der Korrektur: Schritt 2
Wenn 43 durch 4 geteilt wird, ist der Rest 1. Wenn 43 durch 3 geteilt wird, ist der Rest 1. Wenn 43 durch 5 geteilt wird, ist der Rest 3 und nicht 2. Daher ist 43 nicht die richtige Antwort.
Bewertungsmodell: gpt-4-turbo
Modellantwort:
-Schritt 1: Überprüfen Sie den Rest von 67 dividiert durch 4 und 3 und stellen Sie fest, dass er die Bedingung erfüllt, dass er durch 4 geteilt wird und 3 bleibt eine korrekte Verifizierung.
-Schritt 2: Überprüfen Sie die Reste der Division von 43 durch 4, 3 und 5 und stellen Sie fest, dass die Reste von 1, 3 und 5 den Erwartungen korrekt entsprechen, mit der Ausnahme, dass der Rest von 5 die Bedingungen nicht erfüllt.
-Schritt 3: Schritt Berechnen Sie den Rest der Division von 57 durch 4 und 3, der Rest ist 1 bzw. 0. Wenn 57 durch 3 dividiert wird, erfüllt der Rest nicht die Kriterien.
-Schritt 4: Überprüfen und verifizieren Sie die Reste der Division von 37 durch 4, 3 und 5. Es wird festgestellt, dass alle erwarteten Reste korrekt sind und 37 alle Bedingungen in der Frage erfüllt.Ist der Lösungsprozess korrekt? Richtig
Der erste Fehlerschritt: Nicht zutreffend
Der Grund für den ersten Fehlerschritt: Nicht zutreffend
Das ist ersichtlich, wenn die Frage gestellt und der Lösungsprozess festgelegt wird , die Bewertung Die Methode des Sprachmodells wird dahingehend umgewandelt, dass das Modell den Antwortprozess „markieren“ kann, beurteilen kann, ob er richtig oder falsch ist, und den Ort und die Ursache des Fehlers angeben kann. Die Genauigkeit des Lösungsprozesses und die potenziellen Fehlerorte können durch Vergleich mit den Annotationsergebnissen berechnet werden. Die Bewertung der Modellfehlerschritte und -gründe kann an GPT4 übergeben werden, um durch Vergleich der vom Annotator gegebenen Erklärung der Fehlergründe und der Erklärung der Fehlergründe des Modells festzustellen, ob das Modell korrekt ist.
Von der Bewertungsmethode erfordert die von MR-Ben vorgeschlagene Methode, dass das Modell eine detaillierte Analyse der Prämissen, Annahmen und Logik jedes Schritts im Problemlösungsprozess durchführt und eine Vorschau des Argumentationsprozesses durchführt, um festzustellen, ob die Der aktuelle Schritt kann in die richtige Richtung führen. fenye1. Diese „Bewertungs“-Bewertungsmethode ist weitaus schwieriger als die Bewertungsmethode, bei der nur Fragen beantwortet werden, kann jedoch das Problem falsch hoher Punktzahlen, die durch das Auswendiglernen von Fragen durch das Modell verursacht werden, wirksam vermeiden. Für einen Schüler, der sich nur Fragen merken kann, ist es schwierig, ein qualifizierter Korrekturlehrer zu werden.
- Zweitens hat MR-Ben durch den Einsatz manueller und präziser Annotationsprozesssteuerung eine große Anzahl hochwertiger Annotationen erreicht, und das clevere Prozessdesign ermöglicht eine intuitive Quantifizierung der Bewertungsmethode.
- Das Jiajiaya-Team hat außerdem die zehn repräsentativsten Sprachmodelle und verschiedene Versionen getestet. Es ist ersichtlich, dass GPT4-Turbo unter den großen Closed-Source-Sprachmodellen die beste Leistung aufweist (obwohl bei der „Bewertung“ keine Berechnungsfehler festgestellt wurden). In den meisten Fächern gibt es Demos (k = 1) und keine Demos. (k=0) sind anderen Modellen voraus.
**Bewertungsergebnisse einiger großer Open-Source-Sprachmodelle im MR-Ben-Datensatz
Es ist ersichtlich, dass die Auswirkungen einiger der stärksten großen Open-Source-Sprachmodelle einige kommerzielle Modelle und sogar die stärksten Closed-Source-Modelle eingeholt haben Modelle befinden sich in MR-Ben. Die Leistung des Ben-Datensatzes ist immer noch nicht gesättigt und der Unterschied zwischen verschiedenen Modellen ist groß.
Darüber hinaus gibt es in MR-Bens Originalarbeit weitere interessante Analysen und Erkenntnisse, wie zum Beispiel:
Die von Qwen und Deepseek veröffentlichten Open-Source-Modelle stehen dem PK-Closed-Source-Modell auch im globalen Maßstab nicht nach.
Die Preisstrategien und die tatsächliche Leistung verschiedener Closed-Source-Modelle sind faszinierend. Freunde, denen die Argumentationsfähigkeit in Nutzungsszenarien am Herzen liegt, können anhand des Preises und der Funktionen ihr Lieblingsmodell finden.
In ressourcenarmen Szenarien haben auch kleine Modelle viele Highlights. In der MR-Ben-Bewertung stach Phi-3-mini unter den kleinen Modellen hervor, sogar höher oder gleich groß wie große Modelle mit zig Milliarden Parametern die Fähigkeit zur Feinabstimmung der Datenbedeutung.
MR-Ben-Szenen enthalten komplexe logische Analysen und schrittweise Schlussfolgerungen. Ein zu langer Kontext im Few-Shot-Modus führt zu Verwirrung im Modell und zu Leistungseinbußen.
MR-Ben hat viele Generation-Reflexions-Regeneration-Ablationsexperimente ausgewertet, um die Unterschiede zwischen verschiedenen Aufforderungsstrategien zu überprüfen, und festgestellt, dass es keine Auswirkung auf Low-Level-Modelle hat und die Auswirkung auf High-Level-Modelle wie GPT4-Turbo nicht offensichtlich. Im Gegenteil, bei Modellen mittlerer Ebene ist der Effekt leicht verbessert, da immer die falschen korrigiert werden und die richtigen korrigiert werden.
Nach einer groben Einteilung der von MR-Ben bewerteten Themen in wissensbasierte, logische, rechnerische und algorithmische Typen haben verschiedene Modelle ihre eigenen Vor- und Nachteile in verschiedenen Argumentationstypen.
Das Jiajiaya-Team hat eine Ein-Klick-Bewertungsmethode auf Github hochgeladen. Alle Partner, die sich Gedanken über komplexe Argumente machen, sind herzlich eingeladen, ihre eigenen Modelle zu bewerten und einzureichen. Das Team wird die entsprechende Bestenliste zeitnah aktualisieren.
Übrigens kostet die Ein-Klick-Auswertung mit dem offiziellen Skript nur etwa 12 Millionen Token. Der Prozess ist sehr reibungslos, also probieren Sie es aus!
Referenz
Training von Prüfern zur Lösung mathematischer Wortprobleme (https://arxiv.org/abs/2110.14168)
Messung des massiven Multitask-Sprachverständnisses (https://arxiv.org/abs/2009.03300)
LogiQA: Eine Herausforderung Datensatz für maschinelles Leseverständnis mit logischem Denken (https://arxiv.org/abs/2007.08124) Sparks of Artificial General Intelligence: Frühe Experimente mit GPT-4(https://arxiv.org/abs/2303.12712)
Qwen Technical Report(https://arxiv.org/abs/2309.16609)
DeepSeek-V2: Ein starkes, Ökonomisches und effizientes Mixture-of-Experts-Sprachmodell (https://arxiv.org/abs/2405.04434)
Lehrbücher sind alles, was Sie brauchen (https://arxiv.org/abs/2306.11644)
Große Sprachmodelle können sich nicht selbst Bisher die richtige Argumentation(https://arxiv.org/abs/2310.01798)
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











Il s'agit également d'une vidéo Tusheng, mais PaintsUndo a emprunté une voie différente. L'auteur de ControlNet, LvminZhang, a recommencé à vivre ! Cette fois, je vise le domaine de la peinture. Le nouveau projet PaintsUndo a reçu 1,4kstar (toujours en hausse folle) peu de temps après son lancement. Adresse du projet : https://github.com/lllyasviel/Paints-UNDO Grâce à ce projet, l'utilisateur saisit une image statique et PaintsUndo peut automatiquement vous aider à générer une vidéo de l'ensemble du processus de peinture, du brouillon de ligne au suivi du produit fini. . Pendant le processus de dessin, les changements de lignes sont étonnants. Le résultat vidéo final est très similaire à l’image originale : jetons un coup d’œil à un dessin complet.

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Les auteurs de cet article font tous partie de l'équipe de l'enseignant Zhang Lingming de l'Université de l'Illinois à Urbana-Champaign (UIUC), notamment : Steven Code repair ; doctorant en quatrième année, chercheur

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Dans le processus de développement de l'intelligence artificielle, le contrôle et le guidage des grands modèles de langage (LLM) ont toujours été l'un des principaux défis, visant à garantir que ces modèles sont à la fois puissant et sûr au service de la société humaine. Les premiers efforts se sont concentrés sur les méthodes d’apprentissage par renforcement par feedback humain (RL

acclamations! Qu’est-ce que ça fait lorsqu’une discussion sur papier se résume à des mots ? Récemment, des étudiants de l'Université de Stanford ont créé alphaXiv, un forum de discussion ouvert pour les articles arXiv qui permet de publier des questions et des commentaires directement sur n'importe quel article arXiv. Lien du site Web : https://alphaxiv.org/ En fait, il n'est pas nécessaire de visiter spécifiquement ce site Web. Il suffit de remplacer arXiv dans n'importe quelle URL par alphaXiv pour ouvrir directement l'article correspondant sur le forum alphaXiv : vous pouvez localiser avec précision les paragraphes dans. l'article, Phrase : dans la zone de discussion sur la droite, les utilisateurs peuvent poser des questions à l'auteur sur les idées et les détails de l'article. Par exemple, ils peuvent également commenter le contenu de l'article, tels que : "Donné à".

Si la réponse donnée par le modèle d’IA est incompréhensible du tout, oseriez-vous l’utiliser ? À mesure que les systèmes d’apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats, et quand ne pas leur faire confiance. Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger que le système produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire entièrement compréhensible au point que toute erreur possible puisse être trouvé. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions. Pour les grands modèles de langage, nous pouvons également adopter une approche similaire. Cependant, lorsque vous adoptez cette approche, assurez-vous que le modèle de langage génère

Récemment, l’hypothèse de Riemann, connue comme l’un des sept problèmes majeurs du millénaire, a réalisé une nouvelle avancée. L'hypothèse de Riemann est un problème mathématique non résolu très important, lié aux propriétés précises de la distribution des nombres premiers (les nombres premiers sont les nombres qui ne sont divisibles que par 1 et par eux-mêmes, et jouent un rôle fondamental dans la théorie des nombres). Dans la littérature mathématique actuelle, il existe plus d'un millier de propositions mathématiques basées sur l'établissement de l'hypothèse de Riemann (ou sa forme généralisée). En d’autres termes, une fois que l’hypothèse de Riemann et sa forme généralisée seront prouvées, ces plus d’un millier de propositions seront établies sous forme de théorèmes, qui auront un impact profond sur le domaine des mathématiques et si l’hypothèse de Riemann s’avère fausse, alors parmi eux ; ces propositions qui en font partie perdront également de leur efficacité. Une nouvelle percée vient du professeur de mathématiques du MIT, Larry Guth, et de l'Université d'Oxford

Les modèles linguistiques peuvent-ils vraiment être utilisés pour la prédiction de séries chronologiques ? Selon la loi des gros titres de Betteridge (tout titre d'actualité se terminant par un point d'interrogation peut recevoir une réponse « non »), la réponse devrait être non. Le fait semble être vrai : un LLM aussi puissant ne peut pas bien gérer les données de séries chronologiques. Les séries chronologiques, c'est-à-dire les séries chronologiques, comme leur nom l'indique, font référence à un ensemble de séquences de points de données disposées par ordre temporel. L'analyse des séries chronologiques est essentielle dans de nombreux domaines, notamment la prévision de la propagation des maladies, l'analyse du commerce de détail, la santé et la finance. Dans le domaine de l'analyse des séries chronologiques, de nombreux chercheurs ont récemment étudié comment utiliser les grands modèles linguistiques (LLM) pour classer, prédire et détecter les anomalies dans les séries chronologiques. Ces articles supposent que les modèles de langage capables de gérer les dépendances séquentielles dans le texte peuvent également se généraliser aux séries chronologiques.

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com. Introduction Ces dernières années, l'application de grands modèles de langage multimodaux (MLLM) dans divers domaines a connu un succès remarquable. Cependant, en tant que modèle de base pour de nombreuses tâches en aval, le MLLM actuel se compose du célèbre réseau Transformer, qui
