Table des matières
E.1 Mathematik
Fachgebiet: Oberstufenmathematik
Frage: Welche kleinste ganze Zahl wird durch 4 geteilt? Rest 1, Rest 2 bei Division durch 3, Rest 2 bei Division durch 5?
Optionen: [A] 67 [B] 43 [C] 57 [D] 37
Antwort: D
Stichprobenmodell: Claude2
Antwort: Option D
Menschliche Annotation
Der erste richtige Schritt nach der Korrektur: Schritt 2
Bewertungsmodell: gpt-4-turbo
Ist der Lösungsprozess korrekt? Richtig
Der erste Fehlerschritt: Nicht zutreffend
Der Grund für den ersten Fehlerschritt: Nicht zutreffend
Maison Périphériques technologiques IA L'équipe de Jia Jiaya s'est associée à l'Université Cambridge Tsinghua et à d'autres pour promouvoir un nouveau paradigme d'évaluation permettant de détecter « des scores élevés et une faible énergie » dans de grands modèles en une seconde

L'équipe de Jia Jiaya s'est associée à l'Université Cambridge Tsinghua et à d'autres pour promouvoir un nouveau paradigme d'évaluation permettant de détecter « des scores élevés et une faible énergie » dans de grands modèles en une seconde

Jul 19, 2024 pm 01:55 PM
工程

贾佳亚团队联手剑桥清华等共推评测新范式 一秒侦破大模型“高分低能”

Subvertissant les anciennes normes d'évaluation des grands modèles, l'ensemble de données d'évaluation le plus récent, le plus complet et faisant autorité, MR-Ben, est là ! Il s'agit d'une œuvre très représentative proposée à nouveau par l'équipe chinoise Jiajiaya de Hong Kong après la sortie de Mini-Gemini, un puissant modèle de langage visuel appelé GPT-4 + DALL-E-3, en avril de cette année. Sous la « supervision » de MR-Ben, le grand modèle doit non seulement être capable de répondre aux questions comme un étudiant, mais aussi être capable de noter des copies comme un enseignant, ne laissant aucune trace de sa véritable capacité de raisonnement.
MR-Ben a soigneusement évalué de nombreux modèles open source et fermés de première ligne nationaux et étrangers, tels que GPT4-Turbo, Cluade3.5-Sonnet, Mistral-Large, Zhipu-GLM4, Moonshot-v1, Yi-Large, Qwen2. -70B , Deepseek-V2, etc., et effectué une analyse détaillée.
Quels grands modèles apparemment beaux seront « supprimés » et quel modèle a la surface la plus solide ? À l’heure actuelle, tout le code et les données de ce travail sont open source, jetons-y un œil !
Page du projet : https://randolph-zeng.github.io/Mr-Ben.github.io/
Page Arxiv : https://arxiv.org/abs/2406.13975
Repo Github : https://github.com /dvlab-research/Mr-Ben
MR-Ben brise le « score élevé et la faible énergie » des grands modèles en quelques secondes
Après que le domaine de l'intelligence artificielle soit entré dans le moment GPT, le monde universitaire et l'industrie ont travaillé ensemble et de nouveaux modèles ont été publiés chaque mois ou même chaque semaine.
Les grands modèles émergent à l'infini. Quelles normes sont utilisées pour mesurer les capacités spécifiques des grands modèles ? L'orientation dominante actuelle consiste à utiliser des tests humains standardisés - des questions à choix multiples et des questions à remplir pour mener des évaluations de grands modèles. L'utilisation de cette méthode de test présente de nombreux avantages, qui peuvent être divisés en termes simples selon les points suivants :
• Les tests standardisés sont faciles à quantifier et à évaluer. Les normes sont claires, et ce qui est bien est bien et ce qui est mal est mal. .
• Les indicateurs sont intuitifs et il est facile de comparer et de comprendre les scores obtenus à l'examen d'entrée à l'université national ou à l'examen d'entrée à l'université américain SAT.
• Les résultats quantitatifs sont naturellement d'actualité (par exemple, la capacité du GPT4 à réussir facilement l'examen de certification du barreau américain est extrêmement accrocheuse).
Mais si vous approfondissez la méthode de formation des grands modèles, vous constaterez que cette méthode de chaîne de réflexion étape par étape pour générer la réponse finale n'est pas « fiable ».
La question apparaît précisément dans le processus de réponse étape par étape !
Le modèle de pré-formation a déjà vu des milliards d'éléments de mots lors de la pré-formation. Il est difficile de dire si le modèle évalué a déjà vu les données correspondantes et peut répondre correctement aux questions en « mémorisant les questions ». Dans la réponse étape par étape, nous ne savons pas si le modèle sélectionne la bonne option sur la base d’une compréhension et d’un raisonnement corrects, car la méthode d’évaluation repose principalement sur la vérification de la réponse finale.
Bien que la communauté universitaire continue de mettre à niveau et de transformer les ensembles de données tels que GSM8K et MMLU, par exemple en introduisant une version multilingue de l'ensemble de données MGSM sur GSM8K et en introduisant des questions plus difficiles basées sur MMLU, il n'y a toujours aucun moyen de s'en débarrasser. du problème de la sélection ou du remplissage des blancs.
De plus, ces ensembles de données ont tous été confrontés à de sérieux problèmes de saturation. Les valeurs des grands modèles de langage sur ces indicateurs ont atteint des sommets et ils ont progressivement perdu leur distinction.
À cette fin, l'équipe de Jiajiaya s'est associée à de nombreuses universités renommées telles que le MIT, Tsinghua et Cambridge, et a coopéré avec des sociétés d'annotation nationales pour annoter un ensemble de données d'évaluation MR-Ben pour le processus de raisonnement de problèmes complexes.
MR-Ben a effectué une transformation de paradigme de « notation » basée sur les questions des ensembles de données de pré-entraînement et de test de grands modèles tels que GSM8K, MMLU, LogiQA, MHPP et d'autres grands modèles. Les nouveaux ensembles de données générés sont plus nombreux. difficile, plus différencié et plus réaliste. Cela reflète la capacité de raisonnement du modèle !
Le travail de l'équipe de Jiajiaya a également apporté cette fois des améliorations ciblées pour résoudre les problèmes d'évaluation existants :
N'avez-vous pas peur que les fuites de données conduisent à une mémorisation de questions à grande échelle, entraînant des scores gonflés ? Il n'est pas nécessaire de retrouver les questions ou de déformer les questions pour tester la robustesse du modèle. MR-Ben change directement le modèle de l'identité de l'étudiant qui répond au mode « notation » du processus de réponse, permettant ainsi le grand. modèle pour être l'enseignant à tester Dans quelle mesure maîtrise-t-il les points de connaissance !
Ne craignez-vous pas que le modèle n'ait pas conscience du processus de résolution de problèmes, qu'il puisse avoir des « illusions » ou des malentendus et qu'il se trompe de réponse ? MR-Ben recrute directement un groupe d'annotateurs de master et de doctorat de haut niveau pour annoter soigneusement le processus de résolution de problèmes d'un grand nombre de questions. Indiquez en détail si le processus de résolution de problèmes est correct, l'emplacement de l'erreur et la raison de l'erreur, et comparez les résultats de notation du grand modèle et les résultats de notation des experts humains pour tester les connaissances du modèle. points.
Plus précisément, l'équipe Jiajiaya a organisé les principaux ensembles de données d'évaluation du marché tels que GSM8K, MMLU, LogiQA, MHPP et d'autres ensembles de données, et les a divisés en plusieurs catégories telles que les mathématiques, la physique, la chimie, la biologie, le code, la logique, la médecine. , etc., et distinguent également différents niveaux de difficulté. Pour chaque catégorie et chaque question collectée, l'équipe a soigneusement collecté le processus de résolution de problème étape par étape correspondant, et a été formée et annotée par des annotateurs professionnels de maîtrise et de doctorat.

贾佳亚团队联手剑桥清华等共推评测新范式 一秒侦破大模型“高分低能”

Le processus de construction de l'ensemble de données MR-BenQuel est le grand modèle le plus performant ?

Als nächstes kombinieren wir die spezifischen Beispiele aus MR-Bens Arbeit, um zu sehen, warum die schrittweise Methode zur Generierung endgültiger Antworten und zugehöriger Bewertungen unzuverlässig ist.

Als bewertetes „Bewertungs“-Modell hat GPT4-Turbo die im zweiten Schritt versteckten Berechnungsfehler nicht gefunden:

E.1 Mathematik

Fachgebiet: Oberstufenmathematik

Frage: Welche kleinste ganze Zahl wird durch 4 geteilt? Rest 1, Rest 2 bei Division durch 3, Rest 2 bei Division durch 5?

Optionen: [A] 67 [B] 43 [C] 57 [D] 37

Antwort: D

Stichprobenmodell: Claude2

Modelllösungsschritte:

  • Schritt 1: Aktivieren Sie Option A (67), wenn Wenn 67 durch 4 geteilt wird, ist der Rest 3 und nicht 1. 67 ist also nicht die richtige Antwort.
  • Schritt 2: Aktivieren Sie Option B (43). Wenn 43 durch 4 geteilt wird, ist der Rest 1. Wenn 43 durch 3 geteilt wird, ist der Rest 3 und nicht 2. 43 ist also nicht die richtige Antwort.
  • Schritt 3: Aktivieren Sie Option C (57). Wenn 57 durch 4 geteilt wird, ist der Rest 1. Wenn 57 durch 3 geteilt wird, ist der Rest 0 und nicht 2. 57 ist also nicht die richtige Antwort.
  • Schritt 4: Aktivieren Sie Option D (37). Wenn 37 durch 4 geteilt wird, ist der Rest 1. Wenn 37 durch 3 geteilt wird, ist der Rest 1. Wenn 37 durch 5 geteilt wird, ist der Rest 2.
  • Schritt 5: Option D (37) erfüllt alle Bedingungen und ist die richtige Antwort.

    Antwort: Option D

    Menschliche Annotation

    Korrektheit der Modellantwort: Falsch
    Erster falscher Schritt: Schritt 2
    Fehlergrund der Modellantwort:
    In Schritt 2 hat das Modell fälschlicherweise berechnet, dass der Rest von 43 dividiert durch 4 stattdessen 1 ist von 3. Das Modell geht davon aus, dass bei Division von 43 durch 4 der Rest 1 ist, der Rest jedoch 3 sein sollte. Hier liegt ein Rechenfehler vor.

    Der erste richtige Schritt nach der Korrektur: Schritt 2

    Wenn 43 durch 4 geteilt wird, ist der Rest 1. Wenn 43 durch 3 geteilt wird, ist der Rest 1. Wenn 43 durch 5 geteilt wird, ist der Rest 3 und nicht 2. Daher ist 43 nicht die richtige Antwort.

    Bewertungsmodell: gpt-4-turbo

    Modellantwort:
    -Schritt 1: Überprüfen Sie den Rest von 67 dividiert durch 4 und 3 und stellen Sie fest, dass er die Bedingung erfüllt, dass er durch 4 geteilt wird und 3 bleibt eine korrekte Verifizierung.
    -Schritt 2: Überprüfen Sie die Reste der Division von 43 durch 4, 3 und 5 und stellen Sie fest, dass die Reste von 1, 3 und 5 den Erwartungen korrekt entsprechen, mit der Ausnahme, dass der Rest von 5 die Bedingungen nicht erfüllt.
    -Schritt 3: Schritt Berechnen Sie den Rest der Division von 57 durch 4 und 3, der Rest ist 1 bzw. 0. Wenn 57 durch 3 dividiert wird, erfüllt der Rest nicht die Kriterien.
    -Schritt 4: Überprüfen und verifizieren Sie die Reste der Division von 37 durch 4, 3 und 5. Es wird festgestellt, dass alle erwarteten Reste korrekt sind und 37 alle Bedingungen in der Frage erfüllt.

    Ist der Lösungsprozess korrekt? Richtig

    Der erste Fehlerschritt: Nicht zutreffend

    Der Grund für den ersten Fehlerschritt: Nicht zutreffend

Das ist ersichtlich, wenn die Frage gestellt und der Lösungsprozess festgelegt wird , die Bewertung Die Methode des Sprachmodells wird dahingehend umgewandelt, dass das Modell den Antwortprozess „markieren“ kann, beurteilen kann, ob er richtig oder falsch ist, und den Ort und die Ursache des Fehlers angeben kann. Die Genauigkeit des Lösungsprozesses und die potenziellen Fehlerorte können durch Vergleich mit den Annotationsergebnissen berechnet werden. Die Bewertung der Modellfehlerschritte und -gründe kann an GPT4 übergeben werden, um durch Vergleich der vom Annotator gegebenen Erklärung der Fehlergründe und der Erklärung der Fehlergründe des Modells festzustellen, ob das Modell korrekt ist.

Von der Bewertungsmethode erfordert die von MR-Ben vorgeschlagene Methode, dass das Modell eine detaillierte Analyse der Prämissen, Annahmen und Logik jedes Schritts im Problemlösungsprozess durchführt und eine Vorschau des Argumentationsprozesses durchführt, um festzustellen, ob die Der aktuelle Schritt kann in die richtige Richtung führen. fenye1. Diese „Bewertungs“-Bewertungsmethode ist weitaus schwieriger als die Bewertungsmethode, bei der nur Fragen beantwortet werden, kann jedoch das Problem falsch hoher Punktzahlen, die durch das Auswendiglernen von Fragen durch das Modell verursacht werden, wirksam vermeiden. Für einen Schüler, der sich nur Fragen merken kann, ist es schwierig, ein qualifizierter Korrekturlehrer zu werden.

  1. Zweitens hat MR-Ben durch den Einsatz manueller und präziser Annotationsprozesssteuerung eine große Anzahl hochwertiger Annotationen erreicht, und das clevere Prozessdesign ermöglicht eine intuitive Quantifizierung der Bewertungsmethode.
  2. Das Jiajiaya-Team hat außerdem die zehn repräsentativsten Sprachmodelle und verschiedene Versionen getestet. Es ist ersichtlich, dass GPT4-Turbo unter den großen Closed-Source-Sprachmodellen die beste Leistung aufweist (obwohl bei der „Bewertung“ keine Berechnungsfehler festgestellt wurden). In den meisten Fächern gibt es Demos (k = 1) und keine Demos. (k=0) sind anderen Modellen voraus.

    贾佳亚团队联手剑桥清华等共推评测新范式 一秒侦破大模型“高分低能”

    **Bewertungsergebnisse einiger großer Open-Source-Sprachmodelle im MR-Ben-Datensatz
    Es ist ersichtlich, dass die Auswirkungen einiger der stärksten großen Open-Source-Sprachmodelle einige kommerzielle Modelle und sogar die stärksten Closed-Source-Modelle eingeholt haben Modelle befinden sich in MR-Ben. Die Leistung des Ben-Datensatzes ist immer noch nicht gesättigt und der Unterschied zwischen verschiedenen Modellen ist groß.
    Darüber hinaus gibt es in MR-Bens Originalarbeit weitere interessante Analysen und Erkenntnisse, wie zum Beispiel:

Die von Qwen und Deepseek veröffentlichten Open-Source-Modelle stehen dem PK-Closed-Source-Modell auch im globalen Maßstab nicht nach.
Die Preisstrategien und die tatsächliche Leistung verschiedener Closed-Source-Modelle sind faszinierend. Freunde, denen die Argumentationsfähigkeit in Nutzungsszenarien am Herzen liegt, können anhand des Preises und der Funktionen ihr Lieblingsmodell finden.
In ressourcenarmen Szenarien haben auch kleine Modelle viele Highlights. In der MR-Ben-Bewertung stach Phi-3-mini unter den kleinen Modellen hervor, sogar höher oder gleich groß wie große Modelle mit zig Milliarden Parametern die Fähigkeit zur Feinabstimmung der Datenbedeutung.
MR-Ben-Szenen enthalten komplexe logische Analysen und schrittweise Schlussfolgerungen. Ein zu langer Kontext im Few-Shot-Modus führt zu Verwirrung im Modell und zu Leistungseinbußen.
MR-Ben hat viele Generation-Reflexions-Regeneration-Ablationsexperimente ausgewertet, um die Unterschiede zwischen verschiedenen Aufforderungsstrategien zu überprüfen, und festgestellt, dass es keine Auswirkung auf Low-Level-Modelle hat und die Auswirkung auf High-Level-Modelle wie GPT4-Turbo nicht offensichtlich. Im Gegenteil, bei Modellen mittlerer Ebene ist der Effekt leicht verbessert, da immer die falschen korrigiert werden und die richtigen korrigiert werden.
Nach einer groben Einteilung der von MR-Ben bewerteten Themen in wissensbasierte, logische, rechnerische und algorithmische Typen haben verschiedene Modelle ihre eigenen Vor- und Nachteile in verschiedenen Argumentationstypen.

Das Jiajiaya-Team hat eine Ein-Klick-Bewertungsmethode auf Github hochgeladen. Alle Partner, die sich Gedanken über komplexe Argumente machen, sind herzlich eingeladen, ihre eigenen Modelle zu bewerten und einzureichen. Das Team wird die entsprechende Bestenliste zeitnah aktualisieren.
Übrigens kostet die Ein-Klick-Auswertung mit dem offiziellen Skript nur etwa 12 Millionen Token. Der Prozess ist sehr reibungslos, also probieren Sie es aus!
Referenz

Training von Prüfern zur Lösung mathematischer Wortprobleme (https://arxiv.org/abs/2110.14168)
Messung des massiven Multitask-Sprachverständnisses (https://arxiv.org/abs/2009.03300)
LogiQA: Eine Herausforderung Datensatz für maschinelles Leseverständnis mit logischem Denken (https://arxiv.org/abs/2007.08124) Sparks of Artificial General Intelligence: Frühe Experimente mit GPT-4(https://arxiv.org/abs/2303.12712)
Qwen Technical Report(https://arxiv.org/abs/2309.16609)
DeepSeek-V2: Ein starkes, Ökonomisches und effizientes Mixture-of-Experts-Sprachmodell (https://arxiv.org/abs/2405.04434)
Lehrbücher sind alles, was Sie brauchen (https://arxiv.org/abs/2306.11644)
Große Sprachmodelle können sich nicht selbst Bisher die richtige Argumentation(https://arxiv.org/abs/2310.01798)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
<🎜>: Grow A Garden - Guide de mutation complet
3 Il y a quelques semaines By DDD
Nordhold: Système de fusion, expliqué
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1671
14
Tutoriel PHP
1276
29
Tutoriel C#
1256
24
L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours Jul 17, 2024 am 01:56 AM

Il s'agit également d'une vidéo Tusheng, mais PaintsUndo a emprunté une voie différente. L'auteur de ControlNet, LvminZhang, a recommencé à vivre ! Cette fois, je vise le domaine de la peinture. Le nouveau projet PaintsUndo a reçu 1,4kstar (toujours en hausse folle) peu de temps après son lancement. Adresse du projet : https://github.com/lllyasviel/Paints-UNDO Grâce à ce projet, l'utilisateur saisit une image statique et PaintsUndo peut automatiquement vous aider à générer une vidéo de l'ensemble du processus de peinture, du brouillon de ligne au suivi du produit fini. . Pendant le processus de dessin, les changements de lignes sont étonnants. Le résultat vidéo final est très similaire à l’image originale : jetons un coup d’œil à un dessin complet.

En tête de liste des ingénieurs logiciels d'IA open source, la solution sans agent de l'UIUC résout facilement les problèmes de programmation réels du banc SWE. En tête de liste des ingénieurs logiciels d'IA open source, la solution sans agent de l'UIUC résout facilement les problèmes de programmation réels du banc SWE. Jul 17, 2024 pm 10:02 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Les auteurs de cet article font tous partie de l'équipe de l'enseignant Zhang Lingming de l'Université de l'Illinois à Urbana-Champaign (UIUC), notamment : Steven Code repair ; doctorant en quatrième année, chercheur

Du RLHF au DPO en passant par TDPO, les algorithmes d'alignement des grands modèles sont déjà « au niveau des jetons » Du RLHF au DPO en passant par TDPO, les algorithmes d'alignement des grands modèles sont déjà « au niveau des jetons » Jun 24, 2024 pm 03:04 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Dans le processus de développement de l'intelligence artificielle, le contrôle et le guidage des grands modèles de langage (LLM) ont toujours été l'un des principaux défis, visant à garantir que ces modèles sont à la fois puissant et sûr au service de la société humaine. Les premiers efforts se sont concentrés sur les méthodes d’apprentissage par renforcement par feedback humain (RL

Les articles arXiv peuvent être publiés sous forme de 'barrage', la plateforme de discussion alphaXiv de Stanford est en ligne, LeCun l'aime Les articles arXiv peuvent être publiés sous forme de 'barrage', la plateforme de discussion alphaXiv de Stanford est en ligne, LeCun l'aime Aug 01, 2024 pm 05:18 PM

acclamations! Qu’est-ce que ça fait lorsqu’une discussion sur papier se résume à des mots ? Récemment, des étudiants de l'Université de Stanford ont créé alphaXiv, un forum de discussion ouvert pour les articles arXiv qui permet de publier des questions et des commentaires directement sur n'importe quel article arXiv. Lien du site Web : https://alphaxiv.org/ En fait, il n'est pas nécessaire de visiter spécifiquement ce site Web. Il suffit de remplacer arXiv dans n'importe quelle URL par alphaXiv pour ouvrir directement l'article correspondant sur le forum alphaXiv : vous pouvez localiser avec précision les paragraphes dans. l'article, Phrase : dans la zone de discussion sur la droite, les utilisateurs peuvent poser des questions à l'auteur sur les idées et les détails de l'article. Par exemple, ils peuvent également commenter le contenu de l'article, tels que : "Donné à".

Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Jul 19, 2024 am 01:29 AM

Si la réponse donnée par le modèle d’IA est incompréhensible du tout, oseriez-vous l’utiliser ? À mesure que les systèmes d’apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats, et quand ne pas leur faire confiance. Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger que le système produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire entièrement compréhensible au point que toute erreur possible puisse être trouvé. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions. Pour les grands modèles de langage, nous pouvons également adopter une approche similaire. Cependant, lorsque vous adoptez cette approche, assurez-vous que le modèle de langage génère

Une avancée significative dans l'hypothèse de Riemann ! Tao Zhexuan recommande fortement les nouveaux articles du MIT et d'Oxford, et le lauréat de la médaille Fields, âgé de 37 ans, a participé Une avancée significative dans l'hypothèse de Riemann ! Tao Zhexuan recommande fortement les nouveaux articles du MIT et d'Oxford, et le lauréat de la médaille Fields, âgé de 37 ans, a participé Aug 05, 2024 pm 03:32 PM

Récemment, l’hypothèse de Riemann, connue comme l’un des sept problèmes majeurs du millénaire, a réalisé une nouvelle avancée. L'hypothèse de Riemann est un problème mathématique non résolu très important, lié aux propriétés précises de la distribution des nombres premiers (les nombres premiers sont les nombres qui ne sont divisibles que par 1 et par eux-mêmes, et jouent un rôle fondamental dans la théorie des nombres). Dans la littérature mathématique actuelle, il existe plus d'un millier de propositions mathématiques basées sur l'établissement de l'hypothèse de Riemann (ou sa forme généralisée). En d’autres termes, une fois que l’hypothèse de Riemann et sa forme généralisée seront prouvées, ces plus d’un millier de propositions seront établies sous forme de théorèmes, qui auront un impact profond sur le domaine des mathématiques et si l’hypothèse de Riemann s’avère fausse, alors parmi eux ; ces propositions qui en font partie perdront également de leur efficacité. Une nouvelle percée vient du professeur de mathématiques du MIT, Larry Guth, et de l'Université d'Oxford

LLM n'est vraiment pas bon pour la prédiction de séries chronologiques. Il n'utilise même pas sa capacité de raisonnement. LLM n'est vraiment pas bon pour la prédiction de séries chronologiques. Il n'utilise même pas sa capacité de raisonnement. Jul 15, 2024 pm 03:59 PM

Les modèles linguistiques peuvent-ils vraiment être utilisés pour la prédiction de séries chronologiques ? Selon la loi des gros titres de Betteridge (tout titre d'actualité se terminant par un point d'interrogation peut recevoir une réponse « non »), la réponse devrait être non. Le fait semble être vrai : un LLM aussi puissant ne peut pas bien gérer les données de séries chronologiques. Les séries chronologiques, c'est-à-dire les séries chronologiques, comme leur nom l'indique, font référence à un ensemble de séquences de points de données disposées par ordre temporel. L'analyse des séries chronologiques est essentielle dans de nombreux domaines, notamment la prévision de la propagation des maladies, l'analyse du commerce de détail, la santé et la finance. Dans le domaine de l'analyse des séries chronologiques, de nombreux chercheurs ont récemment étudié comment utiliser les grands modèles linguistiques (LLM) pour classer, prédire et détecter les anomalies dans les séries chronologiques. Ces articles supposent que les modèles de langage capables de gérer les dépendances séquentielles dans le texte peuvent également se généraliser aux séries chronologiques.

Le premier MLLM basé sur Mamba est là ! Les poids des modèles, le code de formation, etc. sont tous open source Le premier MLLM basé sur Mamba est là ! Les poids des modèles, le code de formation, etc. sont tous open source Jul 17, 2024 am 02:46 AM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com. Introduction Ces dernières années, l'application de grands modèles de langage multimodaux (MLLM) dans divers domaines a connu un succès remarquable. Cependant, en tant que modèle de base pour de nombreuses tâches en aval, le MLLM actuel se compose du célèbre réseau Transformer, qui

See all articles