Si vous demandez à quoi les ordinateurs sont bons, parmi toutes les réponses, les mathématiques doivent figurer sur la liste. Après une longue période de recherche, d’éminents chercheurs ont obtenu des résultats surprenants en étudiant le développement des ordinateurs dans le calcul mathématique.
Prenons l'année dernière comme exemple. Des chercheurs de l'Université de Californie, Berkeley, OpenAI et Google ont fait de grands progrès dans le développement de modèles de langage. Cependant, jusqu'à présent, les modèles de langage n'ont pas été capables de résoudre certains problèmes mathématiques simples, décrits verbalement, tels que « Alice a cinq balles de plus que Bob, et Bob a deux balles après en avoir donné quatre à Charlie. Demandez à Alice combien de balles elle a. ?" Cela peut être un peu "difficile" pour le modèle de langage de donner la bonne réponse.
"Quand nous disons que les ordinateurs sont très bons en mathématiques, nous voulons dire qu'ils sont très bons dans des choses spécifiques et spécifiques", a déclaré Guy Gur-Ari, expert en apprentissage automatique chez Google. Il est vrai que les ordinateurs sont bons en arithmétique, mais en dehors de modes spécifiques, les ordinateurs sont impuissants et ne peuvent pas répondre à de simples questions de description de texte.
Ethan Dyer, chercheur chez Google, a dit un jour : Les personnes qui font des recherches en mathématiques ont un système de raisonnement rigide et il existe un écart évident entre ce qu’ils savent et ce qu’ils ne comprennent pas.
Résoudre des problèmes de mots ou des problèmes de raisonnement quantitatif est délicat car contrairement à d'autres problèmes, les deux nécessitent de la robustesse et de la rigueur. Si quelque chose ne va pas à n’importe quelle étape du processus, cela conduira à une mauvaise réponse. DALL·E est impressionnant en dessin, même si les images qu'il génère sont parfois bizarres, avec des doigts manquants et des yeux bizarres... Nous pouvons tous l'accepter, mais il fait des erreurs en mathématiques, et notre tolérance sera très faible. Vineet Kosaraju, un expert en apprentissage automatique d'OpenAI, a également exprimé cette idée : "Notre tolérance aux erreurs mathématiques commises par les modèles de langage (comme la mauvaise compréhension de 10 comme 1 et 0 au lieu de 10) est encore relativement faible." Nous étudions les mathématiques simplement parce que nous les trouvons indépendantes et très intéressantes", a déclaré Karl Cobbe, expert en apprentissage automatique chez OpenAI.
À mesure que les modèles d'apprentissage automatique sont formés sur des échantillons de données plus volumineux, ils deviennent plus robustes et commettent moins d'erreurs. Mais la mise à l’échelle des modèles ne semble possible que grâce à un raisonnement quantitatif. Les chercheurs ont réalisé que les erreurs commises par les modèles linguistiques semblaient nécessiter une approche plus ciblée.
L'année dernière, deux équipes de recherche de l'Université de Californie à Berkeley et OpenAI ont publié respectivement les ensembles de données MATH et GSM8K. Ces deux ensembles de données contiennent des milliers de problèmes mathématiques tels que la géométrie, l'algèbre et les mathématiques élémentaires. "Nous voulions voir s'il s'agissait d'un problème avec l'ensemble de données", a déclaré Steven Basart, chercheur au Center for AI Safety qui travaille dans le domaine des mathématiques. On sait que les modèles linguistiques ne sont pas efficaces pour résoudre les problèmes de mots. Dans quelle mesure ce problème peut-il être résolu en introduisant des ensembles de données mieux formatés et plus volumineux ?
Sur l'ensemble de données MATH, le modèle de langage le plus performant a atteint une précision de 7 %, contre une précision de 40 % pour les étudiants diplômés humains et une précision de 90 % pour les champions olympiques. Sur l'ensemble de données GSM8K (problème au niveau de l'école primaire), le modèle a atteint une précision de 20 %. Dans l'expérience, OpenAI a utilisé deux techniques, le réglage fin et la vérification, et les résultats ont montré que le modèle peut voir de nombreux exemples de ses propres erreurs, ce qui constitue une découverte précieuse.
À cette époque, le modèle d'OpenAI devait être entraîné sur 100 fois plus de données pour atteindre une précision de 80 % sur GSM8K. Mais en juin de cette année, Google a publié Minerva, qui a atteint une précision de 78 %. Ce résultat a dépassé les attentes et les chercheurs ont déclaré qu'il était arrivé plus rapidement que prévu.
Adresse papier : https://arxiv.org/pdf/2206.14858.pdf
Minerva est basé sur le modèle de langage Pathways (PaLM) auto-développé par Google et contient davantage d'ensembles de données mathématiques, notamment arXiv, LaTeX et d'autres formats mathématiques. Une autre stratégie utilisée par Minerva est l'incitation à la chaîne de pensée, dans laquelle Minerva divise les problèmes plus importants en morceaux plus petits. De plus, Minerva utilise le vote majoritaire, où au lieu de demander au modèle de proposer une réponse, il lui demande de proposer 100 réponses. Parmi ces réponses, Minerva choisit la plus courante. Les gains de ces nouvelles stratégies sont énormes, Minerva atteignant 50 % de précision en MATH et près de 10 % de précision en GSM8K et MMLU (un ensemble plus général de problèmes STEM incluant la chimie et la biologie) 80 %. Lorsqu'on a demandé à Minerva de refaire des problèmes légèrement modifiés, elle a tout aussi bien fonctionné, montrant que ses capacités ne viennent pas uniquement de la mémoire. Minerva peut avoir des raisonnements étranges et déroutants et néanmoins trouver la bonne réponse. Même si des modèles comme Minerva peuvent parvenir aux mêmes réponses que les humains, le processus réel qu’ils suivent peut être très différent. Ethan Dyer, expert en apprentissage automatique chez Google, a déclaré : "Je pense qu'il existe cette idée selon laquelle les personnes impliquées dans les mathématiques ont un système de raisonnement rigoureux, et il y a une différence claire entre savoir quelque chose et ne pas savoir quelque chose. Mais les réponses données le sont." incohérents, des erreurs sont commises et les concepts fondamentaux ne sont pas appliqués. À la frontière du machine learning, les frontières sont floues.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!