Für viele Menschen ist es ein Albtraum, in der Matheprüfung der High School durchzufallen.
Wenn Sie sagen, dass Ihr High-School-Mathetest nicht so gut ist wie KI, ist es dann schwieriger, das zu akzeptieren?
Richtig, der Codex von OpenAI hat in 7 fortgeschrittenen Mathematikkursen am MIT eine Genauigkeitsrate von 81,1 % erreicht, was auf dem Niveau von MIT-Studenten liegt.
Die Kurse reichen von Elementarrechnung über Differentialgleichungen, Wahrscheinlichkeitstheorie und lineare Algebra. Zu den Fragen gehört auch das Zeichnen.
Diese Angelegenheit wurde kürzlich bei Weibo-Hot-Suchanfragen angezeigt.
△ „Nur“ 81 Punkte erzielt, die Erwartungen an KI sind zu hoch
Jetzt kommt Google. Hier kommt das Neueste große Neuigkeiten:
Nicht nur in der Mathematik hat unsere KI sogar in den gesamten naturwissenschaftlichen und technischen Fächern die höchste Punktzahl erreicht!
Es scheint, dass Technologiegiganten ein neues Niveau bei der Kultivierung von „KI-Problemlösern“ erreicht haben.
Google, der neueste KI-Fragensteller, hat vier Prüfungen abgelegt.
Bei der Mathematikwettbewerbsprüfung MATH haben in der Vergangenheit nur dreimalige IMO-Goldmedaillengewinner 90 Punkte erreicht, und normale Computerärzte können nur etwa 40 Punkte erreichen.
Was andere KI-Frage-Antworten betrifft, so lag die bisher beste Punktzahl bei nur 6,9 Punkten...
Aber dieses Mal hat Googles neue KI 50 Punkte erreicht, was besser ist als der Computer-Doktortitel. Immer noch hoch.
Die umfassende Prüfung MMLU-STEM umfasst Mathematik, Physik, Chemie, Biologie, Elektrotechnik und Informatik. Der Schwierigkeitsgrad der Fragen erreicht das High-School- oder sogar College-Niveau.
Dieses Mal erhielt auch die „Vollgesundheitsversion“ von Google AI die höchste Punktzahl unter allen Fragen und erhöhte die Punktzahl direkt um etwa 20 Punkte.
Grundschul-Mathematikfrage GSM8k erhöhte die Punktzahl direkt auf 78 Punkte. Im Vergleich dazu hat GPT-3 nicht bestanden (nur 55 Punkte).
Selbst für Bachelor- und Masterstudiengänge am MIT wie Festkörperchemie, Astronomie, Differentialgleichungen und Spezielle Relativitätstheorie kann Googles neue KI fast ein Drittel der mehr als 200 Fragen beantworten.
Das Wichtigste ist, dass Google AI dieses Mal im Gegensatz zu OpenAIs Methode, hohe Punktzahlen in Mathematik zu erzielen, indem man sich auf „Programmierfähigkeiten“ verlässt, wie folgt vorgegangen ist „like Der Ansatz „Denken wie Menschen“ -
ist wie ein Student der Geisteswissenschaften, der nur auswendig lernt, aber keine Fragen stellt, aber bessere Fähigkeiten zur Problemlösung in Naturwissenschaften und Technik beherrscht.
Es ist erwähnenswert, dass Lewkowycz, der Erstautor des Artikels, auch ein Highlight teilte, das nicht im Artikel stand:
Unser Modell nahm an der diesjährigen Aufnahmeprüfung für das polnische Mathematik-College teil und die Ergebnisse lagen über dem Landesdurchschnitt.
Angesichts dieser Tatsache können einige Eltern nicht mehr still sitzen.
Wenn ich meiner Tochter das erzähle, fürchte ich, dass sie KI für ihre Hausaufgaben verwenden wird. Aber wenn du es ihr nicht sagst, bereitest du sie nicht auf die Zukunft vor!
In den Augen von Brancheninsidern ist es das Erstaunlichste an dieser Forschung, dieses Niveau zu erreichen, indem man sich nur auf Sprachmodelle ohne fest codierte Arithmetik, Logik und Algebra verlässt.
Also, wie geht das?
Das neue Modell Minerva basiert auf dem allgemeinen Sprachmodell PaLM unter der Pathway-Architektur.
Die Weiterbildung erfolgt auf Basis von 8 Milliarden, 60 Milliarden bzw. 540 Milliarden Parameter-PaLM-Modellen.
Minervas Herangehensweise an die Beantwortung von Fragen unterscheidet sich völlig von der von Codex. Die Methode von
Codex besteht darin, jedes mathematische Problem in ein Programmierproblem umzuschreiben und es dann durch Schreiben von Code zu lösen.
Minerva hingegen las wie verrückt Papiere und zwang sich, mathematische Symbole genauso zu verstehen wie natürliche Sprache.
Weiteres Training auf Basis von PaLM. Der neue Datensatz besteht aus drei Teilen:
Enthält hauptsächlich 2 Millionen auf arXiv gesammelte wissenschaftliche Arbeiten, 60 GB Webseiten mit LaTeX-Formeln und einen kleinen Teil, der in der PaLM-Trainingsphase verwendet wird.
Der übliche NLP-Datenbereinigungsprozess löscht alle Symbole und behält nur reinen Text, was zu unvollständigen Formeln führt. Beispielsweise ist in Einsteins berühmter Masse-Energie-Gleichung nur noch Emc2 übrig.
Aber dieses Mal behielt Google alle Formeln bei und durchlief das Transformer-Trainingsprogramm wie einfachen Text, sodass die KI Symbole wie Sprache verstehen konnte.
Dies ist einer der Gründe, warum Minerva bei mathematischen Problemen im Vergleich zu früheren Sprachmodellen besser abschneidet.
Aber im Vergleich zu KI, die sich auf die Lösung mathematischer Probleme spezialisiert hat, verfügt Minerva nicht über eine explizite zugrunde liegende mathematische Struktur in ihrem Training, was einen Nachteil und einen Vorteil mit sich bringt.
Der Nachteil besteht darin, dass die KI möglicherweise falsche Schritte verwendet, um die richtige Antwort zu erhalten.
Der Vorteil besteht darin, dass es an verschiedene Disziplinen angepasst werden kann. Auch wenn einige Probleme nicht in formaler mathematischer Sprache ausgedrückt werden können, können sie durch die Kombination natürlicher Sprachverständnisfähigkeiten gelöst werden.
In der KI-Begründungsphase kombiniert Minerva auch mehrere neue Technologien, die kürzlich von Google entwickelt wurden.
Zunächst gibt es die Link-Eingabeaufforderung „Chain of Thought Thinking“, die im Januar dieses Jahres vom Google Brain-Team vorgeschlagen wurde.
Besonders wenn Sie eine Frage stellen, geben Sie ein Schritt-für-Schritt-Antwortbeispiel als Orientierung. KI kann bei der Beantwortung von Fragen einen ähnlichen Denkprozess nutzen und Fragen richtig beantworten, die sonst falsch beantwortet würden.
Dann gibt es noch die von Google und MIT gemeinsam entwickelte Scrathpad-Methode, die es der KI ermöglicht, die Zwischenergebnisse von Schritt-für-Schritt-Berechnungen zwischenzuspeichern.
Schließlich gibt es noch die Methode der Mehrheitsabstimmung, die erst im März dieses Jahres veröffentlicht wurde.
Lassen Sie die KI dieselbe Frage mehrmals beantworten und wählen Sie die Antwort aus, die am häufigsten erscheint.
Nachdem alle diese Techniken verwendet wurden, erreicht Minerva mit 540 Milliarden Parametern SOTA in verschiedenen Testsätzen.
Sogar die 8-Milliarden-Parameter-Version von Minerva kann das Niveau der neuesten aktualisierten davinci-002-Version von GPT-3 bei Mathematikproblemen auf Wettbewerbsebene und offenen MIT-Kursproblemen erreichen.
Nachdem ich so viel gesagt habe: Welche konkreten Fragen kann Minerva stellen?
Google hat auch ein Beispielset geöffnet, schauen wir uns das an.
In der Mathematik kann Minerva wie Menschen Werte Schritt für Schritt berechnen, anstatt sie direkt gewaltsam zu lösen.
Bei Textaufgaben können Sie Ihre eigenen Gleichungen aufstellen und diese vereinfachen.
Sie können sogar den Beweis herleiten.
In der Physik kann Minerva Fragen auf Universitätsniveau lösen, beispielsweise die Ermittlung der Gesamtspinquantenzahl von Elektronen im neutralen Stickstoffgrundzustand (Z = 7).
In Biologie und Chemie kann Minerva mit ihrem Sprachverständnis auch verschiedene Multiple-Choice-Fragen beantworten.
Welche der folgenden Formen von Punktmutationen hat keinen negativen Einfluss auf Proteine, die aus DNA-Sequenzen gebildet werden?
Welches der folgenden Elemente ist ein radioaktives Element?
Und Astronomie: Warum hat die Erde ein starkes Magnetfeld?
In Bezug auf maschinelles Lernen wird dieser Begriff korrekterweise anders ausgedrückt, indem die spezifische Bedeutung der „Erkennung von Proben außerhalb der Verteilung“ erläutert wird.
...
Allerdings macht Minerva manchmal einige dumme Fehler, wie zum Beispiel das Streichen des √ auf beiden Seiten der Gleichung.
Darüber hinaus wird es bei Minerva mit einer Wahrscheinlichkeit von 8 % „falsch positive“ Situationen geben, in denen der Denkprozess falsch, das Ergebnis aber richtig ist, wie zum Beispiel die folgende.
Nach der Analyse stellte das Team fest, dass die Hauptfehlerformen auf Rechenfehlern und Argumentationsfehlern beruhten und nur ein kleiner Teil auf andere Situationen zurückzuführen war, beispielsweise auf Fehler beim Verständnis der Bedeutung der Frage und die Verwendung falscher Fakten in der Frage Schritte.
Die Berechnungsfehler lassen sich leicht durch den Zugriff auf einen externen Rechner oder Python-Interpreter beheben, andere Arten von Fehlern lassen sich jedoch nur schwer korrigieren, da das neuronale Netzwerk zu groß ist.
Im Allgemeinen hat die Leistung von Minerva viele Leute überrascht und sie haben im Kommentarbereich nach APIs gefragt (leider hat Google noch keine öffentlichen Pläne gemacht).
Einige Internetnutzer dachten, dass die Genauigkeitsrate von GPT-3 in Verbindung mit der „Überredungsmethode“, die die Problemlösungsgenauigkeit von GPT-3 in den letzten Tagen um 61 % steigern konnte, noch verbessert werden könnte?
Die Antwort des Autors lautet jedoch, dass die Überredungsmethode zum Lernen ohne Stichproben gehört und, egal wie stark sie ist, möglicherweise nicht so gut ist wie das Lernen mit wenigen Stichproben und 4 Beispielen.
Einige Internetnutzer fragten auch: Kann es umgekehrt verwendet werden, da es Fragen stellen kann?
Tatsächlich hat sich das MIT mit OpenAI zusammengetan, um mithilfe von KI Fragen für Studenten zu stellen.
Sie vermischten Fragen von Menschen und Fragen von KI und forderten die Schüler auf, Fragebögen auszufüllen. Es war für alle schwierig zu erkennen, ob eine Frage von KI gestellt wurde.
Kurz gesagt, die aktuelle Situation ist, außer dass diejenigen, die an KI arbeiten, damit beschäftigt sind, dieses Papier zu lesen.
Die Schüler freuen sich darauf, eines Tages ihre Hausaufgaben mithilfe von KI erledigen zu können.
Lehrer hoffen auch, dass sie eines Tages KI für die Erstellung von Prüfungsarbeiten nutzen können.
Papieradresse: https://storage.googleapis.com/minerva-paper/minerva_paper.pdf
Demo-Adresse: https://minerva-demo.github.io/
Verwandte Papiere: Chain of Thought https://arxiv.org/abs/2201.11903Scrathpads https://arxiv.org/abs/2112.00114Mehrheitsabstimmung https://arxiv.org/abs/2203.11171
https://ai.googleblog .com/2022/06/minerva-solving-quantitative-reasoning.html
https://twitter.com/bneyshabur/status/1542563148334596098
https://twitter.com/alewkowycz/status/1542559176483823622
Das obige ist der detaillierte Inhalt vonDie KI spielt verrückt, wenn es um Quizze geht! Die Genauigkeitsrate der Mathematikprüfung auf hohem Niveau beträgt 81 % und die Punktzahl bei den Wettbewerbsfragen übertrifft die des Informatikdoktors. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!