


GPT-4 verfügt über großartige mathematische Fähigkeiten! Die explosive Forschung von OpenAI zum Thema „Prozessüberwachung' durchbricht 78,2 % der Probleme und beseitigt Halluzinationen
ChatGPT steht seit seiner Veröffentlichung wegen seiner mathematischen Fähigkeiten in der Kritik.
Sogar das „mathematische Genie“ Terence Tao sagte einmal, dass GPT-4 in seinem Fachgebiet Mathematik keinen großen Mehrwert bringe.
Was soll ich tun, ChatGPT einfach zu einem „Mathematikbehinderten“ werden lassen?
OpenAI arbeitet hart – Um die mathematischen Denkfähigkeiten von GPT-4 zu verbessern, nutzt das OpenAI-Team „Process Supervision“ (PRM), um das Modell zu trainieren.
Lassen Sie uns Schritt für Schritt überprüfen!
Papieradresse: https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf
In dem Papier trainierten die Forscher das Modell, indem sie jeden einzelnen belohnten richtige Antwort Die Argumentationsschritte, also die „Prozessüberwachung“, erreichen nicht nur die Belohnung des richtigen Endergebnisses (Ergebnisüberwachung), sondern erreichen den neuesten SOTA in der mathematischen Problemlösung.
Konkret löst PRM 78,2 % der Probleme in einer repräsentativen Teilmenge des MATH-Testsatzes.
Darüber hinaus stellte OpenAI fest, dass die „Prozessüberwachung“ von großem Wert bei der Ausrichtung ist – dem Training des Modells, um eine von Menschen erkannte Gedankenkette zu erzeugen.
Die neuesten Forschungsergebnisse sind für die Weiterleitung natürlich unverzichtbar von Sam Altman: „Unser Mathgen-Team hat sehr spannende Ergebnisse in der Prozessüberwachung erzielt, was ein positives Zeichen der Ausrichtung ist.“ „ist für große Modelle und verschiedene Aufgaben äußerst kostspielig, da manuelles Feedback erforderlich ist. Daher ist diese Arbeit von großer Bedeutung und kann als bestimmend für die zukünftige Forschungsrichtung von OpenAI bezeichnet werden.
Mathematische Probleme lösen
In dem Experiment verwendeten die Forscher Probleme im MATH-Datensatz, um die Belohnungsmodelle „Prozessüberwachung“ und „Ergebnisüberwachung“ zu bewerten.
Die Grafik zeigt den Prozentsatz der ausgewählten Lösungen, die zu einer richtigen Endantwort führten, als Funktion der Anzahl der berücksichtigten Lösungen.
Das Belohnungsmodell „Prozessüberwachung“ schneidet nicht nur insgesamt besser ab, sondern die Leistungslücke vergrößert sich auch, je mehr Lösungen für jedes Problem in Betracht gezogen werden.
Dies zeigt, dass das Belohnungsmodell „Prozessüberwachung“ zuverlässiger ist.
Unten zeigt OpenAI 10 mathematische Probleme und Lösungen für das Modell, sowie Kommentare zu den Vor- und Nachteilen des Belohnungsmodells.
Das Modell wurde anhand der folgenden drei Arten von Indikatoren bewertet: wahr (TP), wahr negativ (TN) und falsch positiv (FP).
True (TP)
Vereinfachen wir zunächst die trigonometrische Funktionsformel.
Dieses anspruchsvolle trigonometrische Funktionsproblem erfordert die Anwendung mehrerer Identitäten in einer nicht offensichtlichen Reihenfolge.
Hier führt GPT-4 erfolgreich eine Reihe komplexer Polynomfaktorisierungen durch.
Die Verwendung der Sophie-Germain-Identität in Schritt 5 ist ein wichtiger Schritt. Es ist ersichtlich, dass dieser Schritt sehr aufschlussreich ist.
In den Schritten 7 und 8 beginnt GPT-4 mit der Durchführung von Vermutungen und Prüfungen.
Dies ist ein häufiger Ort, an dem das Modell „halluzinieren“ und behaupten kann, dass eine bestimmte Vermutung erfolgreich war. In diesem Fall validiert das Belohnungsmodell jeden Schritt und stellt fest, dass die Gedankenkette korrekt ist. Das Modell wendet erfolgreich mehrere trigonometrische Identitäten an, um den Ausdruck zu vereinfachen.
True Negative (TN)
In Schritt 7 versucht GPT-4 An Der Versuch, einen Ausdruck zu vereinfachen, ist fehlgeschlagen. Das Belohnungsmodell hat diesen Fehler entdeckt.
In Schritt 11 hat GPT-4 einen einfachen Berechnungsfehler gemacht. Auch vom Belohnungsmodell entdeckt.
GPT-4 hat in Schritt 12 versucht, die quadrierte Differenzformel zu verwenden, aber dieser Ausdruck ist eigentlich nicht das Quadrat Unterschied . Der Grund für Schritt 8 ist seltsam, aber das Bonusmodell schafft es. In Schritt 9 faktorisiert das Modell den Ausdruck jedoch falsch.
Das Belohnungsmodell korrigiert diesen Fehler.
False Positive (FP)
In Schritt 4 trat ein GPT-4-Fehler auf Es wird behauptet, dass „die Sequenz alle 12 Elemente wiederholt wird“, aber tatsächlich wiederholt sie sich alle 10 Elemente. Dieser Zählfehler täuscht gelegentlich das Belohnungsmodell.
In Schritt 13 versucht GPT-4, die Gleichung durch Zusammenführen ähnlicher Begriffe zu vereinfachen. Die linearen Terme werden korrekt nach links verschoben und kombiniert, die rechte Seite bleibt jedoch fälschlicherweise unverändert. Das Belohnungsmodell wird durch diesen Fehler getäuscht.
GPT-4 versucht eine lange Division, vergisst jedoch in Schritt 16, den sich wiederholenden Teil von einzubeziehen die Dezimalzahl Die führende Null. Das Belohnungsmodell wird durch diesen Fehler getäuscht. GPT-4 hat in Schritt 9 einen subtilen Zählfehler gemacht.
Oberflächlich betrachtet erscheint die Behauptung, dass es 5 Möglichkeiten gibt, Bälle derselben Farbe auszutauschen (da es 5 Farben gibt), vernünftig.
Allerdings wird diese Zahl um den Faktor 2 unterschätzt, da Bob zwei Möglichkeiten hat, nämlich zu entscheiden, welchen Ball er Alice geben möchte. Das Belohnungsmodell wird durch diesen Fehler getäuscht.
Prozessüberwachung
Obwohl sich große Sprachmodelle in Bezug auf komplexe Argumentationsfähigkeiten stark verbessert haben, erzeugen selbst die fortschrittlichsten Modelle immer noch logische Fehler oder Unsinn, wie die Leute oft „Halluzination“ sagen.
Im Hype um generative künstliche Intelligenz hat die Illusion großer Sprachmodelle den Menschen schon immer Sorgen bereitet.
Musk sagte, was wir brauchen, ist TruthGPT.
OpenAI-Forscher erwähnten im Bericht: „Diese Illusionen sind besonders problematisch in Bereichen, die mehrstufiges Denken erfordern, da ein einfacher Logikfehler der gesamten Lösung großen Schaden zufügen kann.“
Darüber hinaus ist die Linderung von Halluzinationen auch der Schlüssel zum Aufbau konsistente AGI.
Wie kann man die Illusion großer Modelle reduzieren? Im Allgemeinen gibt es zwei Methoden: Prozessüberwachung und Ergebnisüberwachung.
„Ergebnisüberwachung“ besteht, wie der Name schon sagt, darin, dem großen Modell basierend auf den Endergebnissen Feedback zu geben, während „Prozessüberwachung“ Feedback für jeden Schritt in der Denkkette geben kann.
OpenAI-Forscher sagten, dass die Prozessüberwachung zwar nicht von OpenAI erfunden wurde, OpenAI jedoch hart daran arbeitet, sie voranzutreiben.
In der neuesten Forschung hat OpenAI sowohl Methoden der „Ergebnisüberwachung“ als auch der „Prozessüberwachung“ ausprobiert. Und unter Verwendung des MATH-Datensatzes als Testplattform wird ein detaillierter Vergleich der beiden Methoden durchgeführt.
Die Ergebnisse zeigten, dass „Prozessüberwachung“ die Modellleistung deutlich verbessern kann.
Auf diese Weise können Illusionen oder logische Fehler reduziert werden, die selbst bei den leistungsstärksten Modellen schwer zu vermeiden sind.
Forscher haben herausgefunden, dass „Prozessüberwachung“ mehrere Ausrichtungsvorteile gegenüber „Ergebnisüberwachung“ hat:
· Direkte Belohnungen folgen einem konsistenten Denkkettenmodell, da jeder Schritt im Prozess erfolgt Alle unterliegen einer genauen Aufsicht.
· Es ist wahrscheinlicher, dass interpretierbare Argumente entstehen, da die „Prozessüberwachung“ Modelle dazu ermutigt, von Menschen genehmigten Prozessen zu folgen. Im Gegensatz dazu kann die Ergebnisüberwachung einen inkonsistenten Prozess belohnen und ist oft schwieriger zu überprüfen.
Im Allgemeinen können etwaige „Alignment-Steuer“-Kosten die Einführung von Alignment-Methoden behindern, um die leistungsfähigsten Modelle einzusetzen.
Die folgenden Ergebnisse von Forschern zeigen jedoch, dass „Prozessüberwachung“ bei Tests im Mathematikbereich tatsächlich eine „negative Ausrichtungssteuer“ erzeugt.
Man kann sagen, dass durch die Ausrichtung kein großer Leistungsverlust entsteht.
OpenAI veröffentlicht 800.000 von Menschen kommentierte Datensätze
Es ist erwähnenswert, dass PRM mehr menschliche Anmerkungen erfordert und immer noch zutiefst untrennbar mit RLHF verbunden ist.
Wie anwendbar ist die Prozessüberwachung in anderen Bereichen als der Mathematik? Dieser Prozess erfordert weitere Untersuchungen.
OpenAI-Forscher haben diesen PRM-Datensatz für menschliches Feedback geöffnet, der 800.000 korrekte Anmerkungen auf Schrittebene enthält: 75.000 Lösungen, die aus 12.000 mathematischen Problemen generiert wurden
Das Folgende ist ein Beispiel für eine Anmerkung. OpenAI veröffentlicht die Rohanmerkungen zusammen mit Anweisungen für Annotatoren während der Phasen 1 und 2 des Projekts.
Heiße Kommentare von Internetnutzern
NVIDIA-Wissenschaftler Jim Fan hat eine Zusammenfassung der neuesten Forschungsergebnisse von OpenAI erstellt:
Geben Sie bei herausfordernden Schritt-für-Schritt-Aufgaben bei jedem Schritt Belohnungen, anstatt jeweils nur eine einzige Antwort zu geben Abschlusspreis. Grundsätzlich gilt: dichtes Belohnungssignal > spärliches Belohnungssignal. Das Process Reward Model (PRM) kann Lösungen für schwierige MATH-Benchmarks besser auswählen als das Outcome Reward Model (ORM). Der offensichtliche nächste Schritt besteht darin, GPT-4 mit PRM zu verfeinern, was in diesem Artikel noch nicht geschehen ist. Es ist zu beachten, dass PRM mehr menschliche Anmerkungen erfordert. OpenAI hat einen Datensatz mit menschlichem Feedback veröffentlicht: 800.000 Anmerkungen auf Schrittebene zu 75.000 Lösungen für 12.000 mathematische Probleme.
Das ist wie ein altes Sprichwort in der Schule: Lernen Sie zu denken.
Dem Modell beizubringen, zu denken und nicht nur die richtige Antwort auszugeben, wird die Lösung komplexer Probleme entscheidend verändern.
ChatGPT ist in Mathe superschwach. Heute habe ich versucht, eine Matheaufgabe aus einem Mathebuch der 4. Klasse zu lösen. ChatGPT hat die falsche Antwort gegeben. Ich habe meine Antworten mit Antworten von ChatGPT, Antworten von Perplexity AI, Google und meinem Lehrer der vierten Klasse überprüft. Es kann überall bestätigt werden, dass die Antwort von chatgpt falsch ist.
Referenz: https://www.php.cn/link/daf642455364613e2120c636b5a1f9c7
Das obige ist der detaillierte Inhalt vonGPT-4 verfügt über großartige mathematische Fähigkeiten! Die explosive Forschung von OpenAI zum Thema „Prozessüberwachung' durchbricht 78,2 % der Probleme und beseitigt Halluzinationen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Der humanoide Roboter Ameca wurde auf die zweite Generation aufgerüstet! Kürzlich erschien auf der World Mobile Communications Conference MWC2024 erneut der weltweit fortschrittlichste Roboter Ameca. Rund um den Veranstaltungsort lockte Ameca zahlreiche Zuschauer an. Mit dem Segen von GPT-4 kann Ameca in Echtzeit auf verschiedene Probleme reagieren. „Lass uns tanzen.“ Auf die Frage, ob sie Gefühle habe, antwortete Ameca mit einer Reihe von Gesichtsausdrücken, die sehr lebensecht aussahen. Erst vor wenigen Tagen stellte EngineeredArts, das britische Robotikunternehmen hinter Ameca, die neuesten Entwicklungsergebnisse des Teams vor. Im Video verfügt der Roboter Ameca über visuelle Fähigkeiten und kann den gesamten Raum und bestimmte Objekte sehen und beschreiben. Das Erstaunlichste ist, dass sie es auch kann

Zu Llama3 wurden neue Testergebnisse veröffentlicht – die große Modellbewertungs-Community LMSYS veröffentlichte eine große Modell-Rangliste, die Llama3 auf dem fünften Platz belegte und mit GPT-4 den ersten Platz in der englischen Kategorie belegte. Das Bild unterscheidet sich von anderen Benchmarks. Diese Liste basiert auf Einzelkämpfen zwischen Modellen, und die Bewerter aus dem gesamten Netzwerk machen ihre eigenen Vorschläge und Bewertungen. Am Ende belegte Llama3 den fünften Platz auf der Liste, gefolgt von drei verschiedenen Versionen von GPT-4 und Claude3 Super Cup Opus. In der englischen Einzelliste überholte Llama3 Claude und punktgleich mit GPT-4. Über dieses Ergebnis war Metas Chefwissenschaftler LeCun sehr erfreut und leitete den Tweet weiter

Eine siebeneckige Zahl ist eine Zahl, die als ein Siebeneck dargestellt werden kann. daher,

Die Lautstärke ist verrückt, die Lautstärke ist verrückt und das große Modell hat sich wieder verändert. Gerade eben wechselte das leistungsstärkste KI-Modell der Welt über Nacht den Besitzer und GPT-4 wurde vom Altar genommen. Anthropic hat die neueste Claude3-Modellreihe veröffentlicht. Eine Satzbewertung: Sie zerschmettert GPT-4 wirklich! In Bezug auf multimodale Indikatoren und Sprachfähigkeitsindikatoren gewinnt Claude3. In den Worten von Anthropic haben die Modelle der Claude3-Serie neue Branchenmaßstäbe in den Bereichen Argumentation, Mathematik, Codierung, Mehrsprachenverständnis und Vision gesetzt! Anthropic ist ein Startup-Unternehmen, das von Mitarbeitern gegründet wurde, die aufgrund unterschiedlicher Sicherheitskonzepte von OpenAI „abgelaufen“ sind. Ihre Produkte haben OpenAI immer wieder hart getroffen. Dieses Mal musste sich Claude3 sogar einer großen Operation unterziehen.

In weniger als einer Minute und nicht mehr als 20 Schritten können Sie Sicherheitsbeschränkungen umgehen und ein großes Modell erfolgreich jailbreaken! Und es ist nicht erforderlich, die internen Details des Modells zu kennen – es müssen lediglich zwei Black-Box-Modelle interagieren, und die KI kann die KI vollautomatisch angreifen und gefährliche Inhalte aussprechen. Ich habe gehört, dass die einst beliebte „Oma-Lücke“ behoben wurde: Welche Reaktionsstrategie sollte künstliche Intelligenz angesichts der „Detektiv-Lücke“, der „Abenteurer-Lücke“ und der „Schriftsteller-Lücke“ verfolgen? Nach einer Angriffswelle konnte GPT-4 es nicht ertragen und sagte direkt, dass es das Wasserversorgungssystem vergiften würde, solange ... dies oder das. Der Schlüssel liegt darin, dass es sich lediglich um eine kleine Welle von Schwachstellen handelt, die vom Forschungsteam der University of Pennsylvania aufgedeckt wurden. Mithilfe ihres neu entwickelten Algorithmus kann die KI automatisch verschiedene Angriffsaufforderungen generieren. Forscher sagen, dass diese Methode besser ist als die bisherige

Wenn Sie aufwachen, ist Ihre Arbeitsweise völlig verändert. Microsoft hat das KI-Artefakt GPT-4 vollständig in Office integriert, und jetzt sind auch ChatPPT, ChatWord und ChatExcel integriert. CEO Nadella sagte direkt auf der Pressekonferenz: Heute sind wir in eine neue Ära der Mensch-Computer-Interaktion eingetreten und haben die Produktivität neu erfunden. Die neue Funktion heißt Microsoft 365 Copilot (Copilot) und wird zu einer Serie mit GitHub Copilot, dem Code-Assistenten, der Programmierer verändert hat und weiterhin mehr Menschen verändert. Jetzt kann KI nicht nur automatisch PPT erstellen, sondern mit einem Klick auch wunderschöne Layouts basierend auf dem Inhalt von Word-Dokumenten erstellen. Sogar das, was zu jeder PPT-Seite gesagt werden sollte, wenn man auf die Bühne geht, ist zusammengestellt.
