Großes Deckenmodell GPT-4, ist es... dumm geworden?
Zuerst stellten einige Benutzer Fragen, und dann sagten viele Internetnutzer, sie hätten es bemerkt und viele Beweise gepostet.
Einige Leute berichteten, dass sie die 3 Stunden und 25 Konversationskontingente von GPT-4 auf einmal aufgebraucht hatten und ihre eigenen Codeprobleme immer noch nicht gelöst hatten.
Ich hatte keine andere Wahl, als auf GPT-3.5 umzusteigen, aber es hat das Problem gelöst.
Um das Feedback aller zusammenzufassen, sind die wichtigsten Erscheinungsformen:
Das hat viele Menschen dazu gebracht, sich zu fragen: Beginnt OpenAI, Abstriche zu machen, um Kosten zu sparen?
Vor zwei Monaten war GPT-4 der beste Schreibassistent der Welt, vor ein paar Wochen begann es mittelmäßig zu werden. Ich vermute, dass sie die Rechenleistung gekürzt oder weniger intelligent gemacht haben.
Das erinnert die Leute unweigerlich an Microsofts neues Bing, das „seinen Höhepunkt erreichte, als es auf den Markt kam“, aber später unter einer „frontalen Lobotomie-Operation“ litt und seine Fähigkeiten nachließen ...
Nachdem Internetnutzer ihre Erfahrungen geteilt hatten untereinander: „Vor ein paar Wochen begann es schlimmer zu werden“, war sich jeder einig.
In technischen Communities wie Hacker News, Reddit und Twitter bildete sich gleichzeitig ein Sturm der öffentlichen Meinung.
Jetzt können die Beamten nicht still sitzen.
Logan Kilpatrick, OpenAI Developer Promotion Ambassador, antwortete auf die Frage eines Internetnutzers:
API wird sich nicht ändern, ohne dass wir Sie benachrichtigen. Das dortige Modell ruht.
Beunruhigte Internetnutzer fragten weiterhin nach einer Bestätigung: „Das bedeutet, dass GPT-4 seit seiner Veröffentlichung am 14. März statisch ist, oder?“ und erhielten eine positive Antwort von Logan.
„Mir ist bei einigen Eingabeaufforderungen eine inkonsistente Leistung aufgefallen. Liegt das nur an der Instabilität des großen Modells selbst?“, erhielt ebenfalls eine „Ja“-Antwort.
Aber bisher wurden die beiden Fragen, ob die Webversion von GPT-4 heruntergestuft wurde, nicht beantwortet, und Logan hat in dieser Zeit andere Inhalte veröffentlicht.
Wie wäre es also, es selbst auszuprobieren?
Da Internetnutzer allgemein erwähnten, dass sich die Programmierfähigkeiten von GPT-4 verschlechtert haben, führten wir ein einfaches Experiment durch.
Ende März experimentierten wir mit GPT-4 „Verfeinerung von Elixieren“ und schrieben ein mehrschichtiges Perzeptron in Python, um ein XOR-Gatter zu implementieren.
△ShareGPT-Screenshot, die Benutzeroberfläche ist etwas anders
Nach der Umstellung von GPT-4 auf die Verwendung von Numpy ohne Framework waren die erstmals angegebenen Ergebnisse falsch.
Nachdem der Code zweimal geändert wurde, wurde das richtige Ergebnis erzielt. Das erste Mal besteht darin, die Anzahl der verborgenen Neuronen zu ändern, und das zweite Mal darin, die Aktivierungsfunktion von Sigmoid auf Tanh zu ändern.
Am 2. Juni versuchten wir erneut, GPT-4 diese Aufgabe erledigen zu lassen, wechselten jedoch zu chinesischen Eingabeaufforderungswörtern.
Dieses Mal nutzte GPT-4 das Framework nicht zum ersten Mal, aber der angegebene Code war immer noch falsch.
Nach nur einer Änderung wurde das richtige Ergebnis erzielt und die Idee in die Idee des Lidada-Ziegelfliegens geändert, wodurch die Anzahl der Trainingsepochen und die Lernrate direkt erhöht wurden. Beantwortet Es wurde keine signifikante Verschlechterung der Textqualität beobachtet, aber die Reaktionsgeschwindigkeit scheint schneller zu sein.
Aus Zeitgründen haben wir dieses Experiment nur durchgeführt, und aufgrund der Zufälligkeit der KI selbst können wir die Beobachtungen von Internetnutzern nicht leugnen.
Einige Leute haben bereits am 19. April Feedback gemeldet
Wir haben im offiziellen Discord-Kanal von OpenAI gesucht und festgestellt, dass seit Ende April sporadische Benutzer gemeldet haben, dass sich GPT-4 geändert hat Von Zeit zu Zeit schlecht. Allerdings lösten diese Rückmeldungen weder eine groß angelegte Diskussion aus, noch erhielten sie eine offizielle offizielle Antwort. Am 31. Mai begannen Hacker News und Twitter, eine große Anzahl von Internetnutzern am selben Tag über dieses Thema zu diskutieren, was zu einem zentralen Knotenpunkt des gesamten Vorfalls wurde. HackerNews Ein Internetnutzer wies darauf hin, dass der GPT-4-Avatar stärker war, als er noch schwarz war, aber jetzt verliert die lila Avatar-Version einige Zeilen, wenn der Code geändert wird. Die Person, die dieses Problem zuvor auf Twitter angesprochen hat, war Matt Shumer, CEO von HyperWrite (einem auf der GPT-API basierenden Schreibtool). Aber dieser Tweet fand bei vielen Internetnutzern Anklang, und der Tweet, auf den OpenAI-Mitarbeiter antworteten, war auch dafür. Allerdings stellten diese Antworten nicht alle zufrieden, stattdessen wurde der Umfang der Diskussion immer größer. In einem Beitrag auf Reddit wurde beispielsweise erwähnt, dass GPT-4, das ursprünglich in der Lage war, Codefragen zu beantworten, jetzt nicht einmal erkennen kann, welche Fragen Code und welche Fragen sind. Auf Nachfrage anderer Internetnutzer gab der Autor des Beitrags einen Überblick über den Prozess des Problems und auch Chat-Verlauf mit GPT angehängt.Bezüglich der Behauptung von OpenAI, dass das Modell seit März nicht geändert wurde, gibt es tatsächlich keine relevanten Aufzeichnungen in der Öffentlichkeit Ebene.
Im Update-Protokoll von ChatGPT wurden am 9. Januar, 30. Januar und 13. Februar Aktualisierungen des Modells selbst erwähnt, die Verbesserungen der Sachgenauigkeit und der mathematischen Fähigkeiten beinhalteten.
Allerdings gibt es seit der Veröffentlichung von GPT-4 am 14. März keine Erwähnung von Modellaktualisierungen. Es gibt lediglich Änderungen bei den Web-APP-Funktionsanpassungen und der Hinzufügung des Netzwerkmodus und des Plug-in-Modus , Apple APP usw. Vorausgesetzt, dass sich, wie OpenAI sagte, die Fähigkeiten des GPT-4-Modells selbst nicht geändert haben, dann ist das so Viele Menschen haben das Gefühl: Warum hat sich die Leistung verschlechtert? Viele Leute haben auch ihre eigenen Vermutungen abgegeben. Der erste mögliche Grund ist psychologischer Natur. François Chollet, Gründer von Keras, sagte, dass sich die Leistung von GPT nicht verschlechtert habe, sondern dass alle die anfängliche Überraschungsphase hinter sich gelassen hätten und ihre Erwartungen daran gestiegen seien. Einige Internetnutzer auf Hacker News vertraten ebenfalls die gleiche Ansicht und fügten hinzu, dass sich der Fokus der Menschen geändert habe und sie ihre eigenen geändert hätten Ansichten zu GPT Es besteht eine erhöhte Sensibilität für Fehler.Abgesehen von den Unterschieden in den psychologischen Gefühlen der Menschen vermuten einige Leute auch, dass die API-Version und die Web-Version nicht unbedingt konsistent sind. aber es gibt keine Beweise.
Es besteht auch die Vermutung, dass bei aktiviertem Plug-in die zusätzlichen Eingabeaufforderungswörter des Plug-ins als eine Art Verschmutzung des zu lösenden Problems angesehen werden können.
△Zusätzliche Eingabeaufforderungswörter im WebPilot-Plug-in
Dieser Internetnutzer sagte: Seiner Ansicht nach verschlechterte sich die Leistung von GPT erst, nachdem begonnen wurde, die Plug-in-Funktion öffentlich zu testen.
Jemand hat die OpenAI-Mitarbeiter auch gefragt, ob sich das Modell selbst nicht geändert hat, aber haben sich die Inferenzparameter geändert?
Qubit hat auch versehentlich „gequält“, dass das Systemaufforderungswort von ChatGPT auf iOS nicht mit der Webversion übereinstimmte.
△möglicherweise nicht erfolgreich, und es besteht eine hohe Wahrscheinlichkeit, dass ich die Antwort verweigern werde
Wenn Sie dann ein in der iOS-Version begonnenes Gespräch in der Webversion fortsetzen, ohne es zu merken, werden Sie möglicherweise feststellen, dass GPT-4-Antworten einfacher werden.
Kurz gesagt, es ist immer noch ein ungelöstes Rätsel, ob GPT-4 seit seiner Veröffentlichung dümmer geworden ist.
Aber eines ist sicher:
Das GPT-4, das alle am 14. März gespielt haben, war nicht so gut wie das in der Zeitung von Anfang an.
Mehr als 150 Seiten Siebdruckpapier veröffentlicht von Microsoft Research"The Spark of AGI: Early Experiments of GPT- 4"# 🎜🎜# machte deutlich:
Sie erlangten Testqualifikationen, bevor die Entwicklung von GPT-4 abgeschlossen war, und führten Langzeittests durch. Später konnten Internetnutzer viele erstaunliche Beispiele in der Arbeit nicht erfolgreich mit der öffentlichen Version von GPT-4 reproduzieren. In der akademischen Gemeinschaft herrscht derzeit die Ansicht vor, dass GPT-4 durch das anschließende RLHF-Training zwar stärker auf den Menschen abgestimmt – das heißt, menschlicher Anweisungen gehorsamer und im Einklang mit menschlichen Werten –, dies aber auch tut Dadurch wird die Fähigkeit zum eigenen Denken gestärkt und andere Fähigkeiten werden schlechter. Einer der Autoren des Papiers, der Microsoft-Wissenschaftler Zhang Yi, wurde auch in der S7E11-Ausgabe der chinesischen Podcast-Sendung „What's Next|Technology Knows Early“ erwähnt: # 🎜🎜#Diese Version Das Modell ist sogar noch stärker als das GPT-4, das jetzt für alle draußen verfügbar ist. Es ist viel stärker.Zum Beispiel erwähnte das Microsoft-Team in dem Artikel, dass es GPT-4 mithilfe von TikZ in LaTeX verfolgte, um in regelmäßigen Abständen ein Einhorn zu zeichnen.
Das letzte im Papier gezeigte Ergebnis ist ziemlich vollständig.
Aber der Erstautor des Papiers, Sebastien Bubeck, enthüllte später weitere Informationen, als er am MIT eine Rede hielt . Später, als OpenAI begann, auf Sicherheitsprobleme zu achten, wurden nachfolgende Versionen bei dieser Aufgabe immer schlechter.Eine Trainingsmethode, die auf den Menschen abgestimmt ist, aber die Obergrenze der eigenen KI nicht herabsetzt Fähigkeiten sind ebenfalls geworden. Es ist derzeit die Forschungsrichtung vieler Teams, steckt aber noch in den Kinderschuhen.
Zusätzlich zu professionellen Forschungsteams verwenden Internetnutzer, die sich für KI interessieren, auch ihre eigenen Methoden, um Veränderungen in den KI-Fähigkeiten zu verfolgen.
Jemand hat GPT-4 gebeten, einmal am Tag ein Einhorn zu zeichnen, und hat dies öffentlich auf der Website aufgezeichnet.
Seit dem 12. April habe ich immer noch nicht die allgemeine Form eines Einhorns gesehen.
Natürlich sagte der Website-Autor, dass er GPT-4 dazu gebracht hat, das SVG-Format zum Zeichnen von Bildern zu verwenden, was auch so ist Anders als das TikZ-Format im Papier Es hat auch Auswirkungen.
Und was ich im April gezeichnet habe, scheint genauso zu sein wie das, was ich jetzt zeichne, und es gibt keinen offensichtlichen Rückschritt.
Abschließend möchte ich Sie noch fragen: Sind Sie ein GPT-4-Benutzer? Haben Sie das Gefühl, dass die Fähigkeiten von GPT-4 in den letzten Wochen nachgelassen haben? Willkommen zum Chat im Kommentarbereich.
Bubeck-Rede: https://www.php.cn/link/a8a5d22acb383aae55937a6936e120b0
Zhang Yi Interview: https://www. php.cn/link/764f9642ebf04622c53ebc366a68c0a7
Ein GPT-4-Einhorn jeden Taghttps://www.php.cn/link/7610db9e380ba9775b3c215346184a87# 🎜🎜##🎜 🎜 #Referenzlink:
https://www.php.cn/link/cd3e48b4bce1f295bd8ed1eb90eb0d85
[2]https://www.php .cn/link/fc2dc7d20994a777cfd5e6de734fe254
[3]https://www.php.cn/link/4dcfbc057e2ae8589f9bbd98b591c50a
# 🎜🎜#[4] https ://www.php.cn/link/0007cda84fafdcf42f96c4f4adb7f8ce
[5]https://www.php.cn/link/cd163419a5f4df0ba7e252841f95fcc1 # 🎜🎜#[ 6 ]
https://www.php.cn/link/afb0b97df87090596ae7c503f60bb23f[7]
https://www.php.cn/link/ef8f94395be9fd78b7d0aecf7864 a03#🎜🎜 #[8]https://www.php.cn/link/30082754836bf11b2c31a0fd3cb4b091
[9]https://www.php.cn/ link/14553eed6ae802daf3f8e8c10b1961f0
Das obige ist der detaillierte Inhalt vonGPT-4 wird dumm und löst öffentliche Meinung aus! Die Qualität des Textcodes hat abgenommen, und OpenAI hat gerade auf Fragen zur Kostenreduzierung und Materialreduzierung geantwortet.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!