


Welche Verbesserung bietet GPT-4 gegenüber ChatGPT? Jen-Hsun Huang führte ein „Kamingespräch' mit dem Mitbegründer von OpenAI
Der wichtigste Unterschied zwischen ChatGPT und GPT-4 besteht darin, dass der Aufbau auf GPT-4 das nächste Zeichen mit höherer Genauigkeit vorhersagt. Je besser ein neuronales Netzwerk das nächste Wort in einem Text vorhersagen kann, desto besser kann es den Text verstehen.
Produziert von Big Data Digest
Autor: Caleb
Welche Funken wird Nvidia auslösen, wenn es auf OpenAI trifft?
Gerade eben hatte NVIDIA-Gründer und CEO Jensen Huang während eines GTC-Kamingesprächs einen ausführlichen Austausch mit OpenAI-Mitbegründer Ilya Sutskever.
Videolink:
https://www.nvidia.cn/gtc-global/session-catalog/?tab.catalogallsessinotallow=16566177511100015Kus#/session/1669748941314001t6Nv
Vor zwei Tagen, OpenAI Einführung von GPT-4, dem bislang leistungsstärksten Modell für künstliche Intelligenz. OpenAI bezeichnet GPT-4 auf seiner offiziellen Website als „das fortschrittlichste System von OpenAI“ und „kann sicherere und nützlichere Antworten liefern“.
Sutskever sagte während des Vortrags auch, dass GPT-4 in vielen Aspekten „erhebliche Verbesserungen“ im Vergleich zu ChatGPT darstellt, und wies darauf hin, dass das neue Modell Bilder und Text lesen kann. „In einer zukünftigen Version erhalten [Benutzer] möglicherweise ein Diagramm“ als Antwort auf Fragen und Anfragen, sagte er.
Es besteht kein Zweifel, dass dies mit der Popularität von ChatGPT und GPT-4 auf globaler Ebene auch zum Schwerpunkt dieses Gesprächs geworden ist. Neben GPT-4 und seinen Vorgängern, einschließlich ChatGPT-bezogener Themen, sind auch Huang Renxun und Sutskever im Mittelpunkt Wir sprachen über die Fähigkeiten, Grenzen und das Innenleben tiefer neuronaler Netze sowie über Vorhersagen für die zukünftige KI-Entwicklung.
Schauen wir uns dieses Gespräch mit Digest Fungus genauer an~
Beginnen wir mit der Zeit, als sich noch niemand um Netzwerk- und Rechengröße kümmerte
Vielleicht denken viele Leute als Erstes, wenn sie den Namen Sutskever hören, an OpenAI und die damit verbundene KI Produkte, aber Sie müssen wissen, dass Sutskevers Lebenslauf auf Andrew Ngs Postdoc, Google Brain-Forscher und Mitentwickler des Seq2Seq-Modells, zurückgeht.
Man kann sagen, dass Deep Learning von Anfang an mit Sutskever verbunden war.
Als Sutskever über sein Verständnis von Deep Learning sprach, sagte er, dass Deep Learning von nun an tatsächlich die Welt verändert habe. Sein persönlicher Ausgangspunkt liegt jedoch eher in seiner Intuition über das enorme Wirkungspotenzial von KI, seinem starken Interesse an Bewusstsein und menschlicher Erfahrung und seiner Überzeugung, dass die Entwicklung von KI zur Beantwortung dieser Fragen beitragen wird.
In den Jahren 2002 bis 2003 glaubten die Menschen allgemein, dass Lernen etwas sei, was nur Menschen tun könnten, Computer jedoch nicht. Und wenn Computer die Fähigkeit erhalten, zu lernen, wäre das ein großer Durchbruch auf dem Gebiet der KI.
Dies ist für Sutskever auch eine Gelegenheit geworden, offiziell in den KI-Bereich einzusteigen.
Also fand Sutskever Jeff Hinton von derselben Universität. Seiner Ansicht nach stellt das neuronale Netzwerk, an dem Hinton arbeitet, den Durchbruch dar, da die Eigenschaften neuronaler Netzwerke parallele Computer sind, die lernen und automatisch programmiert werden können.
Zu dieser Zeit kümmerte sich niemand um die Bedeutung der Netzwerkgröße und des Berechnungsumfangs. Die Menschen trainierten nur 50 oder 100 neuronale Netze, und eine Million Parameter galten ebenfalls als sehr groß.
Außerdem können sie Programme nur auf nicht optimiertem CPU-Code ausführen, da niemand BLAS versteht. Sie verwenden optimiertes Matlab, um einige Experimente durchzuführen, beispielsweise um herauszufinden, welche Art von Fragen besser zu stellen sind.
Aber das Problem ist, dass es sich dabei um sehr verstreute Experimente handelt, die den technologischen Fortschritt nicht wirklich fördern können.
Aufbau neuronaler Netze für Computer Vision
Zu dieser Zeit erkannte Sutskever, dass überwachtes Lernen der Weg in die Zukunft war.
Das ist nicht nur eine Intuition, sondern auch eine unbestreitbare Tatsache. Wenn das neuronale Netzwerk tief genug und groß genug ist, kann es einige schwierige Aufgaben lösen. Aber die Menschen haben sich noch nicht auf tiefe und große neuronale Netze konzentriert oder sich überhaupt auf neuronale Netze konzentriert.
Um eine gute Lösung zu finden, sind ein entsprechend großer Datensatz und viele Berechnungen nötig.
ImageNet sind diese Daten. Zu dieser Zeit war ImageNet ein sehr schwieriger Datensatz, aber um ein großes Faltungs-Neuronales Netzwerk zu trainieren, muss man über entsprechende Rechenleistung verfügen.
Als nächstes erscheint die GPU. Auf Anregung von Jeff Hinton stellten sie fest, dass mit dem Aufkommen des ImageNet-Datensatzes das Faltungs-Neuronale Netzwerk ein sehr geeignetes Modell für die GPU ist, sodass es sehr schnell gemacht werden kann und der Maßstab immer größer wird.
Dann hat es den Rekord der Computer Vision direkt gebrochen. Dies basiert nicht auf der Fortsetzung früherer Methoden. Der Schlüssel liegt in der Schwierigkeit und dem Umfang des Datensatzes selbst.
OpenAI: Von 100 Leuten zu ChatGPT
In den frühen Tagen von OpenAI gab Sutskever offen zu, dass sie nicht ganz sicher waren, wie sie das Projekt fördern sollten.
Zu Beginn des Jahres 2016 waren neuronale Netze noch nicht so weit entwickelt und es gab viel weniger Forscher als jetzt. Sutskever erinnerte sich, dass es damals nur 100 Mitarbeiter im Unternehmen gab und die meisten von ihnen noch bei Google oder DeepMind arbeiteten.
Aber sie hatten damals zwei große Ideen.
Eine davon ist das unbeaufsichtigte Lernen durch Komprimierung. Im Jahr 2016 war unüberwachtes Lernen ein ungelöstes Problem beim maschinellen Lernen, und niemand wusste, wie man es umsetzen sollte. Komprimierung war in letzter Zeit kein Thema, über das normalerweise gesprochen wird, aber plötzlich wurde allen klar, dass GPT tatsächlich die Trainingsdaten komprimiert.
Mathematisch gesehen werden durch das Training dieser autoregressiven generativen Modelle die Daten komprimiert, und Sie können intuitiv erkennen, warum es funktioniert. Wenn die Daten gut genug komprimiert sind, können Sie alle darin enthaltenen verborgenen Informationen extrahieren. Dies führte auch direkt zu OpenAIs verwandter Forschung zu emotionalen Neuronen.
Als sie dasselbe LSTM anpassten, um das nächste Zeichen einer Amazon-Rezension vorherzusagen, stellten sie gleichzeitig fest, dass es im LSTM ein Neuron gibt, das seiner Stimmung entspricht, wenn man das nächste Zeichen gut genug vorhersagt. Dies ist eine gute Demonstration der Wirkung des unbeaufsichtigten Lernens und bestätigt auch die Idee der Vorhersage des nächsten Zeichens.
Aber wo bekommt man die Daten für unüberwachtes Lernen? Laut Sutskever liegt das Problem beim unbeaufsichtigten Lernen weniger in den Daten als vielmehr darin, warum man es tut, und in der Erkenntnis, dass es sich lohnt, ein neuronales Netzwerk zu trainieren, um den nächsten Charakter vorherzusagen, weiterzuverfolgen und zu erforschen. Von dort lernt es eine verständliche Darstellung.
Eine weitere große Idee ist das Reinforcement Learning. Sutskever war schon immer davon überzeugt, dass größer immer besser ist. Eines ihrer Ziele bei OpenAI ist es, den richtigen Weg zur Skalierung herauszufinden.
Das erste wirklich große Projekt, das OpenAI abgeschlossen hat, war die Umsetzung des Strategiespiels Dota 2. Damals trainierte OpenAI einen Reinforcement-Learning-Agenten, um gegen sich selbst zu kämpfen. Ziel war es, ein bestimmtes Level zu erreichen und Spiele mit menschlichen Spielern spielen zu können.
Der Wandel vom verstärkenden Lernen von Dota zum verstärkenden Lernen menschlichen Feedbacks in Kombination mit der GPT-Ausgabetechnologiebasis ist zum heutigen ChatGPT geworden.
Wie OpenAI ein großes neuronales Netzwerk trainiert
Beim Training eines großen neuronalen Netzwerks, um das nächste Wort in verschiedenen Texten im Internet genau vorherzusagen, lernt OpenAI ein Modell der Welt.
Das sieht so aus, als würden wir nur statistische Korrelationen im Text lernen, aber tatsächlich kann das Erlernen dieser statistischen Korrelationen dieses Wissen sehr gut komprimieren. Was das neuronale Netzwerk lernt, sind einige Ausdrücke im Prozess der Textgenerierung. Dieser Text ist eigentlich eine Weltkarte, sodass das neuronale Netzwerk immer mehr Perspektiven lernen kann, um Menschen und die Gesellschaft zu betrachten. Dies ist es, was das neuronale Netzwerk wirklich lernt, um das nächste Wort genau vorherzusagen.
Gleichzeitig gilt: Je genauer die Vorhersage des nächsten Wortes ist, desto höher ist der Grad der Wiederherstellung und desto höher ist die Auflösung der Welt, die in diesem Prozess erzielt wird. Dies ist die Aufgabe der Vortrainingsphase, aber sie führt nicht dazu, dass sich das neuronale Netzwerk so verhält, wie wir es uns wünschen.
Was ein Sprachmodell wirklich versucht, ist: Wenn ich einen zufälligen Text im Internet hätte, beginnend mit einem Präfix oder Hinweis, was würde das vervollständigen?
Natürlich kann man auch Texte im Internet finden, die man ausfüllen kann, aber das ist nicht das, was ursprünglich gedacht war, daher sind hier noch Feinabstimmung, verstärkendes Lernen durch menschliche Lehrer und andere Formen der KI-Unterstützung erforderlich kann ins Spiel kommen.
Aber hier geht es nicht darum, neues Wissen zu vermitteln, sondern darum, mit diesem zu kommunizieren und ihm zu vermitteln, was wir wollen, wozu auch Grenzen gehören. Je besser dieser Prozess durchgeführt wird, desto nützlicher und zuverlässiger wird das neuronale Netzwerk sein und desto höher ist die Genauigkeit der Grenzen.
Reden wir noch einmal über GPT-4
Kurz nachdem ChatGPT die Anwendung mit den am schnellsten wachsenden Nutzern wurde, wurde GPT-4 offiziell veröffentlicht.
Als er über die Unterschiede zwischen den beiden sprach, sagte Sutskever, dass GPT-4 im Vergleich zu ChatGPT in vielen Dimensionen erhebliche Verbesserungen erzielt habe.
Der wichtigste Unterschied zwischen ChatGPT und GPT-4 besteht darin, dass der Aufbau auf GPT-4 das nächste Zeichen mit höherer Genauigkeit vorhersagt. Je besser ein neuronales Netzwerk das nächste Wort in einem Text vorhersagen kann, desto besser kann es den Text verstehen.
Sie lesen zum Beispiel einen Kriminalroman. Die Handlung ist sehr komplex, mit vielen Handlungssträngen und Charakteren durchsetzt und voller mysteriöser Hinweise. Im letzten Kapitel des Buches sammelte der Detektiv alle Hinweise, rief alle zusammen und sagte, dass er nun enthüllen werde, wer der Täter ist und diese Person ...
Das kann GPT-4 vorhersagen.
Die Leute sagen, dass Deep Learning kein logisches Denken ermöglicht. Aber ob es nun dieses Beispiel oder einige der Dinge ist, die GPT tun kann, es zeigt ein gewisses Maß an Argumentationsfähigkeit.
Sutskever antwortete, dass wir bei der Definition logischen Denkens möglicherweise eine bessere Antwort erhalten können, wenn wir bei der nächsten Entscheidung auf eine bestimmte Art und Weise darüber nachdenken können. Es bleibt abzuwarten, wie weit neuronale Netze gehen können, und OpenAI hat sein Potenzial noch nicht vollständig ausgeschöpft.
Einige neuronale Netze verfügen tatsächlich bereits über diese Fähigkeit, aber die meisten davon sind nicht zuverlässig genug. Zuverlässigkeit ist das größte Hindernis für die Nutzung dieser Modelle und stellt gleichzeitig einen großen Engpass bei aktuellen Modellen dar. Es geht nicht darum, ob das Modell über eine bestimmte Fähigkeit verfügt, sondern darum, wie viel Fähigkeit es hat.
Sutskever sagte auch, dass GPT-4 bei seiner Veröffentlichung keine integrierte Suchfunktion hatte, es sei einfach ein gutes Tool, das das nächste Wort vorhersagen könne, aber man kann sagen, dass es diese Fähigkeit voll und ganz hat und machen wird die Suche besser.
Eine weitere wesentliche Verbesserung in GPT-4 ist die Reaktion und Verarbeitung von Bildern. Multimodales Lernen spielt dabei eine wichtige Rolle. Die erste besteht darin, dass Multimodalität für neuronale Netze, insbesondere das Sehen, nützlich ist aus Bildern gelernt.
Die Zukunft der künstlichen Intelligenz
Wenn es darum geht, KI zum Trainieren von KI zu nutzen, sollte dieser Teil der Daten laut Sutskever nicht ignoriert werden.
Es ist schwierig, die zukünftige Entwicklung von Sprachmodellen vorherzusagen, aber nach Ansicht von Sutskever gibt es gute Gründe zu der Annahme, dass dieses Gebiet weiterhin Fortschritte machen wird und die KI die Menschheit weiterhin mit ihrer Stärke an den Grenzen ihrer Fähigkeiten schockieren wird. Die Zuverlässigkeit der KI hängt davon ab, ob man ihr vertrauen kann, und sie wird mit Sicherheit einen Punkt erreichen, an dem man ihr in Zukunft vollkommen vertrauen kann.
Wenn es das nicht vollständig versteht, wird es es auch herausfinden, indem es Fragen stellt oder Ihnen sagt, dass es es nicht weiß. Dies sind die Bereiche, in denen die KI-Benutzerfreundlichkeit den größten Einfluss hat und in der Zukunft die größten Fortschritte verzeichnen wird .
Jetzt stehen wir vor einer solchen Herausforderung: Sie möchten, dass ein neuronales Netzwerk ein langes Dokument zusammenfasst oder eine Zusammenfassung erhält. Wie stellen Sie sicher, dass wichtige Details nicht übersehen werden? Wenn ein Punkt eindeutig wichtig genug ist, dass sich jeder Leser darüber einig ist, kann der vom neuronalen Netzwerk zusammengefasste Inhalt als zuverlässig akzeptiert werden.
Gleiches gilt für die Frage, ob das neuronale Netzwerk eindeutig der Benutzerabsicht folgt.
Wir werden in den nächsten zwei Jahren immer mehr Technologien wie diese sehen, wodurch diese Technologie immer zuverlässiger wird.
Verwandte Berichte: https://blogs.nvidia.com/blog/2023/03/22/sutskever-openai-gtc/
Das obige ist der detaillierte Inhalt vonWelche Verbesserung bietet GPT-4 gegenüber ChatGPT? Jen-Hsun Huang führte ein „Kamingespräch' mit dem Mitbegründer von OpenAI. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



DALL-E 3 wurde im September 2023 offiziell als deutlich verbessertes Modell gegenüber seinem Vorgänger eingeführt. Er gilt als einer der bisher besten KI-Bildgeneratoren und ist in der Lage, Bilder mit komplexen Details zu erstellen. Zum Start war es jedoch exklusiv

Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

Heutige Deep-Learning-Methoden konzentrieren sich darauf, die am besten geeignete Zielfunktion zu entwerfen, damit die Vorhersageergebnisse des Modells der tatsächlichen Situation am nächsten kommen. Gleichzeitig muss eine geeignete Architektur entworfen werden, um ausreichend Informationen für die Vorhersage zu erhalten. Bestehende Methoden ignorieren die Tatsache, dass bei der schichtweisen Merkmalsextraktion und räumlichen Transformation der Eingabedaten eine große Menge an Informationen verloren geht. Dieser Artikel befasst sich mit wichtigen Themen bei der Datenübertragung über tiefe Netzwerke, nämlich Informationsengpässen und umkehrbaren Funktionen. Darauf aufbauend wird das Konzept der programmierbaren Gradienteninformation (PGI) vorgeschlagen, um die verschiedenen Änderungen zu bewältigen, die tiefe Netzwerke zur Erreichung mehrerer Ziele erfordern. PGI kann vollständige Eingabeinformationen für die Zielaufgabe zur Berechnung der Zielfunktion bereitstellen und so zuverlässige Gradienteninformationen zur Aktualisierung der Netzwerkgewichte erhalten. Darüber hinaus wird ein neues, leichtgewichtiges Netzwerk-Framework entworfen

Der humanoide Roboter Ameca wurde auf die zweite Generation aufgerüstet! Kürzlich erschien auf der World Mobile Communications Conference MWC2024 erneut der weltweit fortschrittlichste Roboter Ameca. Rund um den Veranstaltungsort lockte Ameca zahlreiche Zuschauer an. Mit dem Segen von GPT-4 kann Ameca in Echtzeit auf verschiedene Probleme reagieren. „Lass uns tanzen.“ Auf die Frage, ob sie Gefühle habe, antwortete Ameca mit einer Reihe von Gesichtsausdrücken, die sehr lebensecht aussahen. Erst vor wenigen Tagen stellte EngineeredArts, das britische Robotikunternehmen hinter Ameca, die neuesten Entwicklungsergebnisse des Teams vor. Im Video verfügt der Roboter Ameca über visuelle Fähigkeiten und kann den gesamten Raum und bestimmte Objekte sehen und beschreiben. Das Erstaunlichste ist, dass sie es auch kann

Zu Llama3 wurden neue Testergebnisse veröffentlicht – die große Modellbewertungs-Community LMSYS veröffentlichte eine große Modell-Rangliste, die Llama3 auf dem fünften Platz belegte und mit GPT-4 den ersten Platz in der englischen Kategorie belegte. Das Bild unterscheidet sich von anderen Benchmarks. Diese Liste basiert auf Einzelkämpfen zwischen Modellen, und die Bewerter aus dem gesamten Netzwerk machen ihre eigenen Vorschläge und Bewertungen. Am Ende belegte Llama3 den fünften Platz auf der Liste, gefolgt von drei verschiedenen Versionen von GPT-4 und Claude3 Super Cup Opus. In der englischen Einzelliste überholte Llama3 Claude und punktgleich mit GPT-4. Über dieses Ergebnis war Metas Chefwissenschaftler LeCun sehr erfreut und leitete den Tweet weiter

Installationsschritte: 1. Laden Sie die ChatGTP-Software von der offiziellen ChatGTP-Website oder dem mobilen Store herunter. 2. Wählen Sie nach dem Öffnen in der Einstellungsoberfläche die Sprache aus. 3. Wählen Sie in der Spieloberfläche das Mensch-Maschine-Spiel aus 4. Geben Sie nach dem Start Befehle in das Chatfenster ein, um mit der Software zu interagieren.

Die Lautstärke ist verrückt, die Lautstärke ist verrückt und das große Modell hat sich wieder verändert. Gerade eben wechselte das leistungsstärkste KI-Modell der Welt über Nacht den Besitzer und GPT-4 wurde vom Altar genommen. Anthropic hat die neueste Claude3-Modellreihe veröffentlicht. Eine Satzbewertung: Sie zerschmettert GPT-4 wirklich! In Bezug auf multimodale Indikatoren und Sprachfähigkeitsindikatoren gewinnt Claude3. In den Worten von Anthropic haben die Modelle der Claude3-Serie neue Branchenmaßstäbe in den Bereichen Argumentation, Mathematik, Codierung, Mehrsprachenverständnis und Vision gesetzt! Anthropic ist ein Startup-Unternehmen, das von Mitarbeitern gegründet wurde, die aufgrund unterschiedlicher Sicherheitskonzepte von OpenAI „abgelaufen“ sind. Ihre Produkte haben OpenAI immer wieder hart getroffen. Dieses Mal musste sich Claude3 sogar einer großen Operation unterziehen.

Papieradresse: https://arxiv.org/abs/2307.09283 Codeadresse: https://github.com/THU-MIG/RepViTRepViT funktioniert gut in der mobilen ViT-Architektur und zeigt erhebliche Vorteile. Als nächstes untersuchen wir die Beiträge dieser Studie. In dem Artikel wird erwähnt, dass Lightweight-ViTs bei visuellen Aufgaben im Allgemeinen eine bessere Leistung erbringen als Lightweight-CNNs, hauptsächlich aufgrund ihres Multi-Head-Selbstaufmerksamkeitsmoduls (MSHA), das es dem Modell ermöglicht, globale Darstellungen zu lernen. Allerdings wurden die architektonischen Unterschiede zwischen Lightweight-ViTs und Lightweight-CNNs noch nicht vollständig untersucht. In dieser Studie integrierten die Autoren leichte ViTs in die effektiven
