Künstliche Intelligenz (KI) macht große Fortschritte bei der Veränderung der Art und Weise, wie wir leben, arbeiten und mit Technologie interagieren. Ein Bereich, in dem in letzter Zeit erhebliche Fortschritte erzielt wurden, ist die Entwicklung großer Sprachmodelle (LLMs) wie GPT-3, ChatGPT und GPT-4. Diese Modelle können Aufgaben wie Sprachübersetzung, Textzusammenfassung und Beantwortung von Fragen genau ausführen.
Obwohl es schwer ist, die ständig wachsenden Modellgrößen von LLMs zu ignorieren, ist es auch wichtig zu erkennen, dass ihr Erfolg größtenteils auf den großen Mengen hochwertiger Daten beruht, die zu ihrer Schulung verwendet werden.
In diesem Artikel geben wir einen Überblick über die jüngsten Fortschritte im LLM aus einer datenzentrierten KI-Perspektive. Wir werden GPT-Modelle durch eine datenzentrierte KI-Linse untersuchen, ein wachsendes Konzept in der Data-Science-Community. Wir enthüllen die datenzentrierten KI-Konzepte hinter dem GPT-Modell, indem wir drei datenzentrierte KI-Ziele diskutieren: Trainingsdatenentwicklung, Inferenzdatenentwicklung und Datenpflege.
LLM ist ein natürliches Sprachverarbeitungsmodell, das darauf trainiert ist, Wörter im Kontext abzuleiten. Die grundlegendste Funktion von LLM besteht beispielsweise darin, fehlende Marker im gegebenen Kontext vorherzusagen. Zu diesem Zweck werden LLMs darauf trainiert, die Wahrscheinlichkeit jedes Kandidatenworts aus riesigen Datenmengen vorherzusagen. Die folgende Abbildung ist ein anschauliches Beispiel für die Verwendung von LLM im Kontext zur Vorhersage der Wahrscheinlichkeit fehlender Marker.
GPT-Modell bezieht sich auf eine Reihe von LLMs, die von OpenAI erstellt wurden, wie GPT-1, GPT-2, GPT-3, InstructGPT, ChatGPT/GPT-4 usw. Wie andere LLMs basiert die Architektur des GPT-Modells hauptsächlich auf Transformers, das Text- und Ortseinbettungen als Eingaben verwendet und Aufmerksamkeitsebenen verwendet, um die Beziehungen von Token zu modellieren.
GPT-1-Modellarchitektur
Spätere GPT-Modelle verwenden eine ähnliche Architektur wie GPT-1, außer dass sie mehr Modellparameter und mehr Ebenen, eine größere Kontextlänge, versteckte Ebenengröße usw. verwenden.
Datenzentrierte KI ist eine neue Denkweise zum Aufbau von KI-Systemen. Datenzentrierte KI ist die Disziplin der systematischen Gestaltung der Daten, die zum Aufbau künstlicher Intelligenzsysteme verwendet werden.
In der Vergangenheit haben wir uns hauptsächlich darauf konzentriert, bessere Modelle zu erstellen (modellzentrierte KI), wenn die Daten im Wesentlichen unverändert sind. Allerdings kann dieser Ansatz in der Praxis zu Problemen führen, da er verschiedene Probleme, die in den Daten auftreten können, wie Ungenauigkeiten bei der Beschriftung, Duplikate und Verzerrungen, nicht berücksichtigt. Daher führt eine „Überanpassung“ eines Datensatzes nicht unbedingt zu einem besseren Modellverhalten.
Im Gegensatz dazu konzentriert sich datenzentrierte KI auf die Verbesserung der Qualität und Quantität der Daten, die zum Aufbau von KI-Systemen verwendet werden. Das bedeutet, dass die Aufmerksamkeit auf den Daten selbst liegt und das Modell vergleichsweise fester ist. Die Verwendung eines datenzentrierten Ansatzes zur Entwicklung von KI-Systemen hat in realen Szenarien ein größeres Potenzial, da die für das Training verwendeten Daten letztendlich die maximalen Fähigkeiten des Modells bestimmen.
Es sollte beachtet werden, dass es einen grundlegenden Unterschied zwischen „datenzentriert“ und „datengesteuert“ gibt. Letzteres legt nur den Schwerpunkt auf die Verwendung von Daten zur Steuerung der Entwicklung künstlicher Intelligenz und konzentriert sich in der Regel immer noch auf die Entwicklung von Modellen und nicht auf Daten.
Vergleich zwischen datenzentrierter KI und modellzentrierter KI
Das datenzentrierte KI-Framework enthält drei Ziele:
Warum datenzentrierte KI das GPT-Modell erfolgreich macht
Vor ein paar Monaten twitterte Yann LeCun, dass ChatGPT nichts Neues sei. Tatsächlich sind alle in ChatGPT und GPT-4 verwendeten Techniken (Transformatoren, verstärkendes Lernen aus menschlichem Feedback usw.) überhaupt nicht neu. Sie erzielten jedoch Ergebnisse, die mit früheren Modellen nicht möglich waren. Was ist also der Grund für ihren Erfolg?
Trainingsdatenentwicklung.Die Menge und Qualität der zum Training von GPT-Modellen verwendeten Daten hat sich durch bessere Datenerfassung, Datenkennzeichnung und Datenaufbereitungsstrategien erheblich verbessert.
GPT-1:
BooksCorpus-Datensatz wird für das Training verwendet. Der Datensatz enthält 4629,00 MB Rohtext, der verschiedene Buchgenres wie Abenteuer, Fantasy und Liebesromane abdeckt.Stellen Sie sich rechtzeitig ein
Das Entwerfen der richtigen Argumentationsaufforderungen ist eine herausfordernde Aufgabe. Es basiert stark auf Heuristiken. Eine gute Umfrage fasst die verschiedenen Werbemethoden zusammen. Manchmal können selbst semantisch ähnliche Hinweise sehr unterschiedliche Ergebnisse haben. In diesem Fall ist möglicherweise eine Soft-Cue-basierte Kalibrierung erforderlich, um die Varianz zu reduzieren.
Die Forschung zur Entwicklung von LLM-Inferenzdaten befindet sich noch in einem frühen Stadium. In naher Zukunft können im LLM weitere inferenzielle Datenentwicklungstechniken angewendet werden, die für andere Aufgaben verwendet wurden.
Datenpflege. ChatGPT/GPT-4 wird als kommerzielles Produkt nicht nur einmal trainiert, sondern auch kontinuierlich aktualisiert und gepflegt. Offensichtlich haben wir keine Möglichkeit zu wissen, wie die Datenpflege außerhalb von OpenAI erfolgt. Daher diskutieren wir einige allgemeine datenzentrierte KI-Strategien, die mit GPT-Modellen verwendet wurden oder höchstwahrscheinlich verwendet werden:
- Kontinuierliche Datenerfassung: Unsere Tipps, wenn wir ChatGPT/GPT-4/ verwenden. Das Feedback kann wiederum verwendet werden von OpenAI, um ihre Modelle weiterzuentwickeln. Möglicherweise wurden Qualitätsmetriken und Sicherungsstrategien entworfen und implementiert, um während des Prozesses qualitativ hochwertige Daten zu sammeln.
- Tools zum Datenverständnis: Es können verschiedene Tools entwickelt werden, um Benutzerdaten zu visualisieren und zu verstehen, ein besseres Verständnis der Benutzerbedürfnisse zu fördern und die Richtung zukünftiger Verbesserungen zu bestimmen.
- Effiziente Datenverarbeitung: Angesichts des schnellen Wachstums der Anzahl der ChatGPT/GPT-4-Benutzer ist ein effizientes Datenverwaltungssystem erforderlich, um eine schnelle Datenerfassung zu erreichen.
Das Bild oben ist ein Beispiel dafür, wie ChatGPT/GPT-4 Benutzerfeedback durch „Likes“ und „Dislikes“ sammelt.
Der Erfolg von LLM hat die künstliche Intelligenz revolutioniert. Künftig kann LLM den Lebenszyklus der Datenwissenschaft weiter revolutionieren. Wir machen zwei Vorhersagen:
Viele mühsame datenwissenschaftliche Aufgaben können mit Hilfe von LLM effizienter ausgeführt werden. ChaGPT/GPT-4 ermöglicht es beispielsweise bereits, funktionierenden Code zu schreiben, um Daten zu verarbeiten und zu bereinigen. Darüber hinaus können mit LLM sogar Trainingsdaten erstellt werden. Beispielsweise kann die Verwendung von LLM zur Generierung synthetischer Daten die Modellleistung beim Text Mining verbessern.
Das obige ist der detaillierte Inhalt vonSprechen Sie über die datenzentrierte KI hinter dem GPT-Modell. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!