Das Geheimnis der datenzentrierten KI im GPT-Modell-KI-php.cn

Übersetzer |. 🎜🎜#rezension | ## 🎜🎜#Das Bild stammt aus dem Artikel https://www.php.cn/link/f74412c3c1c8899f3c130bb30ed0e363, erstellt vom Autor selbst. Unglaublicher Fortschritt. Ein Bereich, der in letzter Zeit erhebliche Fortschritte gemacht hat, ist die Entwicklung großer Sprachmodelle (LLMs), wie z 🎜# und GPT-4#🎜 🎜#. Diese Modelle sind in der Lage, Aufgaben wie Sprachübersetzung, Textzusammenfassung und Beantwortung von Fragen mit beeindruckender Genauigkeit auszuführen.

Während es schwer ist, die ständig wachsenden Modellgrößen großer Sprachmodelle zu ignorieren, ist es ebenso wichtig zu erkennen, dass ihr Erfolg größtenteils auf die Verwendung ihrer großen Mengen zurückzuführen ist hochwertiger Daten.

Das Geheimnis der datenzentrierten KI im GPT-Modell

In diesem Artikel geben wir einen Überblick über die jüngsten Fortschritte bei groß angelegten Sprachmodellen aus einem datenzentrierten künstlichen Umfeld Sehen Sie sich bitte unsere Standpunkte in aktuellen Umfragepapieren (Ende der Literatur 1 und 2) und die entsprechenden Technische Ressourcen

#🎜 an 🎜# auf GitHub. Insbesondere werden wir das GPT-Modell aus der Sicht der datenzentrierten künstlichen Intelligenz genauer betrachten, was in der Data-Science-Community eine wachsende Stimmung darstellt. Wir werden das datenzentrierte #🎜🎜 hinter dem GPT-Modell enthüllen, indem wir drei datenzentrierte Ziele der künstlichen Intelligenz diskutieren – Trainingsdatenentwicklung, Inferenzdatenentwicklung und Datenpflege #Konzept der künstlichen Intelligenz#🎜 🎜#. Groß angelegtes Sprachmodell und GPT-Modell LLM (Large-scale Language Model) ist ein trainiertes Modell zur Verarbeitung natürlicher Sprache im Kontext operieren, Wörter ableiten. Die grundlegendste Funktion von LLM besteht beispielsweise darin, fehlende Token im gegebenen Kontext vorherzusagen. Zu diesem Zweck wird LLM darauf trainiert, die Wahrscheinlichkeit jedes Kandidaten-Tokens aus riesigen Datenmengen vorherzusagen. Sagen Sie die Wahrscheinlichkeit fehlender Token mithilfe eines großen Sprachmodells mit Kontext voraus Anschauliches Beispiel für (Bild vom Autor selbst bereitgestellt)

GPT-Modell bezieht sich auf eine Reihe groß angelegter Sprachmodelle, die von OpenAI erstellt wurden, wie z. B. GPT-1#🎜 🎜## 🎜🎜#, GPT-2, GPT-3, InstructGPT#🎜🎜 # und #🎜 🎜#ChatGPT/GPT-4. Wie andere große Sprachmodelle basiert die Architektur des GPT-Modells stark auf Transformern, die Text- und Positionseinbettungen als Eingabe verwenden und Aufmerksamkeitsebenen verwenden, um Beziehungen zwischen Token zu modellieren.

GPT-1-Modellarchitekturdiagramm, dieses Bild stammt aus dem Artikel https://www.php.cn /link/c3bfbc2fc89bd1dd71ad5fc5ac96ae69 Das Geheimnis der datenzentrierten KI im GPT-Modell

Das spätere GPT-Modell verwendet eine ähnliche Architektur wie GPT-1, verwendet jedoch mehr Modellparameter mit mehr Ebenen, größere Kontextlänge, ausgeblendete Ebenengröße usw. Vergleich verschiedener Modellgrößen von GPT-Modellen (Bild vom Autor bereitgestellt)

Was ist datenzentrierte künstliche Intelligenz?

Datenzentrierte künstliche Intelligenz ist eine neue Denkweise zum Aufbau künstlicher Intelligenzsysteme. Andrew Ng, Pionier der künstlichen Intelligenz, vertritt diese Idee. Datenzentrierte künstliche Intelligenz ist die Disziplin der systematischen Entwicklung der Daten, die zum Aufbau künstlicher Intelligenzsysteme verwendet werden.

Das Geheimnis der datenzentrierten KI im GPT-Modell ——Andrew Ng

In der Vergangenheit haben wir uns hauptsächlich darauf konzentriert, bessere Modelle zu erstellen, wenn die Daten im Wesentlichen unverändert sind (wobei wir das Modell als angenommen haben). Zentrum für Künstliche Intelligenz). Allerdings kann dieser Ansatz in der Praxis zu Problemen führen, da er verschiedene Probleme, die in den Daten auftreten können, wie etwa ungenaue Bezeichnungen, Duplikate und Verzerrungen, nicht berücksichtigt. Daher muss eine „Überanpassung“ eines Datensatzes nicht unbedingt zu einem besseren Modellverhalten führen.

Im Gegensatz dazu konzentriert sich datenzentrierte KI auf die Verbesserung der Qualität und Quantität der zum Aufbau von KI-Systemen verwendeten Daten. Dies bedeutet, dass die Aufmerksamkeit auf die Daten selbst gerichtet wird, während das Modell vergleichsweise fester ist. Ein datenzentrierter Ansatz zur Entwicklung von KI-Systemen hat in der realen Welt ein größeres Potenzial, da die für das Training verwendeten Daten letztendlich die maximalen Fähigkeiten des Modells bestimmen.

Es ist erwähnenswert, dass sich „datenzentriert“ grundlegend von „datengesteuert“ unterscheidet, da letzteres nur betont Nutzen Sie Daten zur Steuerung der KI-Entwicklung, bei der es oft immer noch um die Entwicklung von Modellen und nicht um technische Daten geht.

Datenzentrierte künstliche Intelligenz und modellzentrierte künstliche Intelligenz Vergleich von KI (Bild von https://www.php.cn/link/f9afa97535cf7c8789a1c50a2cd83787 Autor des Papiers), das datenzentrierte Framework für künstliche Intelligenz besteht aus drei Zielen:

#🎜 🎜#

Trainingsdatenentwicklung ist die Sammlung und Generierung umfangreicher, qualitativ hochwertiger Daten zur Unterstützung des Trainings von Modellen für maschinelles Lernen.
Die Entwicklung von Inferenzdaten wird verwendet, um neue Bewertungssätze zu erstellen, die detailliertere Einblicke in das Modell liefern oder durch technische Dateneingaben spezifische Funktionen des Modells auslösen können.
Datenpflege soll die Qualität und Zuverlässigkeit von Daten in einer dynamischen Umgebung sicherstellen. Die Datenpflege ist von entscheidender Bedeutung, da reale Daten nicht einmal erstellt werden, sondern eine fortlaufende Pflege erfordern.

Datenzentriertes Framework für künstliche Intelligenz (Bild vom Autor des Artikels https://www.php.cn/link/f74412c3c1c8899f3c130bb30ed0e363)

Warum Datenzentrierte KI macht das GPT-Modell so erfolgreich?

Vor ein paar Monaten erklärte Yann LeCun, ein führendes Unternehmen in der Branche der künstlichen Intelligenz, auf seinem Twitter, dass ChatGPT nichts Neues sei. Tatsächlich sind alle in ChatGPT und GPT-4 verwendeten Techniken (TTransformer und verstärkendes Lernen aus menschlichem Feedback usw.) keine neuen Technologien. Allerdings erzielten sie unglaubliche Ergebnisse, die frühere Modelle nicht erreichen konnten. Was also treibt ihren Erfolg an?

Das Geheimnis der datenzentrierten KI im GPT-Modell

Stärken Sie zunächst die AusbildungDatenentwicklung. Durch bessere Datenerfassung, Datenkennzeichnung und Datenaufbereitungsstrategien ist die Quantität und Qualität der zum Training von GPT-Modellen verwendeten Daten erheblich gestiegen.

GPT-1: BooksCorpus-Datensatz wurde für das Training verwendet. Der Datensatz enthält 4629 MB Rohtext und deckt Bücher verschiedener Genres ab, darunter Abenteuer, Fantasy und Liebesromane.

Es wird keine datenzentrierte KI-Strategie verwendet.
Trainingsergebnisse: Die Anwendung von GPT-1 auf diesen Datensatz kann die Leistung nachgelagerter Aufgaben durch Feinabstimmung verbessern.
Einsatz einer datenzentrierten KI-Strategie: (1) Kontrollieren/Filtern von Daten nur unter Verwendung ausgehender Links von Reddit, die mindestens 3 Ergebnisse erhalten haben; (2) Verwenden Sie die Tools Dragnet und Zeitung, um „saubere“ Inhalte zu extrahieren; 3) verwendet Deduplizierung und einige andere heuristische Reinigungsmethoden (die Details werden im Artikel nicht erwähnt).
Trainingsergebnisse: 40 GB Text nach der Reinigung erhalten. GPT-2 erzielt robuste Zero-Shot-Ergebnisse ohne Feinabstimmung.
verwendet eine datenzentrierte Strategie der künstlichen Intelligenz: (1) Trainieren Sie einen Klassifikator, um Dokumente mit geringer Qualität basierend auf der Ähnlichkeit jedes Dokuments mit WebText herauszufiltern, das ein Proxy für Dokumente mit hoher Qualität ist. (2) Verwenden Sie MinHashLSH von Spark, um eine Fuzzy-Deduplizierung für Dokumente durchzuführen. (3) Verwenden Sie WebText, Buchkorpora und Wikipedia, um Daten zu verbessern.
Trainingsergebnisse: 570 GB Text wurden aus 45 TB Klartext gefiltert (nur 1,27 % der Daten wurden bei dieser Qualitätsfilterung ausgewählt). In der Zero-Sample-Einstellung übertrifft GPT-3 GPT-2 deutlich.
verwendet eine datenzentrierte Strategie der künstlichen Intelligenz: (1) Verwenden Sie von Menschen bereitgestellte schnelle Antworten, um das Modell durch überwachtes Training anzupassen. (2) Sammeln Sie Vergleichsdaten, um ein Belohnungsmodell zu trainieren, und verwenden Sie dann das Belohnungsmodell, um GPT-3 durch verstärkendes Lernen aus menschlichem Feedback (RLHF) zu optimieren.
Trainingsergebnisse: InstructGPT zeigt eine bessere Authentizität und weniger Voreingenommenheit, d. h. eine bessere Konsistenz.

GPT-2: Verwenden Sie WebText für Training. Dies ist ein interner Datensatz innerhalb von OpenAI, der durch das Scrapen ausgehender Links von Reddit erstellt wurde.
GPT-3: Das Training von GPT-3 basiert hauptsächlich auf dem Common Crawl Tool.
InstructGPT: Lassen Sie die GPT-3-Antworten durch die menschliche Bewertung so anpassen, dass sie den menschlichen Erwartungen besser entsprechen. Sie entwickelten Tests für Annotatoren, und nur diejenigen, die die Tests bestehen konnten, kamen für die Annotation in Frage. Darüber hinaus haben sie sogar eine Umfrage entworfen, um sicherzustellen, dass den Annotatoren der Annotationsprozess Spaß macht.
ChatGPT/GPT-4: OpenAI hat keine Details bekannt gegeben. Aber wie wir alle wissen, folgt ChatGPT/GPT-4 weitgehend dem Design früherer GPT-Modelle und sie verwenden immer noch RLHF, um das Modell zu optimieren (möglicherweise mit mehr und qualitativ hochwertigeren Daten/Labels). Es ist allgemein anerkannt, dass GPT-4 mit zunehmenden Modellgewichten größere Datensätze verwendet.

Zweitens: Entwickeln Sie Inferenzdaten. Da neuere GPT-Modelle leistungsfähig genug geworden sind, können wir verschiedene Ziele erreichen, indem wir die Hinweise (oder die Inferenzdaten) anpassen und gleichzeitig das Modell korrigieren. Beispielsweise können wir eine Textzusammenfassung durchführen, indem wir den Text der Zusammenfassung zusammen mit Anweisungen wie „Zusammenfassen“ oder „TL;DR“ bereitstellen, um den Inferenzprozess zu leiten.

Das Geheimnis der datenzentrierten KI im GPT-Modell

Prompte Feinabstimmung, Bilder vom Autor zur Verfügung gestellt

Das Entwerfen der richtigen Argumentationsaufforderungen ist eine herausfordernde Aufgabe. Es basiert stark auf heuristischen Techniken. Eine gute Umfrage fasst die verschiedenen Aufforderungsmethoden zusammen, die Menschen bisher verwenden. Manchmal können selbst semantisch ähnliche Hinweise sehr unterschiedliche Ergebnisse haben. In diesem Fall ist möglicherweise eine Soft-Cue-basierte Kalibrierung erforderlich, um die Diskrepanz zu verringern.

Das Geheimnis der datenzentrierten KI im GPT-Modell

Soft-Prompt-basierte Kalibrierung. Dieses Bild stammt aus dem Artikel https://arxiv.org/abs/2303.13035v1, mit Genehmigung des ursprünglichen Autors

Die Forschung zur Entwicklung groß angelegter Sprachmodell-Inferenzdaten befindet sich noch in einem frühen Stadium . In naher Zukunft könnten weitere Techniken zur Entwicklung von Inferenzdaten, die bereits für andere Aufgaben verwendet werden, auf den Bereich großer Sprachmodelle angewendet werden.

Im Hinblick auf die Datenpflege ist ChatGPT/GPT-4 als kommerzielles Produkt nicht nur ein erfolgreiches Training, sondern erfordert eine kontinuierliche Aktualisierung und Wartung. Offensichtlich wissen wir nicht, wie die Datenpflege außerhalb von OpenAI durchgeführt wird. Daher diskutieren wir einige allgemeine datenzentrierte KI-Strategien, die wahrscheinlich in GPT-Modellen verwendet werden oder verwendet werden:

Kontinuierliche Datenerfassung: Wenn wir ChatGPT/GPT-4 verwenden, können unsere Tipps/Feedback wiederum von OpenAI genutzt werden, um ihre Modelle weiterzuentwickeln. Möglicherweise wurden Qualitätsmetriken und Sicherungsstrategien entworfen und implementiert, um während des Prozesses qualitativ hochwertige Daten zu sammeln.
Tools zum Datenverständnis: Es ist möglich, dass verschiedene Tools entwickelt wurden, um Benutzerdaten zu visualisieren und zu verstehen, ein besseres Verständnis der Benutzerbedürfnisse zu fördern und die Richtung zukünftiger Verbesserungen zu bestimmen.
Effiziente Datenverarbeitung: Angesichts des schnellen Wachstums der Anzahl der ChatGPT/GPT-4-Benutzer ist ein effizientes Datenverwaltungssystem erforderlich, um eine schnelle Datenerfassung zu erreichen.

Das ChatGPT/GPT-4-System ist in der Lage, Benutzerfeedback über die beiden Symbolschaltflächen „Daumen hoch“ und „Daumen runter“ zu sammeln, wie im Bild gezeigt, um die Entwicklung ihres Systems weiter voranzutreiben. Der Screenshot hier stammt von https://chat.openai.com/chat.

Was kann die Data-Science-Community aus dieser Welle großer Sprachmodelle lernen?

Der Erfolg groß angelegter Sprachmodelle hat die künstliche Intelligenz revolutioniert. Zukünftig könnten große Sprachmodelle den Lebenszyklus der Datenwissenschaft weiter revolutionieren. Dazu treffen wir zwei Prognosen:

Datenzentrierte künstliche Intelligenz wird immer wichtiger. Nach Jahren der Forschung ist das Modelldesign sehr ausgereift, insbesondere nach Transformer. Technische Daten werden in Zukunft zum wichtigsten (oder vielleicht einzigen) Weg zur Verbesserung von KI-Systemen. Wenn das Modell außerdem leistungsfähig genug ist, müssen wir es in unserer täglichen Arbeit nicht trainieren. Stattdessen müssen wir nur geeignete Inferenzdaten entwerfen (Just-in-Time-Engineering), um Erkenntnisse aus dem Modell zu ermitteln. Daher wird die Forschung und Entwicklung datenzentrierter KI den zukünftigen Fortschritt vorantreiben.
Große Sprachmodelle werden bessere datenzentrierte Lösungen für künstliche Intelligenz ermöglichen. Viele mühsame Data-Science-Aufgaben können mithilfe großer Sprachmodelle effizienter ausgeführt werden. ChaGPT/GPT-4 ermöglicht beispielsweise bereits das Schreiben von Betriebscode zur Verarbeitung und Bereinigung von Daten. Darüber hinaus können große Sprachmodelle sogar zur Erstellung von Daten für das Training verwendet werden. Jüngste Arbeiten haben beispielsweise gezeigt, dass die Verwendung großer Sprachmodelle zur Generierung synthetischer Daten die Modellleistung beim klinischen Text-Mining verbessern kann.

Das Geheimnis der datenzentrierten KI im GPT-Modell

Verwenden Sie ein großes Sprachmodell, um synthetische Daten zu generieren und das Modell zu trainieren. Das Bild hier stammt aus dem Artikel https://arxiv.org/abs/2303.04360, mit Genehmigung des ursprünglichen Autors

Referenzinformationen

Ich hoffe, dieser Artikel inspiriert Sie bei Ihrer eigenen Arbeit. In den folgenden Artikeln können Sie mehr über datenzentrierte KI-Frameworks und deren Vorteile für große Sprachmodelle erfahren:

［1］Ein Überblick über datenzentrierte künstliche Intelligenz.

[2]Die Aussichten und Herausforderungen datenzentrierter künstlicher Intelligenz.

Beachten Sie, dass wir auch ein GitHub-Code-Repository unterhalten, das relevante datenzentrierte Ressourcen für künstliche Intelligenz regelmäßig aktualisiert.

In zukünftigen Artikeln werde ich mich mit den drei Zielen der datenzentrierten künstlichen Intelligenz (Trainingsdatenentwicklung, Inferenzdatenentwicklung und Datenpflege) befassen und repräsentative Methoden vorstellen.

Übersetzer-Einführung

Zhu Xianzhong, 51CTO-Community-Redakteur, 51CTO-Expertenblogger, Dozent, Computerlehrer an einer Universität in Weifang und ein Veteran in der freiberuflichen Programmierbranche.

Originaltitel: Was sind die datenzentrierten KI-Konzepte hinter GPT-Modellen?, Autor: Henry Lai

Das obige ist der detaillierte Inhalt vonDas Geheimnis der datenzentrierten KI im GPT-Modell. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!