Übersetzer |. Cui Hao
Rezensent |. Eröffnung
Große Sprachmodelle (LLMs) sind Deep-Learning-Modelle, die darauf trainiert sind, Text zu generieren. Mit beeindruckenden Fähigkeiten sind LLMs führend in der modernen Verarbeitung natürlicher Sprache (NLP). Traditionell wurden sie von akademischen Institutionen und großen Technologieunternehmen wie OpenAI, Microsoft und Nvidia vorab ausgebildet. Die meisten davon werden anschließend der öffentlichen Nutzung zugänglich gemacht. Dieser Plug-and-Play-Ansatz ist ein wichtiger Schritt hin zu groß angelegten KI-Anwendungen – Unternehmen können sich nun auf die Feinabstimmung bestehender LLM-Modelle für bestimmte Anwendungsfälle konzentrieren, anstatt erhebliche Ressourcen für das Training von Modellen mit allgemeinen Sprachfähigkeiten aufzuwenden .
Allerdings kann es immer noch schwierig sein, das richtige Modell für Ihre Anwendung auszuwählen. Benutzer und andere Interessengruppen müssen zwischen einem lebendigen Sprachmodell und den damit verbundenen Innovationsszenarien wählen. Diese Verbesserungen betreffen verschiedene Komponenten des Sprachmodells, einschließlich seiner Trainingsdaten, Pre-Training-Ziele, Architektur und Feinabstimmungsmethoden – jeder Aspekt könnte ein Buch füllen. Zusätzlich zu all dieser Forschung hat der Marketing- und KI-Heiligenschein, der Sprachmodelle umgibt, die Dinge noch unklarer gemacht.
In diesem Artikel werden die wichtigsten Konzepte und Prinzipien hinter LLMs erläutert. Sein Zweck besteht darin, nicht-technischen Stakeholdern ein intuitives Verständnis und eine Sprache für eine effiziente Interaktion mit Entwicklern und KI-Experten zu vermitteln. Um die Abdeckung zu erweitern, enthält der Artikel Analysen, die auf einer großen Anzahl von NLP-bezogenen Veröffentlichungen basieren. Obwohl wir nicht auf die mathematischen Details von Sprachmodellen eingehen, können diese leicht aus den Referenzen entnommen werden.
Der Artikel ist wie folgt aufgebaut: Zunächst wird das Sprachmodell in die sich entwickelnde NLP-Umgebung gestellt. Abschnitt 2 erklärt, wie LLMs aufgebaut und vorab trainiert werden. Abschließend wird der Feinabstimmungsprozess beschrieben und einige Hinweise zur Modellauswahl gegeben.
2. Die Welt der Sprachmodelle
Im Jahr 2018 wurde BERT als erstes LLM auf Basis der neuen Transformer-Architektur eingeführt. Seitdem hat Transformer-basiertes LLM stark an Dynamik gewonnen. Die Sprachmodellierung ist aufgrund ihrer Allgemeingültigkeit besonders attraktiv. Obwohl viele reale NLP-Aufgaben wie Sentimentanalyse, Informationsabruf und Informationsextraktion keine Sprachgenerierung erfordern, wird davon ausgegangen, dass ein sprachgenerierendes Modell auch über die Fähigkeiten verfügt, eine Vielzahl spezialisierterer Sprachherausforderungen zu lösen.
2. Auf die Größe kommt es an
Abbildung 1: Die Parametergröße von Sprachmodellen wächst mit der Zeit exponentiell
Daher macht der Mainstream Aufsehen erregend, indem er eine immer größere Anzahl von Parametern verwendet. Einige Kritiker weisen jedoch darauf hin, dass die Wachstumsrate der Modellleistung nicht mit der Wachstumsrate der Modellgröße übereinstimmt. Andererseits hinterlässt das Modell-Vortraining einen erheblichen CO2-Fußabdruck. Eine Verkleinerung ist dringend erforderlich und macht Fortschritte in der Sprachmodellierung nachhaltiger.
3. Lebenszyklus des Sprachmodells
Abbildung 2: Erwähnungsrate und Anteil der 15 beliebtesten Sprachmodelle
Wir können sehen, dass die meisten Modelle in relativ kurzer Zeit an Popularität verlieren. Um immer einen Schritt voraus zu sein, sollten Benutzer aktuelle Innovationen im Auge behalten und prüfen, ob sich ein Upgrade lohnt.
Die meisten LLMs folgen einem ähnlichen Lebenszyklus: Zunächst wird das Modell „Upstream“ vorab trainiert. Aufgrund des hohen Datenvolumens und Rechenaufwands ist dies meist das Vorrecht großer Technologieunternehmen und Universitäten. In jüngster Zeit gab es auch einige Kooperationen (z. B. BigScience-Workshops), um gemeinsam die Entwicklung des LLM-Bereichs voranzutreiben. Eine Handvoll gut finanzierter Startups wie Cohere und AI21 Labs bieten auch vorab ausgebildete LLM-Studiengänge an.
Nach der Veröffentlichung wird das Modell von anwendungsorientierten Entwicklern und Unternehmen übernommen und „nachgelagert“ bereitgestellt. In dieser Phase erfordern die meisten Modelle einen zusätzlichen Feinabstimmungsschritt, um sie an die spezifische Domäne und Aufgabe anzupassen. Andere wie GPT-3 sind praktischer, da sie verschiedene Sprachaufgaben direkt während der Vorhersage lernen können (keine oder wenige Vorhersagen).
Endlich klopft die Zeit an die Tür und ein besseres Modell steht vor der Tür – entweder mit mehr Parametern, einer effizienteren Nutzung der Hardware oder einer grundlegenderen Verbesserung bei der Modellierung der menschlichen Sprache. Modelle, die zu erheblichen Innovationen führen, können ganze Modellfamilien hervorbringen. BERT lebt beispielsweise in BERT-QA, DistilBERT und RoBERTa weiter, die alle auf der ursprünglichen Architektur basieren.
In den nächsten Kapiteln werden wir die ersten beiden Phasen dieses Lebenszyklus untersuchen – Vorschulung und Feinabstimmung für den Einsatz.
Die meisten Teams und NLP-Praktiker nehmen nicht an der Vorschulung von LLM teil, sondern an seiner Feinabstimmung und Umsetzung. Um ein Modell jedoch erfolgreich auszuwählen und einzusetzen, ist es wichtig zu verstehen, was „unter der Haube“ vor sich geht. In diesem Abschnitt werden wir uns die Grundbestandteile von LLM ansehen.
Jedes Element wirkt sich nicht nur auf die Auswahl, sondern auch auf die Feinabstimmung und den Einsatz von LLM aus.
Die meisten für die LLM-Schulung verwendeten Daten sind Textdaten, die verschiedene Stile abdecken, wie z. B. Literatur, benutzergenerierte Inhalte und Nachrichtendaten. Nachdem das resultierende Modell verschiedene Texttypen gesehen hat, erkennt es die Details der Sprache. Zusätzlich zu Textdaten wird häufig Code als Eingabe verwendet, um dem Modell beizubringen, effektive Programme und Codeausschnitte zu generieren.
Erwartungsgemäß hat die Qualität der Trainingsdaten einen direkten Einfluss auf die Leistung des Modells – und auch auf die erforderliche Größe des Modells. Wenn Sie Ihre Trainingsdaten intelligenter aufbereiten, können Sie die Qualität Ihres Modells verbessern und gleichzeitig dessen Datengröße reduzieren. Ein Beispiel ist das T0-Modell, das 16-mal kleiner als GPT-3 ist, dieses aber bei einer Reihe von Benchmark-Aufgaben übertrifft. Hier ist der Trick: Anstatt einfach einen beliebigen Text als Trainingsdaten zu verwenden, wird die Aufgabenformel direkt verwendet, wodurch das Lernsignal fokussierter wird. Abbildung 3 zeigt einige Trainingsbeispiele.
Abbildung 3: T0 wurde auf eine Vielzahl expliziter Sprachaufgaben trainiert
Ein letzter Hinweis zu den Trainingsdaten: Wir hören oft, dass Sprachmodelle unbeaufsichtigt trainiert werden. Obwohl dieser Ansatz attraktiv ist, ist er technisch gesehen falsch. Im Gegenteil, gut formatierter Text liefert bereits die notwendigen Lernsignale und erspart uns den mühsamen manuellen Datenannotationsprozess. Die vorherzusagenden Bezeichnungen entsprechen vergangenen und/oder zukünftigen Wörtern in einem Satz. Dadurch erfolgt die Annotation automatisch und maßstabsgetreu, was einen relativ schnellen Fortschritt im Feld ermöglicht.
Sobald die Trainingsdaten zusammengestellt wurden, müssen wir sie in eine Form packen, die das Modell anwenden kann. Neuronale Netze werden mit algebraischen Strukturen (Vektoren und Matrizen) gespeist, und die beste algebraische Darstellung von Sprache ist eine fortlaufende Suche – von einfachen Phrasen bis hin zu hoch differenzierten Kontextinformationen. Jeder neue Schritt erhöht die Komplexität natürlicher Sprache und offenbart die Grenzen aktueller Darstellungen.
Die Grundeinheit der Sprache ist das Wort. In den Anfängen des NLP entstand daraus die Bag-of-Word-Darstellung, bei der alle Wörter in einem Text unabhängig von ihrer Reihenfolge zusammengefügt werden. Schauen Sie sich diese beiden Beispiele an.
In der Welt der Worttaschen werden diese Sätze genau gleich ausgedrückt, da sie aus denselben Wörtern bestehen. Offensichtlich ist hier nur ein kleiner Teil ihrer Bedeutung enthalten.
Die Sequenzdarstellung enthält Informationen über die Wortreihenfolge. Beim Deep Learning wurde die Verarbeitung von Sequenzen zunächst in sequenzbewussten rekurrenten neuronalen Netzen (RNN) implementiert. Geht man jedoch noch einen Schritt weiter, ist die Grundstruktur der Sprache nicht rein sequentiell, sondern hierarchisch. Mit anderen Worten: Wir sprechen hier nicht von Listen, sondern von Bäumen. Wörter, die weiter voneinander entfernt sind, können tatsächlich stärkere syntaktische und semantische Verbindungen haben als benachbarte Wörter. Bitte sehen Sie sich das Beispiel unten an.
Hier bezieht sie sich auf dieses Mädchen. Bis ein RNN das Ende des Satzes erreicht und sie schließlich sieht, kann es sein, dass seine Erinnerung an den Anfang des Satzes bereits verblasst ist und es ihm daher nicht mehr möglich ist, die Beziehung wiederherzustellen.
Um diese weitreichenden Abhängigkeiten aufzulösen, wurden komplexere neuronale Strukturen vorgeschlagen, um ein differenzierteres Kontextgedächtnis aufzubauen. Die Idee besteht darin, Wörter, die sich auf zukünftige Vorhersagen beziehen, im Gedächtnis zu behalten und die anderen zu vergessen. Dies ist der Beitrag von Long Short-Term Memory (LSTM)-Einheiten und Gated Recurrent Units (GRU). Allerdings sind diese Modelle nicht für den konkreten vorherzusagenden Ort optimiert, sondern vielmehr für einen allgemeinen zukünftigen Kontext. Darüber hinaus sind sie aufgrund ihrer komplexen Struktur noch langsamer zu trainieren als herkömmliche RNNs.
Schließlich gaben die Leute die Rekursion auf, schlugen den Aufmerksamkeitsmechanismus vor und integrierten ihn in die Transformer-Architektur. Aufmerksamkeit ermöglicht es dem Modell, sich während der Vorhersage zwischen verschiedenen Wörtern hin und her zu konzentrieren. Jedes Wort wird entsprechend seiner Relevanz für den vorherzusagenden spezifischen Ort gewichtet. Für den obigen Satz gilt: Sobald das Modell die Position „sie“ erreicht, hat das Mädchen ein höheres Gewicht als bei, obwohl es in der linearen Reihenfolge viel weiter entfernt ist.
Bislang kommt der Aufmerksamkeitsmechanismus der biologischen Funktionsweise des menschlichen Gehirns bei der Informationsverarbeitung am nächsten. Untersuchungen zeigen, dass Aufmerksamkeit hierarchische syntaktische Strukturen erlernen kann, einschließlich einer Reihe komplexer syntaktischer Phänomene. Es ermöglicht auch paralleles Rechnen für ein schnelleres und effizienteres Training.
Mit der entsprechenden Trainingsdatendarstellung kann unser Modell mit dem Lernen beginnen. Es gibt drei allgemeine Ziele für das Vortraining von Sprachmodellen: Sequenz-zu-Sequenz-Konvertierung, Autoregression und Autokodierung. All dies setzt voraus, dass das Modell über umfassende sprachliche Kenntnisse verfügt.
Die ursprüngliche Aufgabe, die von der Encoder-Decoder-Architektur und dem Transformer-Modell gelöst wird, ist die Sequenz-zu-Sequenz-Konvertierung: Eine Sequenz wird in eine Sequenz in einem anderen Darstellungsrahmen umgewandelt. Die klassische Sequenz-zu-Sequenz-Aufgabe ist die maschinelle Übersetzung, aber auch andere Aufgaben, wie zum Beispiel die Zusammenfassung, werden oft auf diese Weise formuliert. Beachten Sie, dass die Zielsequenz kein Text sein muss – es kann sich auch um andere unstrukturierte Daten wie Bilder sowie strukturierte Daten wie Programmiersprachen handeln. Ein Beispiel für Sequenz-zu-Sequenz-LLMs ist die BART-Serie.
Die zweite Aufgabe ist die automatische Regression, die auch das ursprüngliche Ziel der Sprachmodellierung ist. Bei der Autoregression lernt das Modell, die nächste Ausgabe (Token) basierend auf vorherigen Token vorherzusagen. Lernsignale sind durch die einseitige Natur des Unternehmens begrenzt – das Modell kann nur Informationen von der rechten oder linken Seite des vorhergesagten Tokens verwenden. Dies stellt eine wesentliche Einschränkung dar, da Wörter sowohl von vergangenen als auch von zukünftigen Positionen abhängen können. Betrachten Sie als Beispiel, wie sich das geschriebene Verb in beide Richtungen auf den folgenden Satz auswirkt.
Hier ist die Position des Papiers auf etwas Beschreibbares beschränkt, während die Position des Schülers auf einen Menschen oder zumindest ein anderes intelligentes Wesen, das schreiben kann, beschränkt ist.
Viele der LLMs in den heutigen Schlagzeilen sind autoregressiv, darunter die GPT-Reihe, PaLM und BLOOM.
Die dritte Aufgabe – die automatische Kodierung – löst das Problem der Unidirektionalität. Die automatische Kodierung ist dem Erlernen klassischer Worteinbettungen sehr ähnlich. Zuerst verfälschen wir die Trainingsdaten, indem wir einen bestimmten Anteil der Token in der Eingabe verbergen (normalerweise 10–20 %). Das Modell lernt dann, die korrekte Eingabe basierend auf seiner Umgebung zu rekonstruieren und dabei vorherige und nachfolgende Marker zu berücksichtigen. Ein typisches Beispiel für einen Autoencoder ist die BERT-Familie, wobei BERT für Bidirektionale Encoder-Repräsentation von Transformers steht.
Die Grundkomponenten eines Sprachmodells sind der Encoder und der Decoder. Der Encoder wandelt die Roheingabe in eine hochdimensionale algebraische Darstellung um, die auch als „versteckter“ Vektor bezeichnet wird. Moment mal – versteckt? Nun, an dieser Stelle gibt es eigentlich kein großes Geheimnis. Natürlich können Sie sich die Darstellung ansehen, aber ein langer Zahlenvektor wird einem Menschen nichts Sinnvolles vermitteln. Dies erfordert die mathematische Intelligenz unseres Modells, um damit umgehen zu können. Der Decoder reproduziert die verborgene Darstellung in einer verständlichen Form, beispielsweise in einer anderen Sprache, einem Programmiercode, einem Bild usw.
Abbildung 4: Grundmuster der Encoder-Decoder-Architektur
Die Encoder-Decoder-Architektur wurde ursprünglich für rekurrente neuronale Netze eingeführt. Seit der Einführung aufmerksamkeitsbasierter Transformer-Modelle hat die traditionelle Rekursion an Popularität verloren, während die Encoder-Decoder-Idee bestehen geblieben ist. Die meisten NLU-Aufgaben (Natural Language Understanding) basieren auf Encodern, während NLG-Aufgaben (Natural Language Generation) Decoder erfordern und die Sequenz-zu-Sequenz-Konvertierung beide Komponenten erfordert.
Wir werden hier nicht auf die Details der Transformer-Architektur und des Aufmerksamkeitsmechanismus eingehen. Wer diese Details beherrschen möchte, muss damit rechnen, viel Zeit damit zu verbringen, sie herauszufinden.
Explizite Feinabstimmung erhöht die Komplexität auf dem Weg zur LLM-Einführung. Dies kann auch zu einer Modellexplosion führen, bei der jede Geschäftsaufgabe ein eigenes, fein abgestimmtes Modell erfordert, was zu einer nicht mehr wartbaren Modellvielfalt führt. Daher wurden Anstrengungen unternommen, wenige oder keine Lernschritte zu verwenden, um den Feinabstimmungsschritt zu vermeiden (wie in GPT-3). Dieses Lernen findet während des Vorhersageprozesses statt: Das Modell erhält „Hinweise“ – eine Aufgabenbeschreibung und möglicherweise einige Trainingsbeispiele –, um seine Vorhersagen zukünftiger Instanzen zu leiten.
Obwohl die Implementierung viel schneller ist, wird der Komfortfaktor von null oder wenigen Erkenntnissen durch die geringere Vorhersagequalität ausgeglichen. Darüber hinaus erfordern viele dieser Modelle den Zugriff über Cloud-APIs. Zu Beginn der Entwicklung kann dies eine willkommene Gelegenheit sein – in fortgeschritteneren Stadien kann es jedoch zu einer weiteren unerwünschten externen Abhängigkeit werden.
2. Wählen Sie das richtige Modell für nachgelagerte Aufgaben.
In Forschungsarbeiten wird häufig jedes Modell anhand spezifischer nachgelagerter Aufgaben und Datensätze verglichen. Standardisierte Aufgabensuiten wie SuperGLUE und BIG-bench ermöglichen ein einheitliches Benchmarking zahlreicher NLP-Aufgaben und bieten eine Vergleichsbasis. Wir sollten jedoch bedenken, dass diese Tests in einer streng kontrollierten Umgebung durchgeführt werden. Heutzutage sind die Generalisierungsfähigkeiten von Sprachmodellen recht begrenzt – daher kann die Übertragung auf reale Datensätze die Leistung des Modells erheblich beeinträchtigen. Die Bewertung und Auswahl eines geeigneten Modells sollte die Durchführung von Experimenten mit Daten umfassen, die den Produktionsdaten möglichst nahe kommen.
Als Faustregel liefert das Pre-Training-Ziel einen wichtigen Tipp: Autoregressive Modelle funktionieren gut bei Textgenerierungsaufgaben wie Konversations-KI, Beantwortung von Fragen und Textzusammenfassung, während Autoencoder sich durch das „Verstehen“ und Strukturieren von Sprache auszeichnen. z.B. für Stimmungsanalysen und verschiedene Aufgaben der Informationsextraktion. Theoretisch können Modelle, die für das Nullpunktlernen verwendet werden, eine Vielzahl von Aufgaben erfüllen, solange sie entsprechende Hinweise erhalten – ihre Genauigkeit ist jedoch normalerweise geringer als die fein abgestimmter Modelle.
Um die Dinge konkreter zu machen, zeigt das Bild unten, wie sich beliebte NLP-Aufgaben auf Sprachmodelle beziehen, die in der NLP-Literatur prominent sind. Diese Assoziationen werden auf der Grundlage einer Vielzahl von Ähnlichkeits- und Aggregationsmaßen berechnet, einschließlich der Einbettungsähnlichkeit und des distanzgewichteten gleichzeitigen Vorkommens. Höher bewertete Modell-Aufgaben-Paare wie BART/Textzusammenfassung und LaMDA/Konversations-KI weisen auf gute Übereinstimmungen basierend auf historischen Daten hin.
Abbildung 5: Assoziationsstärke zwischen Sprachmodellen und nachgelagerten Aufgaben
5. Wichtigste Erkenntnisse
Tabelle 1: Zusammenfassung der Funktionen der beliebtesten großen Sprachmodelle
Lassen Sie uns die allgemeinen Richtlinien für Auswahl und LLM zusammenfassen.
1. Machen Sie sich bei der Bewertung potenzieller Modelle klar, wo Sie sich auf der KI-Reise befinden.
Am Anfang könnte es eine gute Idee sein, mit LLM zu experimentieren, das über die Cloud-API bereitgestellt wird.Benchmark-Ergebnisse in der akademischen Literatur mit Schwerpunkt auf Downstream-Aufgaben
Konsistenz zwischen Zielen vor dem Training und Downstream-Aufgaben: Erwägen Sie Autoencoding für NLGU und Autoregression für NLG.
Zuvor berichtete Erfahrungen mit dieser Modell-Aufgaben-Kombination.
3. Testen Sie die ausgewählten Modelle, um reale Aufgaben und Datensätze zu verstehen und ein erstes Gefühl für die Leistung zu bekommen.
4. In den meisten Fällen ist es möglich, durch spezielle Feinabstimmung eine bessere Qualität zu erreichen. Wenn Sie jedoch nicht über die internen technischen Fähigkeiten oder das Budget für die Feinabstimmung verfügen oder eine große Anzahl von Aufgaben abdecken müssen, sollten Sie „Fowler/Zero-Shot-Learning“ in Betracht ziehen.
5. LLM-Innovationen und -Trends sind von kurzer Dauer. Achten Sie bei der Arbeit mit Sprachmodellen auf deren Lebenszyklus und Gesamtaktivität im LLM-Bereich und auf die Möglichkeiten, Ihr Spiel zu verbessern.
Abschließend sollten Sie sich der Einschränkungen von LLMs bewusst sein. Obwohl sie über eine erstaunliche, menschenähnliche Fähigkeit verfügen, Sprache zu produzieren, bleiben ihre allgemeinen kognitiven Fähigkeiten hinter denen von uns Menschen zurück. Das Weltwissen und die Denkfähigkeit dieser Modelle sind strikt auf die Informationen beschränkt, die sie auf der Oberfläche der Sprache finden. Außerdem halten sie die Fakten nicht rechtzeitig bereit und versorgen Sie möglicherweise ohne mit der Wimper zu zucken mit veralteten Informationen. Wenn Sie eine Anwendung erstellen, die auf der Generierung von aktuellem oder sogar Rohwissen basiert, sollten Sie die Kombination Ihres LLM mit zusätzlichen multimodalen, strukturierten oder dynamischen Wissensquellen in Betracht ziehen.
Originallink: https://www.topbots.com/choosing-the-right-lingual-model/
Cui Hao, 51CTO-Community-Redakteur und leitender Architekt, verfügt über 18 Jahre Erfahrung in der Softwareentwicklung und -architektur sowie 10 Jahre Erfahrung in verteilter Architektur.
Das obige ist der detaillierte Inhalt vonAuswahl des richtigen Sprachmodells für NLP. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!