Auswahl des richtigen Sprachmodells für NLP
Übersetzer |. Cui Hao
Rezensent |. Eröffnung
Große Sprachmodelle (LLMs) sind Deep-Learning-Modelle, die darauf trainiert sind, Text zu generieren. Mit beeindruckenden Fähigkeiten sind LLMs führend in der modernen Verarbeitung natürlicher Sprache (NLP). Traditionell wurden sie von akademischen Institutionen und großen Technologieunternehmen wie OpenAI, Microsoft und Nvidia vorab ausgebildet. Die meisten davon werden anschließend der öffentlichen Nutzung zugänglich gemacht. Dieser Plug-and-Play-Ansatz ist ein wichtiger Schritt hin zu groß angelegten KI-Anwendungen – Unternehmen können sich nun auf die Feinabstimmung bestehender LLM-Modelle für bestimmte Anwendungsfälle konzentrieren, anstatt erhebliche Ressourcen für das Training von Modellen mit allgemeinen Sprachfähigkeiten aufzuwenden .
Allerdings kann es immer noch schwierig sein, das richtige Modell für Ihre Anwendung auszuwählen. Benutzer und andere Interessengruppen müssen zwischen einem lebendigen Sprachmodell und den damit verbundenen Innovationsszenarien wählen. Diese Verbesserungen betreffen verschiedene Komponenten des Sprachmodells, einschließlich seiner Trainingsdaten, Pre-Training-Ziele, Architektur und Feinabstimmungsmethoden – jeder Aspekt könnte ein Buch füllen. Zusätzlich zu all dieser Forschung hat der Marketing- und KI-Heiligenschein, der Sprachmodelle umgibt, die Dinge noch unklarer gemacht.
In diesem Artikel werden die wichtigsten Konzepte und Prinzipien hinter LLMs erläutert. Sein Zweck besteht darin, nicht-technischen Stakeholdern ein intuitives Verständnis und eine Sprache für eine effiziente Interaktion mit Entwicklern und KI-Experten zu vermitteln. Um die Abdeckung zu erweitern, enthält der Artikel Analysen, die auf einer großen Anzahl von NLP-bezogenen Veröffentlichungen basieren. Obwohl wir nicht auf die mathematischen Details von Sprachmodellen eingehen, können diese leicht aus den Referenzen entnommen werden.
Der Artikel ist wie folgt aufgebaut: Zunächst wird das Sprachmodell in die sich entwickelnde NLP-Umgebung gestellt. Abschnitt 2 erklärt, wie LLMs aufgebaut und vorab trainiert werden. Abschließend wird der Feinabstimmungsprozess beschrieben und einige Hinweise zur Modellauswahl gegeben.
2. Die Welt der Sprachmodelle
1. Überbrückung der Kluft zwischen Mensch und Maschine
Sprache ist eine faszinierende Fähigkeit des menschlichen Geistes – sie ist ein universelles Protokoll für den Wissensaustausch und den Ausdruck subjektiver Gedanken wie Absichten, Meinungen und Emotionen. In der Geschichte der künstlichen Intelligenz gab es mehrere Forschungswellen, bei denen mathematische Mittel zur Annäherung („Modell“) der menschlichen Sprache eingesetzt wurden. Vor der Deep-Learning-Ära basierten Darstellungen auf einfachen algebraischen und probabilistischen Konzepten wie One-Hot-Darstellungen von Wörtern, Sequenz-Wahrscheinlichkeitsmodellen und rekursiven Strukturen. Mit der Entwicklung des Deep Learning in den letzten Jahren haben die Genauigkeit, Komplexität und Ausdruckskraft sprachlicher Darstellungen zugenommen.
Im Jahr 2018 wurde BERT als erstes LLM auf Basis der neuen Transformer-Architektur eingeführt. Seitdem hat Transformer-basiertes LLM stark an Dynamik gewonnen. Die Sprachmodellierung ist aufgrund ihrer Allgemeingültigkeit besonders attraktiv. Obwohl viele reale NLP-Aufgaben wie Sentimentanalyse, Informationsabruf und Informationsextraktion keine Sprachgenerierung erfordern, wird davon ausgegangen, dass ein sprachgenerierendes Modell auch über die Fähigkeiten verfügt, eine Vielzahl spezialisierterer Sprachherausforderungen zu lösen.
2. Auf die Größe kommt es an
Das Lernen erfolgt auf parametrischer Basis – Variablen, die während des Trainings optimiert werden, um die beste Vorhersagequalität zu erzielen. Mit zunehmender Anzahl an Parametern ist das Modell in der Lage, detailliertere Erkenntnisse zu gewinnen und seine Vorhersagen zu verbessern. Seit der Einführung der ersten Charge von LLMs in den Jahren 2017–2018 haben wir eine exponentielle Explosion der Parametergrößen erlebt – während das bahnbrechende BERT mit 340M-Parametern trainiert wurde, wurde das 2022 veröffentlichte Modell Megatron-Turing NLG mit 530B-Parametern trainiert Ausbildung - um mehr als das Tausendfache gesteigert.
Abbildung 1: Die Parametergröße von Sprachmodellen wächst mit der Zeit exponentiell
Daher macht der Mainstream Aufsehen erregend, indem er eine immer größere Anzahl von Parametern verwendet. Einige Kritiker weisen jedoch darauf hin, dass die Wachstumsrate der Modellleistung nicht mit der Wachstumsrate der Modellgröße übereinstimmt. Andererseits hinterlässt das Modell-Vortraining einen erheblichen CO2-Fußabdruck. Eine Verkleinerung ist dringend erforderlich und macht Fortschritte in der Sprachmodellierung nachhaltiger.
3. Lebenszyklus des Sprachmodells
LLMs Vision ist wettbewerbsfähig und Innovation ist von kurzer Dauer. Die folgende Grafik zeigt die 15 beliebtesten LLM-Modelle im Zeitraum 2018–2022 sowie deren Anteil im Zeitverlauf.
Abbildung 2: Erwähnungsrate und Anteil der 15 beliebtesten Sprachmodelle
Wir können sehen, dass die meisten Modelle in relativ kurzer Zeit an Popularität verlieren. Um immer einen Schritt voraus zu sein, sollten Benutzer aktuelle Innovationen im Auge behalten und prüfen, ob sich ein Upgrade lohnt.
Die meisten LLMs folgen einem ähnlichen Lebenszyklus: Zunächst wird das Modell „Upstream“ vorab trainiert. Aufgrund des hohen Datenvolumens und Rechenaufwands ist dies meist das Vorrecht großer Technologieunternehmen und Universitäten. In jüngster Zeit gab es auch einige Kooperationen (z. B. BigScience-Workshops), um gemeinsam die Entwicklung des LLM-Bereichs voranzutreiben. Eine Handvoll gut finanzierter Startups wie Cohere und AI21 Labs bieten auch vorab ausgebildete LLM-Studiengänge an.
Nach der Veröffentlichung wird das Modell von anwendungsorientierten Entwicklern und Unternehmen übernommen und „nachgelagert“ bereitgestellt. In dieser Phase erfordern die meisten Modelle einen zusätzlichen Feinabstimmungsschritt, um sie an die spezifische Domäne und Aufgabe anzupassen. Andere wie GPT-3 sind praktischer, da sie verschiedene Sprachaufgaben direkt während der Vorhersage lernen können (keine oder wenige Vorhersagen).
Endlich klopft die Zeit an die Tür und ein besseres Modell steht vor der Tür – entweder mit mehr Parametern, einer effizienteren Nutzung der Hardware oder einer grundlegenderen Verbesserung bei der Modellierung der menschlichen Sprache. Modelle, die zu erheblichen Innovationen führen, können ganze Modellfamilien hervorbringen. BERT lebt beispielsweise in BERT-QA, DistilBERT und RoBERTa weiter, die alle auf der ursprünglichen Architektur basieren.
In den nächsten Kapiteln werden wir die ersten beiden Phasen dieses Lebenszyklus untersuchen – Vorschulung und Feinabstimmung für den Einsatz.
3. Vorschulung: Wie LLM geboren wurde
Die meisten Teams und NLP-Praktiker nehmen nicht an der Vorschulung von LLM teil, sondern an seiner Feinabstimmung und Umsetzung. Um ein Modell jedoch erfolgreich auszuwählen und einzusetzen, ist es wichtig zu verstehen, was „unter der Haube“ vor sich geht. In diesem Abschnitt werden wir uns die Grundbestandteile von LLM ansehen.
- Trainingsdaten
- Eingabedarstellung
- Ziele vor dem Training
- Modellstruktur (Encoder-Decoder)
Jedes Element wirkt sich nicht nur auf die Auswahl, sondern auch auf die Feinabstimmung und den Einsatz von LLM aus.
1. Trainingsdaten
Die meisten für die LLM-Schulung verwendeten Daten sind Textdaten, die verschiedene Stile abdecken, wie z. B. Literatur, benutzergenerierte Inhalte und Nachrichtendaten. Nachdem das resultierende Modell verschiedene Texttypen gesehen hat, erkennt es die Details der Sprache. Zusätzlich zu Textdaten wird häufig Code als Eingabe verwendet, um dem Modell beizubringen, effektive Programme und Codeausschnitte zu generieren.
Erwartungsgemäß hat die Qualität der Trainingsdaten einen direkten Einfluss auf die Leistung des Modells – und auch auf die erforderliche Größe des Modells. Wenn Sie Ihre Trainingsdaten intelligenter aufbereiten, können Sie die Qualität Ihres Modells verbessern und gleichzeitig dessen Datengröße reduzieren. Ein Beispiel ist das T0-Modell, das 16-mal kleiner als GPT-3 ist, dieses aber bei einer Reihe von Benchmark-Aufgaben übertrifft. Hier ist der Trick: Anstatt einfach einen beliebigen Text als Trainingsdaten zu verwenden, wird die Aufgabenformel direkt verwendet, wodurch das Lernsignal fokussierter wird. Abbildung 3 zeigt einige Trainingsbeispiele.
Abbildung 3: T0 wurde auf eine Vielzahl expliziter Sprachaufgaben trainiert
Ein letzter Hinweis zu den Trainingsdaten: Wir hören oft, dass Sprachmodelle unbeaufsichtigt trainiert werden. Obwohl dieser Ansatz attraktiv ist, ist er technisch gesehen falsch. Im Gegenteil, gut formatierter Text liefert bereits die notwendigen Lernsignale und erspart uns den mühsamen manuellen Datenannotationsprozess. Die vorherzusagenden Bezeichnungen entsprechen vergangenen und/oder zukünftigen Wörtern in einem Satz. Dadurch erfolgt die Annotation automatisch und maßstabsgetreu, was einen relativ schnellen Fortschritt im Feld ermöglicht.
2. Eingabedarstellung
Sobald die Trainingsdaten zusammengestellt wurden, müssen wir sie in eine Form packen, die das Modell anwenden kann. Neuronale Netze werden mit algebraischen Strukturen (Vektoren und Matrizen) gespeist, und die beste algebraische Darstellung von Sprache ist eine fortlaufende Suche – von einfachen Phrasen bis hin zu hoch differenzierten Kontextinformationen. Jeder neue Schritt erhöht die Komplexität natürlicher Sprache und offenbart die Grenzen aktueller Darstellungen.
Die Grundeinheit der Sprache ist das Wort. In den Anfängen des NLP entstand daraus die Bag-of-Word-Darstellung, bei der alle Wörter in einem Text unabhängig von ihrer Reihenfolge zusammengefügt werden. Schauen Sie sich diese beiden Beispiele an.
In der Welt der Worttaschen werden diese Sätze genau gleich ausgedrückt, da sie aus denselben Wörtern bestehen. Offensichtlich ist hier nur ein kleiner Teil ihrer Bedeutung enthalten.
Die Sequenzdarstellung enthält Informationen über die Wortreihenfolge. Beim Deep Learning wurde die Verarbeitung von Sequenzen zunächst in sequenzbewussten rekurrenten neuronalen Netzen (RNN) implementiert. Geht man jedoch noch einen Schritt weiter, ist die Grundstruktur der Sprache nicht rein sequentiell, sondern hierarchisch. Mit anderen Worten: Wir sprechen hier nicht von Listen, sondern von Bäumen. Wörter, die weiter voneinander entfernt sind, können tatsächlich stärkere syntaktische und semantische Verbindungen haben als benachbarte Wörter. Bitte sehen Sie sich das Beispiel unten an.
Hier bezieht sie sich auf dieses Mädchen. Bis ein RNN das Ende des Satzes erreicht und sie schließlich sieht, kann es sein, dass seine Erinnerung an den Anfang des Satzes bereits verblasst ist und es ihm daher nicht mehr möglich ist, die Beziehung wiederherzustellen.
Um diese weitreichenden Abhängigkeiten aufzulösen, wurden komplexere neuronale Strukturen vorgeschlagen, um ein differenzierteres Kontextgedächtnis aufzubauen. Die Idee besteht darin, Wörter, die sich auf zukünftige Vorhersagen beziehen, im Gedächtnis zu behalten und die anderen zu vergessen. Dies ist der Beitrag von Long Short-Term Memory (LSTM)-Einheiten und Gated Recurrent Units (GRU). Allerdings sind diese Modelle nicht für den konkreten vorherzusagenden Ort optimiert, sondern vielmehr für einen allgemeinen zukünftigen Kontext. Darüber hinaus sind sie aufgrund ihrer komplexen Struktur noch langsamer zu trainieren als herkömmliche RNNs.
Schließlich gaben die Leute die Rekursion auf, schlugen den Aufmerksamkeitsmechanismus vor und integrierten ihn in die Transformer-Architektur. Aufmerksamkeit ermöglicht es dem Modell, sich während der Vorhersage zwischen verschiedenen Wörtern hin und her zu konzentrieren. Jedes Wort wird entsprechend seiner Relevanz für den vorherzusagenden spezifischen Ort gewichtet. Für den obigen Satz gilt: Sobald das Modell die Position „sie“ erreicht, hat das Mädchen ein höheres Gewicht als bei, obwohl es in der linearen Reihenfolge viel weiter entfernt ist.
Bislang kommt der Aufmerksamkeitsmechanismus der biologischen Funktionsweise des menschlichen Gehirns bei der Informationsverarbeitung am nächsten. Untersuchungen zeigen, dass Aufmerksamkeit hierarchische syntaktische Strukturen erlernen kann, einschließlich einer Reihe komplexer syntaktischer Phänomene. Es ermöglicht auch paralleles Rechnen für ein schnelleres und effizienteres Training.
3. Ziele vor dem Training
Mit der entsprechenden Trainingsdatendarstellung kann unser Modell mit dem Lernen beginnen. Es gibt drei allgemeine Ziele für das Vortraining von Sprachmodellen: Sequenz-zu-Sequenz-Konvertierung, Autoregression und Autokodierung. All dies setzt voraus, dass das Modell über umfassende sprachliche Kenntnisse verfügt.
Die ursprüngliche Aufgabe, die von der Encoder-Decoder-Architektur und dem Transformer-Modell gelöst wird, ist die Sequenz-zu-Sequenz-Konvertierung: Eine Sequenz wird in eine Sequenz in einem anderen Darstellungsrahmen umgewandelt. Die klassische Sequenz-zu-Sequenz-Aufgabe ist die maschinelle Übersetzung, aber auch andere Aufgaben, wie zum Beispiel die Zusammenfassung, werden oft auf diese Weise formuliert. Beachten Sie, dass die Zielsequenz kein Text sein muss – es kann sich auch um andere unstrukturierte Daten wie Bilder sowie strukturierte Daten wie Programmiersprachen handeln. Ein Beispiel für Sequenz-zu-Sequenz-LLMs ist die BART-Serie.
Die zweite Aufgabe ist die automatische Regression, die auch das ursprüngliche Ziel der Sprachmodellierung ist. Bei der Autoregression lernt das Modell, die nächste Ausgabe (Token) basierend auf vorherigen Token vorherzusagen. Lernsignale sind durch die einseitige Natur des Unternehmens begrenzt – das Modell kann nur Informationen von der rechten oder linken Seite des vorhergesagten Tokens verwenden. Dies stellt eine wesentliche Einschränkung dar, da Wörter sowohl von vergangenen als auch von zukünftigen Positionen abhängen können. Betrachten Sie als Beispiel, wie sich das geschriebene Verb in beide Richtungen auf den folgenden Satz auswirkt.
Hier ist die Position des Papiers auf etwas Beschreibbares beschränkt, während die Position des Schülers auf einen Menschen oder zumindest ein anderes intelligentes Wesen, das schreiben kann, beschränkt ist.
Viele der LLMs in den heutigen Schlagzeilen sind autoregressiv, darunter die GPT-Reihe, PaLM und BLOOM.
Die dritte Aufgabe – die automatische Kodierung – löst das Problem der Unidirektionalität. Die automatische Kodierung ist dem Erlernen klassischer Worteinbettungen sehr ähnlich. Zuerst verfälschen wir die Trainingsdaten, indem wir einen bestimmten Anteil der Token in der Eingabe verbergen (normalerweise 10–20 %). Das Modell lernt dann, die korrekte Eingabe basierend auf seiner Umgebung zu rekonstruieren und dabei vorherige und nachfolgende Marker zu berücksichtigen. Ein typisches Beispiel für einen Autoencoder ist die BERT-Familie, wobei BERT für Bidirektionale Encoder-Repräsentation von Transformers steht.
4. Modellstruktur (Encoder-Decoder)
Die Grundkomponenten eines Sprachmodells sind der Encoder und der Decoder. Der Encoder wandelt die Roheingabe in eine hochdimensionale algebraische Darstellung um, die auch als „versteckter“ Vektor bezeichnet wird. Moment mal – versteckt? Nun, an dieser Stelle gibt es eigentlich kein großes Geheimnis. Natürlich können Sie sich die Darstellung ansehen, aber ein langer Zahlenvektor wird einem Menschen nichts Sinnvolles vermitteln. Dies erfordert die mathematische Intelligenz unseres Modells, um damit umgehen zu können. Der Decoder reproduziert die verborgene Darstellung in einer verständlichen Form, beispielsweise in einer anderen Sprache, einem Programmiercode, einem Bild usw.
Abbildung 4: Grundmuster der Encoder-Decoder-Architektur
Die Encoder-Decoder-Architektur wurde ursprünglich für rekurrente neuronale Netze eingeführt. Seit der Einführung aufmerksamkeitsbasierter Transformer-Modelle hat die traditionelle Rekursion an Popularität verloren, während die Encoder-Decoder-Idee bestehen geblieben ist. Die meisten NLU-Aufgaben (Natural Language Understanding) basieren auf Encodern, während NLG-Aufgaben (Natural Language Generation) Decoder erfordern und die Sequenz-zu-Sequenz-Konvertierung beide Komponenten erfordert.
Wir werden hier nicht auf die Details der Transformer-Architektur und des Aufmerksamkeitsmechanismus eingehen. Wer diese Details beherrschen möchte, muss damit rechnen, viel Zeit damit zu verbringen, sie herauszufinden.
4. Verwendung von Sprachmodellen in der realen Welt
1. Die Feinabstimmung der Sprachmodellierung ist eine leistungsstarke Upstream-Aufgabe – wenn Sie ein erfolgreiches Sprachmodell haben, herzlichen Glückwunsch – es ist ein intelligentes Modell. Stattdessen wird NLP hauptsächlich für gezieltere nachgelagerte Aufgaben wie Stimmungsanalyse, Beantwortung von Fragen und Informationsextraktion verwendet. Hierbei wird Transferlernen angewendet und vorhandenes Sprachwissen wiederverwendet, um spezifischere Herausforderungen anzugehen. Bei der Feinabstimmung wird ein Teil des Modells „eingefroren“ und die restlichen Teile werden mit Daten aus einer bestimmten Domäne oder Aufgabe weiter trainiert.
Explizite Feinabstimmung erhöht die Komplexität auf dem Weg zur LLM-Einführung. Dies kann auch zu einer Modellexplosion führen, bei der jede Geschäftsaufgabe ein eigenes, fein abgestimmtes Modell erfordert, was zu einer nicht mehr wartbaren Modellvielfalt führt. Daher wurden Anstrengungen unternommen, wenige oder keine Lernschritte zu verwenden, um den Feinabstimmungsschritt zu vermeiden (wie in GPT-3). Dieses Lernen findet während des Vorhersageprozesses statt: Das Modell erhält „Hinweise“ – eine Aufgabenbeschreibung und möglicherweise einige Trainingsbeispiele –, um seine Vorhersagen zukünftiger Instanzen zu leiten.
Obwohl die Implementierung viel schneller ist, wird der Komfortfaktor von null oder wenigen Erkenntnissen durch die geringere Vorhersagequalität ausgeglichen. Darüber hinaus erfordern viele dieser Modelle den Zugriff über Cloud-APIs. Zu Beginn der Entwicklung kann dies eine willkommene Gelegenheit sein – in fortgeschritteneren Stadien kann es jedoch zu einer weiteren unerwünschten externen Abhängigkeit werden.
2. Wählen Sie das richtige Modell für nachgelagerte Aufgaben.
Angesichts des ständigen Angebots an neuen Sprachmodellen auf dem KI-Markt kann es schwierig sein, das richtige Modell für eine bestimmte nachgelagerte Aufgabe auszuwählen und mit dem Staat Schritt zu halten. modernste Technologie.
In Forschungsarbeiten wird häufig jedes Modell anhand spezifischer nachgelagerter Aufgaben und Datensätze verglichen. Standardisierte Aufgabensuiten wie SuperGLUE und BIG-bench ermöglichen ein einheitliches Benchmarking zahlreicher NLP-Aufgaben und bieten eine Vergleichsbasis. Wir sollten jedoch bedenken, dass diese Tests in einer streng kontrollierten Umgebung durchgeführt werden. Heutzutage sind die Generalisierungsfähigkeiten von Sprachmodellen recht begrenzt – daher kann die Übertragung auf reale Datensätze die Leistung des Modells erheblich beeinträchtigen. Die Bewertung und Auswahl eines geeigneten Modells sollte die Durchführung von Experimenten mit Daten umfassen, die den Produktionsdaten möglichst nahe kommen.
Als Faustregel liefert das Pre-Training-Ziel einen wichtigen Tipp: Autoregressive Modelle funktionieren gut bei Textgenerierungsaufgaben wie Konversations-KI, Beantwortung von Fragen und Textzusammenfassung, während Autoencoder sich durch das „Verstehen“ und Strukturieren von Sprache auszeichnen. z.B. für Stimmungsanalysen und verschiedene Aufgaben der Informationsextraktion. Theoretisch können Modelle, die für das Nullpunktlernen verwendet werden, eine Vielzahl von Aufgaben erfüllen, solange sie entsprechende Hinweise erhalten – ihre Genauigkeit ist jedoch normalerweise geringer als die fein abgestimmter Modelle.
Um die Dinge konkreter zu machen, zeigt das Bild unten, wie sich beliebte NLP-Aufgaben auf Sprachmodelle beziehen, die in der NLP-Literatur prominent sind. Diese Assoziationen werden auf der Grundlage einer Vielzahl von Ähnlichkeits- und Aggregationsmaßen berechnet, einschließlich der Einbettungsähnlichkeit und des distanzgewichteten gleichzeitigen Vorkommens. Höher bewertete Modell-Aufgaben-Paare wie BART/Textzusammenfassung und LaMDA/Konversations-KI weisen auf gute Übereinstimmungen basierend auf historischen Daten hin.
Abbildung 5: Assoziationsstärke zwischen Sprachmodellen und nachgelagerten Aufgaben
5. Wichtigste Erkenntnisse
In diesem Artikel haben wir die Grundkonzepte von LLM und die wichtigsten Ebenen behandelt, auf denen Innovation stattfindet. Die folgende Tabelle bietet eine Zusammenfassung der Hauptmerkmale der beliebtesten LLMs.
Tabelle 1: Zusammenfassung der Funktionen der beliebtesten großen Sprachmodelle
Lassen Sie uns die allgemeinen Richtlinien für Auswahl und LLM zusammenfassen.
1. Machen Sie sich bei der Bewertung potenzieller Modelle klar, wo Sie sich auf der KI-Reise befinden.
Am Anfang könnte es eine gute Idee sein, mit LLM zu experimentieren, das über die Cloud-API bereitgestellt wird.- Sobald Sie die Eignung für den Produktmarkt gefunden haben, sollten Sie darüber nachdenken, Ihr Modell auf Ihrer Seite zu hosten und zu warten, um mehr Kontrolle zu haben und die Leistung des Modells weiter zu verbessern, um es an Ihre Anwendung anzupassen.
- 2. Zur Abstimmung mit Ihren nachgelagerten Aufgaben sollte das KI-Team eine Auswahlliste von Modellen erstellen, die auf den folgenden Kriterien basiert.
Benchmark-Ergebnisse in der akademischen Literatur mit Schwerpunkt auf Downstream-Aufgaben
Konsistenz zwischen Zielen vor dem Training und Downstream-Aufgaben: Erwägen Sie Autoencoding für NLGU und Autoregression für NLG.
Zuvor berichtete Erfahrungen mit dieser Modell-Aufgaben-Kombination.
3. Testen Sie die ausgewählten Modelle, um reale Aufgaben und Datensätze zu verstehen und ein erstes Gefühl für die Leistung zu bekommen.
4. In den meisten Fällen ist es möglich, durch spezielle Feinabstimmung eine bessere Qualität zu erreichen. Wenn Sie jedoch nicht über die internen technischen Fähigkeiten oder das Budget für die Feinabstimmung verfügen oder eine große Anzahl von Aufgaben abdecken müssen, sollten Sie „Fowler/Zero-Shot-Learning“ in Betracht ziehen.
5. LLM-Innovationen und -Trends sind von kurzer Dauer. Achten Sie bei der Arbeit mit Sprachmodellen auf deren Lebenszyklus und Gesamtaktivität im LLM-Bereich und auf die Möglichkeiten, Ihr Spiel zu verbessern.
Abschließend sollten Sie sich der Einschränkungen von LLMs bewusst sein. Obwohl sie über eine erstaunliche, menschenähnliche Fähigkeit verfügen, Sprache zu produzieren, bleiben ihre allgemeinen kognitiven Fähigkeiten hinter denen von uns Menschen zurück. Das Weltwissen und die Denkfähigkeit dieser Modelle sind strikt auf die Informationen beschränkt, die sie auf der Oberfläche der Sprache finden. Außerdem halten sie die Fakten nicht rechtzeitig bereit und versorgen Sie möglicherweise ohne mit der Wimper zu zucken mit veralteten Informationen. Wenn Sie eine Anwendung erstellen, die auf der Generierung von aktuellem oder sogar Rohwissen basiert, sollten Sie die Kombination Ihres LLM mit zusätzlichen multimodalen, strukturierten oder dynamischen Wissensquellen in Betracht ziehen.
Originallink: https://www.topbots.com/choosing-the-right-lingual-model/
Übersetzereinführung
Cui Hao, 51CTO-Community-Redakteur und leitender Architekt, verfügt über 18 Jahre Erfahrung in der Softwareentwicklung und -architektur sowie 10 Jahre Erfahrung in verteilter Architektur.
Das obige ist der detaillierte Inhalt vonAuswahl des richtigen Sprachmodells für NLP. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Die von Google geförderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden möglicherweise mehr große Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zunächst wählen sie eine Reihe von Mainstream-Inhalten aus

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

Die Zielerkennung ist ein relativ ausgereiftes Problem in autonomen Fahrsystemen, wobei die Fußgängererkennung einer der ersten Algorithmen ist, die eingesetzt werden. In den meisten Arbeiten wurde eine sehr umfassende Recherche durchgeführt. Die Entfernungswahrnehmung mithilfe von Fischaugenkameras für die Rundumsicht ist jedoch relativ wenig untersucht. Aufgrund der großen radialen Verzerrung ist es schwierig, die standardmäßige Bounding-Box-Darstellung in Fischaugenkameras zu implementieren. Um die obige Beschreibung zu vereinfachen, untersuchen wir erweiterte Begrenzungsrahmen-, Ellipsen- und allgemeine Polygondesigns in Polar-/Winkeldarstellungen und definieren eine mIOU-Metrik für die Instanzsegmentierung, um diese Darstellungen zu analysieren. Das vorgeschlagene Modell „fisheyeDetNet“ mit polygonaler Form übertrifft andere Modelle und erreicht gleichzeitig 49,5 % mAP auf dem Valeo-Fisheye-Kameradatensatz für autonomes Fahren

Projektlink vorne geschrieben: https://nianticlabs.github.io/mickey/ Anhand zweier Bilder kann die Kameraposition zwischen ihnen geschätzt werden, indem die Korrespondenz zwischen den Bildern hergestellt wird. Normalerweise handelt es sich bei diesen Entsprechungen um 2D-zu-2D-Entsprechungen, und unsere geschätzten Posen sind maßstabsunabhängig. Einige Anwendungen, wie z. B. Instant Augmented Reality jederzeit und überall, erfordern eine Posenschätzung von Skalenmetriken und sind daher auf externe Tiefenschätzer angewiesen, um die Skalierung wiederherzustellen. In diesem Artikel wird MicKey vorgeschlagen, ein Keypoint-Matching-Prozess, mit dem metrische Korrespondenzen im 3D-Kameraraum vorhergesagt werden können. Durch das Erlernen des 3D-Koordinatenabgleichs zwischen Bildern können wir auf metrische Relativwerte schließen
