


Google und Stanford haben gemeinsam einen Artikel veröffentlicht: Warum müssen wir große Modelle verwenden?
Sprachmodelle haben Forschung und Praxis im Bereich der Verarbeitung natürlicher Sprache tiefgreifend verändert. In den letzten Jahren haben große Modelle in vielen Bereichen wichtige Durchbrüche erzielt. Sie müssen nicht auf nachgelagerte Aufgaben abgestimmt werden. Mit entsprechenden Anweisungen oder Eingabeaufforderungen können sie hervorragende, manchmal sogar erstaunliche Leistungen erzielen.
Zum Beispiel kann GPT-3 [1] Liebesbriefe und Skripte schreiben und komplexe mathematische Denkaufgaben mit Daten lösen, und PaLM [2] kann Witze erklären. Das obige Beispiel ist nur die Spitze des Eisbergs der Fähigkeiten großer Modelle. Viele verwandte Demos finden Sie auf der OpenAI-Website [3], aber diese Fähigkeiten spiegeln sich selten in kleinen Modellen wider.
In dem heute vorgestellten Papier werden die Fähigkeiten, über die kleine Modelle nicht verfügen, große Modelle jedoch, als aufstrebende Fähigkeiten (Emergent Abilities) bezeichnet. Dies bezieht sich auf die Fähigkeiten, die plötzlich erworben werden, nachdem der Maßstab des Modells ein bestimmtes Niveau erreicht hat . Hierbei handelt es sich um einen Prozess, bei dem quantitative Veränderungen qualitative Veränderungen hervorrufen.
Die Entstehung neuer Fähigkeiten ist schwer vorherzusagen. Warum das Modell mit zunehmender Skalierung plötzlich bestimmte Fähigkeiten erlangt, ist noch eine offene Frage, deren Beantwortung weiterer Forschung bedarf. In diesem Artikel stellt der Autor einige aktuelle Fortschritte beim Verständnis großer Modelle vor und gibt einige diesbezügliche Gedanken. Ich freue mich darauf, sie mit Ihnen zu diskutieren.
Verwandte Artikel:
-
Neue Fähigkeiten großer Sprachmodelle.
http://arxiv.org/abs/2206.07682 -
Beyond the Imitation Game: Quantifizierung und Extrapolation der Fähigkeiten von Sprachmodellen .
https://arxiv.org/abs/2206.04615
Neue Fähigkeit großer Modelle
Was ist ein großes Modell? Welche Größe gilt als „groß“? Dafür gibt es keine klare Definition.
Im Allgemeinen müssen Modellparameter möglicherweise das Milliardenniveau erreichen, um Fähigkeiten zu zeigen, die sich deutlich von den Null- und Wenigschuss-Werten kleiner Modelle unterscheiden. In den letzten Jahren gab es viele Modelle mit Hunderten Milliarden und Billionen Parametern, die bei einer Reihe von Aufgaben die SOTA-Leistung erreichten. Bei einigen Aufgaben verbessert sich die Leistung des Modells zuverlässig mit zunehmendem Maßstab, während bei anderen Aufgaben das Modell ab einem bestimmten Maßstab einen plötzlichen Leistungsanstieg zeigt. Zur Klassifizierung verschiedener Aufgaben können zwei Indikatoren verwendet werden [4]:
- Linearität: Ziel ist es, das Ausmaß zu messen, in dem sich die Leistung des Modells bei der Aufgabe mit zunehmender Skala zuverlässig verbessert.
- Durchbruch: Entwickelt, um zu messen, wie gut eine Aufgabe erlernt werden kann, wenn die Modellgröße einen kritischen Wert überschreitet.
Diese beiden Indikatoren sind Funktionen der Modellgröße und der Modellleistung. Spezifische Berechnungsdetails finden Sie in [4]. Die folgende Abbildung zeigt einige Beispiele für Aufgaben mit hoher Linearität und hohem Durchbruch.
Die meisten Aufgaben mit hoher Linearität sind wissensbasiert, was bedeutet, dass sie hauptsächlich auf dem Auswendiglernen der in den Trainingsdaten enthaltenen Informationen beruhen, beispielsweise auf der Beantwortung einiger sachlicher Fragen. Größere Modelle verwenden normalerweise mehr Daten für das Training und können sich mehr Wissen merken, sodass das Modell bei solchen Aufgaben mit zunehmendem Maßstab eine stabile Verbesserung zeigt. Zu den Aufgaben mit hohem Durchbruch gehören komplexere Aufgaben, die den Einsatz verschiedener Fähigkeiten oder die Ausführung mehrerer Schritte erfordern, um zur richtigen Antwort zu gelangen, beispielsweise mathematisches Denken. Kleinere Modelle haben Schwierigkeiten, alle für die Ausführung solcher Aufgaben erforderlichen Fähigkeiten zu erwerben.
Die folgende Abbildung zeigt weiter die Leistung verschiedener Modelle bei einigen Aufgaben mit hohem Durchbruch.
In einem bestimmten Maßstab gab es eine deutliche Verbesserung.
Ist es sanft oder plötzlich?
Was wir zuvor gesehen haben, ist, dass das Modell, nachdem es ein bestimmtes Niveau erreicht hat, plötzlich bestimmte Fähigkeiten erwirbt. Aus der Perspektive aufgabenspezifischer Indikatoren sind diese Fähigkeiten im Entstehen begriffen, aber aus einer anderen Perspektive sind die potenziellen Änderungen der Modellfähigkeiten größer glatt. In diesem Artikel werden die folgenden zwei Perspektiven erörtert: (1) Verwendung glatterer Indikatoren; (2) Zerlegung komplexer Aufgaben in mehrere Teilaufgaben.
Die folgende Abbildung (a) zeigt die Änderungskurve der logarithmischen Wahrscheinlichkeit des realen Ziels für einige Aufgaben mit hohem Durchbruch. Die logarithmische Wahrscheinlichkeit des realen Ziels nimmt mit zunehmender Modellgröße allmählich zu.
Abbildung (b) zeigt, dass für eine bestimmte Multiple-Choice-Aufgabe mit zunehmender Modellgröße die logarithmische Wahrscheinlichkeit der richtigen Antwort allmählich zunimmt, während die logarithmische Wahrscheinlichkeit der falschen Antwort bei einem bestimmten Wert liegt Vor einer bestimmten Größe nimmt es allmählich zu und flacht danach ab. Ab dieser Skala vergrößert sich die Kluft zwischen der Wahrscheinlichkeit richtiger Antworten und der Wahrscheinlichkeit falscher Antworten und das Modell erzielt deutliche Leistungsverbesserungen.
Angenommen, wir können für eine bestimmte Aufgabe Exact Match verwenden und BLEU ist ein glatterer Indikator als Exact Match .
Bei einigen Aufgaben kann das Modell teilweise in der Lage sein, diese Aufgabe in verschiedenen Maßstäben auszuführen. Das Bild unten zeigt die Aufgabe, den Namen des Films anhand einer Reihe von Emojis zu erraten in einem größeren Maßstab und höchstens in einem größeren Maßstab richtige Antworten produzieren.
Große Modelle reagieren sehr empfindlich darauf, wie die Aufgabe formalisiert wird.
Das inspiriert uns, dass große Modelle manchmal eine bestimmte Aufgabe nicht gut erledigen können, sondern dass sie einen geeigneten Weg dazu benötigen stimulieren Sie es.
Ist das Modell zwangsläufig umso stärker, je größer es ist?
Wenn Sie beispielsweise bei einer Frage-und-Antwort-Aufgabe Ihre Überzeugungen zusammen mit der Frage hinzufügen, wird das große Modell leichter beeinflusst. Interessierte Studierende können aufmerksam sein.
Zusammenfassung und Gedanken
- Bei den meisten Aufgaben wird die Leistung des Modells mit zunehmender Modellgröße besser, es wird jedoch auch einige Gegenbeispiele geben. Um das Verhalten von Modellen besser zu verstehen, ist weitere Forschung erforderlich.
- Die Fähigkeiten großer Models müssen auf geeignete Weise gefördert werden.
- Führt das große Modell wirklich Inferenz durch? Wie wir bereits gesehen haben, kann das große Modell durch Hinzufügen der Aufforderung „Lasst uns Schritt für Schritt denken“ mehrstufiges Denken durchführen und zufriedenstellende Ergebnisse bei mathematischen Denkaufgaben erzielen. Es scheint, dass das Modell bereits über menschliche Denkfähigkeiten verfügt. Wenn Sie GPT-3 jedoch, wie unten gezeigt, eine bedeutungslose Frage stellen und es eine mehrstufige Argumentation durchführen lassen, scheint GPT-3 eine Argumentation durchzuführen, tatsächlich handelt es sich jedoch um eine bedeutungslose Ausgabe. Wie das Sprichwort sagt: „Müll rein, Müll raus“. Im Vergleich dazu kann der Mensch beurteilen, ob die Frage sinnvoll ist, das heißt, ob die aktuelle Frage unter bestimmten Bedingungen beantwortbar ist. „Lass uns Schritt für Schritt denken“ kann funktionieren. Der Hauptgrund dafür ist, dass GPT-3 im Gegensatz zu Menschen viele ähnliche Daten gesehen hat. Es gibt immer noch grundlegende Unterschiede in der Denkweise. Wenn GPT-3 entsprechende Aufforderungen erhält, um festzustellen, ob die Frage vernünftig ist, kann dies natürlich bis zu einem gewissen Grad gelingen, aber ich fürchte, zwischen „Denken“ und „Begründen“ besteht immer noch ein beträchtlicher Abstand. Dies ist keine einfache Angelegenheit, die durch eine Vergrößerung des Modells gelöst werden kann. Modelle müssen möglicherweise nicht wie Menschen denken, aber es ist dringend mehr Forschung erforderlich, um andere Wege als die Vergrößerung der Modellgröße zu erkunden.
- System 1 oder System 2? Das menschliche Gehirn verfügt über zwei Systeme, die miteinander kooperieren: System 1 (Intuition) ist schnell und automatisch, während System 2 (Rationalität) langsam und kontrollierbar ist. Zahlreiche Experimente haben gezeigt, dass Menschen ihre Urteile und Entscheidungen lieber anhand ihrer Intuition fällen und dass Rationalität die dadurch verursachten Vorurteile korrigieren kann. Die meisten aktuellen Modelle basieren auf System 1 oder System 2. Können zukünftige Modelle auf Basis dualer Systeme entwickelt werden?
- Abfragesprache im Zeitalter großer Modelle. Bisher haben wir Wissen und Daten in Datenbanken und Wissensgraphen gespeichert. Wir können SQL verwenden, um relationale Datenbanken abzufragen, und SPARQL, um Wissensgraphen abzufragen. Welche Abfragesprache verwenden wir also, um das Wissen und die Fähigkeiten großer Modelle abzurufen?
Herr Mei Yiqi sagte einmal: „Mit dem sogenannten großen Gelehrten ist kein Gebäude gemeint, sondern ein Meister.“ Der Autor beendet diesen Artikel mit einer unangemessenen Analogie: der sogenannte große Modellmensch Das bedeutet nicht, dass es Parameter gibt, sondern dass es Fähigkeiten gibt.
Das obige ist der detaillierte Inhalt vonGoogle und Stanford haben gemeinsam einen Artikel veröffentlicht: Warum müssen wir große Modelle verwenden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Die Größe einer Bootstrap -Liste hängt von der Größe des Containers ab, der die Liste enthält, nicht die Liste selbst. Die Verwendung von Bootstraps Grid -System oder Flexbox kann die Größe des Containers steuern und dadurch indirekt die Listenelemente ändern.

Verschachtelte Listen in Bootstrap erfordern die Verwendung des Grid -Systems von Bootstrap, um den Stil zu steuern. Verwenden Sie zunächst die äußere Schicht & lt; ul & gt; und & lt; li & gt; Um eine Liste zu erstellen, wickeln Sie die Liste der inneren Ebenen in & lt; div class = & quot; row & gt; und add & lt; div class = & quot; col-md-6 & quot; & gt; In der Liste der inneren Ebenen, um anzugeben, dass die Liste der inneren Ebenen die halbe Breite einer Reihe einnimmt. Auf diese Weise kann die innere Liste die richtige haben

So fügen Sie Symbole zur Bootstrap -Liste hinzu: Direkt das Symbol in das Listenelement & lt; li & gt;, Verwenden des von der Symbibliothek angegebenen Klassennamens (z. B. fantastisch). Verwenden Sie die Bootstrap-Klasse, um Symbole und Text auszurichten (z. B. D-Flex, Justify-Content-dazwischen, Align-items-Center). Verwenden Sie die Bootstrap -Tag -Komponente (Abzeichen), um Zahlen oder Status anzuzeigen. Passen Sie die Symbolposition an (Flex-Richtung: Reihen-Umkehr;), steuern Sie den Stil (CSS-Stil). Häufiger Fehler: Das Symbol wird nicht angezeigt (nicht

Bei der Konvertierung von Zeichenfolgen in Objekte in Vue.js wird JSON.Parse () für Standard -JSON -Zeichenfolgen bevorzugt. Bei nicht standardmäßigen JSON-Zeichenfolgen kann die Zeichenfolge durch Verwendung regelmäßiger Ausdrücke verarbeitet und Methoden gemäß dem Format oder dekodierten URL-kodiert reduziert werden. Wählen Sie die entsprechende Methode gemäß dem String -Format aus und achten Sie auf Sicherheits- und Codierungsprobleme, um Fehler zu vermeiden.

Die Änderungen des Bootstrap 5 -Listenstils sind hauptsächlich auf die Detailoptimierung und die semantische Verbesserung zurückzuführen, einschließlich: Die Standardmargen ungeordneter Listen sind vereinfacht, und die visuellen Effekte sind sauberer und ordentlich. Der Listenstil betont die Semantik, verbessert die Zugänglichkeit und die Wartbarkeit.

Das Maschensystem von Bootstrap ist eine Regel für das schnelle Erstellen von Reaktionslayouts, die aus drei Hauptklassen bestehen: Container (Container), Zeile (Zeile) und COL (Spalte). Standardmäßig werden 12-Kolumn-Gitter bereitgestellt, und die Breite jeder Spalte kann durch Auxiliary-Klassen wie Col-MD- angepasst werden, wodurch die Layout-Optimierung für verschiedene Bildschirmgrößen erreicht wird. Durch die Verwendung von Offset -Klassen und verschachtelten Maschen kann die Layoutflexibilität verlängert werden. Stellen Sie bei der Verwendung eines Gittersystems sicher, dass jedes Element die korrekte Verschachtelungsstruktur aufweist, und berücksichtigen Sie die Leistungsoptimierung, um die Ladegeschwindigkeit der Seiten zu verbessern. Nur durch eingehendes Verständnis und Üben können wir das Bootstrap Grid-System kompetent beherrschen.

Verarbeiten Sie 7 Millionen Aufzeichnungen effizient und erstellen Sie interaktive Karten mit Geospatial -Technologie. In diesem Artikel wird untersucht, wie über 7 Millionen Datensätze mithilfe von Laravel und MySQL effizient verarbeitet und in interaktive Kartenvisualisierungen umgewandelt werden können. Erstes Herausforderungsprojektanforderungen: Mit 7 Millionen Datensätzen in der MySQL -Datenbank wertvolle Erkenntnisse extrahieren. Viele Menschen erwägen zunächst Programmiersprachen, aber ignorieren die Datenbank selbst: Kann sie den Anforderungen erfüllen? Ist Datenmigration oder strukturelle Anpassung erforderlich? Kann MySQL einer so großen Datenbelastung standhalten? Voranalyse: Schlüsselfilter und Eigenschaften müssen identifiziert werden. Nach der Analyse wurde festgestellt, dass nur wenige Attribute mit der Lösung zusammenhängen. Wir haben die Machbarkeit des Filters überprüft und einige Einschränkungen festgelegt, um die Suche zu optimieren. Kartensuche basierend auf der Stadt

Bootstrap selbst liefert keine direkte vertikale Auflistungsfunktion und muss mit seinem Mechanismus geschickt implementiert werden: FlexBox: Fügen Sie der Liste der "D-Flex Flex-Säule" zum übergeordneten Container der Liste hinzu, um Listenelemente vertikal anzuordnen. In Kombination mit Rastersystem: Setzen Sie die Spaltenbreiten für Listenelemente mit komplexen Inhalten und steuern Sie das Layout feiner. Achten Sie darauf, dass Sie die Klassen "Raster Core" von Bootstraps "Row" und "Col" verwenden, um die Verwendung von schwimmenden oder Positionierungsmethoden zu vermeiden.
